AI 뉴스Research

약 6분 2026. 4. 9.

MARSautoregressive decodingspeculative decodingKV cacheagentic RLneural computers

추론 속도·안정성의 이중 진전: MARS 가속과 에이전트 추론 점검

기존 구조를 그대로 둔 채 다중 토큰 생성을 익히는 MARS가 최대 1.71배 속도를 확인했고, 에이전트 강화학습에서는 겉보기 다양성에 가려진 ‘입력 무시’ 실패를 새 지표로 드러냈습니다.

기사에서 찾기

읽기 모드

한 줄 요약

추론은 더 빠르게, 에이전트는 더 신뢰성 있게, 그리고 모델 자체를 ‘컴퓨터’로 보려는 새 구상이 동시에 나왔습니다.

Research Papers

MARS: 자동회귀 모델 다중 토큰 생성

이 연구는 표준 자회귀(Autoregressive, AR) 모델이 한 번에 한 토큰이 아니라 여러 토큰을 한 번에 내보내도록, 가벼운 추가 학습만으로 바꾸는 방법을 보여줍니다. 구조나 파라미터를 건드리지 않고 학습만 이어가며, 1토큰 모드에서는 여섯 개 명령형 벤치마크에서 기준 성능과 같거나 더 좋고, 다중 토큰 허용 시 처리량이 약 1.5–1.7배 상승합니다. Qwen2.5-7B에서 블록 단위 키-값 캐시(KV 캐시)와 배치 추론을 결합해 기준 대비 최대 1.71배 실제 시간 단축도 확인했습니다. ¹

스펙큘레이티브 디코딩(별도 작은 드래프트 모델이 여러 토큰을 제안하고 큰 모델이 병렬 검증)이나 Medusa(추가 예측 헤드 부착)와 달리, MARS는 보조 모델이나 새 헤드 없이 원 모델과 같은 방식으로 호출되는 단일 모델만 제공합니다. 또한 신뢰도 임계값으로 실시간 품질-속도 조절이 가능해, 트래픽 급증 시 모델 교체나 재시작 없이 처리량을 올리는 ‘레버’를 제공합니다. ¹

참고로 스펙큘레이티브 디코딩은 생산 환경에서 2–3배 가속이 흔하고, NVIDIA H200 기준 약 3.6배 처리량 사례도 보고됩니다. MARS의 강점은 이런 보조 모델 관리 복잡성 없이도 일관된 이득을 주는 단순 운영이라는 점입니다. 선택 시에는 메모리 여유, 인프라 복잡도, 제안 토큰 수용률 민감도(스펙큘레이트) 대 단일 모델 단순성·실시간 임계값 조절(MARS)을 비교하면 현실적입니다. ²

현업에서는 토큰 예산, 속도 목표, 요금·할당량이 얽혀 결정됩니다. 추가 모델 없이 속도를 올리고, 블록 단위 KV 캐시와 배치를 함께 쓰는 접근은 용량 계획을 단순화합니다. 또한 MARS의 ‘지연시간-품질 노브’는 배치 크기나 캐시 외에 p99 안정화를 위한 조정 수단을 하나 더 제공한다는 의미가 있습니다. ³

RAGEN-2: 에이전트 강화학습의 추론 붕괴 진단

이 논문은 다중 턴 에이전트의 강화학습 과정이 겉보기엔 안정적이어도 실제론 입력을 무시하는 현상을 보일 수 있음을 밝히고, 이를 잡아내는 방법을 제시합니다. 널리 쓰는 엔트로피는 같은 입력 안에서의 다양성만 측정해, 서로 다른 입력에 반응하지 않는 ‘고정 템플릿’이 만들어내는 가짜 다양성(템플릿 붕괴)을 놓칩니다. ⁴

저자들은 추론 품질을 입력 내 다양성(엔트로피)과 입력 간 구별력(상호 정보량, Mutual Information, MI)으로 분해하고, 온라인 진단용 MI 대리 지표를 제안합니다. 다양한 과제에서 MI는 최종 성능과 더 강하게 상관하며, 보상 분산이 낮으면 과제 그래디언트가 약해져 정규화가 지배하면서 입력 의존성이 사라지는 메커니즘을 ‘신호 대 잡음비(SNR)’ 관점으로 설명합니다. 이에 따라 보상 분산을 근사 신호로 쓰는 SNR 인지 필터링을 제안해 입력 의존성과 과제 성능을 함께 개선합니다. ⁴

현장 교훈은 간단합니다. ‘신호’를 살리고 ‘잡음’을 덜어내야 합니다. 검색 증강 생성(Retrieval-Augmented Generation, RAG)에서도 불필요한 문맥을 잘라내면 품질이 오르고, 장시간 에이전트에서는 오래된 세계 모델이 조용히 실패를 키운다는 분석이 보고됩니다. 학습 중 보상 분산을 신호 대 잡음의 근사치로 삼아 데이터 선택을 조절하는 것은, 에이전트가 입력에 정말 반응하도록 붙잡아두는 실용적 레버입니다. ⁵ ⁶

Neural Computers: 모델 자체가 컴퓨터인 방향 제시

이 입장 논문은 계산·메모리·입출력을 하나의 학습된 런타임 상태로 묶어 모델 자체가 ‘실행 중인 컴퓨터’가 되는 ‘Neural Computers’를 제안합니다. 초기 단계로, 명령·픽셀·사용자 동작에서 화면 프레임을 굴리는 비디오 모델을 CLI·GUI 환경에 구현해, 입출력 정렬과 단기 제어 같은 인터페이스 원시 능력을 보였고, 루틴 재사용·통제된 업데이트·기호적 안정성은 과제로 남겼습니다. ⁷

전통적 프로그램, 외부 도구를 호출하는 에이전트, 환경 동역학을 학습하는 월드 모델과 달리, Neural Computers는 하나의 신경 런타임 안에서 지속 가능한 능력 재사용과 명시적 ‘재프로그래밍’을 지향합니다. 장기 목표인 완전 신경 컴퓨터(Completely Neural Computer, CNC)는 안정적 실행과 내부 프로그램의 안전한 수정 가능성을 내포하며, 이번 결과는 계측된 프로그램 상태 없이 수집된 입출력 기록만으로 이를 겨냥한 첫 실험입니다. ⁷

제시된 로드맵은 긴 실행의 안정화, 내부 루틴의 안전한 업데이트, 상징적 신뢰성 달성을 핵심 과제로 묶습니다. 요지는 ‘모델’·‘프로그램’·‘운영체제’의 경계를 재구성해, 인터페이스 제어 정책과 메모리가 외부 오케스트레이션이 아닌 신경 상태에 본원적으로 거주하도록 하려는 계산 패러다임 전환입니다. ⁷

왜 중요한가

공통 축은 속도, 안정성, 그리고 시스템 단순성입니다. MARS는 보조 모델 없이도 1.5–1.7배, 배치 조건에서 최대 1.71배 가속을 보여주고, RAGEN-2는 겉보기 다양성 뒤의 ‘입력 무시’를 상호 정보량 지표로 드러내 대책을 제시합니다. Neural Computers는 아예 계산을 어디에 둘지 재정의합니다. 더 빠른 응답, 더 신뢰 가능한 장기 실행, 더 단순한 운영 구조로의 이동이 동시에 진행 중입니다. ¹ ⁴ ⁷

이번 주 시도해볼 것

다중 토큰·스펙큘레이션 비교 읽기: 토큰 예산·캐시·지연시간 트레이드오프를 정리한 실무 가이드를 읽고, 우리 서비스에 맞는 가속 선택 기준을 잡아보세요. ³
에이전트 실패 징후 체크리스트 만들기: ‘오래된 세계 모델’ 사례 보고를 읽고, 쓰기 전 재검증·TTL 부여 같은 점검 항목을 우리 워크플로에 추가해보세요. ⁶

출처 7

[1] Arxiv MARS: Enabling Autoregressive Models Multi-Token Generation [2] Introl Speculative Decoding: Achieving 2-3x LLM Inference Speedup [3] Medium LLM Optimization Guide: Token Budgets, Latency, and Cost [4] Arxiv RAGEN-2: Reasoning Collapse in Agentic RL [5] Dev Context Pruning Unlocks Superior RAG Accuracy Metrics [6] Tianpan The Stale World Model Problem in Long-Running Agents [7] Arxiv Neural Computers

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집