NVIDIA Nemotron 3 Super: Mamba·잠재 MoE·MTP로 에이전트형 LLM의 문맥·지연 한계 돌파
1M 토큰 컨텍스트, 4비트 네이티브 학습, 멀티 토큰 예측까지—엔비디아 하이브리드 Mamba-MoE가 공개. Z.AI의 754B MoE와 dLLM 병렬 디코딩 신작도 합류.
한 줄 요약
엔비디아가 장시간 에이전트용 개방형 하이브리드 MoE 모델을 공개했고, 병렬 디코딩·체현·메모리·전송·AX(Agent eXperience) 등 에이전트 실전 인프라를 다지는 연구가 쏟아졌습니다.
LLM & SOTA Models
Nemotron 3 Super
엔비디아는 120B 총 파라미터·12B 활성 파라미터의 완전 개방형하이브리드 Mamba–Transformer Mixture-of-Experts (MoE) 모델 Nemotron 3 Super를 발표했습니다.100만 토큰 컨텍스트로 장기 작업 에이전트를 겨냥했고,PinchBench 85.6%로 동급 오픈 모델 중 최고 성능, 이전 Super 대비5배 초과 처리량을 내세웁니다. 1
핵심은 잠재(latent) MoE로 토큰을 압축한 뒤 라우팅해동일 비용으로 4배 많은 전문가 (전문가 라우팅)를 호출하고, 한 번에 여러 토큰을 내다보는다중 토큰 예측 (MTP)로 구조화 생성에서최대 3배 속도를 확보하는 점입니다.Mamba-2 레이어는 선형 시간 복잡도로 초장문 컨텍스트를 다루고, 중간중간 섞인 어텐션 레이어는 정확한 연상 회상을 보존합니다. 1
학습은 NVFP4 (4비트 부동소수점)로25조 토큰 사전학습, 이어약 700만 SFT 샘플로 지도 미세조정, 마지막으로21개 환경 구성에서 120만+ 롤아웃의 강화학습(RL)로 다단계 작업 정렬을 맞췄습니다. 엔비디아는 일상 단계는 Nemotron 3 Nano, 복잡한 계획·추론은 Super로 가는 "Super + Nano" 배치를 권하며, 다중 에이전트가 일반 채팅 대비최대 15배 토큰을 쓰는 현실을 직접 겨냥했다고 설명합니다. 1
GLM-5.1 (Z.AI)
Z.AI는 754B 파라미터 MoE,200K 컨텍스트,128K 최대 출력을 갖춘 개방 가중치 모델GLM-5.1을 공개했습니다.SWE-Bench Pro 58.4 SOTA로 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro를 상회했고, AIME 2026(95.3), GPQA-Diamond(86.2) 등 광범위 지표에서 상위권을 보였습니다. 2
설계는 MoE + DSA (Dynamic Sparse Activation)에비동기 강화학습을 더해 학습·추론 비용을 낮추고 장기 상호작용 학습을 강화합니다. 단일 과제를최대 8시간 자율 수행하며, 벡터 DB 과제178회 반복, CUDA 커널 자동 최적화2.6× → 35.7× 성능 향상 등 장기 실행 데모를 제시했습니다. 2
GLM-5.1은 SGLang(v0.5.10+), vLLM(v0.19.0+) 등 로컬 프레임워크와 API를 폭넓게 지원하며 MIT 라이선스로 제공됩니다. 장시간 실행을 전제로 한 자체 호스팅 후보로 포지셔닝합니다. 2
Open Source & Repos
vLLM 로드맵 및 이슈(Q1 2026)
vLLM 이슈 트래커에는 운영 현장의 성능·정확도 문제들이 그대로 드러납니다. FP8 체크포인트(Gemma 4 31B) 반복 출력, 그리디 디코딩에서 프리픽스 캐시로 인한 비결정성, Qwen3-8B 혼합 병렬에서 DP 활용 저하,사전 Hopper 세대 4비트 KV 캐시 RFC 등은 실제 서빙 품질과 처리량을 좌우합니다. 3
CUBLAS 할당 실패, S3 스트리머 충돌, ROCm 장비 감지 문제 등 시스템 이슈 해결은 MoE·장문 모델 서빙의 관건입니다. p2p/NVLink 등 GPU 간 연결 감지는 멀티 GPU 확장성과 직결되어, 로드맵의 안정성 강화 방향과 맞물려 있습니다. 3
Nemotron/GLM급 모델을 쓰려면 추론 스택을 훈련만큼 신경 써야 합니다. KV 정밀도, 프리픽스 캐싱, 툴콜 토크나이즈 같은 요소가 2–3배 추론 가속(예: 추측 디코딩)의 실익을 가르는 포인트가 됩니다. 3
DMax 코드 공개
DMax 저자들은 병렬 디코딩 중 오류 누적을 줄이는 dLLM(확산 언어 모델) 구현을 공개했습니다. 마스크→토큰 전이 대신 임베딩 공간에서의자가 정련으로 세분화하고, 학습에서는온폴리시 유니폼 트레이닝으로 마스크 입력과 자기 오류 모두에서 복원을 학습시킵니다. 4
추론의 소프트 병렬 디코딩은 예측 토큰 임베딩과 마스크 임베딩 사이를 보간해 단계별 자기 수정이 가능하도록 설계합니다.H200 2장에서 배치 1 기준1,338 TPS, GSM8KTPF 2.04→5.47, MBPP2.71→5.86로 처리량을 키우면서 정확도를 유지했습니다. 4
vLLM·TensorRT-LLM에 기본 탑재된 추측 디코딩 (speculative decoding)이 보편화되는 가운데(실측2–3배 지연 단축, H200에서3.6배 처리량 사례), DMax는 별도 드래프트 모델 없이 병렬성을 끌어내는 대안 경로를 보여줍니다. 5
HY-Embodied-0.5 (Tencent Hunyuan)
텐센트의 HY-Embodied-0.5는Mixture-of-Transformers (MoT)와 잠재 토큰으로 섬세한 지각을 구현한 체현(embodied) 지향 모델군입니다.2B 활성 파라미터의 엣지형과32B의 고난도 추론형 두 가지를 공개했고 코드·모델을 오픈소스로 배포했습니다. 6
자기 진화식 포스트트레이닝과 온폴리시 지식 증류로 32B의 능력을 2B로 이식합니다.22개 벤치마크에서MoT-2B는 동급 대비16개 항목을 선도했고,32B는 Gemini 3.0 Pro에 근접한 성능을 보였으며, 실제 로봇VLA 제어로 현장 검증을 거쳤습니다. 6
동시에 생성형 EMS (전기 근육 자극)로 물리 보조를 시도하는 연구도 등장, 다중모달 AI가 맥락을 고려해 관절 한계를 준수하는 자극 시퀀스를 생성하는 등 사용자 연구와 CHI’26 선정으로 체현-행동 파이프라인의 성숙을 보여줍니다. 7
Research Papers
DMax: dLLM을 위한 공격적 병렬 디코딩
DMax는 병렬 디코딩의 오류 누적을 줄이기 위해, 생성을 이산 마스크→토큰 전이가 아닌 임베딩 공간에서의 점진적 자가 정련으로 재정식화했습니다.온폴리시 유니폼 트레이닝으로 마스크 입력과 자체 오류 모두에서 복원 가능성을 학습해 공격적 병렬화에서도 붕괴를 막습니다. 4
디코딩의 소프트 병렬 디코딩은 중간 상태를 토큰·마스크 임베딩 사이 보간으로 표현, 단계적 자기 수정을 가능케 합니다. 결과적으로 GSM8KTPF 2.04→5.47, MBPP2.71→5.86,H200 2장 1,338 TPS를 달성하면서 정확도를 유지했습니다. 4
vLLM·TensorRT-LLM의 추측 디코딩이 일반화되며2–3배 지연 단축,3.6배 처리량 향상을 보이는 가운데, DMax는 드래프트 모델 복잡도 없이 멀티 토큰 예측·오류 복구를 한몸에 담는 통합 경로를 시사합니다. 5
HY-Embodied-0.5: 체현 기반 파운데이션 모델
HY-Embodied-0.5는 일반 VLM 한계를 넘는 공간·시간 지각과 추론을 위해 MoT로 모달리티별 계산을 분리하고,잠재 토큰으로 지각 표현을 촘촘히 했습니다.2B 엣지 모델은 동급 대비16/22 벤치마크 상회,32B는 Gemini 3.0 Pro에 근접했고, 상단에VLA를 얹어 실제 로봇에서 성능을 입증했습니다. 6
학습은 자기 진화식 포스트트레이닝과 온폴리시 증류로 2B에 성능을 이식하는 한편, 정적 인식 성능을 넘어 행동까지 연결하는 엔드투엔드 설계를 보여줍니다. 병행 연구인생성형 EMS는 맥락 기반 근육 자극으로 사용자를 물리적으로 돕는 방향성을 제시합니다. 6 7
외부화(Externalization): 메모리·스킬·프로토콜·하니스
이 리뷰는 최신 에이전트가 가중치 변경이 아니라 런타임 재조직—외부화된 메모리, 재사용 가능한 스킬, 상호작용 프로토콜, 이를 조정하는 하니스 (harness)—를 통해 능력을 얻는다고 정리합니다. 가중치→컨텍스트→하니스로의 역사적 전이를 정리하고, 파라메트릭 vs 외부화 능력의 트레이드오프를 분석합니다. 8
장기 과제에서 병목은 점점 메모리가 된다는 지적도 나옵니다. OpenAI의 100만 컨텍스트·컴팩션, Anthropic의 하니스 노트, METR의 시간 지평선 평가처럼, 시스템이 핵심 가정을 압축해 잃고 계획을 오래 유지 못하는 문제가 근본입니다. 하드웨어·소프트웨어 스택(예: HBM 대역폭, Transformer Engine) 역시 대용량 리콜·검색 가속의 기반입니다. 9 10
Meta의 "하이퍼에이전트" 사례는 자기 수정으로 지속 메모리, 성능 추적, 다단 검증 같은 하니스 요소를 스스로 발명함을 보여주며, 하니스가 편의가 아니라수렴하는 아키텍처임을 시사합니다. 11
KnowU-Bench: 개인화·선제적 모바일 에이전트 평가
KnowU-Bench는 에이전트가 숨겨진 사용자 선호를 추론하고, 실시간 GUI에서 언제 개입·동의 요청·무시해야 하는지 판단하는 능력을 측정합니다.안드로이드 에뮬 기반으로일반 42, 개인화 86, 선제 64 태스크를 제공하며, 프로필을 숨기고 행태 로그만 노출해 진짜선호 유도 대화를 요구합니다. 12
실험에선 명시 지시엔 강한 모델도 모호 지시·선호 추론·개입 보정에서 50% 이하로 떨어졌고, 병목은 GUI 조작이 아니라선호 획득과 개입 보정이었습니다. 코드 영역에선 테스트 생성을 통한 평가(SWT-Bench)가 SWE-Agent 정밀도를2배로 높이는 등, 외부화된 산출물(테스트·정책)이 신뢰 가능한 자율성의 핵심임을 시사합니다. 12 13
AX(Agent eXperience) 관점과 전송층 벤치마크에 따르면, 상태 저장 연속(WebSocket 모드)은 클라이언트 발송 바이트를 ~82–86% 줄이고, 전체 실행 시간을15–29% 개선합니다. 다중 턴·툴 호출 중심의 에이전트 워크플로에선 전송·상태 관리가 1급 설계 요소가 됩니다. 14 15
왜 중요한가
하이브리드 백본(Mamba–Transformer), MoE 라우팅, 다중 토큰 예측, 네이티브 4비트 학습이 상한을 올리고, 병렬·추측 디코딩이 처리량을 열며, 체현 모델과 선제 벤치마크가 현실 행동으로 나아가고 있습니다. 그러나 장시간 일관성은 하니스·메모리·전송·AX 같은 런타임 인프라가 좌우합니다. 결국 맥락 폭증·목표 드리프트·툴 루프 지연을 누가 줄이느냐의 경쟁입니다. 1 5 12
실무 관점에선 100만 토큰,5배+ 처리량,2–3배 디코딩 가속,82–86% 전송 절감, SWE-Bench Pro58.4 같은 수치들이 곧바로 설계 지표가 됩니다. 모델·추론·런타임을 함께 설계하는 팀만이, “잘 생각하는” 모델을 “오래 진전시키는” 에이전트로 만들 수 있습니다. 1 2 15
댓글 (0)