AI 뉴스Research

약 17분 2026. 4. 2.

NVIDIAMoEMamba-Transformermultimodalagentsevaluation

엔비디아 Nemotron 3 Super: 100만 토큰 컨텍스트·잠재 MoE·MTP로 에이전트 추론과 처리량 동시 강화

하이브리드 Mamba-Transformer MoE가 4비트 학습·MTP·100만 컨텍스트로 등장. 데스크톱 조작 에이전트와 소형 멀티모달 추론의 최신 결과도 함께 정리.

기사에서 찾기

읽기 모드

한 줄 요약

엔비디아가 장문맥·고효율 에이전트를 겨냥한 하이브리드 Mamba‑Transformer MoE를 공개했고, 경량 멀티모달 모델들은 PC 화면 조작과 문서 이해에서 신기록을 세웠습니다. 동시에 ‘컨텍스트가 추론을 흔든다’는 연구도 나왔습니다.

LLM & SOTA Models

Nemotron 3 Super: 에이전트 추론을 위한 하이브리드 Mamba‑Transformer MoE

멀티에이전트는 대화 기록·툴 출력·사고 과정을 계속 재전송해 토큰이 최대 15배로 불어납니다. Nemotron 3 Super는 원천 100만 토큰 컨텍스트와 Mamba‑2(선형 시간) + 주기적 Transformer 주의층 조합으로 이 부담을 줄입니다. 총 120B 중 활성 12B MoE로 이전 Super 대비 처리량이 5배↑, 대형 추론 모델의 ‘생각세(Thinking tax)’를 낮추려는 설계입니다. ¹

핵심은 두 가지: 토큰을 압축해 라우팅하는 ‘잠재 MoE’로 동일 비용에 4배 더 많은 전문가를 호출하고, 한 번의 순전파로 여러 미래 토큰을 예측하는 ‘멀티 토큰 예측(MTP)’로 내장 추측 디코딩을 구현해 코드·툴콜처럼 구조적 생성에서 최대 3배의 시간 단축을 노립니다. Blackwell 최적화 NVFP4 원천 학습은 메모리를 줄이고 B200에서 FP8(H100) 대비 추론을 약 4배 빠르게 하면서 정확도를 유지합니다. ¹

학습은 25조 토큰(고유 10조) 사전학습, 약 700만 SFT, 그리고 NeMo Gym/RL로 21개 환경에서 120만+ 롤아웃의 강화학습을 수행해 다단계 에이전트 행동에 맞춥니다. OpenClaw 기반 에이전트 벤치 PinchBench에서 85.6%를 기록, 동급 오픈 모델 중 최고 성능을 보입니다. 가중치·데이터셋·레시피가 전부 공개돼 온프레미스 배포와 커스터마이즈가 용이합니다. ¹

기업 관점에선 ‘오픈 웨이트’가 핵심입니다. Scalexa는 네모트론을 로컬(Ollama)·온프레미스 NIM으로 돌리고 신뢰실행환경을 활용하면 영업비밀이 외부로 나가지 않는 ‘주권형 지능(Sovereign Intelligence)’을 구현할 수 있다고 강조합니다. 클라우드 재학습 우려를 줄이는 현실적 접근입니다. ²

Nemotron‑Cascade 2: 소활성 MoE로 올림피아드급 추론에 도전

Nemotron‑Cascade 2는 30B MoE에 활성 3B로, 수학·코딩 추론에서 프런티어 오픈 모델에 근접했다고 소개됩니다. 2025 IMO·IOI·ICPC 월드 파이널에서 ‘Gold Medal’ 급 성능을 달성했다는 주장과 함께, 광범위 SFT 뒤 다양한 추론/에이전트 도메인으로 ‘Cascade RL’을 확장하고, 도메인별 강한 중간 교사를 활용한 온정책 증류로 성능 회귀를 회복합니다. ³

SFT는 256K 시퀀스 패킹, 파이썬 도구호출 180만·비도구 190만, 증명 생성/검증 약 81만, SWE 에이전트 12.5만/에이전트리스 38.9만, 도커 실행-피드백으로 만든 ‘터미널 에이전트’ 49만 등 방대한 범위를 커버합니다. 과제별로 생각 모드/비생각 모드를 달리 적용합니다. ³

RL은 보상모델 없이 지시 준수(IF‑RL)로 시작해, 다도메인 RL(약 55% MCQA, 30% 에이전트 툴콜, 15% 구조화 출력), GenRM을 활용한 RLHF, 장문맥·코드 전용 RL로 이어집니다. 온정책 증류는 역KL 기반 토큰 레벨 이점을 활용하고, 추론-학습 정책 불일치를 절단 중요도 가중으로 보정합니다. ³

Holo3: 10B 활성 파라미터로 OSWorld‑Verified 78.85%

H Company의 Holo3는 데스크톱 ‘컴퓨터 사용’ 과제에서 OSWorld‑Verified 78.85%로 SOTA를 기록하면서도 활성 10B(총 122B)로 경량입니다. 주력은 실제 업무 흐름을 모사한 ‘에이전트 플라이휠’(합성 내비게이션, 도메인 외 증강, 큐레이션된 RL)과, 코딩 에이전트가 사양에 맞춰 웹사이트를 생성하고 검증 스크립트로 정확성을 확인하는 합성 환경 팩토리입니다. ⁴

실무 적합성을 위해 486개 멀티스텝 태스크의 ‘H Corporate Benchmarks’를 제시하고, 동등한 로컬라이제이션·그라운딩 조건에서 더 큰 모델보다 높은 성공률을 보입니다. Holo3‑35B‑A3B 가중치는 Apache‑2.0으로 공개, 전 모델은 인퍼런스 API(무료 티어)로 이용 가능합니다. ⁴

Granite 4.0 3B Vision: 3B VLM으로 표·차트·KVP 정확 추출

IBM의 Granite 4.0 3B Vision은 Granite 4.0 Micro 위 LoRA 어댑터 형태로, 표 구조 파싱·차트 이해·의미적 키-값 추출(KVP)에 특화된 경량 VLM입니다. 170만 규모 ChartNet(24종 차트·6개 라이브러리)은 코드·이미지·데이터·요약·QA를 정렬해 “차트가 뜻하는 바”를 학습시킵니다. ⁵

DeepStack 주입으로 추상 시각 특징은 앞단, 고해상 공간 특징은 뒷단에 넣어 레이아웃 정밀도를 보존합니다. 성능: Chart2Summary 86.4%(최고), Chart2CSV 62.1%(2위), 표 추출은 PubTables‑v2 잘림 92.1/전체 79.3, OmniDocBench 64.0, TableVQA 88.1로 선두권. 비전 미사용 시 텍스트 전용으로 자연 전환되는 모듈형 배포가 장점입니다. ⁵

Falcon Perception: 0.6B 얼리퓨전으로 그라운딩·분할

TII의 Falcon Perception은 이미지 패치와 텍스트를 단일 시퀀스로 처리하는 하이브리드 마스크 기반 얼리퓨전 Transformer입니다. SA‑Co에서 Macro‑F1 68.0(SAM 3의 62.3 대비)을 달성했으며, 존재성 보정(MCC 0.64 vs 0.82)은 과제로 남습니다. ‘Chain‑of‑Perception’(좌표→크기→분할)과 푸리에 특징으로 가벼운 마스크 헤드를 구성합니다. ⁶

능력별 진단 벤치 PBench를 함께 공개해 속성·OCR 유도·공간·관계·밀집 장면에서 차이를 분해해 보여줍니다. 복합 프롬프트일수록 SAM 3 대비 격차가 커지고, 밀집 장면에서는 범용 VLM을 크게 앞섭니다. 동반 Falcon OCR(0.3B)은 olmOCR 80.3, OmniDocBench 88.6으로 오픈 OCR 중 최고 처리량을 내세웁니다. ⁶

Reka 제품군: 2B~67B 완전 멀티모달

Reka는 Spark(2B)부터 Core(67B)까지 128K 컨텍스트의 완전 멀티모달(이미지·오디오·비디오·텍스트) 라인업을 소개합니다. OCR·표/차트·최대 5분 비디오 이해(스트리밍으로 연장), 복잡한 다단계 지시 따르기, 코딩·함수호출·툴 사용을 지원하고, 오디오 토큰 출력으로 음성 생성도 가능하다고 밝힙니다. ⁷

배치는 디바이스(2B), 노트북/데스크톱(7B), 온프레미스/프라이빗 클라우드(21B), 복잡 과제·증류(67B) 등 용도별로 제시됩니다. 단순 대화를 넘어 ‘작업을 수행하는 에이전트’ 지향이라는 업계 흐름과 맞닿아 있습니다. ⁷

Open Source & Repos

Open Multi‑Agent: 팀 오케스트레이션과 DAG 스케줄링

Open Multi‑Agent는 생산환경급 멀티에이전트 오케스트레이션 프레임워크입니다. 모델 불문(Claude, GPT, 로컬 Ollama/vLLM/LM Studio), 메시지 버스·공유 메모리, 의존성 기반 DAG 스케줄링으로 독립 태스크는 병렬, 종속 태스크는 순차 실행을 보장합니다. 계획‑구현‑리뷰 같은 역할 분업에 적합합니다. ⁸

매번 새로 짜던 팀 협업·메시징·툴 접근 제어를 공통 인프라로 제공해, 단일 에이전트에서 전문 팀으로 확장하기 쉬워집니다. ⁸

Open Agent SDK (TypeScript): 프로세스 내 에이전트 루프

Open Agent SDK는 서브프로세스·CLI 없이 프로세스 내에서 에이전트 루프를 실행합니다. 스트리밍/블로킹 프롬프트, 서브에이전트, 34개 기본 툴(Bash, Read, Write, Grep, WebSearch), MCP 서버, 구조화 출력, 예산·샌드박스 등을 지원하며, OpenRouter 등 외부 제공자도 환경변수로 연동됩니다. ⁹

Zod 스키마 기반 커스텀 툴, 세션 영속/분기, 훅 인스트루멘테이션, 내장 웹 UI로 테스트가 수월합니다. 여러 모델·제공자를 하나의 SDK로 표준화하려는 팀에 유용합니다. ⁹

Claude Code Any: 어떤 LLM으로도 쓰는 ‘클로드 스타일’ 코딩 에이전트

Claude Code Any는 Claude Code의 코딩‑에이전트 CLI를 재현하되 백엔드를 자유롭게 교체합니다(OpenAI, DeepSeek, Anthropic, Groq, Together, OpenRouter, 로컬 Ollama/LM Studio/vLLM). 파일 편집·bash·grep·glob·다파일 계획 등 도구 모음은 유지하면서, 작업 종류(설계/버그수정/검색)에 따라 모델을 자동 라우팅하는 프로필(최고/균형/저가/프라이빗)을 제공합니다. ¹⁰

기존 API 키 자동 감지, OpenClaw 연동, 4,108개 모델 메타데이터 기반 진단, Docker/바이너리 설치를 지원합니다. 혼합 제공자 환경이나 로컬 우선 정책을 가진 조직에 실용적입니다. ¹⁰

Research Papers

Phi‑4‑reasoning‑vision‑15B: 작지만 영리한 멀티모달 추론기

마이크로소프트는 15B 오픈웨이트 VLM을 공개하며, 동적 해상도 인코더(SigLIP‑2 Naflex)와 중간 결합(mid‑fusion)으로 고해상도 UI·문서 과제에서 토큰 예산을 아끼면서 정확도를 끌어올렸다고 보고합니다. 동종 대비 적은 멀티모달 토큰(약 200B)으로 학습했고, ScreenSpot 등에서 동급·상위 모델 대비 좋은 효율을 보입니다. ¹¹

핵심 교훈은 데이터 큐레이션과 타깃 합성입니다. 오픈 데이터의 형식 오류를 고치고, 차트/수학 같은 도메인에 맞춘 생성 데이터로 ‘무엇을 보고 무엇을 말해야 하는지’를 정교하게 가르치는 방식입니다. ¹¹

Reasoning Shift: 컨텍스트가 추론을 조용히 ‘압축’한다

같은 문제라도 주변에 긴 무관 텍스트가 붙거나 멀티턴 일부로 제시되면, 추론 흔적이 최대 50% 짧아지고, 이와 함께 자기검증(더블체크) 빈도가 줄어드는 현상이 관찰됩니다. 쉬운 문제 성능은 유지되지만 어려운 문제에서는 악영향이 생길 수 있어, 에이전트의 컨텍스트 관리가 ‘무엇을 기억하나’ 이상의 문제임을 시사합니다. ¹²

보완 기사에서는 난도가 오르면 내부 활성 다양성·크기가 줄어드는 ‘뇌 활동 붕괴’도 보고됩니다. 이는 정교한 추론 대신 익숙한 휴리스틱으로 후퇴하는 신호일 수 있어, 과신 감지·훈련 타깃팅·새 벤치 설계에 유용한 내부 지표가 됩니다. ¹³

GSM1k vs GSM8k: 점수 과잉최적화 경계

Scale Labs의 GSM1k는 GSM8k와 유사양식으로 설계됐고, 일부 모델군(예: Phi, Mistral)에서 정확도가 최대 13%p 떨어지며 부분 기억·굿하트 법칙을 시사합니다. 프런티어 모델은 하락이 작았습니다. 높은 점수가 항상 ‘견고한 추론’을 뜻하지 않음을 상기시킵니다. ¹⁴

MiroEval: 결과뿐 아니라 ‘과정’을 재는 딥리서치 평가

MiroEval은 100개 실수요 과제(텍스트 70, 멀티모달 30)를 주기 갱신 가능하게 구성하고, 적응형 합성 품질·팩추얼리티(능동 검색·추론)·프로세스 감사라는 3축으로 평가합니다. 프로세스 품질이 결과를 잘 예측하고, 산출물 점수만으로는 보이지 않는 약점을 드러냅니다. 멀티모달 과제는 대부분 시스템에서 3~10점 하락했습니다. ¹⁵

ReCQR: 대화형 멀티모달 검색을 위한 질의 재작성

ReCQR는 “그 장면” 같은 모호한 요청을, 대화 이력을 반영한 자급식(self‑contained) 질의로 재작성해 검색기에 넣는 접근입니다. 7천 대화 규모 데이터셋을 공개했고, 멀티이미지 설정에서는 이미지 이력으로 학습한 모델이 텍스트 전용 대비 크게 우세해 모호성을 줄였습니다. ¹⁶

사람과 함께 하는 추론 검증 인터페이스

NSF에 등재된 최근 논문은 상호작용적 설명 인터페이스가 사람이 LLM의 추론을 검증하는 데 어떻게 도움을 주는지 탐구합니다. 에이전트가 ‘과정 노출’을 늘릴수록 사람을 돕는 UI 설계가 중요해집니다. ¹⁷

커뮤니티 반응

Hacker News (93↑) — 작게 돌려도 벤치마크를 맞추는 점은 인상적이지만, ‘진짜 이해’에는 회의적이라는 시선.

"이런 진전 소식을 보니 기쁘긴 한데, 특별히 놀랍진 않아요. 큰 연구소들은 우선 벤치마크에서의 정확도/높은 점수를 최적화합니다; 약간의 연구 노력만 있으면 파라미터가 100배 적은 모델도 같은 점수를 낼 수 있다고 자동으로 예상합니다."

"ㅋㅋ 알겠어요, 그게 제 요점이에요. GPU에서 돌아간다는 건 인상적이지만, 여전히 유리잔을 기울이면 무슨 일이 일어나는지 말해주지 못해요... 네 살짜리 아이가 이걸 할 수 있고 우리는 이제 겨우 첫 단계에서 한두 걸음 나아간 수준입니다."

왜 중요한가

오늘 소식은 ‘에이전트 준비’와 ‘효율’로 수렴합니다. Nemotron 3 Super와 Holo3는 Mamba·잠재 MoE·MTP 같은 구조와 데이터/환경 플라이휠로 토큰 비용과 컨텍스트 폭증을 다룹니다. 동시에 경량 VLM(Phi‑4‑RV, Granite 3B, Falcon 0.6B)은 데이터 품질과 결합 전략만으로도 실제 화면·문서 업무에서 대형 모델을 앞지를 수 있음을 보여줍니다. ¹ ⁴ ¹¹ ⁵ ⁶

다만 연구는 경고합니다. 컨텍스트가 테스트타임 스케일링을 바꾸고, 점수는 굿하트될 수 있으며, 내부 활성은 난도 앞에서 붕괴할 수 있습니다. MiroEval 같은 과정 중심 평가와 ‘피상 추론’ 감지 도구가 다음 파도의 핵심이 될 것입니다. ¹² ¹⁴ ¹⁵ ¹³

출처 18

[1] Nvidia Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning [2] Scalexa Sovereign AI with Nemotron: Protecting IP via Open Weights - Scalexa [3] Huggingface Holo3: Breaking the Computer Use Frontier [4] Reka Reka Models [5] Github Open Multi-Agent [6] Github Open Agent SDK (TypeScript) [7] Github Claude Code Any [8] Deepeval OpenAI Agents | DeepEval [9] Deepeval Image Reference Metric | DeepEval [10] Microsoft Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model [11] Huggingface Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents [12] Huggingface Falcon Perception [13] Arxiv Reasoning Shift: How Context Silently Shortens LLM Reasoning [14] Gentic Study Finds LLM 'Brain Activity' Collapses Under Hard Questions [15] Arxiv MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome [16] Gist ReCQR: Conversational Query Rewriting for Multimodal Image Retrieval [17] Scale A Careful Examination of Large Language Model Performance on Grade School Arithmetic [18] Nsf Improving human verification of LLM reasoning through interactive explanation interfaces

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집