AI 뉴스Research

약 12분 2026. 4. 6.

NVIDIAMixture-of-ExpertsMambaagentic-AIretrievalcomputer-use-agents

엔비디아 Nemotron 3 Super: Mamba-Transformer MoE와 100만 토큰 컨텍스트로 에이전트 추론을 겨냥

12B 활성 하이브리드 MoE에 잠재 라우팅·MTP·4비트 사전학습까지. vLLM 기반 Retriever 업데이트와 7B 웹 에이전트 공개. 성능은 올랐고, 시스템 질문도 커졌다.

기사에서 찾기

읽기 모드

한 줄 요약

엔비디아가 120B 하이브리드 MoE 오픈 모델로 에이전트 병목을 정면 돌파하고, MS는 7B 컴퓨터 사용 에이전트를 공개했으며, 에이전트 안전·멀티모달 평가 논문이 ‘과정 검증’ 기준을 끌어올렸습니다.

LLM & SOTA Models

Nemotron 3 Super: 에이전트 추론을 위한 하이브리드 Mamba–Transformer MoE

엔비디아가 Nemotron 3 Super를 공개했습니다. 총 120B(활성 12B) 파라미터의 하이브리드 Mixture-of-Experts(MoE) 모델로, 일반 챗보다 최대 15배 많은 토큰을 쓰는 멀티에이전트 작업을 겨냥해 1M 토큰 컨텍스트와 이전 Super 대비 5배 넘는 처리량을 제공합니다. 시퀀스는 Mamba-2(State Space Model)로 선형 시간에 처리하고, 정밀한 연상을 위해 Transformer 어텐션을 교차 배치했습니다. OpenClaw 에이전트용 PinchBench에서 85.6%로 동급 최강 오픈 모델을 기록했으며, 가중치·데이터셋·레시피까지 전면 공개됐습니다. ¹

핵심은 세 가지입니다. Latent MoE는 토큰을 압축해 전문가 수를 4배 늘리면서도 같은 추론 비용을 유지합니다. Multi-Token Prediction(MTP)은 한 번에 여러 미래 토큰을 예측해 내장 추측 디코딩으로 최대 3배 속도를 냅니다. NVFP4(4비트) 원천 학습은 Blackwell 최적화로 메모리를 줄이고 H100 FP8 대비 B200에서 추론 속도를 4배 높이면서 정확도를 유지합니다. 학습은 25조 토큰 사전학습, ~700만 SFT, 21개 환경에서 120만+ 강화학습 롤아웃으로 다단계 행위를 안정화했습니다. ¹

실사용 패턴은 ‘Super + Nano’입니다. Super가 계획·조정을 맡고 Nano가 세부 단계를 처리하는 구조로, 소프트웨어 개발·보안 트리아지에 적합합니다. 한 체험기는 RTX 4060 Ti 16GB 환경에서 LM Studio로 전문가 수·오프로드를 조정해 모델 로딩에 성공하고 초당 약 6 토큰을 기록했다고 전합니다. MoE의 부분 활성화 덕에 소비자 GPU에서도 제한적 실험이 가능함을 보여줍니다. ²

큰 그림에서는 엔비디아 Agent Toolkit(추론 라우팅 AI-Q, 샌드박스 보안 OpenShell)과 Rubin 플랫폼(메모리 대역폭·지연 최적화)이 에이전트 시대의 ‘운영체제’를 지향한다는 해설이 나옵니다. 오픈소스 전략은 CUDA 최적화 생태계 락인을 강화하고, 지능형 라우팅으로 질의 비용을 최대 50% 절감할 수 있다고도 분석합니다. 다만 LLM의 비결정성에 따른 위험은 남아 신중한 도입이 요구됩니다. ³

Open Source & Repos

Fara-7B: 컴퓨터 사용 최적화 7B 에이전트 모델

마이크로소프트 리서치가 Fara-7B를 공개했습니다. 스크린샷을 “보고” 좌표 단위로 스크롤·클릭·타이핑을 수행하는 7B 모델로, 별도의 화면 파서나 접근성 트리 없이 사람과 동일한 입력(화면)으로 동작합니다. 크기가 작아 온디바이스 실행(Copilot+ PC)이 가능해 지연과 프라이버시 측면에서 유리하며, 14.5만 개 경로(~100만 스텝)의 합성 웹 작업 데이터를 다중 검증 에이전트로 필터링해 학습했습니다. ⁴

벤치마크 결과는 WebVoyager 73.5%, Online-Mind2Web 34.1%, DeepShop 26.2%, 새로운 WebTailBench 38.4%로, 동급 7B 에이전트를 앞서고 대형 멀티모델 오케스트라에 근접한 효율을 보입니다. 특히 작업당 평균 ~16 스텝으로, UI-TARS-1.5-7B(~41 스텝) 대비 단계 효율이 높아 비용·신뢰성 측면에서 유리합니다. 모델은 MIT 라이선스로 Foundry/HF에 공개됐고, Windows용 양자화·최적화 버전도 제공합니다. ⁴

한편 MS 생태계 전반에서는 멀티모델 Copilot Researcher(Claude 추가), 장기 실행 Copilot Cowork, Copilot Studio의 멀티에이전트 오케스트레이션·Prompt Builder·거버넌스 도구가 확장 중입니다. 이는 단일 모델 챗에서 계층적·감사 가능한 워크플로로의 전환을 의미하며, Fara-7B 같은 경량 CUA 모델의 온디바이스 역할과 잘 맞물립니다. ⁵ ⁶

NeMo-Retriever: vLLM 기반 Nemotron Parse 및 GPU 스케줄링 개선

NeMo-Retriever에 대규모 커밋이 반영되어, 종전 OCR 경로를 대체하는 vLLM 기반 Nemotron Parse 모듈(파서 본체 635라인, 후처리 470라인)과 채팅 컴플리션 클라이언트가 추가되었습니다. 실행기는 NemotronParse 액터에 대해 자동으로 배치 크기를 키우고, vLLM의 KV 캐시 특성에 맞춰 GPU 독점 할당을 적용하는 등 리소스 휴리스틱을 업데이트했습니다. 전체 변경은 17개 파일에 +1449/-576입니다. ⁷

인제스트 그래프는 PDF 페이지를 이미지로 렌더링해 Nemotron Parse가 처리하도록 하고, 모델/엔드포인트 설정을 전달합니다. vLLM NemotronParseProcessor의 중복 인자 버그를 임시 패치해 안정성을 높였으며, 최신 Transformers와의 캐시 API 비호환 문제를 회피해 운영 환경의 처리량을 끌어올립니다. ⁷

실무적으로는 vLLM의 연속 배치와 스케줄러를 통해 처리량을 개선하고, 이미지→구조화 텍스트 변환을 마이크로서비스로 안정 제공해 장문서·표·차트가 포함된 자료를 에이전트 추론에 구조화 입력으로 공급하기 수월해집니다. ⁷

Research Papers

AgentHazard: 컴퓨터 사용 에이전트의 유해 행위 평가

AgentHazard는 개별 단계만 보면 그럴듯하지만, 누적되면 유해 결과를 만드는 시나리오 2,653개로 구성된 벤치마크입니다. 축적된 컨텍스트, 반복 도구 사용, 단계 간 의존성에서 유해성이 발현될 때 에이전트가 이를 인지·중단할 수 있는지를 평가합니다. Claude Code, OpenClaw, IFlow를 Qwen3/Kimi/GLM/DeepSeek 계열 오픈(혹은 오픈 배포 가능) 모델로 시험한 결과 취약성이 높았고, 특히 Qwen3-Coder 기반 Claude Code는 공격 성공률이 73.63%에 달했습니다. ⁸

개발자 리포트도 같은 취약 지점을 지적합니다. LangGraph ReAct 에이전트(Groq Llama-3.3-70B) 테스트에서 LLM이 SQL 인젝션을 경고했음에도 도구 인자에 원문이 전달되어 데이터베이스 드라이버까지 도달했고, 경로 이동 공격으로 /etc/passwd를 읽는 사례도 확인됐습니다. LLM의 결정과 함수 실행 사이, 약 200ms의 ‘툴 실행 갭’에 검증이 없다는 점이 핵심입니다. agent-probe v0.6.0은 입력 검증·SSRF·체인형 유출 등 신규 프로브로 이 격차를 점검합니다. ⁹

한편 유출된 Claude Code 자료를 정리·분석하는 커뮤니티 움직임은 메모리·도구 호출·안전 스캐폴딩의 구체를 파고들고 있어, AgentHazard가 촉구하는 ‘프로세스 레벨’ 방어의 필요성을 뒷받침합니다. ¹⁰

Agentic-MME: 멀티모달 에이전트 능력의 ‘과정 검증’ 평가

Agentic-MME는 시각·지식 확장을 통해 행동하는 멀티모달 LLM을 위해 6개 도메인·3개 난이도의 418개 실세계 과제로 구성된 벤치마크를 제안합니다. 과제당 10시간+ 수작업으로 2,000개 이상의 단계 체크포인트를 부여하고, 샌드박스 코드·API를 포함한 통합 평가 프레임워크에서 최종 정답뿐 아니라 중간 상태를 감사합니다. 또한 인간 경로 대비 ‘오버싱킹’(과도 사고) 지표로 효율을 정량화합니다. ¹¹

결과는 겸허합니다. 최고 모델인 Gemini 3 Pro도 전체 56.3%에 그치고, 레벨 3 어려운 과제에서는 23.0%로 급락합니다. 특히 “도구를 실제로 호출·적용했는지”를 검증하는 구조는 기존 평가의 맹점을 보완합니다. ¹¹

업계 글(Qwen 3.6 Plus 등)은 1M 토큰 컨텍스트·항상-온 추론을 통해 다단계 안정성을 높였다고 소개하지만, Terminal-Bench·MCPMark 점수는 에이전트 스캐폴딩에 크게 좌우된다고 지적합니다. 이는 기반 모델 못지않게 과정·오케스트레이션의 품질이 성패를 가른다는 Agentic-MME의 문제의식을 지지합니다. ¹² ¹³

CoME-VL: 대조·자기지도 비전 인코더의 보완적 융합

CoME-VL은 대조 학습(CLIP)과 자기지도(DINO) 비전 인코더를 융합하는 방법을 제시합니다. 엔트로피 기반 다층 집계와 직교 제약 투영으로 중복을 줄이고, RoPE 강화 교차 어텐션으로 이질 토큰 격자를 정렬해 컴팩트한 융합 비주얼 토큰을 생성합니다. 디코더 전용 LLM 파이프라인에 최소 변경으로 주입 가능하며, 시각 이해 평균 +4.9%p, 그라운딩 +5.4%p 개선을 달성했고 RefCOCO 탐지 SOTA를 기록했습니다. ¹⁴

레이어 병합·비중복 혼합·용량에 대한 제거 실험은 대조·자기지도 신호가 상호 보완적임을 보여주며, 단일 인코더 선택이 아닌 모듈식 융합이 강인성을 높이는 실용 경로임을 시사합니다. ¹⁴

Decipher-MR: 3D MRI 특화 비전-언어 파운데이션 모델

Decipher-MR은 2만 2천+ 스터디의 20만 MRI 시리즈로 3D MRI 특화 비전-언어 모델을 학습했습니다. 자기지도 시각 학습과 판독 보고서 텍스트 감독을 결합하고, 동결 인코더 위에 경량 디코더를 붙여 질병 분류·인구통계 예측·해부학적 위치·크로스모달 검색 등에서 기존 모델 대비 일관된 성능 향상을 보입니다. ¹⁵

프라이버시·IP 이슈로 가중치·데이터는 비공개지만, DINOv2·OpenCLIP·HF Trainer 등 공개 프레임워크를 토대로 재현 가능한 방법을 제공합니다. 임상 텍스트가 3D 표현 학습을 안내하는 도메인 특화 멀티모달 FM의 흐름을 보여줍니다. ¹⁵

왜 중요한가

에이전트 AI는 이제 “멋진 데모”에서 “엔지니어링 문제”로 넘어왔습니다. Nemotron 3 Super는 MoE·Mamba·원천 4비트 학습으로 장문맥·다단계 비용을 낮추고, Fara-7B는 온디바이스 컴퓨터 사용을 현실로 만듭니다. AgentHazard·Agentic-MME 같은 평가가 정답뿐 아니라 과정·도구 사용·효율까지 본격 점검하면서, 오케스트레이션·툴 경계 보안·장문맥 효율이 1급 설계 목표가 되고 있습니다. ¹ ⁴ ⁸ ¹¹

실무 관점에선 두 가지 변화가 예상됩니다. 특정 툴체인·하드웨어(CUDA/Rubin) 중심의 플랫폼 고착화 압력, 그리고 “과정” 검증 비용의 상향입니다. 결과적으로 하니스·검증기·멀티모델 오케스트레이션에 투자하는 편이, 다음 세대 모델만 기다리는 것보다 더 큰 이득을 줄 때가 많아질 것입니다. ³ ⁹

출처 16

[1] Nvidia Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning [2] Franksworld How to Run NVIDIA’s Nemotron 3 Super on a 16GB VRAM [3] Memesita Nvidia Agent Toolkit: Dominating the AI Platform & Enterprise Future [4] Github NVIDIA/NeMo-Retriever commit 349ce96 [5] Microsoft Fara-7B: An Efficient Agentic Model for Computer Use [6] Windowsforum Microsoft 365 Copilot Researcher Goes Multi-Model [7] Metodoviral Copilot Studio: multi-agent systems integration, prompt editor, and governance [8] Arxiv AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents [9] Dev I Tested a Real AI Agent for Security [10] Github Issue: Add AgentLint — repo linter for AI agent compatibility [11] 80aj Anthropic 源码泄露后续：深度剖析 Claude Agent 架构设计 [12] Arxiv Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? [13] Serenitiesai The Rise of Agentic AI: How Qwen 3.6 Plus Changes What Models Can Do [14] Medium Qwen 3.6‑Plus: An LLM Designed to Execute, Not Just Explain [15] Arxiv CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning [16] Nature Decipher-MR: a vision-language foundation model for 3D MRI representations

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집