AI 뉴스Research

약 11분 2026. 3. 24.

nvidiamixture-of-expertsmambanvfp4audio-video generationformal reasoning

엔비디아 Nemotron 3 Super: Mamba·MoE·NVFP4로 초장문 에이전트 LLM 가속

120B가 12B처럼 도는 하이브리드 LLM, 단일 스트림 오디오·비디오 생성, 560B 정리증명 MoE, 4D 상호작용 벤치마크까지—효율과 평가의 기준이 바뀐다.

기사에서 찾기

읽기 모드

한 줄 요약

엔비디아가 120B급이지만 12B처럼 굴러가는 하이브리드 MoE LLM을 공개했고, 오디오·비디오 동시 생성, 정리 증명, 4D 월드 모델 평가 논문이 실전성과 속도를 동시에 끌어올렸습니다.

LLM & SOTA Models

NVIDIA Nemotron 3 Super

긴 대화·코드베이스까지 통째로 기억해야 하는 에이전트용 LLM입니다. 네모트론 3 슈퍼는 총 120B 파라미터지만 토큰당 활성은 12B인 Mixture of Experts(MoE) 구조로, 표준 챗보다 최대 15배 길어지는 멀티에이전트 히스토리에서도 1M(백만) 토큰 컨텍스트로 목표 이탈을 줄입니다. 이전 세대 대비 처리량이 5배를 넘고, OpenClaw 에이전트 두뇌 벤치인 PinchBench에서 85.6%를 기록해 동급 오픈 모델 중 최고 성능으로 소개됩니다. ¹

핵심은 세 가지입니다. 첫째, 맘바‑2(선형 시간 SSM)와 트랜스포머 어텐션을 섞은 하이브리드 백본으로 1M 컨텍스트를 “가능”이 아닌 “실용”으로 만듭니다. 둘째, 라틴트 MoE는 라우팅 전에 토큰을 저차원으로 압축해, 같은 추론 비용으로 4배 더 많은 전문가를 호출합니다. 셋째, 멀티 토큰 프레딕션(MTP)은 한 번의 순전파로 여러 미래 토큰을 예측해 훈련 중 장거리 추론을 강화하고, 추론 시 별도 초안 모델 없이 추측 디코딩(최대 약 3배 속도 향상)을 내장합니다. ¹

학습은 블랙웰 GPU에서 4비트 부동소수점 NVFP4를 “원천”으로 사용합니다. 10T 유니크를 포함한 25T 토큰 사전학습, 약 700만 SFT(사후 4천만 샘플 코퍼스에서 추출), NeMo Gym 환경 21종에서 120만+ 롤아웃으로 강화학습을 수행했습니다. NVFP4는 H100의 FP8 대비 B200에서 추론 속도를 최대 4배 높이고 메모리를 절감합니다. 외부 리포트는 B200에서 478 tok/s, Qwen3.5‑122B 대비 약 7.5배 처리량, 인텔리전스‑대‑효율 지표 상 상위권 포지션을 전합니다. ¹ ² ³

배포 팁도 공개됐습니다. 120.6B/12.7B 활성, 전문가 512개(토큰당 22개 활성), NoPE(포지션 임베딩 미사용) 설정, 단일 H100‑80GB에서 4비트 Q4 GGUF로 구동(약 64–72GB VRAM) 등이 실전 범위입니다. 8비트는 2×H100, BF16은 8×H100가 필요하고, 단일 H100에서는 컨텍스트를 262K 이하로 잡는 게 안전합니다. llama.cpp/vLLM/TensorRT‑LLM 경로가 정리돼 “120B급 추론을 30분 내 가동” 수준의 실전성을 보여줍니다. ³ ⁴

Nemotron 3 Content Safety와 VoiceChat

에이전트에는 안전과 음성이 필수입니다. Nemotron 3 Content Safety는 4B 파라미터 멀티모달 안전 분류기로 텍스트·이미지에서 유해 콘텐츠를 12개 언어로 감지하며, 약 84% 정확도로 인라인 검열이 가능한 지연을 유지합니다. 23개 카테고리(혐오, 괴롭힘, 폭력, 성적 콘텐츠 등)를 지원하고, 바이너리/정밀 분류를 토글할 수 있습니다. ²

Nemotron 3 VoiceChat은 ASR+LLM+TTS를 단일 12B 모델로 통합한 양방향 실시간 보이스 모델로, 엔드투엔드 300ms 미만을 목표로 80ms 오디오 청크를 실시간보다 빠르게 처리합니다. 초기 릴리스임에도 대화 역학과 음성 추론 모두에서 “가장 매력적인” 구간에 위치해 자연스러운 턴테이킹과 온태스크 성능을 동시에 보여줍니다. ²

Nano Omni, 임베딩·리랭커

텍스트만으론 부족한 RAG를 위해 Llama Nemotron Embed VL(1.7B, 덴스)과 Rerank VL(1.7B, 크로스인코더)이 소개됐습니다. ViDoRe V3/MTEB 파레토(정확도 vs 1×H100 토큰/초)에서 Embed VL은 파레토 전면에 서며, Matryoshka 임베딩과 밀리초 검색을 표준 벡터DB에서 지원합니다. Nano Omni(예정)는 Conv3D와 효율적 비디오 샘플링으로 비디오·오디오·문서·GUI를 아우르는 생산급 “옴니 이해”를 겨냥합니다. ²

Open Source & Repos

오픈 가중치 + NeMo 도구 + 커뮤니티 런북

네모트론 3 슈퍼는 가중치·데이터·레시피까지 완전 공개입니다. NVIDIA NeMo Evaluator는 재현 가능한 에이전트 평가를, NeMo Agent Toolkit은 멀티에이전트 전체 경로의 지연·토큰 비용·오케스트레이션 오버헤드를 프로파일링합니다(랭체인, AutoGen, AWS Strands 등 무코드 연동). 멀티에이전트는 토큰 히스토리가 15배까지 늘어나므로, 체인 오브 소트(생각 예산) 같은 비용 캡핑도 중요합니다. ¹ ²

서드파티 가이드는 하드 요구사항을 요약합니다. 블랙웰에선 NVFP4가 호퍼 FP8 대비 최대 4배 속도를, 호퍼/H200에선 FP8 또는 GGUF 양자화를 권장합니다. llama.cpp(단일 H100 Q4), vLLM(8비트 텐서 병렬), TensorRT‑LLM(최고 QPS) 경로와 “단일 H100에선 컨텍스트 ≤262K” 같은 실무 팁 덕에 ‘논문 스펙’이 ‘운영 엔드포인트’로 연결됩니다. ³

외부 대시보드는 처리량을 강조합니다. B200에서 478 tok/s, Qwen3.5‑122B 대비 약 7.5배, GPT‑OSS‑120B 대비 2.2배라는 수치는 Mamba+MoE 하이브리드가 우아할 뿐 아니라 “토큰 단가”에서 경제적 우위임을 뜻합니다. 이런 격차가 굳어지면 API 토큰가 인하 압력도 커질 전망입니다. ³ ⁴

Research Papers

Speed by Simplicity: 단일 스트림으로 빠른 오디오·비디오 동시 생성

많은 오디오·비디오 생성기는 멀티스트림·크로스어텐션으로 복잡합니다. 이 논문은 반대로 단순화를 택했습니다. daVinci‑MagiHuman은 텍스트·비디오·오디오를 한 줄 토큰 시퀀스로 묶어 자기어텐션만으로 동시 처리하는 단일 스트림 트랜스포머를 제안, 얼굴 표현·몸 동작·정밀 립싱크 등 사람 중심 품질을 유지합니다. 중국어(보통·광동)·영어·일본어·한국어·독일어·프랑스어 음성까지 다국어를 지원합니다. ⁵ ⁶

효율 비법도 곁들였습니다. 증류로 8스텝 디노이징, 라틴트 초해상도로 깔끔 업샘플, Turbo VAE로 디코딩 가속—단일 H100에서 5초 256p 비디오를 약 2초(최저 1.6초 보고)만에 생성, 1080p는 38.4초입니다. 자동 평가는 개방형 모델 중 최고 시각 품질·텍스트 정합, 음성 명료도 WER 14.60%(최저)를 기록했고, 사람 선호도는 Ovi 1.1 대비 80.0%, LTX 2.3 대비 60.9% 우세(2,000 페어)로 보고됐습니다. ⁵ ⁷

단일 스트림은 전용 모달리티 특화가 약한 한계와 5초 중심의 짧은 길이 평가 한계가 있지만, 단순 백본으로 고품질·고속을 달성하며 서빙 복잡도를 낮춘다는 메시지는 분명합니다. ⁸

LongCat-Flash-Prover: 도구 통합 RL로 원어 형식 추론(Lean4) 강화

형식 정리 증명은 “그럴듯함”이 아니라 커널 검증이 핵심입니다. LongCat‑Flash‑Prover는 560B MoE와 Lean4 도구 통합 추론으로 자동 형식화·스케치·증명 세 과정을 결합합니다. Hybrid‑Experts Iteration으로 고품질 궤적을 확장하고, 긴 지평선 MoE RL을 안정화하려고 HisPO(계층적 중요도 샘플링 정책 최적화)와 그래디언트 마스킹을 도입했습니다. ⁹ ¹⁰

결과는 오픈 가중치 SOTA입니다. MiniF2F‑Test 97.1%(문제당 72 추론), ProverBench 70.8%, PutnamBench 41.5%(문제당 ≤220 시도)로 기존 오픈 베이스라인을 크게 넘었습니다. 보상 해킹을 막기 위한 정리 일관성·합법성 검출도 포함됩니다. 단, 560B MoE와 도구 통합 RL은 자원 집약적이라는 현실적 한계가 있습니다. ⁹ ¹¹

의의: 자동 형식화→보조정리 스케치→커널 검증까지 “원어 형식 추론”을 오픈 소스로 끌어올려, 검증된 수학·소프트웨어로 확장할 토대를 마련합니다. ¹²

Omni-WorldBench: 상호작용 중심 4D 월드 모델 평가

월드 모델은 이제 “예쁜 영상”을 넘어 “행동이 상태 변화를 일으키는” 4D 상호작용으로 나아갑니다. Omni‑WorldBench는 영상 품질·카메라/객체 제어력과 함께 상호작용 효과 충실도(InterStab‑L/N, InterCov, InterOrder 등)를 에이전트 기반으로 측정합니다. Omni‑WorldSuite(1,000+ 프롬프트)와 Omni‑Metrics를 묶어 다양한 장면·상호작용 난이도를 포괄합니다. ¹³ ¹⁴

텍스트‑투‑비디오, 이미지‑투‑비디오, 카메라 제어형 등 18개 모델을 평가한 결과, 대부분 시간적 매끄러움은 높지만, 복잡한 상호작용·카메라 스케줄에서 인과 일관성이 무너지는 약점이 드러났습니다. 이미지‑투‑비디오는 조건 정보 덕에 상호작용성이 상대적으로 낫지만, 제어성↔장면 일관성 간 트레이드오프가 존재합니다. 요약 보고에선 Wan2.2가 종합 AgenticScore 75.92%로 1위를 차지했습니다. ¹³ ¹⁵

메시지: 플래너·에이전트를 위한 월드 모델을 키우려면 “프레임이 좋아 보이는가”를 넘어 “행동이 그럴듯한 결과를 내는가”를 측정해야 합니다. Omni‑WorldBench는 그 기준을 제시합니다. ¹⁶

왜 중요한가

에이전트형 AI는 긴 호흡으로 계획·실행·수정을 반복합니다. 오늘의 소식은 그 전 스택을 맞물립니다. 장문맥·고처리량 추론 코어(네모트론 3 슈퍼), 실시간 상호작용을 위한 안전·보이스 레이어, 그리고 오디오·비디오 생성·형식 추론·월드 모델 평가 같은 특화 분야의 간극을 메우는 연구까지—모두가 “스마트한 계산”으로 효율을 끌어올린다는 공통분모를 가집니다. ¹ ²

1M 토큰 기억을 무너뜨리지 않고, 300ms 이하 음성 상호작용을 유지하며, 멀티모달 안전이 따라붙는다면—더 싸고 빠르고 정렬된 에이전트가 현실이 됩니다. 이는 벤치마크를 넘어, “누가” 대화창 너머의 진짜 AI를 감당할 수 있는가를 바꿉니다. ³

출처 16

[1] Nvidia Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning [2] Nvidia Building NVIDIA Nemotron 3 Agents for Reasoning, Multimodal RAG, Voice, and Safety [3] E2enetworks Demystifying NVIDIA Nemotron 3 Super | E2E Networks [4] Smartchunks NVIDIA’s 120B Nemotron 3 Runs Like a 12B Model | Smart Chunks [5] Arxiv Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model [6] Arxivlens Speed by Simplicity - ArxivLens analysis [7] Alphaxiv alphaXiv: Speed by Simplicity [8] Liner Liner Quick Review: Speed by Simplicity [9] Arxiv LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning [10] Arxivlens LongCat-Flash-Prover - ArxivLens analysis [11] Chatpaper ChatPaper: LongCat-Flash-Prover [12] Alphaxiv alphaXiv Overview: LongCat-Flash-Prover [13] Arxiv Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models [14] Arxivlens Omni-WorldBench - ArxivLens analysis [15] Chatpaper ChatPaper: Omni-WorldBench [16] Liner Liner Quick Review: Omni-WorldBench

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집