NVIDIA Nemotron 3 Super, 1M 컨텍스트·하이브리드 MoE·오픈 가중치로 에이전트 AI 새 기준 제시

엔비디아 Nemotron 3 Super가 에이전트 AI의 한계를 돌파했습니다. 최신 자동화 연구 에이전트와 그래프 RAG 논문까지, 오늘의 기술적 변화와 한계, 실전 적용 신호를 모두 짚어드립니다.

기사에서 찾기

읽기 모드

한 줄 요약

엔비디아 Nemotron 3 Super가 100만 토큰 기억력과 5배 빠른 처리 속도로 에이전트형 AI의 실전 적용을 앞당깁니다.

LLM & SOTA Models

엔비디아 Nemotron 3 Super: 100만 토큰 컨텍스트와 5배 속도의 에이전트형 AI

엔비디아가 공개한 Nemotron 3 Super는 1200억 파라미터의 대형 언어모델(LLM)로, 여러 AI 에이전트가 협력하거나 복잡한 작업을 처리하는 '에이전트형 AI'에 최적화되어 있습니다. 가장 큰 특징은 100만 토큰에 달하는 초대형 컨텍스트 윈도우로, 기존 LLM이 수천 토큰만 기억하는 한계를 뛰어넘어 전체 워크플로우의 맥락을 한 번에 기억할 수 있습니다. ¹

아키텍처는 하이브리드 Mixture-of-Experts(MoE) 구조로, 1200억 파라미터 중 실제 추론에선 120억 개만 활성화되어 효율을 극대화합니다. Mamba 레이어(메모리·연산 효율), Latent MoE(여러 전문가를 동시에 활성화), 멀티 토큰 예측(여러 단어 동시 생성) 등 혁신 기술로 기존 모델 대비 최대 5배 빠른 처리와 2배 높은 정확도를 달성합니다. 엔비디아 Blackwell GPU에서는 NVFP4 정밀도로 추론 속도가 Hopper 대비 4배 빨라집니다. ²

Nemotron 3 Super는 오픈 가중치와 10조 개 이상의 훈련 데이터, 15개 강화학습 환경, 평가 레시피를 함께 공개합니다. 즉, 기업이나 개발자가 자체 인프라에 맞게 자유롭게 커스터마이즈하고 배포할 수 있습니다. Perplexity(검색), CodeRabbit(코딩 에이전트), Siemens, Palantir 등 다양한 곳에서 이미 도입 중입니다. 예를 들어, 소프트웨어 에이전트는 전체 코드베이스를 한 번에 불러와 디버깅하고, 금융 에이전트는 수천 페이지 리포트를 한 번에 분석할 수 있습니다. ¹

이제 LLM은 단순 챗봇을 넘어, 대규모 자동화와 멀티스텝 추론, 오케스트레이션의 엔진으로 진화하고 있습니다. ³

Nemotron-Cascade 2: 작지만 똑똑한 추론 특화 모델

Nemotron-Cascade 2는 30억 활성 파라미터의 MoE 구조로, 수학적 추론·코딩·지시 이행에 특화되어 있습니다. 국제 수학·정보올림피아드 등에서 동급 모델을 앞서며, '도메인별 강화학습'과 '다중 도메인 증류'로 효율성과 전문성을 높였습니다. ⁴

Research Papers

AI 리서치 에이전트: MLE-bench에서 탐색·일반화 성능 향상

Meta 등 연구진은 AI 에이전트가 단순 코드 생성이 아니라, 탐색·실험·개선까지 자동화할 수 있는 방법을 연구했습니다. 에이전트를 '연산자(드래프트, 디버그, 개선)'와 다양한 탐색 정책(그리디, 몬테카를로 트리 탐색, 진화적 탐색)으로 공식화하고, 최적 조합을 찾아 Kaggle 메달 획득률을 39.6%에서 47.7%로 끌어올렸습니다. ⁵

핵심은 '에이전트가 할 수 있는 행동(연산자)'의 설계가 성능의 병목이라는 점입니다. 더 똑똑한 연산자와 고급 탐색법을 결합하면, 에이전트가 과적합을 줄이고 더 넓은 문제에 일반화할 수 있습니다. 또한 AIRA-dojo라는 맞춤형 벤치마크 환경도 공개했습니다. ⁵

또 다른 발견은, 에이전트가 검증(Validation) 점수에 과적합하는 경향이 있다는 점입니다. 최종 해법을 테스트(Test) 점수 기반으로 선택하면 실제 성능이 최대 13%p까지 향상될 수 있습니다. ⁵

Open Source & Repos

AgenticSciML: 다중 에이전트 진화형 과학 실험 프레임워크

AgenticSciML은 여러 LLM 에이전트가 실험을 제안·비판·개선하며 협력적으로 과학 실험을 자동화하는 오픈소스 프레임워크입니다. 단일 에이전트 대신, 역할별(제안, 비판, 엔지니어 등)로 나눠 빠른 모델엔 반복 작업을, 강력한 모델엔 창의적 추론을 맡겨 비용을 크게 절감합니다(세대당 $0.05~0.5). JAX 기반 과학 컴퓨팅, 양자 인지, 로보틱스 등 다양한 분야에 적용 가능합니다. ⁶

Bilevel Autoresearch: 자기진화형 연구 루프

Bilevel Autoresearch는 내부 루프가 작업(예: 하이퍼파라미터 튜닝)을 최적화하고, 외부 루프가 내부 구조 자체(예: 새로운 탐색 알고리즘)를 코드로 생성해 개선하는 메타 프레임워크입니다. 실험 결과, 외부 루프가 Tabu Search 등 새로운 메커니즘을 스스로 발견하면 기존 방식 대비 최대 5배 성능 향상이 가능합니다. ⁷

왜 중요한가

Nemotron 3 Super는 에이전트형 AI의 실전화를 앞당기는 모델입니다. 이제 AI가 대규모 맥락을 기억하며 여러 작업을 동시에 처리할 수 있어, 소프트웨어 개발·금융·과학 연구 등 다양한 분야에서 자동화와 협업이 현실화됩니다. 한편, AI 에이전트와 오픈 프레임워크 연구는 앞으로 AI가 단순히 '더 큰 모델'이 아니라, '더 똑똑하고 협력적인 시스템'으로 진화할 것임을 예고합니다. ¹

출처 7

[1] Nvidia New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI | NVIDIA Blog [2] Jonkrohn NVIDIA’s Nemotron 3 Super: The Perfect LLM for Multi-Agent Systems — Jon Krohn [3] Bluelightningtv Nemotron 3 Super Makes Long-Context Agents Practical - Blue Lightning [4] Arxiv AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench [5] Arxiv KG-Hopper: Empowering Compact Open LLMs with Knowledge Graph Reasoning via Reinforcement Learning [6] Github m9h/agentsciml: Multi-agent evolutionary framework for automated scientific machine learning discovery [7] Github EdwardOptimization/Bilevel-Autoresearch: Use Autoresearch to research Autoresearch

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집