NVIDIA Nemotron 3 Super, 하이브리드 MoE로 장문맥 추론 속도와 개방성 강화
토큰당 120B 중 12B만 활성화하는 하이브리드 Mamba-Transformer가 100만 토큰 문맥과 최대 7.5배 처리량 향상을 내세우며 가중치·데이터셋을 공개했다. 텍스트-이미지와 오픈 LLM으로 확산되는 MoE 흐름 속 발표다.
한 줄 요약
오픈 가중치 Mixture-of-Experts가 연구실을 넘어 실전에 진입했다 — NVIDIA Nemotron 3 Super, Google Gemma 4, 그리고 로보틱스·디퓨전 모델이 더 빠른 장문맥 추론을 공공 가중치와 함께 내놓는다.
LLM & SOTA Models
Nemotron 3 Super: 장문맥 에이전트 추론을 위한 오픈·고효율 모델
NVIDIA Nemotron 3 Super는 매우 긴 지시나 이력(최대 100만 토큰)을 한 번에 담고도 빠르게 추론하도록 설계된 모델이다. 핵심은 전체 120B 파라미터 중 토큰당 12B만 활성화하는 혼합 전문가(Mixture of Experts)와 하이브리드 Mamba-어텐션 구조다. 논문에 따르면 LatentMoE, 네이티브 추측 디코딩(MTP), NVFP4 사전학습(2.5조 토큰), SFT·강화학습 후처리를 적용했고, GPT-OSS-120B 대비 최대 2.2배, Qwen3.5-122B 대비 최대 7.5배 높은 추론 처리량을 보고한다. 베이스·후처리·양자화 체크포인트와 데이터셋이 Hugging Face에 공개됐다. 1
구조적으로 Mamba 계열 시퀀스 모델링으로 속도를, Transformer 어텐션으로 전역 일관성을 확보하고, LatentMoE 라우팅으로 필요한 전문가만 선택해 연산 대비 정확도와 파라미터 대비 정확도를 동시에 높인다. 여기에 외부 도우미 없이 속도를 끌어올리는 네이티브 추측 디코딩(MTP)까지 더해, 특히 도구 호출과 단계가 많은 에이전트 워크플로에서 “큰 모델을 작게 느끼게” 만드는 것이 목표다. 1
의미: 오픈 가중치와 양자화 체크포인트 덕분에 기업이 공급사 종속 없이 장문맥 에이전트를 시험하기 쉬워졌다. 일부 커뮤니티는 프루닝·양자화를 곁들인 소비자급 하드웨어 실험도 공유하지만, 환경별 편차는 있다. 방향성은 분명하다. 백만 토큰급 메모리를 살린 대규모 추론을 로컬에서 시험하는 조직이 늘어날 수 있다. 2
참고로 MoE 효율화는 텍스트를 넘어 확산(디퓨전)에도 확산되고 있다. Nucleus-Image는 17B 중 약 2B만 활성화하는 희소 MoE로 GenEval 0.87, DPG-Bench 88.79, OneIG-Bench 0.522를 기록하며 Qwen-Image, GPT Image 1, Seedream 3.0, Imagen 4를 맞추거나 앞선다. 가중치·학습 코드·레시피를 공개해 “MoE는 LLM만의 것”이라는 관성을 깨는 사례로 주목된다. 3
Gemma 4: Apache 2.0으로 공개된 Google의 최고 성능 오픈 모델
Gemma 4는 고도 추론과 에이전트 워크플로를 겨냥한 Google DeepMind의 새 오픈 모델군이다. 상용에 우호적인 Apache 2.0 라이선스로 공개되며, Effective 2B, Effective 4B, 26B MoE, 31B Dense 네 가지 크기를 제공한다. 31B는 Arena AI 텍스트 리더보드 오픈 부문 3위, 26B MoE는 6위를 기록했고, 소형 E2B/E4B는 온디바이스(128K 문맥)·멀티모달 입력을 겨냥, 대형은 최대 256K 문맥을 지원한다. 핵심은 “파라미터당 지능”: 적은 자원으로 높은 품질을 노리는 설계다. 4
순위 외에도 에이전트 지향 기능이 눈에 띈다. 함수 호출, JSON 구조 출력, 시스템 지시어를 기본 제공하고, 비전·오디오(E2B/E4B)와 장문맥으로 코드 저장소나 장문서를 한 번에 전달할 수 있다. Hugging Face, Kaggle, Ollama에서 가중치를 내려받아 vLLM, llama.cpp, MLX, NVIDIA NIM 등에서 바로 구동 가능하며, Android·워크스테이션·Google Cloud까지 배포 경로가 광범위하다. Apache 2.0 덕분에 상용 제약과 MAU 제한이 없어 기업 도입 장벽이 낮다. 4
분석들은 Gemma 3 대비 수학·코딩의 큰 도약과 26B MoE의 효율(토큰당 약 3.8–4B 활성화)을 강조하는 한편, 256K 문맥에서 KV 캐시 메모리 부담 같은 실무적 트레이드오프도 지적한다. 그럼에도 총평은 명확하다. 디바이스부터 클라우드까지 에이전트 앱을 받쳐줄 강력하고 관대한 오픈 기준선이 나왔다. 5
Gemini Robotics-ER 1.6: 로봇을 위한 공간 논리와 계기판 읽기
Gemini Robotics-ER 1.6은 로봇이 공간을 이해하고 작업을 더 신뢰성 있게 끝내도록 돕는 추론 중심 모델이다. 특정 지점 “가리키기”, 단계 계획, “성공 감지”가 강화됐고, 보스턴 다이내믹스와 협업으로 계기판·사이트글래스 “계기 읽기” 능력이 새로 추가됐다. 개발자는 Gemini API와 Google AI Studio에서 바로 사용할 수 있다. 6
실무에서는 “가리키기”가 중간 추론 단계로 쓰인다. 모델은 점을 찍어 개수 세기, 파지 지점, 이동 경로 등을 먼저 파악한 뒤 실행한다. “성공 감지”는 자율성의 엔진으로, 가려짐·저조도 같은 환경에서도 여러 카메라 뷰(오버헤드·손목 카메라)를 종합해 성공 여부를 판단하고 재시도 또는 다음 단계로 진행한다. 산업 점검 환경에서 계기 읽기는 확대, 코드 실행 기반 측정, 단위 해석을 결합해 의사결정에 바로 쓸 수 있는 값을 낸다. 7
DeepMind는 1.6을 지금까지 가장 안전한 로보틱스 모델로 소개하며, 공간적 안전 제약 준수와 텍스트·비디오 안전 위험 인지에서 향상된 결과를 제시한다. 제공된 Colab 예제를 통해 고수준 계획자로 통합하고, 비전-언어-행동 모듈이나 검색 같은 도구를 호출하는 패턴으로 시작할 수 있다. 6
Open Source & Repos
NVIDIA Ising: 양자 보정·오류수정을 가속하는 오픈 AI 모델군
NVIDIA Ising은 양자컴퓨팅의 두 난제 — 프로세서 보정과 실시간 오류수정 —을 AI로 빠르게 풀기 위한 공개 모델군이다. 쉽게 말해, 깨지기 쉬운 양자 시스템을 더 빨리 맞춰 쓰고, 생기는 오류를 즉시 잡아 실용에 가깝게 만드는 도구다. NVIDIA는 측정을 해석해 보정을 자동화하는 Ising Calibration(비전-언어 모델)과, 실시간 오류수정을 위한 Ising Decoding(3D CNN, 속도형·정확형)을 공개하며, 과업 기준으로 pyMatching 대비 최대 2.5배 빠르고 3배 정확하다고 밝힌다. 8
여러 연구소·기업이 이미 채택 중이며, 워크플로·데이터·NIM 마이크로서비스를 함께 제공해 각 하드웨어에 맞춘 미세조정을 지원한다. CUDA-Q(양자-고전 하이브리드)와 NVQLink(QPU–GPU 인터커넥트)와의 보완적 연계를 표방해 실시간 제어·오류수정을 노린다. 보정 시간을 며칠에서 몇 시간대로 줄이고 오류수정을 현실화하려는 시도로 볼 수 있다. 9
관련 보도는 공개 이후 아시아 IT·양자주가가 동반 상승했다고 전한다. 실무 관점에서 즉시는 반복 사이클 단축과 공유 기준선 확립으로, 하드웨어별 중복 노력을 줄이는 효과가 크다. 10
Research Papers
ClawGUI: GUI 에이전트를 훈련·평가·배포까지 한 번에
ClawGUI는 “많은 에이전트가 실제 앱 클릭을 못 버틴다”는 현실을 겨냥해, 온라인 강화학습 훈련(가상 환경·실기기 병렬 지원), 6개 벤치마크 표준화 평가, Android/HarmonyOS/iOS 배포(12개+ 챗 플랫폼, CLI–GUI 하이브리드 제어, 개인화 메모리)를 하나로 묶은 오픈 프레임워크다. 동일 파이프라인에서 학습된 ClawGUI-2B는 MobileWorld GUI-Only에서 17.1% 성공률을 기록, 동급 MAI-UI-2B 대비 6.0%p 앞선다. 11
기술적으로 ClawGUI-RL은 GiGPO와 프로세스 보상 모델을 결합해 단계별 치밀한 피드백을 제공하고, ClawGUI-Eval은 공식 기준 대비 95.8% 재현성을 보장하는 표준화 평가를 강제한다. ClawGUI-Agent는 하이브리드 제어와 영속 메모리로 “연구 결과를 실제 사용자 기기”까지 가져오는 부분에 초점을 둔다. 저자들은 GUI 에이전트의 병목이 모델 크기가 아니라 인프라라고 주장한다. 11
분석은 그동안 각 팀이 매번 다시 만들던 접착 코드(훈련 루프, 공정한 평가, 실기기 배포)를 하나의 하니스로 줄였다고 평한다. 일관된 RL 루프·동일 평가·현장 배포가 연구 데모를 일상 앱의 신뢰 가능한 자동화로 번역하길 기대한다. 12
커뮤니티 반응
Hacker News (207↑) — Gemini Robotics-ER 1.6의 기술 진전에는 호평이 많았지만, 전력 요구와 공공장소 카메라 추가에 따른 프라이버시 우려가 함께 제기됐다.
"매우 흥미로운 제안이고 분명 더 큰 모델들도 들어갈 것이고, 아마 여러 모델을 묶어 거대한 MOE를 만들 수 있을 거예요. 한 가지 진짜 개선되었으면 하는 건 전력 요구량을 줄이는 겁니다 — 이 칩은 2.5KW를 필요로 하는데, 대기업들이 쓰는 것에 비해선 적당하지만 배터리로 구동되는 로봇엔 문제가 될 수 있어요." — Hacker News
"우리 동네 계량기 주변에 갑자기 카메라가 생기면 시 공무원들은 어떻게 반응할지 궁금하네요." — Hacker News
Hacker News (77↑) — ClawGUI 소식과 함께 에이전트 프레임워크 선택이 어렵다는 반응이 다수였다. Autogen, LangChain, LangGraph 등 경쟁이 치열하고 직접 구현을 고민하는 사례도 보인다.
"어떤 플랫폼에 투자할지 결정하기가 꽤 어렵네요. Autogen, langchain, langgraph가 주요 경쟁자처럼 보입니다. 그리고 사람들은 직접 커스텀으로 구현하기도 하는 것 같아요." — Hacker News
왜 중요한가
오픈 가중치 MoE와 추론 중심 설계는 “더 긴 문맥을 더 싸게, 더 빠르게”라는 같은 약속으로 수렴 중이다. Nemotron 3 Super와 Gemma 4는 온디바이스·온프레미스·클라우드 전 구간에서 법적 마찰 없이 실전 워크플로를 가능케 하고, NVIDIA Ising과 Gemini Robotics-ER 1.6은 양자 실험실과 공장 바닥 같은 물리 세계의 난제에 AI를 투입한다. 1 4 9 6
이번 주 시도해볼 것
- Nucleus-Image 체험: Hugging Face에서 MoE 디퓨전으로 이미지 생성하고 Text KV 캐시를 켜서 속도 향상을 확인한다. https://huggingface.co/NucleusAI/NucleusMoE-Image
- Google AI Studio: Gemini Robotics-ER 1.6으로 본인 이미지·영상에서 가리키기와 성공 감지를 시험한다. https://aistudio.google.com/prompts/new_chat?model=gemini-robotics-er-1.6-preview
댓글 (0)