제01권 · 제10호 데일리 디스패치 2026년 4월 13일

최신 AI 뉴스 모음집

AI · 논문데일리 큐레이션공개 아카이브
AI 뉴스Research
약 8분

에이전트형 AI의 새 기준선: NVIDIA Super·Microsoft Fara·MiniMax 공개

채팅을 넘어서 ‘일을 끝내는’ 에이전트 경쟁이 본격이에요. NVIDIA는 장기 컨텍스트 추론에 맞춘 Nemotron 3 Super를, Microsoft는 7B 온디바이스 웹 작업 에이전트를, MiniMax는 강력한 코딩 성능의 가중치를 공개했어요.

한 줄 요약

채팅에서 ‘일을 끝내는’ 에이전트로 이동 중이며, 장문맥 추론 모델과 소형 온디바이스 에이전트가 동시에 전진하고 있습니다.

LLM & SOTA Models

Nemotron 3 Super: 에이전트형 추론을 위한 하이브리드 Mamba‑Transformer MoE

이 모델은 여러 에이전트가 오래 생각하고 정확히 진행해야 하는 일을 ‘느리지 않게’ 처리하도록 설계됐어요. NVIDIA Nemotron 3 Super는 총 120B(활성 12B) 규모, 기본 1M 토큰 컨텍스트, 이전 Super 대비 5배 넘는 처리량, OpenClaw 에이전트용 PinchBench에서 85.6%로 동급 최고 공개 모델이라고 밝히고 있습니다. 1

핵심은 Mamba‑2로 긴 시퀀스를 효율적으로 훑고, 필요한 깊이에서 Transformer 주의를 끼워 정확한 회상을 확보하는 구조예요. 여기에 토큰을 압축해 전문가에게 보내는 ‘잠재 MoE’로 같은 비용에 4배 더 많은 전문가를 호출하고, 다중 토큰 예측(MTP)으로 한 번에 몇 글자씩 앞을 내다봐 초안 생성을 내장해 길게 출력할 때 최대 3배 속도를 노려요. 사전학습부터 NVFP4(4비트)로 진행해 메모리를 줄이고 Blackwell(B200)에서 FP8/H100 대비 최대 4배 빠른 추론을 제시합니다. 1

실전 에이전트 행동 학습을 위해 25조 토큰(고유 10조) 사전학습, 약 700만 건의 지도 미세조정(전체 4천만 샘플 풀), 21개 환경에서 120만 회 이상 강화학습 롤아웃을 사용했어요. NVIDIA는 “Super + Nano” 배치를 제안하는데, 간단한 단계는 Nemotron 3 Nano가, 복잡한 계획·추론은 Super가 맡는 구성이에요. 가중치·데이터셋·레시피를 모두 공개해 자체 인프라에 맞춰 커스터마이즈·배포가 가능하다고 합니다. 1

Fara‑7B: 컴퓨터 사용을 위한 효율적 7B 에이전트

이 모델은 사람이 화면을 보듯 브라우저 스크린샷만 보고 클릭·타이핑·스크롤을 실행해 쇼핑이나 예약, 정보 찾기 같은 웹 작업을 끝내요. Microsoft는 70억 파라미터로도 대형 시스템과 견줄 성능을 보이며 온디바이스 실행이 가능해 지연이 줄고 프라이버시에 유리하다고 밝혔고, MIT 라이선스로 Microsoft Foundry와 Hugging Face에 공개했으며 Copilot+ PC용 양자화 버전과 Magentic‑UI 통합도 제공합니다. 2

Fara‑7B는 접근성 트리를 쓰지 않고 스크린샷만으로 한 걸음씩 ‘생각+도구 호출’을 예측해 Playwright 동작(click(x,y), type())과 web_search() 등을 사용해요. 다중 에이전트 합성 데이터 파이프라인으로 학습했고, 14만5천 개의 태스크 궤적과 100만 스텝을 포함했어요. 성능은 WebVoyager 73.5%, Online‑Mind2Web 34.1%, DeepShop 26.2%, WebTailBench 38.4%를 보고하며, UI‑TARS‑1.5‑7B 대비 평균 단계 수가 약 16 vs 약 41로 효율적이라고 설명해요. 실사용에서는 샌드박스 환경과 민감 데이터 회피를 권장합니다. 2

Open Source & Repos

MiniMax M2.7 가중치 공개: 자가 발전 루프와 강력한 SWE‑Pro 성능

MiniMax는 Hugging Face에 M2.7 가중치를 공개했고, Mixture‑of‑Experts 설계와 다중 에이전트 협업(Agent Teams)을 강조했어요. SWE‑Pro 56.22%, Terminal Bench 2 57.0%, NL2Repo 39.8%, VIBE‑Pro 55.6% 등의 결과를 제시하며, 단순 알고리즘 문제가 아닌 실제 개발 과제에 가까운 능력을 강조합니다. 내부적으로는 100+ 라운드의 ‘자가 진화’ 루프를 돌려 샘플링 파라미터·워크플로 가이드라인을 스스로 조정해 내부 셋에서 약 30% 개선을 얻었다고 합니다. 3

SWE‑bench 맥락을 보면, Verified는 데이터 오염 이슈가 있고 Pro(1,865개 과제)가 더 까다롭고 신뢰된 지표로 여겨집니다. 상위 시스템이 Pro에서 50%대 중반을 기록하는 흐름에서, M2.7의 56.22%는 경쟁력 있는 수치예요. 또한 성능은 모델만이 아니라 프롬프트·도구·루프 설계(‘스캐폴딩’)에 크게 좌우된다는 점이 반복 확인되고 있습니다.. 4

생태계 지원도 빠르게 붙고 있어요. OpenAI 호환 API를 전제로 한 구조화 출력 라이브러리에 MiniMax 공급자 추가 이슈가 열렸고(M2.7, M2.7‑highspeed 등), 기존 OpenAI SDK 사용팀이 베이스 URL만 바꿔 붙이는 시나리오가 쉬워지고 있습니다. 5

Research Papers

EXAONE 4.5: 문서 이해와 장문맥을 겨냥한 LG AI Research의 공개 가중치 VLM

이 보고서는 EXAONE 4.0에 전용 비주얼 인코더를 통합해 텍스트·이미지 동시 사전학습을 하는 첫 공개 가중치 비전‑언어 모델을 소개해요. 문서 중심 말뭉치에 공을 들였고, 컨텍스트 길이를 최대 256K 토큰으로 확장했으며, 일반 벤치마크에서도 경쟁력을 보이는 한편 비슷한 규모의 모델 대비 문서 이해와 한국어 맥락 추론에서 앞선다고 보고합니다. 6

함께 볼 만한 업계 연구로 IBM은 소형 멀티태스크 코드 LLM을 만드는 방법에서, 70억 규모에서는 특화 모델 병합이 HumanEval Pass@1 92.7%(Qwen Coder 2.5 7B)로 과제별 미세조정보다 높고 요약 능력도 유지된다고 발표했어요. 더 작은 규모에서는 데이터 믹싱이 유리했고요. 기업 입장에서는 대형 에이전트를 보조하는 소형 모델에 다기능을 담되 성능 저하를 최소화하는 전략적 힌트입니다. 7

커뮤니티 반응

Hacker News (82↑) — 강력한 로컬 추론을 바라는 사용자에게 MiniMax M2.7 공개 가중치가 반갑다는 반응이 많고, 라이선스 확인 필요성도 함께 언급됩니다.

"확실히요 — 저는 로컬 추론을 원하던 사람 중 하나입니다. Strix Halo 장비가 있고 Minimax M2.7 가중치를 로컬에서 돌릴 수 있게 되어 정말 기쁩니다. 말씀드린 것처럼 이건 분명히 좋은 일이고 오픈소스 정신에 부합합니다. 다만 Minimax M2.7은 비상업적 라이선스로 제공된다는 점을 알아두세요. 상업적 용도로 사용하면 법적 책임이 따를 수 있습니다." — Hacker News 3

왜 중요한가

오늘 흐름은 에이전트형 AI의 ‘이원화’예요. Nemotron 3 Super 같은 중량급은 계획·추론의 허리를 강화하고, Fara‑7B 같은 소형 모델은 실제 화면을 클릭·타이핑하며 일을 끝내요. 여기에 MiniMax M2.7처럼 가중치가 공개되면 로컬 실험이 빨라지고(단, 라이선스 확인 필수), 기업은 병합/믹싱으로 소형 코드 모델에 여러 능력을 담아 비용을 제어하는 그림이 그려집니다. 1 2 3

이번 주 시도해볼 것

  1. MiniMax M2.7 로컬 테스트: Hugging Face에서 가중치를 내려 받아 간단한 패치 작업을 시도해보세요(사용 전 라이선스 확인). https://huggingface.co/MiniMaxAI/MiniMax-M2.7 3
  2. Fara‑7B 브라우저 자동화 맛보기: Microsoft Research 글의 링크를 통해 Foundry/Hugging Face에서 Fara‑7B와 Magentic‑UI로 안전한 샌드박스에서 웹 폼 자동화를 체험해보세요. 2

출처 7

도움이 되었나요?

댓글 (0)