AI 뉴스Research

약 10분 2026. 4. 3.

GoogleGemma 4Apache-2.0NVIDIA Nemotron 3 SuperMicrosoft MAIagentic AI

구글 Gemma 4, Apache 2.0 전환과 함께 스마트폰부터 H100까지 로컬 LLM 전면 업데이트

오픈 가중치에 Apache 2.0, 256k 컨텍스트와 엣지 최적화까지. 여기에 100만 토큰 에이전트 모델과 MS의 새 멀티모달 스택까지—오늘 달라진 기술 핵심만 짚었습니다.

기사에서 찾기

읽기 모드

한 줄 요약

구글 Gemma 4가 Apache 2.0으로 공개되며, 스마트폰부터 워크스테이션까지 로컬 추론 품질과 에이전틱(자율 에이전트) 기능을 키웠고, 엔비디아·마이크로소프트는 각각 초장문맥·오디오/이미지 기초 모델로 실전 영역을 넓혔습니다.

LLM & SOTA Models

Google Gemma 4 (Apache 2.0, 에지→워크스테이션 라인업)

구글은 Gemma 4를 네 가지 크기로 공개했습니다. 스마트폰 등 기기용 Effective 2B(E2B), Effective 4B(E4B), 그리고 개발자 하드웨어용 26B 혼합전문가(Mixture of Experts, MoE: 토큰마다 일부 파라미터만 활성)와 31B Dense입니다. 대형 모델은 bfloat16 미양자화 상태로 80GB NVIDIA H100 단일 GPU에서 구동 가능하며, 양자화 시 소비자 GPU로도 맞출 수 있습니다. 26B MoE는 추론 시 26B 중 3.8B만 활성화해 대기시간을 낮추고, 31B Dense는 품질 지향입니다. 컨텍스트 윈도는 에지 모델 128K, 26B/31B는 256K이며, 140+ 언어, 함수 호출과 구조적 JSON(JavaScript Object Notation) 출력을 기본 지원해 에이전트 워크플로에 맞춰졌습니다. ¹ ²

오픈 모델 리더보드인 Arena에서 Gemma 31B는 3위, 26B MoE는 6위로 시작하며, 구글은 동급 대비 최대 20배 큰 모델도 능가한다고 주장합니다. 전 모델이 이미지·비디오 처리(광학문자인식 등)를 지원하고, E2B/E4B는 음성 입력까지 기본 제공합니다. 코드 생성은 오프라인에서도 고품질을 목표로 하며, 에지 모델은 Gemma 3 대비 최대 4배 빨라지고 배터리는 최대 60% 절감, E2B는 E4B보다 3배 빠르다고 합니다. ² ³

가장 큰 변화는 라이선스입니다. 종전의 구글 커스텀 라이선스는 금지 조항과 의무 전가 문제로 개발자 반발이 있었는데, Apache 2.0 전환으로 상업 이용 제약이 사라지고 예측 가능성이 높아졌습니다. 가중치는 Hugging Face, Kaggle, Ollama에서 바로 내려받을 수 있고, Google AI Studio(31B, 26B), AI Edge Gallery(E2B, E4B)에서도 접근 가능합니다. 또한 안드로이드 온디바이스 모델인 Gemini Nano 4가 E2B/E4B를 기반으로 출시될 예정임을 처음 확인했습니다. ¹ ²

의미: 리더보드 성적, 대형 컨텍스트(로컬), 에이전트 친화 기능, 그리고 진짜 관대한 라이선스가 결합되면서, 자체 호스팅/오프라인 배치의 장벽이 크게 낮아졌습니다. 코드·멀티모달 과제에서 “클로즈드 모델과의 간극”이 충분히 좁혀졌고, 기업 도입의 법적 마찰도 줄었습니다. ² ³

마이크로소프트 MAI 모델: 음성·전사·이미지/비디오 기초 모델

마이크로소프트는 MAI 슈퍼인텔리전스 팀에서 세 가지 기초 모델을 공개했습니다. MAI-Transcribe-1(25개 언어 음성→텍스트), MAI-Voice-1(오디오 생성), MAI-Image-2(생성 미디어: TechCrunch는 비디오 생성 모델로, CNET은 2세대 이미지 모델로 소개). Transcribe-1은 Azure Fast 대비 2.5배 빠르고, Voice-1은 1초에 최대 60초 길이 오디오를 생성하며 커스텀 보이스를 지원합니다. MAI-Image-2는 생성 속도·사실감을 개선하고, 가격은 텍스트 입력 100만 토큰당 $5, 이미지 출력 100만 토큰당 $33입니다. Foundry와 MAI Playground에서 이용 가능하며, MAI-Image-2는 Bing·PowerPoint로의 탑재도 예고됐습니다. ⁴ ⁵

가격은 경쟁사 대비 저렴함을 내세웁니다. MAI-Transcribe-1은 시간당 $0.36부터, MAI-Voice-1은 100만 문자당 $22입니다. 무스타파 술레이만은 “휴머니스트 AI” 철학을 강조하며, OpenAI와의 파트너십을 유지하면서도 독자 스택을 확장하겠다고 밝혔습니다. 텍스트 중심을 넘어 회의 전사, 보이스 에이전트, 시각 생성 등 엔터프라이즈 필수 모달리티를 직접 커버한다는 점이 실용적입니다. ⁴ ⁵

현업 관점에서, Foundry/Playground 기반으로 비용·성능을 빠르게 실험하고, 선별 기능을 MS 제품(Bing, PowerPoint)에 연결해 배포 확장을 도모할 수 있습니다. ⁴ ⁵

NVIDIA Nemotron 3 Super: 에이전트 처리량을 노린 120B 하이브리드 MoE

엔비디아는 120B 파라미터의 오픈 가중치 모델 Nemotron 3 Super를 공개했습니다(토큰당 12B만 활성화). 멀티에이전트 시스템의 핵심 병목인 ‘문맥 폭증’과 ‘사고 비용’을 겨냥해, 네이티브 100만 토큰 컨텍스트로 전체 상태를 유지하고, 이전 세대 대비 최대 5배 처리량·최대 2배 정확도를 주장합니다. 구조는 Mamba 상태공간 레이어(장문맥 효율)와 Transformer 레이어(정밀 연상)를 결합한 하이브리드입니다. Latent MoE와 다중 토큰 예측(Multi-Token Prediction: 한 번에 여러 다음 토큰 예측)으로 속도를 더 끌어올립니다. Blackwell GPU에서 NVFP4 정밀도로 H100의 FP8 대비 최대 4배 빠른 추론을 구현하면서 정확도 손실이 없다고 합니다. ⁶

벤치마크는 에이전트 작업에 초점을 맞춥니다. NVIDIA AI-Q 리서치 에이전트가 DeepResearch Bench I/II 1위를 기록했고, Artificial Analysis에서는 효율성과 개방성에서 상위권을 차지합니다. Perplexity, Palantir, Siemens 등이 검색, 소프트웨어 에이전트, 산업 자동화에 통합 중입니다. 가중치·데이터·레시피(사전/사후 학습 데이터 10조+ 토큰, 강화학습 환경)를 공개했고, Vertex AI, OCI, 곧 AWS Bedrock·Azure, NIM 마이크로서비스, Baseten·Cloudflare 등에서 배포됩니다. ⁶

엔지니어링 글에서는 실제 이점으로 “전체 코드베이스 단번 로드”가 가능한 100만 컨텍스트, 동급 오픈 모델 대비 최대 2.2배 처리량, 프런티어 클로즈드 모델 대비 합리적 트레이드오프를 강조합니다. 같은 계열 Nemotron 3 Nano(총 30B, 활성 ~3.2B)는 H100에서 223 토큰/초, TTFT 100ms 미만(vLLM) 등 아키텍처의 처리량 설계를 다양한 크기에서 확인시킵니다. 라이선스는 관대한 편이나 엔비디아 전용이므로 기업은 검토가 필요합니다. ⁷ ⁸

Open Source & Repos

Gemma 4 배포(가중치·툴링)

Gemma 4는 Hugging Face, Kaggle, Ollama에서 즉시 다운로드 가능하며, Google AI Studio(31B, 26B)와 AI Edge Gallery(E2B, E4B)에서도 실행할 수 있습니다. 이 분산 방식은 로컬 실험→호스티드 UI 프로토타이핑→자가 호스팅 이전까지의 마찰을 줄입니다. Apache 2.0 전환으로 포크·파인튜닝·재배포에 대한 컴플라이언스 불확실성이 해소돼 생태계의 변형·확장이 가속될 전망입니다. ¹ ²

Gemma 4는 Gemini 3에서 가져온 추론·수학·지시따르기 성능을 오픈 가중치로 제공합니다. 함수 호출과 구조화 출력, 대형 컨텍스트(최대 256K), 멀티모달 덕분에, 예전에는 클라우드 프런티어 모델이 필요했던 사내/오프라인 앱을 자체 구축하기가 현실적으로 수월해졌습니다. ² ³

동시에 엔비디아 Nemotron 3 Super는 가중치뿐 아니라 ‘레시피’(데이터셋, 강화학습 환경)를 NVIDIA NeMo와 폭넓은 파트너 엔드포인트로 제공합니다. 10조+ 토큰 데이터 공개 등으로 학습 신호를 재현할 수 있고, NIM 마이크로서비스로 온프렘부터 클라우드까지 배포 경로가 매끄럽습니다. 오픈 모델 툴체인이 실험에서 운영까지 이어지는 흐름이 촘촘해졌습니다. ⁶ ⁷

Research Papers

AgentWatcher: 규칙 기반 프롬프트 인젝션 모니터

문맥에 숨은 명령으로 에이전트 의도를 탈취하는 프롬프트 인젝션을 해결하기 위해, AgentWatcher는 먼저 에이전트 행동을 ‘인과적으로 영향력 큰’ 소수 문맥 세그먼트로 귀속시킨 뒤, 그 부분만 명시적 규칙으로 모니터 LLM이 판정합니다. 이 2단계 접근은 장문맥에서도 확장 가능하고, 탐지 근거를 설명 가능한 규칙으로 남긴다는 점이 특징입니다. 도구 사용·장문맥 벤치마크에서 효과를 보였고 코드가 공개돼 있습니다. ⁹

왜 중요한가: 에이전트는 텍스트와 명령의 경계가 흐려 “무엇이 이 도구 호출을 유발했나?”가 핵심입니다. 실무 권고안은 시스템 프롬프트 분리, 도구 호출 검증, 출력 필터, 최소 권한, 보조 심사 모델 등 다층 방어를 강조합니다. 운영 환경에서는 주입→의도 탈취→정찰→권한 상승→데이터 유출로 이어지는 8단계 공격 체인을 다양한 계층(앱·클라우드·커널) 신호로 상관분석해야 합니다. AgentWatcher는 인과 핵심만 좁혀 장문맥에서도 오탐을 낮추고 투명성을 높입니다. ¹⁰ ¹¹

현업 보고에 따르면, 웹페이지·PDF의 숨은 지시를 에이전트가 실행하는 사례가 있으며, 샌드박싱·허용/차단 프롬프트·신뢰 도메인 화이트리스트가 실전적 완화책으로 쓰입니다. 규칙+귀속형 모니터는 장문맥에서도 설명 가능성과 정확도 사이의 균형을 잡는 해법입니다. ¹²

S0 Tuning: 하이브리드 순환-어텐션 모델의 무오버헤드 적응

S0 Tuning은 순환 상태공간 레이어를 포함한 하이브리드 모델에서 레이어당 단일 초기 상태 행렬만 최적화(모든 가중치 동결)하는 방식입니다. 약 48개의 실행 검증 HumanEval 솔루션만으로 LoRA(저랭크 어댑테이션) 대비 +10.8%p 향상(p < 0.001)을 보였고, 추론 오버헤드가 0입니다. Qwen3.5-4B(GatedDeltaNet)에서는 greedy pass@1이 +23.6 ± 1.7%p 상승, FalconH1-7B(Mamba-2)에서는 S0 71.8% ± 1.3 vs LoRA 71.4% ± 2.4로 유사 성능을 보였습니다. 튜닝 상태는 약 48 MB로, 작업 전환 시 가중치 병합이나 모델 재로드가 필요 없습니다. ¹³

도메인 전이는 MATH-500(+4.8%p), GSM8K(+2.8%p)에서 유의미했으나 Spider(SQL)에서는 아니었습니다. 스텝별 상태 오프셋 변형은 +27.1%p까지 올리지만 스텝별 비용이 듭니다. 결론적으로, 검증된 감독 신호가 적을 때 하이브리드 순환-어텐션 LLM에서는 ‘순환 상태 초기화’가 강력한 매개변수 효율 미세적응 표면이 됩니다. 이는 LoRA/QLoRA 같은 어댑터 기반과 상보적입니다. ¹³ ¹⁴

맥락: LoRA는 성숙한 생태계로 여전히 트랜스포머 계열의 기본 선택지이지만, S0의 ‘추론 오버헤드 0’ 특성은 지연 민감 배치에서 매력적입니다. 하드 제약(하이브리드 여부·감독 크기)과 배포 제약(작업당 48 MB 상태 스왑 vs 어댑터 스택)을 기준으로 선택하면 됩니다. ¹⁵ ¹⁶

커뮤니티 반응

Hacker News (873↑) — 성능과 메모리/연산 발자국이 실용 임계치를 넘느냐가 관건이라는 낙관론이 우세.

"만약 이 모델들이 현재의 폐쇄형 모델들이 할 수 있는 일을 충분히 따라잡는다면, 제 용도에는 "충분히 좋을" 겁니다. 많은 사람들에게도 마찬가지일 것 같아요."

"진짜 질문은 메모리·연산이에요. 26B MoE나 31B Dense가 소비자 GPU에서 충분히 빠르고 작동 가능한가요?"

왜 중요한가

오픈 가중치 생태계의 우선순위가 뚜렷해졌습니다. 관대한 라이선스(Apache 2.0), 에지 효율(최대 4배 속도·최대 60% 배터리 절감), 에이전트 준비도(함수 호출, 장문맥, 멀티모달). 동시에 엔비디아의 100만 토큰·하이브리드 MoE는 멀티에이전트의 운영 병목(전체 상태 유지, 빠른 사고)을 정면 돌파합니다. 이 조합은 프라이빗·로컬 실행의 가능 영역을 크게 넓힙니다. ² ⁶

팀 입장에서는 “가능한가?”에서 “자가 호스팅이 타당한가?”로 질문이 바뀝니다. Apache Gemma 4와 오픈 Nemotron 레시피로, 노트북 실험→80GB H100 단일기→온프렘/클라우드 확장까지 데이터 주권을 지키며 이어갈 수 있는 경로가 1년 전보다 훨씬 현실적입니다. ¹ ⁷

출처 15

[1] Arstechnica Google announces Gemma 4 open AI models, switches to Apache 2.0 license [2] Thenextweb Google launches Gemma 4: four open-weight models from smartphones to workstations [3] Engadget Google releases Gemma 4, a family of open models built off of Gemini 3 [4] Nvidia New NVIDIA Nemotron 3 Super Delivers 5x Higher Throughput for Agentic AI [5] Zenvanriel NVIDIA Nemotron 3 Super: Open Model for Agentic AI [6] Radiant How to run NVIDIA Nemotron 3 Nano on a cloud GPU with vLLM [7] Techcrunch Microsoft takes on AI rivals with three new foundational models [8] Cnet Microsoft's New AI Models Go Beyond Just Text [9] Arxiv AgentWatcher: A Rule-based Prompt Injection Monitor [10] Cowork Prompt Injection Attacks on AI Agents: Risks & Defenses (2026) [11] Armosec How to Detect Prompt Injection in Production AI Agent Workloads [12] Bswen Prompt Injection in AI Agents: What It Is and How to Prevent It [13] Arxiv S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models [14] Medium Parameter-Efficient Fine-Tuning with LoRA in Python [15] Medium Efficient LLM Fine‑Tuning with LoRA on a Single GPU

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집