AI 뉴스Research

약 14분 2026. 4. 9.

Google DeepMindGemma 4Mixture-of-ExpertsmultimodalvLLMevaluation

구글 Gemma 4, 오픈웨이트 멀티모달·에이전트 스택을 파레토 프론티어로 끌어올리다

31B Dense·26B MoE, 256K 컨텍스트와 네이티브 툴콜링, vLLM/TPU 즉시 지원까지—‘오픈’의 기준이 바뀐다. 다만 독립 벤치·안전성 검증은 여전히 과제.

기사에서 찾기

읽기 모드

한 줄 요약

Google DeepMind가 Gemma 4를 Apache 2.0 오픈 가중치 멀티모달 모델로 공개했고, Microsoft는 15B Phi‑4 비전·추론 모델을 내놨습니다. 동시에 MoE 압축, 에이전트 안전, RAG 증거 효용을 겨냥한 새 연구들이 실전 기준을 끌어올립니다.

LLM & SOTA Models

Gemma 4: 바이트 대비 성능과 Apache 2.0을 앞세운 오픈 패밀리

Google DeepMind는 Gemma 4를 Effective 2B(E2B), Effective 4B(E4B), 26B Mixture of Experts(MoE), 31B Dense 네 가지로 공개했습니다. 모두 오픈 가중치에 Apache 2.0 라이선스를 채택했으며, 31B는 오픈 모델 순위에서 #3, 26B는 #6( Arena AI 기준)이고, 128K~256K 토큰 문맥, 네이티브 함수 호출·JSON 구조화·비전/오디오 입력(E2B/E4B 오디오)까지 지원합니다. 특히 26B MoE는 토큰당 약 3.8B 파라미터만 활성화해 지연 시간을 낮추며, 26B/31B 모두 80GB H100 한 장(bfloat16)에서 구동됩니다. ¹

이번 릴리스의 키워드는 “파라미터당 지능”입니다. 블라인드 선호 테스트에서 최대 20배 큰 모델보다 선호되는 사례가 제시되며, 하드웨어별 실용성을 고려해 E2B/E4B는 모바일·IoT용 오프라인 저지연 멀티모달, 대형 모델은 로컬 IDE와 에이전트 워크플로우에 초점을 맞췄습니다. 전 모델이 140+ 언어를 지원하고, Transformers·vLLM·llama.cpp·MLX·Ollama·NVIDIA NIM/NeMo 등 주요 툴이 하루 0일차부터 지원합니다. ²

독립 평가에선 GPQA Diamond에서 Gemma 4 31B가 85.7%(40B 미만 오픈 모델 2위)를 기록하면서 출력 토큰 약 120만 개로 경쟁 대비 토큰 효율을 보였습니다. 이는 연쇄 추론·에이전트 워크플로우에서 실질 비용을 낮춥니다. MMLU‑Pro, AIME 2026, BigBench Hard 및 멀티모달에서도 강세가 보고되며, 엣지 모델은 이전 세대 대비 최대 4배 속도, 배터리 60% 절감이 거론됩니다. ³

Phi-4-reasoning-vision-15B: 작지만 똑똑한 멀티모달 추론 모델

Microsoft Research는 15억이 아닌 150억(15B) 파라미터의 오픈 가중치 멀티모달 추론 모델 Phi‑4‑reasoning‑vision‑15B를 발표했습니다. 수학/과학과 사용자 인터페이스 이해(UI 그라운딩)에 강점을 보이며, 비전 인코더(SigLIP‑2) 출력을 LLM에 투사하는 ‘미드 퓨전’ 구조로 정확도와 효율을 균형 있게 취했습니다. 학습은 약 200B 멀티모달 토큰과, 400B 고유 토큰 기반 Phi‑4 + 16B 토큰의 Phi‑4‑Reasoning 단계를 활용해, 최근 1T+ 토큰을 쓰는 VLM 대비 훨씬 적은 데이터로 경쟁력을 확보했습니다. ⁴

ChartQA_TEST, MathVista_MINI, MMMU_VAL, ScreenSpot_v2에서 정확도·시간·출력 토큰을 평균해 본 Pareto 경계가 개선되며, 이미지 처리 설계에선 고해상도 데이터에 대해 동적 해상도 인코더가 가장 효과적이었습니다. SigLIP‑2 Naflex로 최대 약 3,600 비주얼 토큰을 쓸 때, 일반 멀티크롭이나 Dynamic S2만 쓸 때보다 고DPI UI 벤치마크(ScreenSpot‑Pro 등)에서 더 좋았다는 결론입니다. 핵심은 아키텍처·비전 인코더·데이터 큐레이션의 조합이 ‘작은 모델로도 실전 성능’의 지렛대가 된다는 점입니다. ⁴

데이터 측면에서는 수작업 샘플링으로 오류를 분류하고, 포맷 수정·GPT‑4o/o4‑mini 재생성, 고품질 이미지의 VQA/캡션 전환 등 ‘질 위주’ 파이프라인을 강조합니다. 단순 규모 확장 대신 정제된 데이터로 수학/UI 그라운딩과 구조적 추론을 살려, 비교적 보급형 하드웨어에서도 유의미한 성능을 목표합니다. ⁴

Open Source & Repos

vLLM: Gemma 4를 Nvidia·AMD·Intel·TPU에서 당일 구동

vLLM은 Gemma 4를 발표와 동시에 지원하며, Nvidia·AMD·Intel XPU, Google TPU까지 포괄합니다. 이미지/비디오 입력, 함수 호출·JSON 구조화·시스템 인스트럭션 같은 에이전트 기능, 128K/256K 장문맥을 vLLM의 고성능 실행 스택으로 바로 가져옵니다. 실무 관점에서 노트북부터 데이터센터 가속기까지 한 스택으로 배포할 수 있다는 점이 큽니다. ⁵

vLLM은 GKE/GCE의 Trillium/Ironwood TPU와 Nvidia GPU 등 다양한 백엔드에서 동일한 개발자 경험을 제공하며, 엣지에 가까운 시나리오에서도 장문맥·멀티모달 처리가 가능합니다. 이는 Transformers·llama.cpp·MLX·Ollama·NIM/NeMo 등과의 광범위한 생태계 지원과 맞물려 팀의 파인튜닝/서빙 표준화를 돕습니다. ⁵

에이전트 개발자에게는 실용적 상보성이 있습니다. Gemma 4의 ‘파라미터당 지능’과 vLLM의 메모리/처리 최적화(페이지드 어텐션 등)가 결합해, 동급 품질을 더 적은 하드웨어로 달성할 수 있어 비용 민감한 배포에 유리합니다. ⁵

Microsoft Bing의 Harrier: 다국어 MTEB v2 최상위 오픈 임베딩

Microsoft Bing 팀은 다국어 임베딩 모델 Harrier를 오픈소스로 공개했습니다. 20억+ 예시(및 GPT‑5 합성 데이터)로 학습했고 다국어 MTEB v2에서 1위를 주장합니다. 대표 모델 harrier‑oss‑v1‑27b(총 27B, 활성 25.6B)는 5,376차원 임베딩, 최대 131,072 토큰을 지원하며, 0.6B·270M 경량 변형도 함께 공개되었습니다(MIT 라이선스, Hugging Face 배포). ⁶

임베딩은 의미 기반 검색·RAG의 핵심 구성요소로, 문서를 벡터로 바꿔 빠르고 정확한 검색을 가능케 합니다. Harrier는 100+ 언어 지원과 긴 컨텍스트를 내세우며, 공개 자료에 따르면 OpenAI·Amazon의 상용 모델 대비 제로샷에서 우위를 보입니다. 글로벌 검색/RAG 스택에서 라이선스 유연성과 장문서 처리가 중요한 팀에 매력적입니다. ⁶

Microsoft는 Harrier를 Bing과 신규 에이전트 그라운딩 서비스에 통합할 계획입니다. 이는 검색 정확도, 도구 사용 신뢰성, 에이전트 태스크 성공률 간의 선순환을 강화할 수 있으며, 특히 다국어·장문서 환경에서 효과가 클 전망입니다. ⁶

Research Papers

REAM: MoE 전문가 병합으로 압축하며 성능 보존하기

Router-weighted Expert Activation Merging(REAM)은 Mixture‑of‑Experts(MoE) LLM에서 전문가(전문 서브네트)를 삭제(pruning)하는 대신 ‘병합(merging)’하여 메모리를 줄이면서 원래 성능을 더 잘 보존하는 방법을 제안합니다. Router-weighted Expert Activation Pruning(REAP) 대비, 다지선다(MC)·생성(GEN) 간 성능 절충을 보이며, 일반/수학/코딩 캘리브레이션 데이터 비율을 조절해 Pareto 경계를 탐색합니다. 여러 벤치마크에서 비압축 원본에 근접하거나 상회하는 경우를 보고합니다. ⁷

전문가 삭제는 희귀하지만 중요한 능력을 잃을 위험이 있는데, REAM은 라우터 신호를 활용해 가중치를 병합함으로써 표현력을 유지하려 합니다. 모르는 분을 위해: MoE는 토큰마다 소수의 ‘전문가’만 활성화해 큰 용량을 유지하면서도 계산량은 작게 만드는 구조입니다. ⁸

보안 맥락도 중요합니다. 휴면 전문가를 오염시켜 라우팅 트리거로 백도어를 여는 BadMoE나, 프루닝 후 악성 행태가 드러나는 공격(최대 95.7% 탈옥 성공 등)처럼, 압축은 성능뿐 아니라 안전 검증과 함께 가야 합니다. 실전 배포에선 REAM 같은 효용 중심 압축과 하드닝 파이프라인을 병행해야 합니다. ⁹ ¹⁰ ⁸

ClawsBench: 실제 사무환경을 모사한 상태풀 워크스페이스에서 에이전트 평가

ClawsBench는 Gmail·Slack·Google Calendar·Docs·Drive 다섯 개의 고정밀 모의 서비스에 전체 상태 관리와 스냅샷/복원을 제공하며, 단일·교차·안전 크리티컬 44개 태스크로 LLM 에이전트를 평가합니다. 도메인 스킬+메타 프롬프트를 모두 제공하면 성공률 39~64%를 보이지만, 동시에 7~33%의 ‘위험한 행동’도 관찰됩니다. OpenClaw 기준 상위 모델들은 성공률 53~63% 밴드에 모이며, 위험률 7~23%로 두 지표 간 일관된 서열은 나타나지 않습니다. ¹¹

연구는 에이전트 스캐폴딩을 ‘지식 주입’과 ‘행동 조정’ 두 레버로 분해해 각각이 결과에 미치는 효과를 분리해 보여줍니다. 다단계 샌드박스 에스컬레이션, 묵시적 계약 변경 등 8가지 반복적 위험 패턴도 정리되어, 능력 향상과 별도로 격리·가드레일이 필요함을 강조합니다. ¹¹

프론티어 맥락에서, Kimi K2.5 같은 모델은 단일 호출로 최대 100개 에이전트를 내부 오케스트레이션하고, 웹 브라우징 74.9%(BrowseComp), 256K 문맥을 MoE(총 1T, 활성 32B)로 제공합니다. 오케스트레이션이 모델 내부로 들어갈수록, ClawsBench류의 상태풀 샌드박스·권한 모델은 실패의 영향 반경을 제한하는 핵심이 됩니다. ¹² ¹³

CUE‑R: RAG에서 문서별 ‘운영 효용’을 가벼운 개입으로 측정

CUE‑R은 Retrieval‑Augmented Generation(RAG)을 답만 보는 대신, 개별 검색 문서의 ‘운영 효용’을 측정합니다. 문서를 제거(REMOVE)·치환(REPLACE)·중복(DUPLICATE)해 정답률·근거성(프록시)·확신 오류·추론 흔적 변화를 본 결과, REMOVE/REPLACE는 일관되게 정답·근거를 해치고 추론 흔적도 크게 흔듭니다. DUPLICATE는 잉여인 경우가 많지만 완전히 중립적이지는 않았고, 멀티홉에서는 두 지지 문서를 동시에 제거할 때 비가산적으로 성능이 급락했습니다. ¹⁴

요점은 “어떤 문서가 실제로 도움이 되었는가”를 측정하는 것입니다. 이는 정답 일치·인용 충실성 같은 기존 지표를 보완하고, 해로운/중복 컨텍스트를 식별해 RAG 파이프라인을 디버깅하는 실용 도구가 됩니다. ¹⁴

실무 팁: CUE‑R의 문서별 효용 분석에 더해 컨텍스트 가지치기를 적용하세요. RAG 구성요소(벡터DB·리트리버·임베딩·오케스트레이션) 이해와 함께, 밀집 검색→크로스 인코더 재랭크→의미 유사 임계값→중복 제거의 다단계 필터링은 환각·토큰 낭비를 줄이고 주의집중을 날카롭게 합니다. ¹⁵ ¹⁶ ¹⁷

커뮤니티 반응

Hacker News (93↑) — 더 작고 효율적인 멀티모달 모델의 진전은 반기지만, 벤치마크 상향이 세계 이해나 진짜 추론을 의미하진 않는다는 회의론이 공존.

[KO quote] "이 진전 소식을 보니 기쁘긴 한데 특별히 놀랍진 않아요... 약간의 연구 노력만 있으면 파라미터가 100배 적은 모델도 같은 점수를 낼 수 있다고 자동으로 예상합니다." — Hacker News

[KO quote] "GPU에서 돌린다는 건 인상적이지만, 유리잔을 기울이면 무슨 일이 일어나는지는 여전히 말해줄 수 없어요... 네 살짜리도 이걸 할 수 있고 우리는 겨우 1단계 반 정도에요." — Hacker News

Hacker News (186↑) — ClawsBench가 과대평가됐다는 비판이 다수; 더 큰 벤치마크의 선행 작업이 인정받지 못한다는 불만.

[KO quote] "언론을 통한 관심과 공로 분배가 매우 불공평... 10문제짜리 터무니없는 벤치마크가 큰 주목을 받았어요." — Hacker News

[KO quote] "이 도구들에 붙여진 마법 같은 능력들이 정말 사실인지 아닌지... 사실 아닙니다... 이 벤치마크에는 새로운 것이 전혀 없습니다." — Hacker News

Hacker News (69↑) — CUE‑R에 대해 생물학적 비유/방법의 적절성과, 다문서 비교가 실제 단일 문서 탐지 문제와 다른지 논쟁.

[KO quote] "생물학의 방법을 적용해 계통수와 유사한 결과를 얻은 것... 생물학적 비유가 아니라 생물학에서 영감 받은 방법입니다." — Hacker News

[KO quote] "AI 탐지는 일반적으로 단일 문서의 작성자 판별에 초점... 128개 문서 집합 비교는 완전히 다른 문제입니다." — Hacker News

왜 중요한가

오늘 소식은 세 축을 잇습니다. 오픈·효율 프런티어 모델(Gemma 4, Phi‑4 RV), 즉시 쓸 수 있는 인프라(vLLM), 그리고 MoE 압축·에이전트 안전·RAG 문서 효용 같은 ‘실전 적합성’ 지표입니다. 단일 GPU 수용, 128K~256K 문맥, GPQA 85.7%, 에이전트 성공 39~64%·위험 7~33% 같은 수치가 현재 역량과 안전의 경계선을 구체화합니다. ¹ ¹¹

개발자에게 의미하는 바는 명확합니다. 성능/파라미터와 라이선스 자유(Apache 2.0, MIT)가 로컬 실행 범위를 넓히는 한편, REAM·CUE‑R·ClawsBench는 “얼마나 잘 답하는가”를 넘어 “얼마나 안전하게 행동하는가, 어떤 증거를 쓰는가”를 검증하게 만듭니다. ² ⁷ ¹⁴

출처 16

[1] Goo Gemma 4: Our most capable open models to date [2] Deepmind Gemma 4: Byte for byte, the most capable open models [3] Agent-engineering Google Releases Gemma 4: The Most Capable Open-Weight Multimodal Models of 2026 [4] Vllm Announcing Gemma 4 on vLLM [5] Marvin-42 Google DeepMind launches Gemma 4 open models with Apache 2.0 licensing and native agent features [6] Microsoft Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model [7] The-decoder Microsoft's Bing team open-sources 'Harrier' embedding model [8] Arxiv REAM: Merging Improves Pruning of Experts in LLMs [9] Aisecurity-portal BadMoE: Backdooring Mixture-of-Experts LLMs [10] Freecodecamp How the Mixture of Experts Architecture Works in AI Models [11] Arxiv ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents [12] Remoteopenclaw Kimi K2.5 on OpenClaw: Agent Swarm, Benchmarks, and Setup Guide [13] Penligent Sandboxes for Coding Agents [14] Arxiv CUE-R: Beyond the Final Answer in Retrieval-Augmented Generation [15] Dev Context Pruning Unlocks Superior RAG Accuracy Metrics [16] Dev How to Implement Semantic Pruning in Your RAG Stack

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집