AI 뉴스Research

약 10분 2026. 4. 4.

Google DeepMindGemma 4open sourceMixture-of-Expertsmultilingual embeddings4D reconstruction

구글 Gemma 4, Apache-2.0 오픈가중치와 256K 컨텍스트로 오픈 모델 프론티어 확장

31B/26B(MoE)로 무장한 Gemma 4가 오픈 생태계를 주도하고, MS는 디코더 기반 다국어 임베딩으로 MTEB v2 SOTA를 갱신했다. DeepMind D4RT는 4D 비전을 300배 효율로 재정의한다.

기사에서 찾기

읽기 모드

한 줄 요약

구글이 Apache 2.0의 Gemma 4로 ‘로컬·엣지에서도 프론티어급 추론’을 열었고, MS는 다국어 임베딩 SOTA를 공개했으며, 멀티모달 추론·4D 장면 인지 연구가 동시에 전진했습니다.

LLM & SOTA Models

Gemma 4: 바이트당 지능 효율을 끌어올린 오픈 모델 패밀리

구글은 고급 추론과 에이전트 워크플로우에 맞춘 Gemma 4를 네 가지 크기 — Effective 2B(E2B), Effective 4B(E4B), 26B 혼합전문가(Mixture of Experts, MoE), 31B 밀집(Dense) — 로 공개합니다. 31B는 Arena AI 오픈 모델 랭킹에서 현재 세계 3위, 26B는6위를 기록하고, 긴 컨텍스트(엣지 128K, 대형 256K), 함수 호출·JSON·시스템 지시 등 에이전트 기능, 전 모델 이미지/비디오(엣지 모델은 오디오 입력까지) 지원을 제공합니다. 모든 모델은 상업적으로 자유로운 Apache 2.0 라이선스로 배포됩니다. ¹ ²

하드웨어 포인트로, 26B MoE는 추론 시 3.8B 파라미터만 활성화해 지연을 줄이고, 31B Dense는 품질 극대화에 초점을 둡니다. 무양자화 bfloat16 가중치는80GB H100 1장에 들어가며, 양자화 버전은 소비자 GPU에서도 로컬 IDE·코딩 도우미·에이전트를 실행합니다. 엣지 지향 E2B/E4B는 배터리·RAM을 아끼며 오프라인 근실시간으로 휴대폰, 라즈베리 파이, NVIDIA Jetson Orin Nano에서 구동되도록 Pixel·Qualcomm·MediaTek과 협업해 설계되었습니다. ¹ ²

출시 당일 생태계 연동도 눈에 띕니다. Hugging Face Transformers/TRL, vLLM, llama.cpp, MLX, Ollama, NVIDIA NIM/NeMo, ROCm, TPU 등 폭넓은 지원이 준비되었고, vLLM은 NVIDIA/AMD/Intel GPU와 Google TPU 전반의 데이원 지원을 알렸습니다. 대형 모델은 Google AI Studio, 엣지 모델은 AI Edge Gallery에서 바로 써볼 수 있고, 가중치는 Hugging Face·Kaggle·Ollama에서 내려받을 수 있습니다. ³ ²

Open Source & Repos

Microsoft Harrier-OSS-v1: 다국어 임베딩 SOTA, decoder-only로 전환

MS는 Harrier-OSS-v1을 270M·0.6B·27B 세 가지 크기로 공개했습니다. 전통적 인코더(BERT 계열) 대신 decoder-only 구조에 마지막 토큰 풀링과 L2 정규화를 적용하고,32,768 토큰의 긴 컨텍스트를 지원해 대형 문서·코드를 강한 청크 분할 없이 임베딩합니다. 공개 시점 기준 Multilingual MTEB v2에서 SOTA를 달성했습니다. ⁴ ⁵

Harrier는 검색 정확도를 위해 ‘질의에만 한 줄 지시문을 붙이고(문서는 지시문 없이) 인코딩’하는 인스트럭션 튜닝 방식을 채택했습니다. 소형(270M: 약 640차원)·중형(0.6B: 약 1,024차원) 모델은지식 증류로 27B 성능에 근접하도록 학습해, 엣지부터 엔터프라이즈까지 비용·지연의 선택지를 제공합니다. ⁴ ⁶

decoder-only 임베딩은 생성 LLM과의 표현 정렬을 돕고, 32K 컨텍스트로 RAG에서 청크 분할로 인한 의미 손실을 줄여 장문 검색·클러스터링 품질을 끌어올립니다. 업계 분석은 SOTA 오픈 대안의 등장이 유료 임베딩 API 의존을 낮추고, 로컬·커스터마이즈 파이프라인 확산을 가속할 것으로 전망합니다. ⁵ ⁴

Research Papers

Phi-4-reasoning-vision-15B: 작고 빠른 멀티모달 추론 모델의 설계 교훈

MS는 15B 파라미터의 오픈 가중치 멀티모달 추론 모델 Phi-4-reasoning-vision-15B를 발표했습니다. 약 200B 멀티모달 토큰으로 학습(언어 백본은 Phi-4: 400B 유니크 토큰, Phi-4-Reasoning: 16B 토큰)하여, 수학/과학 추론과 화면(UI) 그라운딩에서 강점을 보이면서도, 최근1T+ 토큰을 쓰는 대형 VLM 대비 효율적 성능을 지향합니다. ⁷ ⁸

모델은 미드-퓨전 구조에 SigLIP-2 Naflex 비전 인코더와 Phi-4-Reasoning 백본을 사용합니다. 해상도 처리 기법 소거 실험에서 동적 해상도 인코더가 고해상도 입력에서 특히 우수했고, 시각 토큰 상한을 3600으로 둘 때 ScreenSpot-Pro17.5로 향상되는 등(비교군 대비) UI·정보 밀집 이미지에 실용적 선택임을 보였습니다. 이는 표현력과 효율의 균형을 잡는 설계 근거로 작동합니다. ⁷ ⁸

데이터는 ‘질’에 초점을 두고, 오픈 데이터셋을 대대적으로 정제·개선하고, 필요 시 GPT-4o/o4-mini로 잘못된 캡션·정답을 재생성했습니다. ChartQA_TEST, MathVista_MINI, MMMU_VAL, ScreenSpot_v2 등의 일부를 묶은 비교에서, 속도·토큰 효율과 정확도 간 파레토 위치가 경쟁력 있음을 강조합니다. ⁷ ⁸

D4RT: 4차원(시공간) 장면 재구성과 트래킹을 하나로

Google DeepMind의 D4RT는 비디오에서 시간에 따른 3D 구조를 회복하는 통합 인코더–디코더 트랜스포머입니다. “소스 픽셀이 임의 시점 t, 선택된 카메라에서 3D로 어디인가?”라는 질의를 대량 병렬 처리해, 점 추적, 포인트클라우드 재구성, 카메라 포즈 추정을 단일 인터페이스로 해결합니다. ⁹

효율성에서 D4RT는 기존 SOTA 대비 약 18x~300x 빠릅니다. 예로1분짜리 비디오를 TPU 1칩에서 약 5초에 처리(비교군은 최대 10분, 약120x 개선)했고, MPI Sintel·Aria Digital Twin·RE10k 등에서 테스트타임 최적화 없이도 높은 충실도와 포즈 AUC를 보였습니다. ⁹

정확도와 속도를 함께 잡은 D4RT는 실시간 로보틱스 인지, 저지연 AR 장면 이해, 카메라/객체/정적 기하를 분리하는 ‘월드 모델’ 구성 요소로 유망합니다. 이는 강건한 물리 세계 이해를 요구하는 구현 지능의 기반이 됩니다. ⁹

커뮤니티 반응

Hacker News (24↑) — Gemma 4를 LMStudio로 로컬 실행할 때 성능이 들쭉날쭉하다는 보고가 나왔고, 도구 문제 vs. 모델 실용성 논쟁이 엇갈림.

"보통은 프레임워크(예: LMStudio)가 뭔가 잘못하고 있다는 뜻이고, 며칠 안에 그걸 고치는 업데이트가 나올 거예요." — Hacker News

Hacker News (93↑) — 멀티모달 추론 진전에 기대하면서도, 소형/로컬 모델 개선이 ‘진짜 이해’가 아닌 벤치마크 튜닝일 수 있다는 회의론 공존.

"이런 진전 소식을 보니 기쁘지만 특별히 놀랍진 않네요. 큰 연구소들은 우선 벤치마크에서의 정확도/높은 점수를 최적화합니다; 저는 자동으로 (어떤 연구 노력을 들이면) 파라미터가 100배 적은 모델도 같은 점수를 낼 수 있다고 기대합니다." — Hacker News

"응 나도 알아 ㅋㅋ, 그게 내 요점이야. 네 GPU에서 실행되는 건 인상적이지만, 기울인 유리잔에서 무슨 일이 일어나는지 말해주진 못해... 네 살짜리 아이는 이걸 할 수 있고 우리는 이제 막 첫 단계 좀 지나온 수준이다." — Hacker News

왜 중요한가

오픈이면서도 강력한 모델이 ‘로컬 퍼스트’ 경로를 굳힙니다. Gemma 4는 31B/26B와 E2B/E4B로 긴 컨텍스트·멀티모달·에이전트 기능을 Apache 2.0 아래에서 제공해, H100부터 스마트폰까지 강한 AI를 더 싸고 넓게 배포할 수 있게 합니다. 한편 32K 컨텍스트의 decoder-only 다국어 임베딩은 RAG의 청크 손실을 줄여 장문 검색/요약의 정확도를 높입니다. ¹ ⁴

연구 흐름도 이를 뒷받침합니다. Phi-4-reasoning-vision-15B나 D4RT 같은 작업은 ‘큰 예산’보다 ‘좋은 데이터·아키텍처’가 성능을 여는 열쇠임을 보여줍니다. 다음 경쟁력은 효율적인 추론, 신뢰할 수 있는 지각, 그리고 어디서나 실행 가능한 에이전트에 있을 가능성이 큽니다. ⁷ ⁹

출처 9

[1] Blog Gemma 4: Our most capable open models to date [2] Deepmind Gemma 4: Byte for byte, the most capable open models [3] Vllm Announcing Gemma 4 on vLLM [4] Huggingface Welcome Gemma - Google’s new open LLM [5] Marktechpost Microsoft AI Releases Harrier-OSS-v1 [6] Alabia Harrier-OSS-v1: The Multilingual Embedding Paradigm Shift [7] Microsoft Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model [8] Msft Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model (redirect) [9] Deepmind D4RT: Teaching AI to see the world in four dimensions

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집