구글 Gemma 4 공개: 31B가 오픈 모델 Top-3, E2B/E4B는 완전 오프라인 구동
31B가 초거대 모델과 맞붙고, 26B MoE는 3.8B만 활성—효율의 기준이 바뀌었다. 짧은 CoT·자율 멀티에이전트 탐색까지 오늘의 핵심.
한 줄 요약
구글 Gemma 4가 Apache 2.0으로 완전 개방되며 장문맥·멀티모달·온디바이스를 끌어올렸고, 연구에선 다중 에이전트 진화와 저토큰 추론이 한발 더 진전했습니다.
LLM & SOTA Models
Gemma 4: 바이트당 지능을 앞세운 오픈 모델
Gemma 4는 “적은 파라미터로 더 똑똑하게”를 실제 배포까지 밀어붙인 제품군입니다. 네 가지 크기(Effective 2B, Effective 4B, 26B 혼합전문가, 31B 조밀)로 폰부터 워크스테이션까지 커버하고, 도구 호출·구조적 JSON·시스템 지시문을 기본 탑재했습니다. 31B는 Arena AI 오픈 모델 순위 #3, 26B MoE는 #6에 올라 동급 대비 최대 20배 큰 모델을 앞서는 것으로 보고됩니다. 특히 26B MoE는 추론 시 활성 파라미터를 3.8B만 켜 속도를 끌어올립니다. 전체가 Apache 2.0로 공개됩니다. 1 2 3
실사용 관점 변화: 엣지용 E2B/E4B는 휴대폰·Raspberry Pi·Jetson Orin Nano에서 완전 오프로 동작하며 네이티브 오디오 입력도 지원합니다. 컨텍스트 윈도우는 엣지 128K, 대형 256K로 확대되어 저장소 전체나 긴 PDF를 한 번에 넣을 수 있습니다. 26B/31B의 bfloat16 미양자 무게는 80GB H100 한 장에 들어가고, 양자화 버전은 소비자용 GPU도 타깃—IDE 코드 도우미나 에이전트 워크플로우의 로컬 구동이 현실화됩니다. 1 4 5
왜 주목받나: Apache 2.0은 상업·재배포 제약을 제거해 엔터프라이즈 내장에 유리합니다. 초기 제3자 분석은 강한 추론력(GPQA Diamond 31B Reasoning 85.7% 등)과 토큰 효율 향상을 전합니다. 또한 vLLM, llama.cpp, MLX, Ollama 등 생태계가 첫날부터 지원하고, Hugging Face·Kaggle·Ollama에서 바로 내려받을 수 있습니다. 누적 4억+ 다운로드, 10만+ 변종 커뮤니티와 맞물려, Gemma 4는 폐쇄형 Gemini와 병행하는 구글의 오픈 가중치 전략을 가장 선명하게 보여줍니다. 6 2 7
Open Source & Repos
vLLM, Gemma 4 즉시 지원
vLLM은 Gemma 4 전체 라인업을 즉시 지원하며, NVIDIA 외에도 Google TPU·AMD GPU·Intel XPU까지 첫날 백엔드를 제공합니다. vLLM의 런타임 최적화(예: 페이지드 어텐션)는 곧바로 처리량↑·서빙비용↓로 이어지는 경우가 많아, 128K~256K 장문맥 변형을 다양한 하드웨어에서 경제적으로 돌릴 수 있게 됩니다. 6
개발자는 Gemma 4의 강점—함수 호출, 구조적 JSON, 시스템 지시문, 비전(및 E2B/E4B의 오디오)—을 그대로 활용할 수 있고, 140+ 언어 기반의 다국어 앱 제작도 뒷받침됩니다. 양자화·미세튜닝 경로와도 호환되어 로컬·클라우드 배포를 빠르게 시도할 수 있습니다. 6
GKE/GCE용 퀵스타트는 Trillium·Ironwood TPU와 NVIDIA GPU를 아우르며, 팀은 가용성과 비용에 맞춘 가속 스택을 선택할 수 있습니다. 실전에서는 대형 저장소 분석, IDE 코드 보조, 경량 엣지 추론 프로토타이핑의 초기 장벽을 낮춥니다. 6
CORAL 코드 공개: 자율 다중 에이전트 진화
CORAL 프레임워크 코드는 공개되어, 장시간 동작하는 ‘진화형’ 다중 에이전트 시스템을 바로 실험할 수 있습니다. 영속 메모리 공유, 비동기 실행, 하트비트 개입과 함께 작업공간 격리·평가자 분리 등 안전장치를 포함해, 고정 규칙 기반 진화가 갖는 취약성을 줄입니다. 8
수학·알고리즘·시스템 최적화 전반에서 CORAL은 10개 작업 SOTA, 고정 탐색 대비 3~10배 높은 개선률을 더 적은 평가로 달성합니다. Anthropic 커널 엔지니어링 과제에서는 4개 공진화 에이전트가 최고 점수를 1363→1103 사이클로 낮춰, 다중 탐색이 실제 저수준 튜닝을 밀어올림을 보였습니다. 8
이 저장소는 개방형 발견 문제에서 ‘지식 재사용·에이전트 간 소통’이 중요할 때, 오케스트레이션과 가드레일을 바닥부터 만들지 않고 실험을 시작할 수 있는 실무용 출발점입니다. 8
Research Papers
CORAL: 열린 문제를 향한 자율 다중 에이전트 진화
많은 LLM 기반 ‘진화’는 여전히 고정 규칙에 묶입니다. CORAL은 장시간 에이전트가 탐색·성찰·협업하며 공유 메모리를 쓰게 하고, 자원 관리·헬스체크·격리 등 운영 수준의 안전장치를 더해 낭비를 줄입니다. 결과적으로 평가 횟수는 줄이고 부분 통찰의 재사용을 늘립니다. 8
CORAL은 다양한 작업에서 10개 SOTA, 고정 베이스라인 대비 3~10배 개선률을 기록했고, Anthropic 커널 과제에선 1363→1103 사이클로 단축했습니다. 분석은 소통과 메모리가 핵심 동력임을 보여줍니다. 넓게 찾는 것뿐 아니라 ‘무엇을 남길지’ 배우는 것이 중요합니다. 8
인접 연구들도 흐름이 같습니다. 예컨대 Mimosa는 LLM 판정을 통해 워크플로를 진화시켜 ScienceAgentBench에서 정적 팀을 앞섰습니다. “진화 + 감사가능성”은 과학 자동화의 재현 가능한 패턴으로 굳어가는 모습입니다. 9
Batched Contextual Reinforcement (BCR): 효율적 추론의 작업 규모 법칙
핵심은 구조의 전환입니다. 한 번에 N개의 문제를 동일 컨텍스트 안에서 풀도록 학습하고, 개별 정답률만 보상합니다. 이렇게 암묵적 토큰 예산이 생겨 모델이 장황함을 스스로 줄이게 되고, 길이 패널티에서 흔한 최적화 붕괴 없이 안정적으로 ‘짧고 정확한’ 해법을 배웁니다. 10
저자는 작업 규모 법칙을 관찰합니다. 추론 시 N을 키우면 문제당 토큰은 단조 감소하지만, 정확도는 베이스라인보다 훨씬 천천히 떨어집니다. 1.5B와 4B 모델의 5개 수학 벤치마크에서, BCR은 토큰을 15.8%~62.6% 줄이면서 정확도를 유지/개선—단일 문제 추론에서는 사실상 ‘공짜 점심’에 가깝습니다. 10
장문맥 효율의 다른 축과도 맞닿습니다. 테스트 시 가중치에 문맥을 저장하는 기법은 비용을 상수로 묶지만 정밀 검색을 일부 희생합니다. BCR은 학습 단계에서 ‘스스로 절제’하는 방법을 제시해, 두 접근이 결합되면 장문맥·저비용 추론의 실전성이 더 커질 수 있습니다. 11
범용 음소 인식을 위한 경험적 레시피 (PhoneticXEUS)
다국어 ASR의 기반인 음소 인식은 영어 중심 모델이 일반화에 약했습니다. PhoneticXEUS는 대규모 다국어로 학습해 다국어 평균 17.7% PFER, 억양 있는 영어 10.6% PFER로 SOTA를 기록하고, SSL 표현·데이터 규모·손실의 기여를 정량화했습니다. 데이터와 코드는 공개됩니다. 12
왜 중요하나: WER/CER 같은 전통 지표는 코드믹스·스크립트 선택·숫자 표기·구어체 등이 흔한 인도어에서 실제 품질을 왜곡합니다. LLM‑WER/LLM‑CER, 의도 점수, 엔터티 보존 점수를 더하는 다층 평가가 의미 보존을 잡아내며, 다국어 견고성 주장과도 더 잘 들어맞습니다. 13
또한 평가 자체가 텍스트 단발에서 오디오 기반 다회차 대화로 이동합니다. Audio MultiChallenge는 메모리·지시 유지·자기일관성·중간 수정(Voice Editing)을 시험하며, 최고 모델도 54.65%에 그칩니다. 오디오 네이티브 장기 추론은 여전히 개척지입니다. 14
왜 중요한가
오늘의 축은 둘입니다. (1) 어디서나 배포 가능한 오픈 모델(Apache 2.0, 장문맥, 에이전트 네이티브, 엣지 우선)과 (2) 더 싸고 자율적인 추론(BCR, CORAL). 이 둘이 만나면 개인·기업의 로컬·프라이빗·저비용 에이전트가 ‘연구 데모’를 넘어 실전에 안착합니다. 1 10
팀 입장에선 실행보다 어휘가 중요합니다. 속도를 위한 ‘활성 파라미터’ MoE, 장황함을 줄이는 ‘암묵 토큰 예산’, 열린 탐색을 밀어주는 ‘지속 메모리 다중 에이전트’. 지난 2년이 “크게 만들기”였다면, 2026년은 “똑똑하게 쓰기”—내 하드웨어, 내 데이터, 더 적은 토큰으로입니다. 8 6
댓글 (0)