구글 Gemma 4, Apache 2.0로 완전 공개… 단일 GPU에서 프런티어급 추론
31B 덴스와 26B MoE(활성 3.8B), 256K 컨텍스트, 함수 호출·멀티모달까지—이제 Apache 2.0. 무엇이 달라졌고, 수치의 맥락과 한계는 무엇인지 짚었습니다.
한 줄 요약
구글이 Gemma 4를 Apache 2.0 완전 오픈소스로 공개했고, 단일 GPU에서도 프런티어급 멀티모달 추론을 구현합니다. 동시에 TRL v1.0·Transformers 5.5·Giskard v3가 에이전트용 학습·평가 스택을 정돈했습니다.
LLM & SOTA Models
Google DeepMind Gemma 4, Apache 2.0 완전 오픈소스 전환
구글이 Gemma 4를 “가장 강력한” 오픈 모델로 공개했습니다. 핵심은 Apache 2.0 라이선스 전환으로, 개인·상업적 활용과 수정·재배포가 자유로워졌다는 점입니다(출처 표시 필요). 구성은 엣지 최적화 E2B/E4B(유효 2B/4B), 추론 시 3.8B 활성 파라미터만 쓰는 26B 혼합전문가(Mixture-of-Experts), 31B 밀집(dense) 모델 4종입니다. 대형 모델은 최대 256,000 토큰 컨텍스트와 140+개 언어를 지원하고, 함수 호출과 구조적 JSON 출력, 멀티모달 입력(이미지·영상, 오디오는 E2B/E4B)을 제공합니다. 1
성능은 오픈 모델 상위권입니다. 31B 지시튜닝 모델은 Arena AI 텍스트 리더보드 약 3위(≈1452 Elo), 26B MoE는 6위(≈1441 Elo). Gemma 3 대비 점프폭도 큽니다: AIME 2026 수학 20.8% → 89.2%, LiveCodeBench 코딩 29.1% → 80.0%, GPQA 과학 42.4% → 84.3% 등으로 다단계 추론·지시이행이 크게 강화됐습니다. 구글은 특히 계획-도구 호출-검증이 이어지는 “에이전틱(Agentic) 워크플로우”를 주요 타깃으로 제시합니다. 2
실전 배치의 포인트는 하드웨어 현실성입니다. 31B 모델은 80GB H100 한 장에서 BF16 비양자화로 구동 가능하고, 4비트 양자화 시 24GB급 소비자 GPU(RTX 4090, AMD 7900 XTX 등)에도 탑재됩니다. 엔비디아는 RTX 5090(Q4 양자화)에서 Apple M3 Ultra+llama.cpp 대비 약 2.7배 추론 속도를 보고했고, 데이터센터 Blackwell부터 Jetson 엣지까지 ‘데이-제로’ 최적화를 제공합니다. AMD도 Instinct·Radeon·Ryzen AI 전 라인업 동시 지원을 밝혔습니다. 2
이 오픈소스 전환은 수치 못지않게 전략적입니다. 이전 Gemma는 ‘오픈 웨이트’였지만 고유 약관이 상업 활용을 제한하기도 했습니다. Apache 2.0 채택으로 법무 검토 부담과 운영 리스크가 크게 줄어, 온프레미스 ‘주권형 AI’ 구축이 수월해졌습니다. 모델은 Google AI Studio, Hugging Face, Kaggle, Ollama 등에서 제공되며, 로컬 우선(트래픽 비공유)과 단일 GPU 미세튜닝 경로가 강조됩니다. 3
Open Source & Repos
TRL v1.0: SFT·DPO·GRPO·RLOO를 안정화한 ‘포스트 트레이닝’ 라이브러리
허깅페이스가 TRL v1.0을 공개했습니다. 연구용 코드를 ‘프로덕션급 라이브러리’로 격상하며 안정성 계약을 명시했고, 75개+ 방법을 포괄합니다. 안정 영역에는 감독 미세튜닝(SFT), 직접 선호 최적화(DPO), 리워드 모델링, RLOO, 그룹 상대 정책 최적화(GRPO)가 포함되고, 빠르게 변하는 기법은 ‘실험적’ 공간에서 검증 후 승격됩니다. 빠르게 진화하는 정렬/강화 스택을 ‘끊김 없이’ 따라가기 위한 설계입니다. 4
설계 철학은 ‘최소 추상화’와 ‘명시적 구현’입니다. 불안정한 공통 베이스 클래스를 강제하기보다, 코드 중복을 감수해도 각 기법의 변화를 흡수합니다. 이는 Unsloth, Axolotl 같은 생태계가 TRL 위에 직접 쌓이는 현실을 반영합니다. 또한 통합 CLI/설정과 Hub/PEFT 연계를 통해 재현 가능한 파이프라인을 제공, 방법 간 비교와 전환을 쉽게 합니다. 4
보완 설명에 따르면 v1.0의 CLI·설정 중심 흐름은 보일러플레이트를 줄이고, PEFT·Unsloth 연계로 학습 속도 최대 2배, 메모리 사용 최대 70% 절감이 가능합니다. SFT → 리워드 모델링 → 정렬의 단계화를 표준화해, 실험을 ‘기술’에서 ‘공학’으로 옮깁니다. 5
Transformers v5.5.0: Gemma 4 비전 파이프라인·롱컨텍스트 임베딩 추가
Transformers v5.5.0은 Gemma 4를 네이티브 지원합니다. 이미지를 고정 토큰 예산 안에 매핑하면서 종횡비를 보존하는 프로세서와, 높이/너비 축에 공간 관계(위/아래/좌/우)를 인코딩하는 2D RoPE가 핵심입니다. 이미지당 ‘소프트 토큰’을 70~1,120까지 설정할 수 있고(기본 280), ImageNet 표준 정규화 대신 모델 내부에서 스케일링을 처리합니다. 6
이번 릴리스에는 8,192 토큰 길이의 재현 가능한 임베딩을 제공해 OpenAI Ada-002·text-embedding-3-small을 능가한 NomicBERT, 20분 길이 음악/오디오까지 다루는 MusicFlamingo(시간 RoTE)도 포함됩니다. 내부적으로 Mamba/하이브리드 캐시를 일급으로 승격했고, 디스크 캐시로 정적 검사 속도를 최대 27배 개선, VLM/비디오 마스킹·토크나이저/이미지 프로세서 로컬 해결·서빙 연속 배칭 등 다수 버그를 수정했습니다. 6
참고: 라이브러리 설정 내 크기 표기(예: 1B/13B/27B)는 통합 과정의 산출물로, 구글 발표(유효 2B/4B·26B MoE·31B dense)와 다를 수 있습니다. 실무적 의미는 생태계 준비도입니다. Gemma 4 멀티모달·비디오 마스크 경로가 이미 연결돼, 가변 이미지 예산·롱컨텍스트 실험을 바로 시작할 수 있습니다. 6
Giskard v3(베타): ‘시나리오’ 기반 에이전트 테스트와 모듈화
Giskard v3는 의존성 지옥을 벗어나고 탭ular 중심 한계를 넘기 위해 모듈형으로 재설계됐습니다. giskard-checks는 ‘시나리오’를 도입해, 실제 사용자처럼 다중 턴 상호작용을 순서대로 실행하고 각 단계에 체크를 붙입니다. 첫 실패에서 멈추며 회귀를 즉시 드러내고, 간단한 술어에서 근거성·LLM 판사까지 다양한 검사를 구성할 수 있습니다. 7
아키텍처는 giskard-checks, giskard-agents 등으로 분리돼 필요한 것만 설치하면 됩니다. 로드맵에는 RAG 평가 툴킷(RAGET) 이식, OWASP 분류 기반 LLM 취약성 스캐너(단일/다중 턴), 엔터프라이즈용 Giskard Hub와의 연결 강화가 포함됩니다. 로컬 테스트에서 협업 모니터링까지 UI로 잇는 길을 열겠다는 구상입니다. 7
에이전트 개발자에게 핵심 가치는 ‘관측 가능성’입니다. 겉으로는 정답처럼 보여도, 내부에서는 도구 재시도·루프·정책 드리프트가 숨어 있을 수 있습니다. 시나리오 기반 체크는 이런 ‘조용한 실패’를 일찍 잡아 안정성을 반복 가능하게 만듭니다. 7
Research Papers
Signals: 에이전트 상호작용 샘플링·트리아지 신호
문제의식: 배포된 에이전트는 방대한 비결정적 트레이스를 남기며, 전수 인간/LLM 검수는 느리고 비쌉니다. Signals는 모델 호출 없이도 계산 가능한 가벼운 신호(상호작용: 비정렬·정체·이탈·만족, 실행: 실패·루프, 환경: 고갈)를 온라인 상호작용에 붙여, 리뷰 가치가 높은 트레이스를 우선 선별하는 ‘트리아지’ 층을 제안합니다. 8
결과: 도구 보강 에이전트 벤치마크 τ-bench에서 신호 기반 샘플링은 정보성 82%를 달성(휴리스틱 74%, 무작위 54%), 유의미 트레이스당 효율 1.52배를 보였습니다. 보상 구간·도메인 전반에서 우위가 유지돼, ‘누가 봐도 실패’만 과샘플링하는 게 아니라 진짜로 유익한 상호작용을 잘 잡아냄을 시사합니다. 8
왜 중요한가: 산업 보고도 ‘최종 정답’만 보는 평가는 루프, 오도된 도구 선택, 숨은 재시도, 비용 폭주를 놓친다고 지적합니다. 에이전트 평가는 출력을 넘어 ‘과정’을 봐야 하며, Signals는 값비싼 LLM/인간 심사를 보완하는 저비용 기반을 제시합니다. 9 10
LOME: 행동 조건 egocentric 월드 모델로 인간-물체 조작 학습
무엇을 하나: LOME는 입력 이미지·텍스트 프롬프트·프레임별 인간 행동(자세+손 제스처)에 조건을 걸어, 1인칭 시점의 인간-물체 상호작용 영상을 생성합니다. 학습 중 정밀한 행동 유도를 주입하고, 공간적 행동과 환경 문맥을 공동 추정해 미세하고 접촉이 많은 동작을 포착합니다. “따르기” 정확도가 높고, ‘따르기’의 물리적 결과(예: ‘따라 붓기’ 후 컵으로 액체 흐름)까지 현실적으로 재현합니다. 11
결과: 사전학습 비디오 생성 모델을 파인튜닝해, 이미지/비디오 기반 행동 조건 기법과 범용 I/T2V 대비 시간 일관성과 동작 제어가 개선됩니다. 시나리오 일반화와 행동 추종이 강해, 명시적 3D/4D 복원이나 취약한 시뮬레이터 없이도 AR/VR와 로봇 학습을 잇는 다리로 작동합니다. 11
맥락: 더 나은 데이터·제어로 ‘월드 모델’ 흐름이 가속 중입니다. RGB+5종 G-buffer를 담은 400만 프레임 AAA 게임 데이터셋은 역랜더링 일반화·G-buffer 유도 제어 가능한 비디오 생성을 보고했고, A3R은 3D 가우시안 장면에서 GRPO 정책으로 증거를 점진 취득하는 ‘행동 가능성’ 추론을 제시했으며, AnchorVLA는 확산 복원 단계를 줄여 잔차 자가보정으로 저지연 폐루프 이동조작을 달성합니다. 인지·행동 양면에서 ‘제어 가능한 생성’이 실전에 가까워졌다는 신호입니다. 12 13 14
커뮤니티 반응
Hacker News (1758↑) — 초기 사용기는 일부 툴링/패치 문제를 보고했지만 새로 받아오면 해결됐다는 피드백도 등장. 전반 정서는 기대와 조심스러움이 공존하며, 과대홍보·점진 개선에 대한 경계가 보입니다.
"업데이트 - LM Studio를 새로 받아오니 문제가 해결된 것 같습니다" — Quote (KO)
"나는 대부분 사람들보다 더 많은 걸 해보는 편이라, "드디어 기다림이 끝났다, 단 두 번만 더 개선하면 된다" 같은 말은 하지 않아요" — Quote (KO)
왜 중요한가
Apache 2.0, 단일 GPU 실용성, 높은 추론 지표가 결합된 Gemma 4는 로컬·주권형 AI의 장벽을 낮춥니다. 함수 호출, 롱컨텍스트, 멀티모달이 필요한 에이전틱 앱에 특히 적합합니다. TRL v1.0·Transformers 5.5·Giskard v3가 학습·서빙·테스팅의 공통 토대를 정리하면서, 데모에서 ‘지속 가능한 시스템’으로의 이행이 빨라집니다. 2 4
연구 흐름도 같은 메시지를 줍니다. 신뢰 가능한 에이전트에는 관측 가능성과 과정 평가가 필수이고, 월드 모델·행동 정책은 더 싸고 튼튼해지는 중입니다. 오늘의 수치 — 정보성 82%, 256K 컨텍스트, 로컬 2.7배 — 는 평가 인프라에 투자할수록 내일의 프로덕션 성과로 이어집니다. 8 6
댓글 (0)