제01권 · 제10호 데일리 디스패치 2026년 4월 12일

최신 AI 뉴스 모음집

AI · 논문데일리 큐레이션공개 아카이브
AI 뉴스Research
약 7분

오프라인 멀티모달 ‘Gemma 4’ 공개의 의미

구글 Gemma 4가 아파치 2.0으로 공개돼 폰부터 워크스테이션까지 오프라인 멀티모달이 가능해졌어요. GLM‑5.1은 코딩 벤치마크에서 폐쇄형을 추격했고요. 오늘 당장 무엇이 달라졌는지 정리해요.

읽기 모드

한 줄 요약

구글이 Gemma 4를 공개해 오프라인 멀티모달 추론이 현실이 됐어요.

LLM & SOTA Models

Gemma 4: 폰부터 워크스테이션까지 돌아가는 오픈 멀티모달

“내 PC·폰에서 바로 쓰는 코파일럿”에 가까워졌어요. Gemma 4는 텍스트·이미지·비디오(소형은 오디오까지)를 기기에서 직접 처리하고, 네 가지 크기—Effective 2B(E2B), Effective 4B(E4B), 26B 전문가 혼합(Mixture of Experts, MoE), 31B 치밀(Dense)—로 출시됐으며 아파치 2.0 라이선스예요. 31B는 4월 1일 기준 Arena AI 오픈 모델 텍스트 리더보드에서 3위, 26B는 6위를 기록했고, 에지 모델 128K·대형 모델 최대 256K 컨텍스트, 140개+ 언어를 지원해요. 1

빌더 입장에선 에이전트 워크플로에 바로 쓸 수 있는 함수 호출, 구조적 JSON, 시스템 인스트럭션이 기본이고, 오프라인 코드 생성 품질도 강조돼요. 워크스테이션급에선 미양자화 bfloat16 가중치가 80GB NVIDIA H100 한 장에 수용되고, 소비자용 GPU용 양자화 버전도 제공돼요. 모바일·IoT용 E2B/E4B는 픽셀팀과 Qualcomm·MediaTek 등과 협업해 완전 오프라인·초저지연을 목표로 설계됐어요. 1

생태계도 첫날부터 열렸어요. vLLM이 Nvidia·AMD·Intel GPU와 Google TPU까지 지원해 긴 컨텍스트(128K~256K)와 에이전트 입출력을 그대로 소화하고, GKE·TPU로 확장 배포할 수 있어요. GUI 선호자라면 Transformers, Ollama, llama.cpp, MLX, LM Studio 등도 바로 쓸 수 있어요. 2

프라이버시와 데이터 통제를 중시하는 팀에는 아파치 2.0 + 온디바이스 조합이 유리해요. 온프렘이나 망 분리 환경에서도 구축 가능하고, 필요 시 Vertex AI·Cloud Run·GKE로 확장하면 돼요. 벤치마크는 업데이트 중이지만, 오늘의 핵심은 “채팅을 넘어 에이전트급 추론을 보급형 하드웨어에서”예요. 1

GLM‑5.1: 오픈웨이트가 SWE‑bench Pro 58.4%로 폐쇄형 추격

Z.AI의 GLM‑5.1은 754억이 아니라 7540억 파라미터의 전문가 혼합 모델로, SWE‑bench Pro에서 58.4%를 기록해 해당 평가에서 GPT‑5.4, Claude Opus 4.6, Gemini 3.1 Pro를 앞섰어요. MIT 라이선스, 20만 토큰 컨텍스트와 12.8만 토큰 출력, 수시간 자율 실행을 목표로 학습됐고, 655단계로 리눅스 데스크톱을 구성한 8시간 데모도 공개됐어요. 데모는 벤더 주장이라 재현 검증이 필요하지만 방향성은 분명해요. 3

사람 평가 기반 코딩 리더보드인 Arena.ai Code Arena에서는 1530 Elo(4월 10일)로 세계 3위를 기록했어요. 요지는 코딩 특화 지표에서 강하지만, 수학·과학 추론 같은 범용 추론에선 최상위보다 뒤처진다는 점이에요. 즉 “코딩 스페셜리스트”에 가깝습니다. 4

왜 중요한가요? 오픈웨이트 + 높은 코딩 성능이면 온프렘 자가 호스팅, 사내 코드로 파인튜닝, 토큰 요금 회피 같은 선택지가 열려요. 다만 인프라 요구가 크고, IDE 보조 도구 생태계는 폐쇄형 대비 얇으며, 장시간 안정성은 제3자 재현이 필요해요. 3

Open Source & Repos

PokeClaw와 OpenClaw: 온디바이스 폰 제어와 로컬 우선 에이전트 프레임워크

PokeClaw는 “첫 온디바이스 안드로이드 제어 AI”를 표방하는 깃허브 프로젝트예요. Gemma 4 기반, 클라우드·API 키 없이 동작하고, Android 9+·아파치 2.0을 명시해요. 폰 제어 성격상 테스트 기기에서 권한 범위를 먼저 검토하는 것이 안전해요. 5

한편 OpenClaw(분석 기사)는 오픈소스 로컬 우선 에이전트 프레임워크예요. 원하는 모델을 가져와 도구·채널을 붙이고, 상태를 유지하며 다단계 자동화를 구성하는 식이에요. 깔끔한 단일 챗 UI보다 자가 호스팅과 확장성을 중시하는 팀에 맞고, “내 런타임·내 데이터”를 원할 때 각이 서요. 단, 인프라·권한·롤백을 직접 책임져야 해요. 6

비공식 “Gemma 4 APK” 다운로드 페이지도 돌고 있어요. 오프라인·프라이버시를 강조하지만 사이드로딩은 보안·업데이트 리스크가 따릅니다. 실험한다면 플랫폼 보안 수칙을 따르고, 가능하면 공식 배포 채널을 우선하세요. 해당 페이지들도 주의 설치를 권고하고 일반적 사이드로딩 절차를 안내해요. 7 8

Hermes HUD UI: 지속 실행 에이전트를 ‘보이는’ 대시보드로

Hermes HUD UI는 Nous Research의 셀프 호스트 에이전트 Hermes를 위한 브라우저 대시보드예요. TUI로 먼저 인기를 얻은 ‘의식 모니터’를 웹으로 옮겼고, 정체성·메모리·스킬·세션·프로젝트·크론·비용·라이브 채팅 등 13개 탭을 WebSocket으로 실시간 갱신해요. Python 3.11+, Node 18+, ~/.hermes 데이터가 있는 Hermes 실행 환경이 필요해요. 9

Hermes 자체는 로컬 또는 저가 VPS에서 지속 실행되며, 대화와 실행을 분리하고 터미널·파일·웹 등 명시적 도구를 씁니다. 실행 백엔드는 로컬·Docker·SSH 등으로 바꿀 수 있고, ~/.hermes 아래에 설정·SOUL.md(정체성)·메모리·스킬·세션을 저장해요. 메시징 게이트웨이는 페어링·허용 목록으로 안전하게 연결돼요. 요지는 “챗 탭”이 아니라 “운영되는 서비스”로 다루라는 점이에요. 10 11

팀 입장에선 “지속 에이전트 + 실시간 대시보드” 조합이 운영을 현실화해요. 메모리 증가, 비용 추이, 도구 사용을 눈으로 보며 권한과 스킬을 조정할 수 있어요. 그게 ‘가끔 여는 챗’과 ‘운영하는 보조자’의 차이예요. 9

왜 중요한가

Gemma 4는 허용적 라이선스와 온디바이스 추론으로 “강한 멀티모달·에이전트”를 우리가 가진 기기 위로 끌어왔어요. 여기에 코딩 특화 오픈웨이트(GLM‑5.1)와 성숙해지는 에이전트 스택까지 더해지면서, 데이터를 옮기지 않고도 현장에서 학습·배포·모니터링하는 선택지가 넓어졌습니다. 1 2 3

이번 주 시도해볼 것

  1. Gemma 4 간단 체험: Google AI Edge Gallery나 vLLM으로 26B/31B를 로컬 서빙해 128K~256K 컨텍스트와 JSON/함수 호출을 시험해보세요. 1 2
  2. Hermes + HUD 15분 설치: Hermes를 깐 뒤 HUD UI를 띄워 세션·스킬·비용을 보면서 Docker 샌드박스에서 간단한 터미널 작업을 실행해보세요. 9 10
  3. 폰 샌드박스 테스트: 여분 안드로이드에 PokeClaw를 설치해 로컬 제어 흐름을 체험하고, 권한·로그를 먼저 점검해보세요. 5

출처 10

도움이 되었나요?

댓글 (0)