AI 뉴스Research

약 12분 2026. 4. 26.

GLM-5.1Kimi K2.6Agentic codingSWE-Bench ProMixture of ExpertsOpen-source agents

Zhipu GLM‑5.1 공개 가중치로 에이전트 코딩 급진전, Kimi K2.6는 12시간 스웜 실행으로 일반 배포

장시간 ‘에이전트형’ 작업이 데모를 넘어 실전에 들어갑니다. Zhipu GLM‑5.1은 8시간 자율 실행과 함께 공개 가중치를 배포했고, Moonshot의 Kimi K2.6는 300개 에이전트 스웜으로 일반 배포에 돌입했습니다.

기사에서 찾기

읽기 모드

한 줄 요약

공개 가중치와 실전 배포급 에이전트형 모델이 코딩 업무로 파고들고, 오픈소스 에이전트는 장기 기억·데스크톱 제어·실습 도구로 빠르게 실용성을 키웁니다.

LLM & SOTA Models

GLM-5.1: 8시간 자율 실행과 공개 가중치를 내건 장기 코딩 모델

GLM‑5.1은 코드를 비롯한 다단계 작업을 몇 시간씩 멈추지 않고 수행하도록 설계된 모델이며, 가중치를 MIT 라이선스로 공개했습니다. 단일 과제를 최대 8시간 자율 실행하고, 200K 토큰 컨텍스트와 최대 128K 출력 토큰으로 큰 코드베이스와 긴 추론 체인을 담아냅니다. 도구 호출과 구조화 출력 등을 지원하며 SGLang, vLLM 같은 일반 추론 스택으로 서빙할 수 있습니다. ¹

코딩 벤치마크에선 출처마다 수치가 다릅니다. MarkTechPost는 SWE‑Bench Pro에서 58.4를 기록했다고 밝히는 한편, TokenMix는 GLM‑5.1을 현 플래그십으로 소개하며 SWE‑Bench Pro 70%, 128K 컨텍스트, MTok당 입력 $0.45·출력 $0.80 가격 정보를 제시합니다. 하니스, 설정, 평가자에 따라 점수와 비용 인상이 달라질 수 있음을 보여줍니다. ¹ ²

기술적으로는 전문가 혼합(MoE) 아키텍처와 비동기 강화학습(RL)을 결합해 효율을 높이고 장기 실행 중 ‘제자리걸음’에 빠지지 않도록 했습니다. 수백 회 반복과 수천 건 도구 호출에서도 전략을 갱신하며 진전을 이어가도록 훈련·추론 설계를 했다는 점이 특징입니다. ¹

배포 측면에서는 Z.AI 플랫폼 API와 자체 호스팅을 모두 지원하며, 주류 추론 라이브러리에서 곧바로 구동 가능합니다. 장기 실행과 공개 가중치의 조합은 에이전트형 코딩 시스템의 실전 기반으로 쓰기 적합한 구성을 제공합니다. ¹

Kimi K2.6: 에이전트 코딩을 ‘미리보기’에서 실전으로

Kimi K2.6는 최대 12시간 실행과 최대 300개 하위 에이전트·4,000단계 조정을 위해 튜닝된 코딩 특화 모델로, 그간의 데모를 실전 인프라로 끌어올립니다. Moonshot AI는 2026-04-13 Code Preview 확인 8일 만에 “Preview” 라벨을 제거하고 Kimi.com·앱·공식 API·Kimi Code 명령줄 인터페이스(CLI) 전반에 K2.6를 일반 배포(GA)로 출시했습니다. 공개 지표에는 Terminal‑Bench 2.0 66.7, SWE‑Bench Pro 58.6 등이 포함됩니다. ³

핵심은 ‘지속성과 조정’입니다. 자동 컨텍스트 압축으로 세션을 12시간까지 늘리고, 네이티브 스웜 오케스트레이션으로 300개 하위 에이전트를 병렬로 굴립니다. 공개 사례에서 K2.6는 4,000+ 도구 호출로 로컬 Zig 추론 스택을 최적화하고, 13시간 동안 8년 된 자바 매칭 엔진을 리팩터링해 중앙값 처리량 185% 향상을 이끌었습니다. ³

내부 구조는 1조 파라미터의 전문가 혼합(MoE)을 유지하되 토큰당 320억 파라미터만 활성화하고, 컨텍스트 길이는 262,144 토큰입니다. 네이티브 멀티모달 모델이며, vLLM·SGLang·KTransformers 배포를 권장하고 K2.5와 구성 호환성을 유지합니다. ⁴

스웜 모드는 문서를 재사용 가능한 ‘Skill’로 전환해 대규모 조사·콘텐츠 생산 워크플로를 최소 감독으로 수행합니다. Claude Code에서 점진 이관을 돕기 위해 API는 Anthropic 호환을 유지합니다. ⁴

Open Source & Repos

Hermes Agent: 스스로 기술을 축적하는 서버형 오픈소스 에이전트

Hermes Agent는 경험에서 ‘스킬’을 만들어 재사용하는 학습 루프와 최신 CLI를 갖춘 항상‑켜짐 오픈소스 비서입니다. 2026-04-23 v0.11.0이 배포됐고, MIT 라이선스와 활발한 커뮤니티 개발이 특징입니다. ⁵

문서는 지속 실행, 장기 기억, 다중 메시징 게이트웨이(예: 텔레그램, 디스코드), 브라우저 자동화를 강조합니다. 설치는 1줄 스크립트와 LLM 설정 마법사로 이뤄져, 개인·팀 단위 비서를 쉽게 띄울 수 있습니다. ⁶

기술 글은 세 겹의 메모리(세션·영속·스킬), 자율 디버깅 활용, 확장되는 플러그인 면을 설명합니다. 최근 버전에서 UI 업그레이드와 Bedrock 지원 등이 더해졌고, 반복 가능한 수정과 학습 절차 재사용을 아키텍처 차원에서 노립니다. ⁷

최근 오픈 이슈는 선택형 데스크톱 컴퓨터 사용 모듈을 제안합니다. 컨테이너화된 Chromium 데스크톱에 스크린샷·마우스/키보드 제어·noVNC 개입을 더하며, 환경변수(COMPUTER_USE_ENABLED=true)로 완전 차단 가능한 옵션으로 제시됐습니다. ⁸

nanobot: 초경량 개인용 AI 에이전트

Nanobot은 설치가 간단하고 가볍게 돌리는 개인용 에이전트를 지향하는 MIT 라이선스 프로젝트로, 2026-04-21 v0.1.5.post2에서 안정성과 지원 범위를 늘렸습니다(윈도우·Python 3.14 추가). PyPI에서 빠르게 받아 일상 자동화를 시작할 수 있도록 설계됐습니다. ⁹

무거운 인프라 없이 개인 도우미를 원할 때 맞춰진 프로젝트로, 간결함을 유지하면서 파일 읽기·채팅 등 일반 도구를 담았습니다. 릴리스 노트는 대규모 기능 추가보다 도달 범위 확대와 마감 품질을 강조합니다. ⁹

한편, ML 엔지니어를 겨냥한 특화형 에이전트 툴도 늘고 있습니다. 예컨대 “ML Agent” 리포지토리는 허깅페이스 생태계와 밀접히 통합된 CLI 도우미로, 논문·코드·데이터셋을 엮어 ML 코드를 작성·배포하는 워크플로를 표방합니다. ¹⁰

Harvard CS249r Book: TinyTorch 실습으로 ‘머신러닝 시스템’ 배우기

하버드의 오픈형 머신러닝 시스템 교재·랩 묶음은 한국어를 포함한 다국어 문서로 AI 시스템 공학을 실습 기반으로 익히게 합니다. 원리와 실행 가능한 랩을 함께 제공해 만들어 보며 배우는 경로를 제공합니다. ¹¹

최신 TinyTorch v0.1.10은 Tensor API(view, masked_fill, ndim, numel, contiguous), no_grad() 컨텍스트, 보안·감사 개선 등 랩 프레임워크를 크게 확장했습니다. ¹¹

데이터가 적은 산업 현장을 위한 개념 정리는 오픈 액세스 책 “Informed Machine Learning”이 유용합니다. 물리 모델·규칙·지식 그래프 등 기존 지식을 데이터와 결합해 표본 요구를 줄이고 견고성을 높이는 방법을 산업 사례와 함께 요약합니다. ¹²

커뮤니티 반응

Hacker News (709↑) — Kimi의 기능·벤치마크 도구에 대한 관심과 함께, 범위·투명성·가격 접근성에 대한 우려가 공존합니다. ¹³

"멋진 웹사이트네요. 다양한 벤치마크나 측정 방식에 대해선 잘 몰라서 정확성을 판단하긴 어렵지만, 레이아웃과 기능이 특히 spectator 기능이 정말 좋습니다. 한 가지, 'Market simulator' spectator 기능은 봤는데 그에 상응하는 벤치마크는 보지 못했습니다. 그게 'Finance'인가요, 'Betting'인가요, 아니면 'Trading'인가요?" — Hacker News ¹³

"저는 현재 월 100달러 플랜을 쓰고 있는데, 전일제로 쓰는 것도 아닌데도 사용량 한도가 매주 소진됩니다. 월 20달러 플랜으로는 얼마나 적게 쓸 수밖에 없는지 상상이 안 되네요. 참고로 제 나라에서 신입 엔지니어의 월 초임이 250달러입니다. 심지어 월 100달러도 학생이나 초기 직장인에게는 부담입니다" — Hacker News ¹³

Hacker News (257↑) — 초경량 개인 에이전트에 대한 호기심이 크지만, 보안·견고성·설계 완성도를 크기보다 우선시해야 한다는 의견이 적지 않습니다. ¹⁴

"이건 정말 멋진 아이디어예요. 저는 CC를 거대한 코드베이스와 방대한 문서들과 함께 끌고 다니고 있는데, 잘할 때는 훌륭하지만 가끔은 실패하기도 합니다.. 더 효율적이고 효과적인 방법이 있을지 궁금했어요. 이 글이 생각하게 해줬습니다. 공유해줘서 고마워요!" — Hacker News ¹⁴

"능동적인 어시스턴트에서 나오는 모든 사용 사례들에 영감을 받았지만, 락다운(보안)을 생각하면 '초경량'은 제가 원하지 않는 특징입니다. 저는 제 버전을 직접 만들기 시작했는데, 공개하기 전에 모든 요소가 설계되고 신중히 검토되어야 합니다. 저는 이 경량 라이브러리들 코드보다 테스트가 더 많아요. 제게는 크기가 중요한 게 아니라 망가지는 것이 중요합니다(즉, 보안이 더 중요합니다)." — Hacker News ¹⁴

왜 중요한가

에이전트형 모델은 수다형 챗봇에서 ‘지속 실행 가능한 디지털 동료’로 이동 중입니다. GLM‑5.1과 Kimi K2.6는 긴·어수선한 업무(코딩, 조사, 다중 앱 워크플로)를 사람의 상시 감독 없이 끌고 가려는 방향을 보여주고, Hermes와 nanobot 같은 오픈소스는 팀이 안전하게 커스터마이즈·자가 호스팅·반복 개선할 통로를 제공합니다. 비개발자에게 중요한 포인트는 “더 오래, 덜 간섭해도 돌아간다”는 변화입니다. ¹ ³

벤치마크는 맥락이 성적만큼 중요합니다. 하니스·도구·평가자가 달라지면 결과가 흔들릴 수 있으니, 동등 조건 비교와 과제당 비용을 함께 보아야 합니다. 특히 에이전트 워크플로에서는 리더보드를 ‘방향성’으로 해석하는 태도가 유효합니다. ¹⁵ ²

이번 주 시도해볼 것

Hermes Agent 빠른 설치: 1줄 설치 후 ‘hermes setup’으로 모델을 고르고 텔레그램/디스코드 연동까지 확인해 보세요. ⁵
Kimi K2.6 체험: Kimi 앱이나 Kimi Code CLI로 12시간 장기 실행을 직접 관찰해 보세요. ³

출처 16

[1] Marktechpost Z.AI Introduces GLM-5.1: An Open-Weight 754B Agentic Model That Achieves SOTA on SWE-Bench Pro and Sustains 8-Hour Autonomous Execution - MarkTechPost [2] Tokenmix glm-4.1v-9b-thinking & glm-4.5-flash: Zhipu Model Roundup (2026) - TokenMix Blog [3] Marktechpost Top 7 Benchmarks That Actually Matter for Agentic Reasoning in Large Language Models - MarkTechPost [4] Kimi-k2 Kimi K2.6 Officially Released: The Agentic Coding Era Enters Production [5] Marktechpost Moonshot AI Releases Kimi K2.6 with Long-Horizon Coding, Agent Swarm Scaling to 300 Sub-Agents and 4,000 Coordinated Steps - MarkTechPost [6] Github NousResearch/hermes-agent: The agent that grows with you [7] Ai-navigate-news Hermes agent: Introduction | AI Navigate [8] Github Issue: Optional desktop computer-use module (noVNC + screenshot + mouse/keyboard control) [9] Github HKUDS/nanobot: The Ultra-Lightweight Personal AI Agent [10] Github PCSchmidt/ml-intern (ML Agent) repository [11] Github gchinis/self-organizing-agent [12] Github harvard-edge/cs249r_book: Machine Learning Systems [13] Ycombinator Hacker News thread: Kimi K2.6 Officially Released [14] Ycombinator Hacker News thread: HKUDS/nanobot [15] Dasroot Automating Code Fixes with Local Agents · Technical news about AI, coding and all [16] Springer Informed Machine Learning | Springer Nature

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집