LMCache, 새로운 캐시 계층으로 LLM 메모리 재사용 가속

LMCache가 모델의 주의 메모리를 캐시 계층으로 묶어 배포했고, CUDA 12.9 나이틀리 휠이 공개됐다. 두 논문은 명시적 상태 관리가 정책 준수와 첫 토큰 지연(최대 27배 단축)에 기여함을 보여준다.

기사에서 찾기

읽기 모드

한 줄 요약

대형 언어 모델(LLM) 추론이 상태 중심으로 진화한다: 새로운 캐시 계층이 공개되고, 두 편의 논문이 에이전트 상태를 명시화해 정책 준수와 첫 토큰 지연(최대 27배 단축)을 개선한다.

Open Source & Repos

LMCache: 대형 언어 모델 추론용 빠른 KV 캐시 계층

이 프로젝트는 모델의 “주의 메모리”를 저장·제공하는 관리 계층을 추가해, 매 토큰마다 다시 계산하지 않고 이전 계산을 재사용하도록 만든다. 대형 언어 모델(LLM)에서는 이 메모리가 키‑값(KV) 캐시로 저장되며, LMCache는 이를 확장 가능한 추론을 위한 전용 계층으로 제공한다. ¹

저장소는 LMCache를 “가장 빠른 KV 캐시 계층”으로 소개하며, 2026-06-19자 컴퓨트 유니파이드 디바이스 아키텍처(CUDA) 12.9 나이틀리 휠 등 패키지 빌드를 제공한다. 설치용 uv pip 명령은 README에 안내돼 있다. ¹

의미: 장시간 대화, 다중 파일 프롬프트, 고트래픽 서비스에서 효율적인 KV 관리는 중복 계산을 줄이고 그래픽 처리 장치(GPU) 부담을 낮춰 지연과 비용을 줄일 수 있다. LMCache는 이러한 관리를 각 애플리케이션의 임시 코드가 아닌 전용 계층으로 통합한다. ¹

주시할 점: 저장소에는 문서, 공개 로드맵, 커뮤니티 슬랙이 연결돼 있다. 벤치마크, 통합 가이드, 운영 노트를 이 채널에서 확인할 수 있다. ¹

Research Papers

LedgerAgent: 정책 준수 도구 호출 에이전트의 상태 장부

LedgerAgent는 작업의 사실, 식별자, 제약, 조건 등 현재 상태를 별도의 “장부”에 기록하고, 다음 결정을 내릴 때 그 상태를 프롬프트에 다시 렌더링하는 추론 단계 기법이다. ²

환경을 바꾸는 도구 호출 전에 장부를 기준으로 정책 제약을 점검해 위반을 차단한다. 고객 서비스 4개 도메인과 공개·비공개 가중치 모델 혼합 패널에서, 표준 프롬프트 기반 도구 호출 대비 평균 성능이 향상되며, 다중 시도 일관성 지표가 엄격할수록 이득이 커진다. ²

Execution-State Capsules: 초저지연 온디바이스 전체 상태 복구

Execution‑State Capsules는 키‑값(KV) 캐시만이 아니라 모델의 전체 실행 상태를 스냅샷하고 복구해, 대화형 에이전트·음성 시스템·로봇 정책이 분기, 리셋, 재개를 지연 최소화로 수행하도록 만든다. ³

캡처된 그래프 플랜을 실행하는 CUDA 백엔드를 사용해, GPU 상주 스냅샷/복구는 1밀리초 미만이며, 첫 토큰까지 걸리는 시간(TTFT)은 Nvidia RTX 5090에서 토큰 2천 기준 3.9배에서 1만6천 기준 27배까지 빨라진다. 같은 특성이 Jetson AGX Thor와 DGX Spark에서도 확인된다. 이 방식은 고처리량 KV‑캐시 서빙을 대체하기보다 보완한다는 점을 논문은 강조한다. ³

커뮤니티 반응

Hacker News (154↑) — 코드 완성 등 실무 적용을 기대하는 의견과, 수학적으로 올바른 캐시 접합의 난도를 지적하는 신중론이 교차한다. ⁴

"KV 캐시 블렌딩은 Copilot 스타일의 코드 완성 모델에 정말 유용할 것 같습니다. 각 파일의 내용, 지금까지의 수정사항, 프로젝트 README, 최근 커밋 등을 따로 캐시해두고 사용자가 무엇을 하는지에 따라 동적으로 블렌딩할 수 있겠네요." — Hacker News ⁴

"무슨 말씀인지 잘 모르겠습니다. 이건 데이터의 일관성 문제가 아닙니다. 텍스트 조각들의 사전계산된 값을 수학적으로 타당한 방식으로 결합하는 방법을 찾지 못하면 LLM이 제대로 작동하지 않습니다. 접두사 캐시 관리는 단순한 시스템 엔지니어링일 뿐 이 모든 것을 해결하지 못합니다. LLM이 여전히 텍스트에 대해 올바르게 추론하도록 캐시 조각들을 이어 붙이는 것은 어렵습니다. 논문을 읽어보셨나요?" — Hacker News ⁴

왜 중요한가

핵심은 “상태”의 명시화다. LMCache는 재사용 가능한 상태(KV 캐시)를 체계화해 처리량과 비용을 개선하고, LedgerAgent는 작업 상태를 외부화해 정책을 지키는 결정을 유도하며, Execution‑State Capsules는 전체 그래프 스냅샷으로 첫 토큰 대기 시간을 줄인다. 세 가지는 지연과 신뢰성을 올리는 실용적 경로를 보여준다. ¹

제품팀에겐 작업별로 재사용 단위를 고르는 안목이 중요하다. 고처리량 서버에는 KV 계층, 초저지연 온디바이스 루프에는 전체 상태 캡슐, 규제 민감 워크플로에는 상태 장부가 어울린다. 이 도구들은 대체재가 아니라 상호 보완재다. ³

이번 주 시도해볼 것

LMCache의 CUDA 12.9 나이틀리 휠을 설치하고 문서를 훑어, KV 캐시 계층을 추론 스택에 어떻게 넣을지 가늠해보기. ¹
Execution‑State Capsules 논문을 읽고, TTFT 차트(3.9배 → 27배)를 기준으로 소규모 배치·저지연 워크로드 적합성을 판단해보기. ³

출처 4

[1] Github LMCache: Supercharge Your LLM with the Fastest KV Cache Layer [2] Arxiv LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents [3] Arxiv Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving [4] Ycombinator Hacker News: LMCache: Supercharge Your LLM with the Fastest KV Cache Layer

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집