구글 TurboQuant로 KV 캐시 6배 절감, 품질 손실 없음; NVIDIA 120B MoE 모델은 12B급처럼 동작
품질 손실 없는 KV 캐시 압축과 하이브리드 MoE 백본이 효율을 재정의합니다 — 더 긴 컨텍스트, 더 낮은 비용, 당장 배포 가능한 처리량 향상.
한 줄 요약
구글은 품질 저하 없이 KV 캐시를 최대 6배 줄이는 TurboQuant를 공개했고, NVIDIA·MS는 효율 중심의 차세대 모델을 내놓았으며, 구글의 Lyria는 ‘3분 곡’까지 확장되었습니다.
LLM & SOTA Models
Google Lyria 3 Pro: 30초 샘플에서 3분 ‘완곡’으로
Lyria 3 Pro는 단순 사운드 스케치에서 ‘완성된 노래’ 단계로 올라갑니다. 기존 30초 한계를 넘어 최대 3분 곡을 만들 수 있고, 프롬프트에서인트로·벌스·코러스·브리지를 지정해 구조까지 통제할 수 있습니다. 유료 구독자가 쓰는Gemini 앱,Google Vids,ProducerAI에 적용되며, 개발자는Vertex AI (퍼블릭 프리뷰),Gemini API,AI Studio로 접근할 수 있습니다. 1 2 3
구글은 파트너 데이터와 YouTube/Google의 허용 가능한 데이터로만 학습했고, 특정 아티스트를 “복제”하지 않는다고 강조합니다. 프롬프트에 아티스트를 써도 광범위한 영감만 사용합니다. 모든 결과물에는SynthID 워터마크가 붙습니다. 스포티파이·디저 등이 AI 음악 식별·검수를 강화하는 가운데, 책임 있는 생성과 배포를 겨냥한 설정입니다. 1 2 3
왜 중요한가: 길이(3분)와구조 제어가 생기면서 AI 음악이 ‘소리 데모’에서 ‘송 드래프트’로 격상됩니다. 또한 Vertex AI·API 노출로 광고·영상 워크플로에 빠르게 녹아들 수 있습니다. 관전 포인트는 3분 구간의 스타일 다양성, 레이턴시, 워터마킹·귀속 정책과 창작 도구의 조화입니다. 1 3
NVIDIA Nemotron 3 Super: 120B 용량, 12B만 활성화하는 에이전틱 추론 모델
Nemotron 3 Super는 에이전트 시스템의 “콘텍스트 폭증”에 맞춰 100만(1M) 토큰 윈도우를 제공하고,Mamba-2 (상태공간)로 선형 시간 시퀀스를 처리하며 중간중간Transformer 어텐션으로 정밀 회상을 보강합니다.잠재 MoE로총 120B 중 약 12B 파라미터만 토큰마다 활성화해 비용을 낮추며, 이전 세대 대비최대 5배 처리량,Blackwell 최적화 NVFP4 정밀도,다중 토큰 예측 (MTP)까지 채택했습니다. 가중치·데이터셋·레시피가 모두 공개입니다. 4 5
서드파티 정리는 활성 파라미터 12.7B/총 120.6B,512 전문가 중 22개 활성,B200에서 478 tok/s로Qwen3.5‑122B 대비 약 7.5배 처리량 등의 수치를 전합니다.H100‑80GB 1장으로4비트 (Q4) 구동이 실용적이며,1M 콘텍스트는 보통 H200 또는 멀티 GPU가 권장됩니다.AIME 2025,SWE‑Bench Verified,Terminal Bench 등에서도 좋은 성적이 보고됩니다. 6 7 4
장시간 계획·코딩·툴 호출을 반복하는 에이전트에는, 잠재 MoE+Mamba가 ‘사고세(고비용 추론)’를 줄이고 1M 콘텍스트가 히스토리 재송신 부담을 덜어줍니다. Blackwell에서 NVFP4 효율이 비용을 낮출 전망으로,50만~100만 토큰 구간의 응집력 유지와 밀집 모델 대비 실제 토큰당 가격을 지켜볼 만합니다. 5 6
Microsoft Phi‑4‑reasoning‑vision‑15B: 작지만 똑똑한 멀티모달 추론
마이크로소프트는 Phi‑4‑reasoning‑vision‑15B를 공개했습니다.15B 파라미터의 오픈웨이트 멀티모달 모델로 수학·과학 추론과 UI 그라운딩에 강합니다.SigLIP‑2 (Naflex) 기반의동적 해상도 비전 인코더와Phi‑4‑Reasoning 백본을 결합한 미드‑퓨전 구조입니다. 경쟁 모델 대비10배 이상의 계산·토큰을 쓰는 느린 모델과 비슷한 정확도를 보이고, 비슷한 속도의 동급 모델보다 높은 정확도를 보고합니다. 학습은 약200B 멀티모달 토큰과 Phi 계열 언어 모델을 토대로, 동급 대비 적은 연산으로 이뤄졌습니다. 8
핵심 교훈은 ‘스케일’이 아니라 데이터·공정입니다. 포맷 오류 수정, 오답 재생성, 프롬프트 다양화, 동적 해상도 등으로 특히 고해상도 스크린 과제(예: ScreenSpot‑Pro)에서 개선이 컸습니다. 이는 이미지 패치를언어 토큰과 정렬해 공동 표현으로 다루는비전‑언어 모델 (VLM) 일반 원리와 맞닿아 있습니다. 8 9 10
왜 중요한가: 더 작고 빠른 멀티모달 모델은 배포 장벽과 비용을 줄이면서도 추론력을 유지합니다. 미드‑퓨전·동적 해상도·선별 데이터 보정이라는 ‘레시피’는 최근 서베이가 강조한 멀티모달 일반화의 핵심 레버와도 일치합니다. 8 11
Research Papers
TurboQuant: 품질 저하 없이 KV 캐시를 줄이는 압축
대규모 언어 모델은 재계산을 피하려고 임시 메모리인 KV 캐시를 씁니다. 구글의TurboQuant는 이 캐시를 대폭 압축해, 보고에 따르면 메모리 사용을약 6배 줄이고 일부 경로에서 어텐션 점수 계산을최대 8배 빠르게 만듭니다. 출력 품질 저하 없이추론 메모리를 겨냥했기 때문에, 학습 RAM 문제를 바로 해결하진 않지만 서빙 비용을 낮추고 동일 하드웨어에서 더 긴 콘텍스트를 가능하게 할 잠재력이 큽니다. 12 13
구성 요소는 두 가지입니다. 먼저 PolarQuant로 벡터를 극좌표(반지름=크기, 각도=의미)로 표현해 압축에 강하고 정규화 비용을 줄입니다. 그다음Quantized Johnson–Lindenstrauss (QJL)로1비트(+1/−1) 잔차 보정을 얹어 쌍대 관계를 보존, 어텐션 점수를 정밀하게 다듬습니다. 이 조합으로3비트까지 양자화해도, 구글 보고서에선 Gemma·Mistral 기반 장문맥 평가에서 “완벽한 다운스트림 결과”를 보였다고 합니다. 13 12
구글은 ICLR 2026 발표와 함께PolarQuant(양자화)·QJL(훈련·최적화)의 기반 연구를 언급합니다. 초기 하드웨어 수치로는4비트 TurboQuant가NVIDIA H100에서32비트 키 대비 어텐션 경로가8배 빠름이 보고됩니다. 다만 아직 연구실 수준이며추론 KV 캐시만 다루므로, 실환경 영향은 런타임 통합과 다양한 어텐션 변형과의 호환성에 달려 있습니다. 12 13
커뮤니티 반응
Hacker News (575↑) — ‘어디까지 양자화가 가능한가’에 대한 기술적 호기심이 지배적.
"소형 멀티모달 모델의 진전은 반가운 일이지만, 실제 세상을 이해하는 능력과는 여전히 간극이 있다는 회의적인 반응도 공존하고 있습니다."
Hacker News (93↑) — 소형 멀티모달 진전은 반가우나, 실세계 이해와의 간극에 회의적이라는 반응도 공존.
"이러한 진전 소식을 듣게 되어 매우 기쁘지만, 딱히 놀랍지는 않습니다. 대형 연구소들은 우선 벤치마크 점수와 정확도를 높이는 데 최적화하니까요. 약간의 연구 노력만 더해진다면, 매개변수(파라미터) 수가 100배 적은 모델로도 동일한 점수를 낼 수 있을 것이라고 당연하게 예상하고 있었습니다."
"맞아요, 그게 바로 제가 하고 싶은 말입니다. 일반 GPU에서 돌아간다는 점은 인상적이지만, 정작 컵을 기울이면 어떤 일이 벌어지는지(물리적 인과관계)조차 여전히 설명하지 못하잖아요."
왜 중요한가
TurboQuant의 6배 KV 캐시 축소와8배 어텐션 가속이 프레임워크에 안착한다면, 추론 비용 절감과 장문맥 확장이 동시에 진전될 수 있습니다. 동시에 Nemotron 3 Super와 Phi‑4‑reasoning‑vision‑15B는MoE 라우팅,상태공간 (Mamba),동적 해상도 등 ‘효율의 공학’을 전면에 내세우며 단순 대형화 대신운영 가능한 지능을 지향합니다. 13 4 8
오늘의 키워드—KV 캐시, 벡터 양자화(PolarQuant), 1비트 잔차(QJL), 잠재 MoE, 상태공간(Mamba), 미드‑퓨전 VLM—는 ‘적은 자원으로 더 큰 문제’를 푸는 실전 도구로 자리 잡고 있습니다. 향후 50만~100만 토큰 구간의 안정성, 레이턴시, 실제 토큰당 가격이 이 흐름의 성패를 가를 것입니다. 12 5 8
댓글 (0)