vLLM 업데이트, AMD Zen CPU 추론 가속·Mellum v2 지원

패치 v0.22.1이 AMD Zen CPU에서 양자화 추론 속도를 높이고 새 모델 호환을 추가했다. 동시에 두 편의 논문은 전문가 라우팅과 저랭크 모델을 경쟁력 있게 압축하는 실용적 경로를 제시한다.

기사에서 찾기

읽기 모드

한 줄 요약

대형 모델을 더 싸고 빠르게 돌리기 위한 실무 해법이 모였다: vLLM이 CPU 추론을 가속하고, 두 논문이 전문가형과 조밀 모델을 압축하는 새로운 경로를 제시한다.

Open Source & Repos

vLLM v0.22.1: Mellum v2 지원과 AMD Zen CPU 가속

vLLM은 대형 언어 모델(LLM)을 빠르고 메모리 효율적으로 실행·제공하는 엔진이다. 2026-06-05 공개된 패치 v0.22.1은 표적 버그 수정과 함께 JetBrains의 Mellum v2 신규 모델 지원, 그리고 AMD Zen 중앙처리장치(CPU)에서 zentorch로 가속되는 양자화 선형 추론을 추가했다. ¹

왜 중요하나: vLLM은 “누구에게나 쉽고, 빠르고, 저렴한 LLM 서빙”과 “고처리량·메모리 효율적 추론·서빙 엔진”을 표방한다. CPU 측 가속은 가속기 의존을 낮추며 더 넓은 환경에서 모델을 운영할 수 있게 하고, 신규 모델 지원은 통합 비용을 줄인다. ¹

살펴볼 점: AMD Zen 서버에서는 새 양자화 선형 경로의 체감 이득을 검증할 수 있고, Mellum v2를 사용하는 프로젝트는 기본 호환의 이점을 얻는다. 이번 릴리스는 6명의 기여자(신규 1명)의 8개 커밋으로 구성되어 점진적 유지·보수 흐름을 보여준다. ¹

Research Papers

MoE를 조밀 모델로: 가지치기와 증류 프레임워크

이 논문 ‘Pruning and Distilling Mixture-of-Experts into Dense Language Models’는 훈련된 전문가 혼합(MoE) 언어 모델을 표준 조밀 모델로 변환하는 체계적 프레임워크를 제시한다. 전문가를 점수화·선정·그룹화해 조밀 피드포워드 네트워크(FFN)로 이어 붙이고, MoE 교사 모델로부터 지식 증류로 성능을 다듬는다. 저자들은 Qwen3‑30B‑A3B에서 7개 점수화, 5개 그룹화, 2개 크기 스케일링을 조합한 350개 구성을 평가했으며, 제안한 다양성 인지 점수화가 Qwen3‑30B‑A3B, DeepSeek‑V2‑Lite, GPT‑OSS‑20B에서 기존 방법을 일관되게 앞선다고 보고한다. ²

동일 파라미터 수로 통제 비교할 때, 제안한 MoE→조밀 변환은 약 40억 토큰 증류 후 평균 다운스트림 정확도에서 조밀→조밀 가지치기보다 +6.3포인트 높았고 학습 벽시계 시간은 1.6배 빨랐다. MoE는 모든 전문가 파라미터를 메모리에 적재해야 하므로 메모리 제약 환경에 불리한데, 단일 조밀 학생 모델로의 변환은 이런 운영 복잡도를 줄일 수 있다. ²

SigmaScale: 학습 스케일로 SVD 압축 향상

SigmaScale은 잘린 특이값 분해(SVD)를 쓰는 저랭크 분해에 학습된 보조 스케일 행렬을 더해 대형 언어 모델(LLM)을 압축하는 기법이다. 행·열 대각 스케일 변환을 두 개의 벡터 집합으로 활성화 인지형 손실 하에 최적화하고, 유효 랭크 엔트로피를 낮추며 그 감소가 압축 손실과 강하게 연관됨을 보인다. Llama 3.1 8B Instruct와 Qwen3‑8B에서 관련 최신 SVD 기반 방법과 비교해 퍼플렉시티와 제로샷 벤치마크에서 대등한 성능을 보였다. ³

실무 관점의 함의: 가중치 행렬마다 구조에 맞춘 활성화 인지형 변환을 학습해 더 유연한 저랭크 LLM 압축을 구현한다. 추론 계산 비용을 줄여야 하는 응용에서 실용적 선택지가 될 수 있음을 결과가 시사한다. ³

왜 중요한가

동일 하드웨어에서 더 많은 성능을 끌어내는 도구는 도입 리스크와 비용을 낮춘다. vLLM의 CPU 가속은 하드웨어 선택지를 넓히고, 두 압축 연구는 모델을 더 작게 또는 단순하게 만들어도 정확도를 크게 잃지 않는 실행 경로를 보여준다. ¹

지연, 메모리, 예산을 동시에 관리해야 하는 팀에겐 MoE 교사를 조밀 학생으로 바꾸는 방법과 저랭크 분해에 학습 스케일을 더하는 방법이 vLLM 같은 서빙 엔진을 보완한다. 하나는 모델 발자국을 줄이고, 다른 하나는 서빙 효율을 높인다. ²

이번 주 시도해볼 것

vLLM 빠른 시작: GitHub의 vLLM README를 따라 CPU에서 소형 모델을 띄워 성능 차이를 확인한다 (https://github.com/vllm-project/vllm).
MoE→조밀 변환 논문 훑어보기: 초록과 그림으로 점수화·그룹화 아이디어를 파악하고 실무 적용 가능성을 메모한다 (https://arxiv.org/abs/2605.28207).

출처 3

[1] Github A high-throughput and memory-efficient inference and serving engine for LLMs [2] Arxiv Pruning and Distilling Mixture-of-Experts into Dense Language Models [3] Arxiv SigmaScale: LLM Compression with SVD-based Low-Rank Decomposition and Learned Scaling Matrices

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집