Speculative Decoding추측적 디코딩
쉽게 이해하기
LLM은 보통 토큰을 하나씩 만든다. 매 단계마다 큰 모델을 다시 호출하므로 긴 답변에서는 지연과 비용이 커진다. Speculative Decoding은 이 병목을 줄이기 위해 작은 모델이나 speculative head가 몇 개의 후보 토큰을 먼저 쓰고, 원래 큰 모델이 그 후보를 한 번에 검증한다. 큰 모델이 동의한 앞부분은 그대로 채택하고, 틀린 지점부터는 다시 생성한다.
비유와 예시
- 속기사와 편집자: 속기사가 빠르게 문장을 초안으로 쓰고, 편집자는 맞는 앞부분만 살린 뒤 틀린 곳부터 다시 고친다.
- 챗봇 응답: 흔한 표현이 이어질 때 드래프터가 맞히는 비율이 높아져 여러 토큰을 한 번에 전진할 수 있다.
- 코드 자동완성: boilerplate처럼 예측 가능한 구간은 이득이 크지만, 창의적이거나 불확실한 구간은 거절이 늘어 이득이 줄어든다.
한눈에 비교
| 방식 | 핵심 아이디어 | 장점 | 주의점 |
|---|---|---|---|
| 일반 디코딩 | 큰 모델이 한 토큰씩 생성 | 단순하고 안정적 | 긴 출력에서 느림 |
| Speculative Decoding | 작은 드래프터가 제안, 큰 모델이 검증 | target pass 수 감소 | acceptance rate에 민감 |
| Assisted Generation | 라이브러리 수준의 assistant model 사용 | 적용이 쉬움 | 모델 쌍 선택이 중요 |
| Multi-head Speculation | 같은 모델 내부 head가 미래 토큰 예측 | 별도 모델 관리 감소 | 학습/서빙 통합 필요 |
어디서 왜 중요한가
이 기법은 모델의 지식을 늘리는 방법이 아니라 serving latency를 줄이는 방법이다. 품질 보존형 구현에서는 최종 토큰 분포를 타깃 모델과 맞추면서, 타깃 모델 forward pass당 여러 토큰을 진행하려고 한다. 그래서 acceptance rate, 드래프트 길이, KV cache 처리, batch scheduling이 실제 성능을 좌우한다. 특히 실시간 챗봇, IDE assistant, agent loop처럼 응답 지연이 제품 경험을 좌우하는 곳에서 자주 논의된다.
자주 하는 오해
- “작은 모델이 답을 대신 만든다” → 작은 모델은 초안을 제안하고, 최종 분포는 타깃 모델 검증이 결정한다.
- “항상 빠르다” → 드래프터가 자주 틀리면 검증과 rollback 비용 때문에 이득이 줄어든다.
- “품질이 자동으로 떨어진다” → lossless speculative sampling은 검증 규칙을 지키면 타깃 모델 분포를 보존한다.
- “코드 몇 줄로 끝난다” → 실제 serving에서는 KV cache, batching, tokenizer alignment, fallback 처리가 필요하다.
대화에서는 이렇게
- “이 워크로드는 반복 표현이 많으니 acceptance rate부터 측정합시다.”
- “draft length를 늘리기 전에 rollback 비용과 p95 latency를 같이 보죠.”
- “assistant model tokenizer가 target과 맞는지 먼저 확인해야 합니다.”
- “품질 비교는 같은 decoding setting에서 speculative on/off로 A/B 해야 합니다.”
함께 읽으면 좋은 용어
참고 자료
- Fast Inference from Transformers via Speculative Decoding
드래프트 모델과 타깃 모델의 검증으로 분포를 보존하며 디코딩을 가속하는 원 논문.
- Accelerating Large Language Model Decoding with Speculative Sampling
Speculative sampling의 acceptance/rejection 절차와 lossless 성질을 설명한다.
- Assisted generation
assistant model을 붙여 generation을 가속하는 라이브러리 사용 관점의 공식 문서.
- A Hitchhiker's Guide to Speculative Decoding
speculative head, verification, serving integration 관점의 실무 가이드.
- Looking back at speculative decoding
기법의 배경, 적용 조건, 실제 이득이 acceptance rate에 좌우된다는 점을 정리한다.