LLM · 생성AI

Inference-Time Scaling추론 시점 스케일링

난이도

쉽게 이해하기

복잡한 모델을 다시 학습시키기는 시간·비용이 큽니다. 그런데 실제 서비스는 질문마다 난이도와 요구 품질이 달라, 어떤 요청은 더 많은 계산을 써서라도 품질을 높일 가치가 있습니다. 이때 학습을 건드리지 않고 ‘추론 과정에서 계산을 더 쓰거나 절차를 바꾸는’ 방식이 필요합니다. 추론 시점 스케일링은 마치 시험에서 여러 풀이를 시도해 가장 설득력 있는 답을 고르는 것과 비슷합니다. 하나의 답만 빠르게 적는 대신, 몇 가지 후보를 만들고 제한 시간 안에서 가장 좋은 것을 택합니다. 모델은 동일하지만, 추론에 쓰는 계산과 전략을 조절해 결과가 달라집니다. 구체적으로는 확산/플로우 계열에서는 확률적 생성으로 여러 후보를 만들거나 고전적 탐색을 적용해 더 나은 출력을 찾는 방법이 연구됩니다. 또한 주어진 추론 예산을 단계별로 나눠 쓰고 남은 자원을 다음 단계에 이월(롤오버)하는 식의 예산 관리로, 품질과 지연, 비용을 상황에 맞게 맞춥니다.

비유와 예시

이미지 생성에서의 후보 탐색: 하나의 시드만 쓰지 않고, 탐색 절차를 곁들여 여러 이미지를 만든 뒤 기준에 맞는 결과를 고릅니다. 같은 모델이라도 추론 시간과 후보 수를 늘리면 더 만족스러운 결과를 얻을 수 있습니다.
텍스트 생성의 예산 배분: 답변이 길어질수록 어려워지는 요청에는 앞부분에 시간을 덜 쓰고, 핵심 문단에서 더 많은 계산을 배정합니다. 남은 예산을 필요한 구간에 몰아주는 방식으로 가독성과 정확도를 높입니다.
서비스 트래픽에 따른 동적 품질 제어: 혼잡 시간대에는 후보 수를 줄여 응답을 빠르게 하고, 한가한 시간에는 후보를 늘려 품질을 끌어올립니다. 같은 API라도 시간대별로 다른 추론 설정을 씁니다.

한눈에 비교

	Inference-Time Scaling	Training-Time Scaling	Inference Scheduling
목적	추론 중 품질·지연·비용 최적화	파라미터 학습으로 능력 향상	리퀘스트를 최적 서버로 라우팅
개입 시점	배포 후 추론 단계	학습/미세조정 단계	서빙 경로/게이트웨이
전형적 수단	후보 확장, 탐색, 예산 이월	데이터·손실·최적화 변경	KV 캐시·세션·부하 기반 라우팅
재현성/안정성	설정에 따라 변동 가능	모델 고정 후 비교적 안정	클러스터 상태에 따라 변동
비용 영향	요청별 가변 비용	사전 고정 비용 증가	자원 활용도 개선으로 단가 완화

Inference-Time Scaling은 같은 모델의 추론 절차를 바꿔 결과를 개선하고, Scheduling은 어디서 돌릴지(경로)를 최적화하며, Training은 모델 자체 능력을 바꾼다.

어디서 왜 중요한가

발생 상황: 학습 없이 품질을 올려야 할 때 유용해, 요청별로 계산 예산을 조절하며 품질–지연–비용 균형을 맞춘다.
확산/플로우 모델 연구 흐름: 고전적 탐색이나 확률적 생성으로 후보를 늘려 더 나은 출력을 찾는 방법이 제안되어, 추론 절차 자체가 성능 변수로 부상했다.
프리필/디코드 분리 실무: 프리필/디코드 분리와 KV 캐시 재사용을 고려한 라우팅이 보편화되며, 추론 예산을 어디에 쓸지와 라우팅 전략이 함께 설계된다.
멀티모델·이기종 환경: 여러 모델·하드웨어 조합에서 세션 친화성, 캐시 적중률을 고려한 배치가 필요해, 스케일링 전략과 스케줄링 정책의 결합이 중요하다.

자주 하는 오해

❌ 오해: 추론 시점 스케일링은 모델을 더 크게 만드는 일이다 → ✅ 실제: 모델은 그대로 두고 추론 절차와 예산을 늘리거나 바꾸는 접근이다.
❌ 오해: 후보를 많이 만들수록 항상 좋다 → ✅ 실제: 품질 이득은 체감이 있고, 지연·비용 증가와의 균형이 필요하다.
❌ 오해: 스케줄러만 잘 쓰면 같은 효과다 → ✅ 실제: 스케줄링은 ‘어디서 돌릴지’고, 추론 시점 스케일링은 ‘어떻게 돌릴지’다.

대화에서는 이렇게

"이번 릴리스에서는 inference-time scaling 레벨을 높이고, 프리필은 그대로 두고 디코드에 예산을 더 배정하죠."
"혼잡 시간대엔 후보 샘플 수를 2→1로 낮춰 latency SLO를 맞추고, 야간에는 다시 올립시다."
"KV 캐시 적중률이 높은 세션은 같은 풀로 라우팅하고, 남는 budget은 후반부 문단 생성에 몰아줄게요."
"플로우 모델 실험은 stochastic generation 8샷에서 시작하고, 남은 rollover budget은 마지막 선택 단계에 쓰죠."
"게이트웨이 쪽 P/D 분리 스케줄링은 유지하되, 탐색 깊이만 조정해서 비용 폭주를 막읍시다."

참고 자료

★공식 문서
About GKE Inference Gateway
GKE 인퍼런스 게이트웨이 개요와 역할.
★공식 문서
Intelligent Inference Scheduling
부하·프리픽스 캐시 인지 라우팅 가이드.
★공식 문서
llm-d Inference Scheduler Architecture
KV 캐시·P/D 분리 등 인퍼런스 라우팅 구조.
★코드
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing
플로우 모델 추론 시점 스케일링 공식 코드.
★코드
Inference-time Scaling of Diffusion Models through Classical Search
확산 모델의 고전적 탐색 기반 추론 스케일링 구현.

도움이 되었나요?

0to1log Weekly

AI 용어집