제01권 · 제10호 CS · AI · Infra 2026년 5월 13일

AI 용어집

용어 사전레퍼런스학습
LLM · 생성AI

Inference-Time Scaling추론 시점 스케일링

난이도

쉽게 이해하기

복잡한 모델을 다시 학습시키기는 시간·비용이 큽니다. 그런데 실제 서비스는 질문마다 난이도와 요구 품질이 달라, 어떤 요청은 더 많은 계산을 써서라도 품질을 높일 가치가 있습니다. 이때 학습을 건드리지 않고 ‘추론 과정에서 계산을 더 쓰거나 절차를 바꾸는’ 방식이 필요합니다. 추론 시점 스케일링은 마치 시험에서 여러 풀이를 시도해 가장 설득력 있는 답을 고르는 것과 비슷합니다. 하나의 답만 빠르게 적는 대신, 몇 가지 후보를 만들고 제한 시간 안에서 가장 좋은 것을 택합니다. 모델은 동일하지만, 추론에 쓰는 계산과 전략을 조절해 결과가 달라집니다. 구체적으로는 확산/플로우 계열에서는 확률적 생성으로 여러 후보를 만들거나 고전적 탐색을 적용해 더 나은 출력을 찾는 방법이 연구됩니다. 또한 주어진 추론 예산을 단계별로 나눠 쓰고 남은 자원을 다음 단계에 이월(롤오버)하는 식의 예산 관리로, 품질과 지연, 비용을 상황에 맞게 맞춥니다.

비유와 예시

  • 이미지 생성에서의 후보 탐색: 하나의 시드만 쓰지 않고, 탐색 절차를 곁들여 여러 이미지를 만든 뒤 기준에 맞는 결과를 고릅니다. 같은 모델이라도 추론 시간과 후보 수를 늘리면 더 만족스러운 결과를 얻을 수 있습니다.
  • 텍스트 생성의 예산 배분: 답변이 길어질수록 어려워지는 요청에는 앞부분에 시간을 덜 쓰고, 핵심 문단에서 더 많은 계산을 배정합니다. 남은 예산을 필요한 구간에 몰아주는 방식으로 가독성과 정확도를 높입니다.
  • 서비스 트래픽에 따른 동적 품질 제어: 혼잡 시간대에는 후보 수를 줄여 응답을 빠르게 하고, 한가한 시간에는 후보를 늘려 품질을 끌어올립니다. 같은 API라도 시간대별로 다른 추론 설정을 씁니다.

한눈에 비교

Inference-Time ScalingTraining-Time ScalingInference Scheduling
목적추론 중 품질·지연·비용 최적화파라미터 학습으로 능력 향상리퀘스트를 최적 서버로 라우팅
개입 시점배포 후 추론 단계학습/미세조정 단계서빙 경로/게이트웨이
전형적 수단후보 확장, 탐색, 예산 이월데이터·손실·최적화 변경KV 캐시·세션·부하 기반 라우팅
재현성/안정성설정에 따라 변동 가능모델 고정 후 비교적 안정클러스터 상태에 따라 변동
비용 영향요청별 가변 비용사전 고정 비용 증가자원 활용도 개선으로 단가 완화

Inference-Time Scaling은 같은 모델의 추론 절차를 바꿔 결과를 개선하고, Scheduling은 어디서 돌릴지(경로)를 최적화하며, Training은 모델 자체 능력을 바꾼다.

어디서 왜 중요한가

  • 발생 상황: 학습 없이 품질을 올려야 할 때 유용해, 요청별로 계산 예산을 조절하며 품질–지연–비용 균형을 맞춘다.
  • 확산/플로우 모델 연구 흐름: 고전적 탐색이나 확률적 생성으로 후보를 늘려 더 나은 출력을 찾는 방법이 제안되어, 추론 절차 자체가 성능 변수로 부상했다.
  • 프리필/디코드 분리 실무: 프리필/디코드 분리와 KV 캐시 재사용을 고려한 라우팅이 보편화되며, 추론 예산을 어디에 쓸지와 라우팅 전략이 함께 설계된다.
  • 멀티모델·이기종 환경: 여러 모델·하드웨어 조합에서 세션 친화성, 캐시 적중률을 고려한 배치가 필요해, 스케일링 전략과 스케줄링 정책의 결합이 중요하다.

자주 하는 오해

  • ❌ 오해: 추론 시점 스케일링은 모델을 더 크게 만드는 일이다 → ✅ 실제: 모델은 그대로 두고 추론 절차와 예산을 늘리거나 바꾸는 접근이다.
  • ❌ 오해: 후보를 많이 만들수록 항상 좋다 → ✅ 실제: 품질 이득은 체감이 있고, 지연·비용 증가와의 균형이 필요하다.
  • ❌ 오해: 스케줄러만 잘 쓰면 같은 효과다 → ✅ 실제: 스케줄링은 ‘어디서 돌릴지’고, 추론 시점 스케일링은 ‘어떻게 돌릴지’다.

대화에서는 이렇게

  • "이번 릴리스에서는 inference-time scaling 레벨을 높이고, 프리필은 그대로 두고 디코드에 예산을 더 배정하죠."
  • "혼잡 시간대엔 후보 샘플 수를 2→1로 낮춰 latency SLO를 맞추고, 야간에는 다시 올립시다."
  • "KV 캐시 적중률이 높은 세션은 같은 풀로 라우팅하고, 남는 budget은 후반부 문단 생성에 몰아줄게요."
  • "플로우 모델 실험은 stochastic generation 8샷에서 시작하고, 남은 rollover budget은 마지막 선택 단계에 쓰죠."
  • "게이트웨이 쪽 P/D 분리 스케줄링은 유지하되, 탐색 깊이만 조정해서 비용 폭주를 막읍시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?