인프라 · 하드웨어 LLM · 생성AI

AI InferenceAI 추론

난이도

쉽게 이해하기

AI 추론은 이미 학습된 모델을 실제로 사용하는 단계다. 챗봇에 질문하면 시스템은 입력을 토큰으로 바꾸고, 모델을 실행한 뒤, 다음 토큰을 하나씩 만들어 응답을 보낸다. 이때 모델의 가중치를 다시 배우는 것이 아니라 이미 배운 패턴을 이용해 답을 계산한다.

비유와 예시

학습이 요리사를 훈련시키는 과정이라면 추론은 손님 주문을 받아 음식을 내는 서비스 시간이다. 이미지 분류 모델이 새 사진을 고양이로 분류하는 것, 추천 시스템이 다음 상품을 고르는 것, LLM이 문장을 생성하는 것이 모두 추론이다.

한눈에 비교

구분	Training	Inference
목적	모델 가중치 학습	새 입력에 대한 출력 생성
비용 중심	데이터, 학습 시간, 가속기	latency, throughput, memory, 요청 수
가중치 변화	보통 변함	보통 고정
주요 지표	loss, accuracy, validation	TTFT, tokens/s, p95 latency, cost/request

어디서 왜 중요한가

AI 제품의 반복 비용은 대부분 추론에서 발생한다. 사용자가 많아질수록 같은 모델을 계속 실행해야 하므로 GPU 메모리, batch scheduling, KV cache, quantization, autoscaling이 제품 경제성에 직접 영향을 준다. 좋은 모델도 추론이 느리거나 비싸면 서비스로 운영하기 어렵다.

자주 하는 오해

오해: 추론은 단순히 모델을 한 번 실행하는 일이다.
실제: 운영 환경에서는 batching, caching, streaming, routing, fallback, monitoring이 함께 필요하다.
오해: 더 큰 모델이면 항상 더 좋은 추론 선택이다.
실제: latency와 비용 제약이 있으면 작은 모델, 증류 모델, quantized 모델이 더 적합할 수 있다.

대화에서는 이렇게

"모델 품질은 괜찮은데 p95 latency가 제품 기준을 넘습니다."
"prefill은 빠른데 decode tokens/s가 병목입니다."
"트래픽이 늘면 학습 비용보다 inference cost가 매 요청마다 반복됩니다."

참고 자료

★공식 문서
What Is AI Inference?
학습된 모델이 새 입력을 처리해 예측이나 생성을 수행하는 실행 단계를 설명한다.
★공식 문서
What is AI Inference?
AI 추론의 역할과 학습 단계와의 차이를 설명한다.
·공식 문서
Text Generation Inference Documentation
LLM 추론 서버의 배치, 스트리밍, 운영 맥락을 볼 수 있는 문서다.
·공식 문서
vLLM Documentation
LLM serving runtime과 throughput/latency 최적화 맥락을 제공한다.

도움이 되었나요?

0to1log Weekly

AI 용어집