LLM · 생성AI 인프라 · 하드웨어

Model Router모델 라우터

난이도

쉽게 이해하기

모델 라우터는 요청을 보고 어떤 AI 모델에게 일을 맡길지 결정하는 시스템이다. 간단한 분류는 작은 모델에게 보내고, 어려운 추론이나 위험한 요청은 더 강한 모델에게 보낼 수 있다. 목표는 품질을 크게 잃지 않으면서 비용과 지연 시간을 줄이는 것이다.

비유와 예시

콜센터가 쉬운 문의는 자동응답으로 처리하고 복잡한 문의는 상담원에게 넘기는 것과 비슷하다. 예를 들어 짧은 문서 분류는 SLM으로, 복잡한 코드 디버깅은 frontier LLM으로, 이미지가 포함된 요청은 multimodal model로 보낼 수 있다.

한눈에 비교

구분	단일 모델 사용	모델 라우터
방식	모든 요청을 같은 모델로 처리	요청별로 모델 선택
장점	단순한 운영	비용·latency 최적화
위험	쉬운 요청도 비싸짐	잘못 라우팅하면 품질 저하
필요한 요소	모델 1개와 API	분류기, 정책, fallback, 로그

어디서 왜 중요한가

AI 제품이 여러 모델을 쓰기 시작하면 모델 선택이 비용과 품질을 좌우한다. 라우터는 쉬운 요청을 저렴한 모델로 보내고, 어려운 요청은 강한 모델로 올려보내는 방식으로 inference budget을 관리한다. agentic system에서는 tool-use capability까지 고려해야 한다.

자주 하는 오해

오해: 모델 라우터는 무조건 가장 싼 모델을 고르는 장치다.
실제: 최소 품질 기준을 만족하는 가장 적절한 모델을 고르는 장치다.
오해: prompt 길이만 보면 난이도를 알 수 있다.
실제: task type, tool need, risk, modality, expected output까지 봐야 한다.
오해: 라우터가 틀려도 큰 문제가 없다.
실제: 잘못된 routing은 품질 저하, 비용 증가, 안전 문제로 이어질 수 있다.

대화에서는 이렇게

"이 요청은 small model로 처리하고 실패하면 frontier model로 fallback합시다."
"라우터 accuracy보다 end-to-end correctness와 cost/request를 같이 봐야 합니다."
"tool call이 필요한 요청은 일반 chat router와 기준이 다릅니다."

참고 자료

★논문
Switchcraft: AI Model Router for Agentic Tool Calling
agentic tool calling에서 비용과 correctness를 함께 고려하는 model router 사례다.
★논문
Switchcraft: AI Model Router for Agentic Tool Calling
tool-use 작업에서 모델 선택이 비용과 정확도에 미치는 영향을 다룬다.
·논문
Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey
여러 독립 LLM 사이에서 동적으로 routing/cascading하는 연구 흐름을 정리한다.

도움이 되었나요?

0to1log Weekly

AI 용어집