LiteLLM

라이트LLM

OpenAI 호환 API로 100+ LLM

Freemium 약간의 설정 필요 API · Web

platform workflow #llm#api-gateway#observability#rate-limiting#governance

소개

하나의 OpenAI-호환 엔드포인트로 모든 모델 호출을 통합해 프롬프트 수정 없이 공급자를 전환할 수 있습니다. 플랫폼팀은 OpenAI, Azure, Bedrock, Anthropic, Gemini 등을 예비(fallback), 예산, 속도 제한과 함께 개발자에게 제공할 수 있습니다. 오픈소스로 2.4억+ Docker pulls, 10억+ 요청 처리 실적이 있습니다.

에디터 한마디

여러 모델 공급자 키, 페일오버, 팀별 예산을 하나의 OpenAI 호환 게이트웨이로 관리해야 한다면 LiteLLM을 시도할 가치가 있습니다; 운영 환경에서는 Redis와 로그 인프라 운용이 필요하다는 점을 고려하세요.

주요 기능

OpenAI·Azure·Bedrock·Anthropic·Gemini 키 연결 → OpenAI-호환 API로 라우팅하고 자동 LLM fallback 처리
키/팀별 예산 및 RPM·TPM 제한 설정 → 초과 방지와 사용자·팀·조직별 사용량 추적(S3/GCS 로그)
100+ 제공자에서 모델 교체 가능 → 요청 스키마 동일, 프롬프트 재포맷 불필요
Docker로 Gateway 배포 → 2.4억+ pulls, 1,005+ 커뮤니티 기여 지원
Langfuse·Langsmith·OTEL 로깅 활성화 → 호출별 트레이스와 비용 귀속 확보

이런 상황에 추천

플랫폼 엔지니어가 내부 20개 이상의 앱에 대해 LLM 접근을 중앙화하고 속도 제한·fallback을 적용할 때
FinOps 담당자가 OpenAI와 Bedrock을 포함한 AI 지출을 팀별로 귀속시키고 월별 예산을 강제할 때
백엔드 개발자가 스테이징에서 GPT-4에서 Claude 3.5로 모델을 교체하되 요청 코드를 변경하지 않을 때

이렇게 써보세요

1
LLM 호출을 하나의 API로 통합
LiteLLM 게이트웨이 Docker 컨테이너를 띄운 뒤 OpenAI, Azure, Bedrock, Anthropic, Gemini 키를 등록하세요 → 내부 애플리케이션은 OpenAI 호환 엔드포인트로 요청을 보냅니다 → 페일오버와 키별 레이트 제한이 기대대로 작동하는지 확인합니다.
2
팀별 예산과 속도 제한 적용
게이트웨이 설정에서 키/팀별 RPM·TPM 및 예산을 설정하세요 → 사용 로그를 S3/GCS로 전송하도록 연결합니다 → 제한 도달 시 자동으로 쓰로틀되어 초과 비용을 방지합니다.
3
프롬프트 수정 없이 모델 교체
스테이징 키의 라우팅 우선순위를 GPT-4에서 Claude 3.5 또는 Gemini로 변경하세요 → 앱 코드의 OpenAI 스타일 요청을 그대로 유지합니다 → 통합 테스트로 응답이 동일한 요청 형식에서 동작하는지 검증합니다.
4
요청 추적과 비용 귀속 활성화
게이트웨이에서 Langfuse, Langsmith 또는 OTEL 연동을 켜세요 → 로그와 트레이스를 관찰 스택 및 S3/GCS로 전송합니다 → 트레이스를 조회해 팀·엔드포인트별 지연과 비용을 분석합니다.
5
로컬 개발에서 Python SDK 사용 시작
로컬에 pip install litellm을 실행하고 SDK를 설치하세요 → 프로바이더 키 또는 로컬 게이트웨이를 가리키도록 설정합니다 → OpenAI 스타일 요청을 보내며 프로바이더별 스키마 매핑을 확인합니다.

장단점

장점

OpenAI 호환 단일 API로 OpenAI, Azure, Bedrock, Anthropic, Gemini 등을 라우팅해 애플리케이션의 프롬프트 재포맷이 불필요합니다.
키·팀별 예산과 RPM/TPM 제한을 지원하고 S3/GCS로 로그를 남겨 비용 귀속과 거버넌스를 할 수 있습니다.
Docker로 배포 가능하며 커뮤니티 영향력이 크고(2억 4천만+ 풀, 1,005+ 기여자) 보고된 처리량도 높습니다(1 vCPU에서 350 RPS, 부하 시 약 10ms 대 지연).

단점

게이트웨이는 Redis 등 상태 구성요소와 로그 DB를 요구해 운영 복잡도 및 숨겨진 인프라 비용이 발생합니다.
프록시를 통해 운영하면 직결 호출보다 직렬화 오버헤드로 인해 지연이 커질 수 있습니다.
상업 기능이나 일부 비용 절감 주장은 엔터프라이즈 라이선스가 필요할 수 있으므로 라이선스 조건을 확인해야 합니다.

시작하는 법

1 문서의 Docker 가이드로 LiteLLM Gateway 배포하거나 pip로 Python SDK 설치
2 공급자 API 키를 등록하고 예산 및 RPM/TPM 제한을 구성
3 POST /v1/chat/completions로 요청을 보내 모델 응답과 비용 기록이 남는지 확인

가격 정보

플랜	가격	포함
Free	$0	오픈 소스; 100+ LLM 제공자 통합; 가상 키(Virtual Keys); 예산 기능; 팀 관리; 로드밸런싱; RPM/TPM 제한; LLM Guardrails
Enterprise	Get In Touch	OSS에 포함된 모든 항목; 엔터프라이즈 지원 및 맞춤 SLA; JWT 인증, SSO, 감사 로그; 모든 엔터프라이즈 기능 - Docs