Claude클로드
쉽게 이해하기
클로드는 자체 호스팅 없이도 고품질 언어·코딩 기능을 애플리케이션에 붙일 수 있게 해주는 API 기반 모델 플랫폼이다. 개발자는 HTTP로 모델을 호출하고, 반복되는 긴 지시문·문서는 프롬프트 캐싱으로 재사용해 비용과 지연을 줄일 수 있다. 운영 차원에서는 토큰 단위 과금, 토큰 버킷 레이트리밋, 월간 스펜드 한도로 사용량을 통제한다.
비유와 예시
- 대량 보고서 요약: 공통 지시문과 레이아웃을 캐시에 저장해 야간 배치로 수천 건을 처리하면서 비용을 낮춘다.
- 장기 코드 리팩터링: 관리형 Agents 세션으로 다단계 작업을 이어가고, 이벤트 히스토리로 맥락 손실을 줄인다.
- 내부 Q&A 봇: 방대한 정책 문서를 캐시에 쓰고 질의만 전송해 응답을 빠르게 한다.
한눈에 비교
| Claude API(1P) | Amazon Bedrock | Vertex AI | |
|---|---|---|---|
| 과금 | 토큰 기반(입·출력, 캐시 분리) | CCU 기반 청구 | GCP 과금 체계 |
| 엔드포인트 | 기본 글로벌 | 글로벌/리전 | 글로벌/멀티리전/리전 |
| 모델 접근 | 문서에 공지된 모델군 | Bedrock 카탈로그 기준 | Vertex 카탈로그 기준 |
| 레이트리밋 | 토큰 버킷(RPM/ITPM/OTPM) | 유사 의미론, 플랫폼 한도 적용 | 플랫폼 한도/쿼터 적용 |
어디서 왜 중요한가
- 모델 선택 표준화: Opus/Sonnet/Haiku 축으로 성능·비용·지연 간 균형을 잡고, 필요 시 상향/하향 조정한다.
- 프롬프트 캐싱 효과: 반복 문맥의 읽기 비용은 낮고(정책에 따름), 대부분 모델에서 ITPM에 포함되지 않아 처리량을 높이기 쉽다.
- 지출·한도 통제: 워크스페이스 한도와 티어 정책으로 월간 예산 범위를 명확히 관리한다.
- 배치/실시간 분리: /v1/messages는 상호작용 경로, /v1/messages/batches는 비긴급 대량 작업에 적합하다.
자주 하는 오해
- ❌ 단일 모델이라고 생각한다 → ✅ 모델군(예: Opus/Sonnet/Haiku)으로 제공되어 목적·예산에 맞게 선택한다.
- ❌ 레이트리밋이 모든 입력을 동일 취급한다 → ✅ 캐시 읽기 토큰은(대부분 모델에서) ITPM에 포함되지 않는다.
- ❌ Anthropic API에서만 쓸 수 있다 → ✅ Amazon Bedrock/Vertex AI 경유 사용도 가능하며 과금·엔드포인트 정책이 다를 수 있다.
대화에서는 이렇게
- "시스템 프롬프트는 캐시로 올리고, count_tokens로 창 크기와 비용을 사전 점검합시다."
- "429가 보이면 retry-after를 따르고 RPM/ITPM/OTPM별 동시성 한도를 조정하세요."
- "실시간은 Messages, 야간 백필은 Batches로 나눠서 한도 안정화합시다."
함께 읽으면 좋은 용어
참고 자료
- API overview - Claude API Docs
사용 가능한 API 표면과 인증, 엔드포인트 개요
- Choosing the right model - Claude API Docs
Opus/Sonnet/Haiku 선택 기준과 권장 시작점
- Claude Platform – Release notes
Opus 4.7 출시, Bedrock 제공, 기능 변경 내역
- Pricing - Claude API Docs
모델별 입력/출력 및 캐시 과금, CCU 안내
- Rate limits - Claude API Docs
토큰 버킷, ITPM/OTPM, 캐시 적중 처리 방식