제01권 · 제10호 CS · AI · Infra 2026년 7월 14일

용어 사전레퍼런스학습

제품 · 플랫폼 LLM · 생성AI 딥러닝

Claude클로드

난이도

쉽게 이해하기

클로드는 자체 호스팅 없이도 고품질 언어·코딩 기능을 애플리케이션에 붙일 수 있게 해주는 API 기반 모델 플랫폼이다. 개발자는 HTTP로 모델을 호출하고, 반복되는 긴 지시문·문서는 프롬프트 캐싱으로 재사용해 비용과 지연을 줄일 수 있다. 운영 차원에서는 토큰 단위 과금, 토큰 버킷 레이트리밋, 월간 스펜드 한도로 사용량을 통제한다.

비유와 예시

대량 보고서 요약: 공통 지시문과 레이아웃을 캐시에 저장해 야간 배치로 수천 건을 처리하면서 비용을 낮춘다.
장기 코드 리팩터링: 관리형 Agents 세션으로 다단계 작업을 이어가고, 이벤트 히스토리로 맥락 손실을 줄인다.
내부 Q&A 봇: 방대한 정책 문서를 캐시에 쓰고 질의만 전송해 응답을 빠르게 한다.

한눈에 비교

	Claude API(1P)	Amazon Bedrock	Vertex AI
과금	토큰 기반(입·출력, 캐시 분리)	CCU 기반 청구	GCP 과금 체계
엔드포인트	기본 글로벌	글로벌/리전	글로벌/멀티리전/리전
모델 접근	문서에 공지된 모델군	Bedrock 카탈로그 기준	Vertex 카탈로그 기준
레이트리밋	토큰 버킷(RPM/ITPM/OTPM)	유사 의미론, 플랫폼 한도 적용	플랫폼 한도/쿼터 적용

어디서 왜 중요한가

모델 선택 표준화: Opus/Sonnet/Haiku 축으로 성능·비용·지연 간 균형을 잡고, 필요 시 상향/하향 조정한다.
프롬프트 캐싱 효과: 반복 문맥의 읽기 비용은 낮고(정책에 따름), 대부분 모델에서 ITPM에 포함되지 않아 처리량을 높이기 쉽다.
지출·한도 통제: 워크스페이스 한도와 티어 정책으로 월간 예산 범위를 명확히 관리한다.
배치/실시간 분리: /v1/messages는 상호작용 경로, /v1/messages/batches는 비긴급 대량 작업에 적합하다.

자주 하는 오해

❌ 단일 모델이라고 생각한다 → ✅ 모델군(예: Opus/Sonnet/Haiku)으로 제공되어 목적·예산에 맞게 선택한다.
❌ 레이트리밋이 모든 입력을 동일 취급한다 → ✅ 캐시 읽기 토큰은(대부분 모델에서) ITPM에 포함되지 않는다.
❌ Anthropic API에서만 쓸 수 있다 → ✅ Amazon Bedrock/Vertex AI 경유 사용도 가능하며 과금·엔드포인트 정책이 다를 수 있다.

대화에서는 이렇게

"시스템 프롬프트는 캐시로 올리고, count_tokens로 창 크기와 비용을 사전 점검합시다."
"429가 보이면 retry-after를 따르고 RPM/ITPM/OTPM별 동시성 한도를 조정하세요."
"실시간은 Messages, 야간 백필은 Batches로 나눠서 한도 안정화합시다."

함께 읽으면 좋은 용어

참고 자료

★공식 문서
API overview - Claude API Docs
사용 가능한 API 표면과 인증, 엔드포인트 개요
★공식 문서
Choosing the right model - Claude API Docs
Opus/Sonnet/Haiku 선택 기준과 권장 시작점
★공식 문서
Claude Platform – Release notes
Opus 4.7 출시, Bedrock 제공, 기능 변경 내역
★공식 문서
Pricing - Claude API Docs
모델별 입력/출력 및 캐시 과금, CCU 안내
★공식 문서
Rate limits - Claude API Docs
토큰 버킷, ITPM/OTPM, 캐시 적중 처리 방식

도움이 되었나요?