제01권 · 제10호 CS · AI · Infra 2026년 5월 30일

AI 용어집

용어 사전레퍼런스학습
제품 · 플랫폼 LLM · 생성AI 딥러닝

Claude클로드

난이도

쉽게 이해하기

클로드는 자체 호스팅 없이도 고품질 언어·코딩 기능을 애플리케이션에 붙일 수 있게 해주는 API 기반 모델 플랫폼이다. 개발자는 HTTP로 모델을 호출하고, 반복되는 긴 지시문·문서는 프롬프트 캐싱으로 재사용해 비용과 지연을 줄일 수 있다. 운영 차원에서는 토큰 단위 과금, 토큰 버킷 레이트리밋, 월간 스펜드 한도로 사용량을 통제한다.

비유와 예시

  • 대량 보고서 요약: 공통 지시문과 레이아웃을 캐시에 저장해 야간 배치로 수천 건을 처리하면서 비용을 낮춘다.
  • 장기 코드 리팩터링: 관리형 Agents 세션으로 다단계 작업을 이어가고, 이벤트 히스토리로 맥락 손실을 줄인다.
  • 내부 Q&A 봇: 방대한 정책 문서를 캐시에 쓰고 질의만 전송해 응답을 빠르게 한다.

한눈에 비교

Claude API(1P)Amazon BedrockVertex AI
과금토큰 기반(입·출력, 캐시 분리)CCU 기반 청구GCP 과금 체계
엔드포인트기본 글로벌글로벌/리전글로벌/멀티리전/리전
모델 접근문서에 공지된 모델군Bedrock 카탈로그 기준Vertex 카탈로그 기준
레이트리밋토큰 버킷(RPM/ITPM/OTPM)유사 의미론, 플랫폼 한도 적용플랫폼 한도/쿼터 적용

어디서 왜 중요한가

  • 모델 선택 표준화: Opus/Sonnet/Haiku 축으로 성능·비용·지연 간 균형을 잡고, 필요 시 상향/하향 조정한다.
  • 프롬프트 캐싱 효과: 반복 문맥의 읽기 비용은 낮고(정책에 따름), 대부분 모델에서 ITPM에 포함되지 않아 처리량을 높이기 쉽다.
  • 지출·한도 통제: 워크스페이스 한도와 티어 정책으로 월간 예산 범위를 명확히 관리한다.
  • 배치/실시간 분리: /v1/messages는 상호작용 경로, /v1/messages/batches는 비긴급 대량 작업에 적합하다.

자주 하는 오해

  • ❌ 단일 모델이라고 생각한다 → ✅ 모델군(예: Opus/Sonnet/Haiku)으로 제공되어 목적·예산에 맞게 선택한다.
  • ❌ 레이트리밋이 모든 입력을 동일 취급한다 → ✅ 캐시 읽기 토큰은(대부분 모델에서) ITPM에 포함되지 않는다.
  • Anthropic API에서만 쓸 수 있다 → ✅ Amazon Bedrock/Vertex AI 경유 사용도 가능하며 과금·엔드포인트 정책이 다를 수 있다.

대화에서는 이렇게

  • "시스템 프롬프트는 캐시로 올리고, count_tokens로 창 크기와 비용을 사전 점검합시다."
  • "429가 보이면 retry-after를 따르고 RPM/ITPM/OTPM별 동시성 한도를 조정하세요."
  • "실시간은 Messages, 야간 백필은 Batches로 나눠서 한도 안정화합시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?