OpenAI API

오픈AI

텍스트·이미지·음성 모델과 도구 호출을 앱에 연결하는 OpenAI 개발자 플랫폼

유료 약간의 설정 필요 Web · API

platform assistant audio #AI API#멀티모달 모델#에이전트 도구

소개

GPT‑5.4 계열 모델을 한 API로 호출해 도구 연결과 에이전트형 채팅·음성 인터페이스를 인프라 없이 배포할 수 있습니다. 명확한 per‑token 요금제와 1.05M 토큰 컨텍스트, 음성 중심의 서브‑초 응답이 가능한 Realtime API가 특징입니다.

초단위 음성 응답, 대규모 컨텍스트 처리, 시각적 에이전트 설계와 코드 배포를 함께 시도하려는 개발자에게 시도할 가치가 있습니다. 다만 베타 단계의 제약과 큰 파일 업로드에 따른 토큰 비용은 고려해야 합니다.

1
음성 코칭 도우미 만들기
계정 생성 후 API 키 발급 → Realtime API로 마이크 오디오를 스트리밍해 도중에 툴 호출과 함께 초단위 응답 수신 → Agents SDK로 에이전트를 엔드포인트로 배포해 세션 기록과 처리를 완료하세요.
2
멀티모달 고객지원 채팅 구축
Agent Builder로 이미지와 텍스트를 받는 워크플로를 시각적으로 조립 → 티켓 조회·계정 조회 같은 툴을 연결해 즉시 테스트 → 에이전트를 엔드포인트로 내보내 웹 채팅에 통합하세요.
3
긴 브리프를 GPT‑5.4로 이전
1.05M 토큰 컨텍스트의 GPT‑5.4 또는 비용 절감용 GPT‑5.4 mini 선택 → 청크 분할 없이 긴 문서를 전송해 결과 확인 → 토큰 사용량을 측정하고 캐시 입력 기능으로 비용을 줄이세요.
4
실시간 음성 게임 프로토타입
Realtime API에 플레이어 오디오를 스트리밍 → 모델의 툴 호출로 게임 상태를 관리하고 초단위 음성 응답 반환 → Agents SDK에서 정책과 프롬프트를 조정해 턴 관리 개선.
5
코드 기반 에이전트 엔드포인트 배포
Agents SDK를 설치해 툴·정책·핸들러를 코드로 정의 → 에이전트 엔드포인트를 배포하고 REST/SDK 호출로 스모크 테스트 실행 → 사용량을 모니터링하며 모델 교체로 지연·비용 균형 조정.

GPT‑5.4 계열은 1.05M 토큰 컨텍스트(최대 128K 출력)를 지원해 긴 프롬프트를 분할 없이 전송할 수 있습니다.
Realtime API는 초단위 음성 중심 인터랙션에 맞춰 설계되어 마이크 스트리밍, 음성 응답, 대화 중 툴 호출을 동시에 처리할 수 있습니다.
Agent Builder(시각적 구성)와 Agents SDK(코드)는 저코드 워크플로와 코드 기반 배포를 모두 제공하며, GPT‑5.4 mini와 입력 캐시 등 비용 제어 옵션이 명확한 토큰 과금 구조로 제시됩니다.

플랜	가격	포함
GPT-5.5	Input $5.00 / 1M tokens; Cached input $0.50 / 1M tokens; Output $30.00 / 1M tokens	GPT-5.5 기본 모델 요금 (coming soon)
GPT-5.4	Input $2.50 / 1M tokens; Cached input $0.25 / 1M tokens; Output $15.00 / 1M tokens	GPT-5.4 기본 모델 요금
GPT-5.4 mini	Input $0.75 / 1M tokens; Cached input $0.075 / 1M tokens; Output $4.50 / 1M tokens	GPT-5.4 mini 기본 모델 요금
Multimodal models	GPT-realtime-1.5, GPT-image-2, Web search tools 등 멀티모달 모델의 요금은 각 항목별로 표시 (1M tokens 또는 1k 호출당)	다양한 모달리티별 요금 표기