제품 · 플랫폼 LLM · 생성AI 딥러닝

Gemini제미나이

난이도

쉽게 이해하기

회사나 팀이 생성형 AI를 서비스에 붙이려면 텍스트뿐 아니라 이미지·오디오·영상까지 섞인 입력을 처리하고, 빠른 응답이 필요한 경우와 깊은 추론이 필요한 경우를 구분해야 합니다. 한 가지 모델로 모두 해결하려 하면 비용이 불어나거나 품질이 들쭉날쭉해집니다. Gemini는 이 문제를 해결하기 위해 용도별 특성이 다른 모델을 한 제품군으로 묶어 API로 제공합니다. 개발자는 같은 API에서 모델명만 바꿔 호출하며, 작업 성격에 따라 속도/비용/품질의 균형을 맞춥니다. Google 문서 기준 장문맥(약 1,048,576 토큰)과 멀티모달 입력을 지원하고, 과금과 제한은 토큰 단위로 관리됩니다. Vertex AI에서는 앞으로 Gen AI SDK 사용이 권장되며, 모델 출시/변경/중단은 공식 릴리스 노트로 공지됩니다.

비유와 예시

개발 툴: 코드 설명·테스트 생성·변환 등 IDE 보조에서 빠른 응답은 Flash, 복잡한 리팩터링 제안은 Pro로 라우팅해 효율을 높입니다.
데이터 마이그레이션: SQL 변환과 같은 반복 작업은 Flash/Flash‑Lite로 대량 처리하고, 예외 케이스 검토는 Pro로 후속 분석합니다.
장문서 요약: 설계서와 회의록을 묶어 업로드하고 교차 요약을 요청합니다. 긴 문맥을 단일 호출로 처리해 오케스트레이션을 단순화합니다.
운영 고려: 2.5 Pro는 Vertex FAQ에 10 QPM 기본 제한이 문서화돼 있어, 배치 처리나 PT 검토가 필요할 수 있습니다.
이미지 생성 분리: 프로덕션 이미지 생성은 Imagen 3 사용이 안내되어, 텍스트 중심 경로와 역할을 분리합니다.

한눈에 비교

항목	2.5 Pro	2.5 Flash	2.5 Flash‑Lite
입력 모달리티	텍스트/코드/이미지/오디오/비디오	텍스트/코드/이미지/오디오/비디오	텍스트/코드/이미지/오디오/비디오
문맥 한도(총)	약 1,048,576 토큰	약 1,048,576 토큰	약 1,048,576 토큰
출력 기본 한도	모델별 기본값(문서 확인)	모델별 기본값(문서 확인)	모델별 기본값(문서 확인)
과금 단위	토큰	토큰	토큰
포지션	품질/깊이	속도/효율	초저지연/효율

어디서 왜 중요한가

출시/변경/중단 — 공식 릴리스 노트가 업그레이드 타이밍과 호환성 결정을 좌우합니다.
SDK 방향 — Gen AI SDK 중심 통합이 권장되어, 장기 유지보수에 유리합니다.
운영 한도 — 모델별 레이트 리밋(예: 2.5 Pro 10 QPM)과 로케이션/프로젝트 스코프가 용량·예산 계획에 직접 영향합니다.
용량 확보 — Provisioned Throughput(GSU)로 예측 가능한 처리량과 꼬리지연을 확보할 수 있습니다.

자주 하는 오해

❌ "Pro가 항상 최선" → ✅ 실무에선 작업 난이도·지연·비용 균형에 따라 Flash/Flash‑Lite가 더 적합한 경우가 많습니다.
❌ "어디서나 안정적 이미지 생성" → ✅ 프로덕션 이미지 생성은 Imagen 3 권장입니다.
❌ "SDK는 무엇을 써도 동일" → ✅ 신규 기능은 Gen AI SDK 중심으로 제공됩니다.

대화에서는 이렇게

"쉬운 티켓은 Flash로, 깊은 분석은 2.5 Pro로 보내서 비용을 잡죠."
"2.5 Pro 10 QPM 제한이 있어 피크는 PT로 보강해야 합니다."
"이번 분기 Gen AI SDK로 이관하고 회귀 세트로 품질을 고정합시다."
"문서 묶음은 약 1M 토큰 문맥으로 한 번에 처리하고, 출력 한도는 문서 기준으로 설정해요."
"이미지 생성은 Imagen 3로 분리합시다."

참고 자료

★공식 문서
Gemini for Google Cloud release notes
Code Assist 등 제품 업데이트 내역.
★공식 문서
Rate limits | Gemini API
모델별 레이트 리밋과 관련 지침.
★공식 문서
Release notes | Gemini API
모델·기능 변경과 중단 일정 등 공식 변경 이력.
★공식 문서
Migrate to the latest Gemini models | Vertex AI
모델 세대 교체·SDK 전환 가이드와 비교 표.
★공식 문서
Frequently asked questions | Generative AI on Vertex AI
Gemini 2.5 Pro QPM, 이미지 생성, PT 등 FAQ.
★코드
skills/cloud/gemini-api (Google Gen AI SDK sample)
Gen AI SDK로 Gemini 호출 예시.
·블로그
Gemini API Pricing: Current Flash, Flash-Lite, and Pro Rates (April 2026)
요금 체계 복잡성·설계 주의점 요약.

도움이 되었나요?

0to1log Weekly

AI 용어집