제01권 · 제10호 CS · AI · Infra 2026년 5월 30일

AI 용어집

용어 사전레퍼런스학습
제품 · 플랫폼 LLM · 생성AI 딥러닝

Gemini제미나이

난이도

쉽게 이해하기

회사나 팀이 생성형 AI를 서비스에 붙이려면 텍스트뿐 아니라 이미지·오디오·영상까지 섞인 입력을 처리하고, 빠른 응답이 필요한 경우와 깊은 추론이 필요한 경우를 구분해야 합니다. 한 가지 모델로 모두 해결하려 하면 비용이 불어나거나 품질이 들쭉날쭉해집니다. Gemini는 이 문제를 해결하기 위해 용도별 특성이 다른 모델을 한 제품군으로 묶어 API로 제공합니다. 개발자는 같은 API에서 모델명만 바꿔 호출하며, 작업 성격에 따라 속도/비용/품질의 균형을 맞춥니다. Google 문서 기준 장문맥(약 1,048,576 토큰)과 멀티모달 입력을 지원하고, 과금과 제한은 토큰 단위로 관리됩니다. Vertex AI에서는 앞으로 Gen AI SDK 사용이 권장되며, 모델 출시/변경/중단은 공식 릴리스 노트로 공지됩니다.

비유와 예시

  • 개발 툴: 코드 설명·테스트 생성·변환 등 IDE 보조에서 빠른 응답은 Flash, 복잡한 리팩터링 제안은 Pro로 라우팅해 효율을 높입니다.
  • 데이터 마이그레이션: SQL 변환과 같은 반복 작업은 Flash/Flash‑Lite로 대량 처리하고, 예외 케이스 검토는 Pro로 후속 분석합니다.
  • 장문서 요약: 설계서와 회의록을 묶어 업로드하고 교차 요약을 요청합니다. 긴 문맥을 단일 호출로 처리해 오케스트레이션을 단순화합니다.
  • 운영 고려: 2.5 Pro는 Vertex FAQ에 10 QPM 기본 제한이 문서화돼 있어, 배치 처리나 PT 검토가 필요할 수 있습니다.
  • 이미지 생성 분리: 프로덕션 이미지 생성은 Imagen 3 사용이 안내되어, 텍스트 중심 경로와 역할을 분리합니다.

한눈에 비교

항목2.5 Pro2.5 Flash2.5 Flash‑Lite
입력 모달리티텍스트/코드/이미지/오디오/비디오텍스트/코드/이미지/오디오/비디오텍스트/코드/이미지/오디오/비디오
문맥 한도(총)약 1,048,576 토큰약 1,048,576 토큰약 1,048,576 토큰
출력 기본 한도모델별 기본값(문서 확인)모델별 기본값(문서 확인)모델별 기본값(문서 확인)
과금 단위토큰토큰토큰
포지션품질/깊이속도/효율초저지연/효율

어디서 왜 중요한가

  • 출시/변경/중단 — 공식 릴리스 노트가 업그레이드 타이밍과 호환성 결정을 좌우합니다.
  • SDK 방향 — Gen AI SDK 중심 통합이 권장되어, 장기 유지보수에 유리합니다.
  • 운영 한도 — 모델별 레이트 리밋(예: 2.5 Pro 10 QPM)과 로케이션/프로젝트 스코프가 용량·예산 계획에 직접 영향합니다.
  • 용량 확보 — Provisioned Throughput(GSU)로 예측 가능한 처리량과 꼬리지연을 확보할 수 있습니다.

자주 하는 오해

  • ❌ "Pro가 항상 최선" → ✅ 실무에선 작업 난이도·지연·비용 균형에 따라 Flash/Flash‑Lite가 더 적합한 경우가 많습니다.
  • ❌ "어디서나 안정적 이미지 생성" → ✅ 프로덕션 이미지 생성은 Imagen 3 권장입니다.
  • ❌ "SDK는 무엇을 써도 동일" → ✅ 신규 기능은 Gen AI SDK 중심으로 제공됩니다.

대화에서는 이렇게

  • "쉬운 티켓은 Flash로, 깊은 분석은 2.5 Pro로 보내서 비용을 잡죠."
  • "2.5 Pro 10 QPM 제한이 있어 피크는 PT로 보강해야 합니다."
  • "이번 분기 Gen AI SDK로 이관하고 회귀 세트로 품질을 고정합시다."
  • "문서 묶음은 약 1M 토큰 문맥으로 한 번에 처리하고, 출력 한도는 문서 기준으로 설정해요."
  • "이미지 생성은 Imagen 3로 분리합시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?