구글, Gemini API에 멀티모달 검색과 페이지 인용 추가

구글 File Search가 텍스트와 이미지를 함께 검색하고 답변에 정확한 페이지를 인용하도록 바뀌었습니다. 동시에 Microsoft는 에이전트 행동을 통제하는 오픈소스 거버넌스 도구를 공개했습니다.

기사에서 찾기

읽기 모드

한 줄 요약

AI 검색과 에이전트가 검증 가능성과 통제를 향해 이동한다: Google은 Gemini API File Search에 멀티모달 검색과 페이지 단위 인용을 더했고, Microsoft는 AI 에이전트 거버넌스 오픈소스 도구를 공개했다.

New Tools

Gemini API File Search: 멀티모달 검색·메타데이터 필터·페이지 인용

Google은 Gemini API의 File Search를 확장해 텍스트와 이미지를 함께 검색하고, 사용자 지정 메타데이터로 결과를 좁히며, 원본 문서의 정확한 페이지를 인용해 보여주도록 바꿨다. 이는 검색 증강 생성(RAG)을 더 쉽게 검증하도록 돕는다. ¹

사용자 지정 메타데이터 필터를 통해 부서나 상태 같은 키–값 라벨을 비정형 파일에 붙이고, 조회 시 해당 구간으로만 범위를 한정할 수 있다. 이렇게 하면 불필요한 문서 소음을 줄이고 필요한 부분만 빠르게 찾는 RAG 워크플로에 도움이 된다. ¹

이번 업데이트는 텍스트·이미지·동영상·오디오·문서를 하나의 의미 공간으로 사상하는 Gemini Embedding 2에 기반한다. Knight Li는 한 번의 요청에서 텍스트 토큰 8,192개, 이미지 6장, 동영상 120초, 오디오 180초, PDF 6페이지를 처리하고, 기본 3,072차원 벡터를 출력하며 1,536/768차원으로 단축할 수 있다고 전한다. 또한 Harvey의 Recall@20이 3%포인트 향상, Supermemory의 Recall@1이 40% 향상, Nuuly의 Match@20이 60%에서 거의 87%로, 전체 식별률이 74%에서 90% 이상으로 개선됐다는 사례가 소개된다. ²

실무에서는 긴 PDF에서 정확한 페이지를 짚어 주고 관련 제품 스크린샷까지 한 번에 제시할 수 있어, 신뢰 형성과 엄격한 사실 검증 흐름에 바로 쓸 수 있다. ¹

Microsoft Agent Governance Toolkit: 에이전트 정책·신원·샌드박스 공개 도구

Microsoft는 자율형 AI 에이전트가 정책 경계를 넘지 않도록 하는 오픈소스 Agent Governance Toolkit을 공개했다. 정책 집행, 제로 트러스트 신원, 실행 샌드박싱, 안정성 엔지니어링을 제공하며 OWASP Agentic Top 10 위험 항목을 포괄한다. ³

저장소에는 2026-05-05자 v3.4.0 릴리스가 표시되며, 숙련된 계정을 과도하게 HIGH 위험으로 표기하던 기여자 평판 검사의 오탐을 줄이기 위해 특정 남용 신호를 완화하는 수정이 포함됐다. 문서와 빠른 시작 가이드도 제공된다. ³

맥락상, 다중 에이전트 개발은 Microsoft의 AutoGen을 통해 널리 이루어지고 있다. Point of AI는 AutoGen이 오픈소스이자 널리 쓰인다고 소개하며, Microsoft가 신규 프로젝트 상당수를 더 새로운 Agent Framework로 안내하고, 프로토타입은 거버넌스와 통제를 더하면서 운영 단계로 성숙한다고 설명한다. ⁴

나에게 주는 의미

내부 지식베이스나 지원 챗봇을 운영한다면, 페이지 단위 인용은 검토를 위한 근거를 제공한다. 모든 AI 답변에 출처 페이지를 포함하도록 요구하면 검증이 빨라지고 대외 공유 시 신뢰도도 높일 수 있다. ¹

업무가 스크린샷, 차트, PDF에 크게 의존한다면 텍스트와 함께 하나의 인덱스로 묶는 것이 검색 품질의 안정화에 도움이 된다. Knight Li는 법률, 메모리, 리테일 사례에서 멀티모달 임베딩의 정량적 향상을 전하며, 시각 자료가 더 이상 부차적 데이터가 아님을 시사한다. ²

API(애플리케이션 프로그래밍 인터페이스)를 호출하거나 코드를 실행하는 에이전트를 실험 중이라면, 거버넌스를 초기에 명시해야 한다. Microsoft의 도구는 제로 트러스트 신원, 샌드박싱, 정책 게이트 등 핵심 통제를 OWASP Agentic Top 10에 맞춰 묶어 제공하며, 최신 릴리스는 위험 점수 로직을 더 엄격히 다듬었다. ³

실무 적용은 ‘검증 가능한 검색’과 ‘통제된 실행’을 결합하는 것이다. 고영향 제안을 하기 전에는 페이지 인용 근거를 요구하고, 민감 단계는 사람에게 넘긴다. Point of AI는 팀들이 AutoGen으로 출발해 거버넌스와 통제를 더하면서 운영 단계로 이행하는 경향을 소개한다. ⁴

지금 할 일

Gemini File Search 소규모 파일럿: 실제 업무 문서로 긴 PDF와 관련 스크린샷을 올리고, 대표 질문 5개를 물어 답변에 페이지 번호와 적절한 시각 자료가 포함되는지 확인하세요.
메타데이터 체계 설계: 부서, 상태, 대상, 날짜처럼 3–5개 라벨을 정해 소규모 문서를 태깅한 뒤, 같은 질문을 필터와 함께 재실행해 소음과 속도 차이를 비교하세요.
검색 품질을 수치로 점검: 20개 질문 테스트를 만들어 멀티모달 인덱싱 또는 Gemini Embedding 2의 태스크 접두어 적용 전후의 Recall@1/20을 기록하세요.
에이전트 가드레일 추가: Agent Governance Toolkit 빠른 시작을 샌드박스에서 실행하고, 위험한 도구 호출에 정책 게이트와 사람 승인 단계를 각각 1개씩 설정해 OWASP Agentic Top 10 중 무엇을 다뤘는지 문서화하세요.

출처 4

[1] Blog Gemini API File Search is now multimodal [2] Knightli Gemini Embedding 2: Putting Text, Images, Video, and Audio in One Vector Space [3] Github microsoft/agent-governance-toolkit: AI Agent Governance Toolkit — Policy enforcement, zero-trust identity, execution sandboxing, and reliability engineering for autonomous AI agents. Covers 10/10 OWASP Agentic Top 10. [4] Pointofai AutoGen – AI Autonomous Coding Agent | Point of AI

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집