제01권 · 제10호 CS · AI · Infra 2026년 5월 14일

AI 용어집

용어 사전레퍼런스학습
LLM · 생성AI

Multimodal RAG멀티모달 RAG

난이도

쉽게 이해하기

기존 RAG는 텍스트만 잘라 임베딩하고, 비슷한 텍스트를 찾아 답변의 근거로 씁니다. 그런데 실제 문서에는 표, 도면, 스크린샷 같은 시각 정보가 많아 텍스트만으로는 핵심을 놓치기 쉽습니다. 이 빈틈을 메우는 방식이 멀티모달 RAG입니다. 비유하자면, 보고서를 읽을 때 본문만 보지 않고 옆의 그래프와 사진을 같이 보며 이해도를 높이는 것과 같습니다. 멀티모달 RAG는 질문과 관련된 텍스트 조각뿐 아니라 해당 위치의 그림, 그림에 대한 캡션까지 함께 끌어와 모델에게 보여줍니다. 그래서 “이 도표 기준 추세를 설명해줘” 같은 요구에도 실제 도표를 근거로 답할 수 있습니다. 구체적으로는 수집 단계에서 문서를 분석해 그림을 추출하고 캡션을 생성한 뒤, 텍스트 임베딩과 별도로 이미지 임베딩(또는 캡션 임베딩)을 만들어 벡터 저장소에 인덱싱합니다. 검색 시에는 텍스트 쿼리로 텍스트·이미지를 각각 검색해 묶어 전달하고, 최종 생성은 시각 입력을 이해하는 모델이 텍스트+이미지(또는 캡션)를 함께 받아 근거 중심으로 답을 합성합니다.

비유와 예시

  • 기술 백서의 도표 질의응답: 사용자가 “3장 전력 효율 그래프 추세를 설명해줘”라고 물으면, 파이프라인이 해당 그래프 이미지를 추출·검색하고 캡션과 함께 모델에 전달해 그래프를 근거로 답합니다.
  • 제품 매뉴얼의 분해도 점검: “펌프 조립 순서가 어디에 나와 있어?” 같은 질문에 관련 텍스트와 함께 분해도 이미지를 찾아 제시해, 그림과 글을 함께 근거로 안내합니다.
  • 학술 슬라이드 요약: 슬라이드의 표·다이어그램 이미지를 캡션화해 인덱싱하고, “모델 구조 개요를 알려줘” 요청 시 해당 도식과 주변 설명을 함께 검색해 요약합니다.

한눈에 비교

텍스트 전용 RAG멀티모달 RAG
입력/근거텍스트만텍스트+이미지(표·도식·사진)
임베딩텍스트 임베딩텍스트 임베딩 + 이미지/캡션 임베딩
인덱싱단일 텍스트 컬렉션텍스트/이미지 별도 또는 공용 공간
검색/재순위텍스트 유사도모달리티별 검색 + 멀티모달 재순위
응답 합성 모델일반 LLM시각 입력 처리 가능한 모델

멀티모달 RAG는 시각 자료까지 검색·재순위하여 근거 품질을 높이고, 답변을 실제 그림·도표에 더 단단히 연결합니다.

어디서 왜 중요한가

  • 문서 파이프라인의 표준화 변화: 그림 추출→캡션 생성→캡션 임베딩→인덱싱 단계가 도입되어 텍스트 위주 처리 관행이 확장됨.
  • 분리 저장 전략 확산: 텍스트와 이미지를 별도 컬렉션으로 관리하고 모달리티별 검색 결과를 결합하는 설계가 활용됨.
  • 멀티모달 재순위 중요성 부각: 관련 없는 이미지가 들어오면 성능이 저하되어, 재순위·필터링 단계의 품질 관리가 핵심 이슈로 취급됨.
  • 근거 제시 품질 개선: 답변에 도표·다이어그램을 함께 참조하도록 오케스트레이션해, 설명의 신뢰성과 해석 가능성이 향상됨.
  • 운영 상 고려 증가: 시각 모델 호출, 이미지 다운로드·전달 등으로 비용·지연이 늘어 배치·캐시·요약 전략이 병행됨.

자주 하는 오해

  • 오해: 멀티모달 RAG면 이미지 이해만 잘하면 된다 → 실제: 검색·재순위 품질이 핵심이며, 관련 없는 이미지 유입을 줄이는 설계가 중요하다.
  • 오해: 하나의 벡터 공간에 전부 넣어야만 한다 → 실제: 텍스트/이미지를 분리 저장하고 모달리티별 검색을 결합하는 방법도 널리 쓰인다.
  • 오해: 캡션만 있으면 이미지를 안 보내도 된다 → 실제: 캡션은 유용하지만, 세부 판독이 필요하면 원본 이미지 전달이 필요하다.

대화에서는 이렇게

  • "도표 질문은 멀티모달 RAG 경로로 흘려서 캡션 임베딩까지 같이 검색해 주세요."
  • "텍스트는 기존 컬렉션, 이미지는 별도 벡터 컬렉션으로 분리하고 쿼리 시 결합하는 게 낫겠습니다."
  • "이미지 탑-K가 과해요. 재순위기 붙여서 관련 없는 그림은 잘라내죠."
  • "응답 합성은 비전 지원 모델로만 태워야 합니다. 일반 LLM 경로로 새면 그림 근거가 빠져요."
  • "지연이 늘었습니다. 캡션 캐시랑 썸네일 전송으로 비용·레이턴시 줄여보죠."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?