제01권 · 제10호 CS · AI · Infra 2026년 5월 30일

AI 용어집

용어 사전레퍼런스학습
LLM · 생성AI 데이터 엔지니어링

Re-ranking리랭킹

난이도

쉽게 이해하기

지식 기반이 커지면 초기 검색만으로는 정확한 근거를 찾기 어렵다. 비슷해 보이는 문단이 함께 올라오면서 관련 정보가 희석되어 핵심 근거를 찾기 어려워진다. 이런 잡음이 컨텍스트 창을 차지하면 생성 모델은 불필요한 내용에 끌려가거나 애매한 답을 만든다. 이를 줄이는 방법이 바로 리랭킹이다. 이는 1차 검색에서 모은 후보를 '예비 목록'으로 두고, 질문과 얼마나 직접적으로 맞물리는지 기준으로 다시 줄 세우는 과정이다. 일반 검색 결과를 사람이 한 번 더 정렬해 중요한 문서를 맨 위로 올려두는 '2차 심사'에 가깝다. 구체적으로는 벡터 검색이나 하이브리드 검색(BM25+벡터)로 상위 N을 넓게 모은 뒤, 각 후보를 질의와 함께 입력으로 받는 정밀 모델(예: cross‑encoder 류 리랭커)로 재점수해 상위 K만 남긴다. 이렇게 하면 회수는 초기 검색이, 정밀도는 리랭커가 맡아 역할이 분리된다. 리랭킹은 단계가 하나 더 늘어 지연·비용이 소폭 증가하지만, 전달되는 근거의 품질이 올라가 전체 응답의 신뢰도를 높인다.

비유와 예시

  • 웹훅 장애 문의: 벡터 검색과 BM25를 함께 써서 N개의 후보 문단을 모읍니다. 리랭킹은 질의와 후보를 함께 비교해 설정 방법·트러블슈팅 문단을 위로 올리고, 가격·변경 내역처럼 단어만 겹치는 문단은 아래로 내립니다.
  • 정책 문서 질의응답: 규정·지침이 섞인 대형 저장소에서 초기 검색이 유사 배경 설명을 많이 데려올 수 있습니다. 리랭킹은 질문에 직접 답하는 조항·날짜·조건이 포함된 문단을 상위로 재정렬해 생성 단계에 필요한 근거 밀도를 높입니다.
  • 생의학 QA에서 인용 근거 확보: 후보 증거를 먼저 모으고 리랭킹으로 가장 관련 높은 문단을 위로 올린 뒤에야 답변을 생성합니다. 생성 이후에는 별도 판정 모델이 각 주장과 상위 근거의 일치 여부를 확인하는 흐름이 함께 쓰일 수 있습니다.

한눈에 비교

벡터 검색BM25 키워드 검색리랭킹(크로스‑인코더)
입력·점수 방식질의·문서 임베딩 유사도역문서빈도 등 키워드 통계질의·문서를 함께 입력해 관련성 점수
주된 목적의미 유사 후보 회수(Recall)정확 어휘·코드 회수 보완정밀도(Precision) 향상
지연·비용낮음(인덱스 검색)낮음(역색인)중간~높음(추가 추론 단계)
취약점정확 어휘 누락에 약함패러프레이즈에 약함후보 수가 많으면 지연↑
적합한 사용1차로 N 넓게 모으기에러 코드·제품명 포함 질의상위 K만 선별해 컨텍스트 압축

대형 컬렉션에서는 1차로 N≈150을 모은 뒤 리랭킹으로 K≈20만 남기는 예시 구성이 자주 쓰이며, K는 컨텍스트 예산과 지연 한도에 맞춰 조정한다.

어디서 왜 중요한가

  • 하이브리드 검색과 리랭킹을 결합한 RAG 파이프라인이 널리 사용되며, 상위 N을 넓게 확보한 뒤 정밀 재정렬로 근거 품질을 높이는 절차가 소개된다.
  • 운영 관점에서 리랭킹은 지연을 추가하지만, 상위 K를 더 작고 정확하게 구성하면 생성 단계의 컨텍스트 비용을 줄이는 데 도움이 될 수 있다.
  • 평가는 Recall@K, MRR, NDCG 같은 순위 지표와, 근거 중심 과제에서는 생성 후 주장 단위 근거 일치 여부를 함께 확인하는 방식이 권장된다.
  • 대규모·이질적 코퍼스에서 키워드와 의미 신호를 모두 포함한 후보 풀을 만든 뒤 리랭킹으로 최종 순서를 다듬는 패턴이 효과적이다.

자주 하는 오해

  • ❌ 오해: 리랭킹만 있으면 검색 단계가 불필요하다 → ✅ 실제: 리랭킹은 후보 재정렬일 뿐이며, 다양한 후보를 넓게 모으는 초기 검색(벡터/하이브리드)이 여전히 필요하다.
  • ❌ 오해: 더 많은 후보를 리랭킹할수록 항상 성능이 좋아진다 → ✅ 실제: 성능 이득과 지연·비용 사이에 분명한 트레이드오프가 있어, N과 K는 용도별로 실험해 정해야 한다.
  • ❌ 오해: 리랭킹을 쓰면 인용 정확성까지 자동으로 보장된다 → ✅ 실제: 근거 우선순위는 좋아지지만 문장 수준 인용 정확성은 별도 판정(예: claim-level 검증) 절차가 필요하다.

대화에서는 이렇게

  • "초기 검색은 하이브리드로 top‑N을 넓게 모으고, 리랭킹 후 top‑K만 컨텍스트에 넣는 안으로 A/B 테스트 진행하죠."
  • "후보 N을 150으로 잡았을 때 cross‑encoder 리랭커가 지연 예산 안에 드는지 먼저 계측해 주세요."
  • "이번 스프린트에서는 리랭킹 전/후 NDCG@20이 얼마나 오르는지 리포트로 비교합시다."
  • "생성 단계엔 리랭킹 스코어 기준 상위 K 문단만 넘기고, 나머지는 fallback용으로 보관해요."
  • "의료 도메인은 주장‑근거 일치가 중요하니, 리랭킹 뒤에 별도 judge 모델로 claim-level 검증을 붙입시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?