제01권 · 제10호 CS · AI · Infra 2026년 5월 30일

AI 용어집

용어 사전레퍼런스학습
데이터 엔지니어링 LLM · 생성AI

RRF상호 순위 융합

Reciprocal Rank Fusion

난이도

쉽게 이해하기

RRF(Reciprocal Rank Fusion, 상호 순위 융합)는 여러 검색 결과표를 하나의 결과표로 합치는 방법입니다. 핵심은 “점수”를 직접 비교하지 않고 “순위”만 본다는 점입니다. BM25는 키워드 점수, 벡터 검색은 의미 유사도 점수를 쓰기 때문에 두 점수를 그대로 더하면 기준이 섞입니다. RRF는 각 목록에서 문서가 몇 등인지 보고 1/(k+순위) 점수를 더해, 여러 목록에서 반복해서 상위에 나온 문서를 앞으로 올립니다.

비유와 예시

  • 여러 심사위원 순위표: 심사위원마다 점수 기준은 달라도, 여러 표에서 계속 상위권에 오른 후보는 최종 순위에서 위로 올립니다. RRF가 하는 일이 이와 같습니다.
  • 헬프센터 하이브리드 검색: BM25와 벡터 검색을 병렬로 돌리고 RRF로 top-100 후보를 만든 뒤, Cross-Encoder가 최종 top-10을 고릅니다.
  • RAG-Fusion 질의 변형: 같은 질문을 여러 표현으로 바꿔 검색한 뒤 RRF로 합치면, 여러 표현에서 공통으로 잡힌 문서가 위로 올라가 주제 일탈이 줄어듭니다.

한눈에 비교

RRFCross-Encoder 재정렬단일 검색
역할여러 검색 결과를 빠르게 합쳐 후보 풀 생성소수 후보를 정밀 채점하나의 검색기만 사용
입력각 결과의 순위질의와 문서 본문검색기 내부 점수
장점점수 정규화 불필요, 빠름정확도 높음단순함
한계후보 품질이 낮으면 효과 제한비용과 지연 큼리콜 한계

어디서 왜 중요한가

  • 하이브리드 검색 기본값: BM25와 벡터 검색처럼 점수 체계가 다른 검색기를 안전하게 합칩니다.
  • RAG 후보 선별: RRF로 후보 폭을 넓히고, 재랭커는 그중 일부만 정밀하게 봅니다.
  • 운영 단순성: 점수 정규화 실험 없이도 빠르게 baseline을 만들 수 있습니다.
  • 관측 지표: Recall@K, 리스트 겹침률, 재랭커 입력 크기, p95 latency를 함께 봐야 합니다.

자주 하는 오해

  • ❌ 오해: RRF는 BM25 점수와 벡터 점수를 평균낸다 → ✅ 실제: 원점수는 무시하고 순위 기반 1/(k+rank)만 더합니다.
  • ❌ 오해: k를 낮추면 항상 좋아진다 → ✅ 실제: k는 “한 목록의 1등”과 “여러 목록의 합의” 사이 균형을 조절합니다.
  • ❌ 오해: RRF만 쓰면 최종 검색 품질이 끝난다 → ✅ 실제: 보통 RRF는 후보 선별이고, 최종 정밀도는 Cross-Encoder 같은 재랭커가 보강합니다.

대화에서는 이렇게

  • "BM25와 벡터 결과를 RRF(k=60)로 합친 뒤 top-100만 Cross-Encoder로 넘깁니다."
  • "겹침률이 낮으면 RRF가 합의 신호를 못 잡으니, 질의 변형이나 1단계 검색기를 먼저 보강합시다."
  • "doc_id 정규화와 중복 제거를 fusion 전에 처리해야 같은 문서가 이중 집계되지 않습니다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?