데이터 엔지니어링

Vector Search벡터 검색

난이도

쉽게 이해하기

검색의 어려움은 말 바꿔쓰기와 맥락에 있습니다. 키워드가 조금만 달라도, 뜻이 같은 문장을 찾기 어렵습니다. 벡터 검색은 이 문제를 해결하려고, 텍스트의 ‘의미’를 숫자 벡터로 바꿔 비슷한 뜻끼리 가깝게 배치합니다. 비유로 보면, 동네 지도에서 집과 가장 가까운 가게를 찾는 것과 비슷합니다. 집과 가게의 좌표가 가까울수록 관련이 높다고 보듯, 질문과 문서가 같은 공간에서 가까우면 연관성이 높다고 판단합니다. 덕분에 단어가 달라도 의미가 비슷하면 가까운 이웃으로 뽑힙니다. 메커니즘은 간단합니다. 문서 조각과 사용자의 질문을 임베딩으로 변환하고, 두 벡터 사이의 코사인 유사도나 내적을 계산해 점수가 높은 순으로 Top‑K를 선택합니다. 이후 필요하면 리랭킹 모델이 초기 결과를 다시 평가해 정밀도를 높입니다. 참고로 문서용과 쿼리용 임베딩을 구분하는 설정은 일부 임베딩 제공자나 라이브러리에서 제공하는 구현 세부(비대칭 임베딩)이며, 보편적 API 규격은 아닙니다.

비유와 예시

계약서 조항 찾기 (법무팀): ‘해지 조항’처럼 표현이 다양한 질문을 던지면, 벡터 검색이 의미가 가까운 섹션과 단락을 빠르게 모읍니다. 문서 구조를 보존한 계층형 인덱싱과 함께 쓰면 정확도가 더 오릅니다.
사내 가이드·FAQ 기반 답변: 부서마다 용어가 달라도 같은 의미의 문의를 묶어 관련 조각을 찾아냅니다. 태그형 메타데이터와 결합하면 부서·버전별로 필터링해 더욱 정확하게 회수합니다.
재무 리포트 최신 정보 확인: 시기별로 변하는 수치를 다룰 때, 날짜 메타데이터와 함께 벡터 검색을 쓰면 최신 문단을 우선 회수합니다. 키워드가 조금 달라도 같은 주제의 단락을 잘 찾아줍니다.

한눈에 비교

	벡터 검색	키워드 검색(BM25)	하이브리드 검색
매칭 기준	의미(임베딩 근접)	용어 일치/가중치	의미+키워드 결합
강점	패러프레이즈·동의어에 강함	고유명사·정확 용어에 강함	정밀도·재현율 균형
약점	드문 키워드 누락 가능	표현 바뀌면 약함	구성·튜닝 복잡도 증가
지연/비용	임베딩 검색 비용	색인어 기반 저지연	결합·리랭킹 비용 추가
적합한 경우	자연어 질의, 유사 의미 탐색	규정 번호·SKU 등 정확 매칭	품질 최우선 프로덕션

의미 기반과 키워드 기반의 장단을 함께 쓰면 품질을 끌어올리되, 그만큼 연산·운영 비용이 늘어나는 점을 고려해 선택해야 한다.

어디서 왜 중요한가

지식집약 작업의 표준 검색층: 벡터 검색은 RAG 파이프라인의 핵심으로 자리 잡아, 관련 문서를 프롬프트에 넣어 답변의 신뢰성과 시의성을 높이는 데 쓰입니다.
리랭킹 도입의 상용 효과: 초기 Top‑K 이후 교차 인코더로 재점수하면 정밀도가 올라가지만, 추가 지연이 생겨 품질과 지연의 교환을 관리해야 합니다.
품질–성능 동시 최적화 필요: 인덱스 구성, 임베딩 모델, Top‑K, 재작성·리랭킹 모델, 하드웨어 선택까지 전체가 QPS·지연과 정확도에 영향을 주기 때문에 개별 DB 튜닝만으로는 한계가 있습니다.
인덱스 갱신 파이프라인 정착: 지식이 바뀌면 재청크·재임베딩·재색인의 부분 업데이트 파이프라인을 운영해 최신성을 유지합니다.
전략의 다변화: 키워드와 결합한 하이브리드, 날짜·주제 등 메타데이터 필터링, 문서 구조를 살린 계층형 인덱싱이 실무에서 널리 쓰입니다.

자주 하는 오해

❌ 오해: 벡터 검색만 쓰면 항상 최고 품질이다 → ✅ 실제: 초기 검색 후 리랭킹·메타데이터 필터를 더해야 정밀도가 안정적으로 오른다.
❌ 오해: 문서와 쿼리는 서로 다른 임베딩 모델을 써도 된다 → ✅ 실제: 동일 임베딩 모델을 쓰는 것이 원칙이며, 일부 제공자의 문서/쿼리 모드 구분은 같은 모델 내부의 설정이다.
❌ 오해: Top‑K를 크게 잡을수록 무조건 좋다 → ✅ 실제: K가 커지면 지연과 비용이 늘고 품질은 리랭킹·하이브리드·필터링 설계에 좌우된다.

대화에서는 이렇게

"오늘은 Top‑K 상향 보류요. 지연이 늘어 품질은 리랭킹으로 보완하죠."
"초기 벡터 검색으로 20개 뽑고 rerank 추가, SLA 안에서 지연 허용되는지 측정해 주세요."
"임베딩 모델은 동일하게 쓰고, 문서/쿼리 task_type은 제공되는 곳에서만 구분합시다."
"날짜 메타데이터 필터 먼저 걸고 벡터 스코어로 재정렬하면 신선도 놓치지 않습니다."
"문서 업데이트는 부분 재임베딩으로 처리, 파이프라인에 체크포인트랑 재시도 넣어 주세요."

참고 자료

★공식 문서
Qdrant Documentation: Similarity search
최근접 벡터 검색, Query API, 필터와 하이브리드 쿼리의 공식 설명.
★공식 문서
Weaviate Concepts: Search
키워드·벡터·하이브리드 검색, RAG, 리랭킹의 차이를 설명하는 공식 문서.
★공식 문서
Weaviate Documentation: Hybrid search
벡터와 키워드 검색의 가중 결합, alpha 조정 등 하이브리드 검색 동작.
★코드
pgvector
PostgreSQL에서 vector 타입, 거리 연산자, HNSW/IVFFlat 인덱스를 제공하는 공식 저장소.

도움이 되었나요?

0to1log Weekly

AI 용어집