데이터 엔지니어링

데이터 파이프라인, 저장소, 처리, 포맷

13개 용어

인프라 · 하드웨어 LLM · 생성AI 데이터 엔지니어링

Batch Inference

배치 추론은 실시간 응답이 필요하지 않은 대규모 입력을 일정 주기나 온디맨드 작업으로 한꺼번에 예측하는 방식으로, 클라우드 스토리지에서 분산 읽기·전처리를 거쳐 GPU 기반 모델 실행과 결과 저장까지 파이프라인으로 …

CS 기초 데이터 엔지니어링 LLM · 생성AI

BM25는 질의와 문서의 관련도를 계산해 순위를 매기는 정보검색 점수 함수로, 단어 빈도를 포화함수로 완만하게 반영하고 문서 길이를 정규화한 뒤 역문헌빈도(IDF)로 가중해 각 질의어의 기여도를 합산하며, k1·b …

LLM · 생성AI 데이터 엔지니어링 딥러닝

크로스 인코더

크로스 인코더는 쿼리와 문서를 하나의 입력으로 결합해 Transformer의 층별 self-attention으로 모든 토큰을 교차 상호작용시키고 [CLS] 등에서 관련성 점수를 산출하는 상호작용 기반 랭킹 모델로, …

LLM · 생성AI 딥러닝 데이터 엔지니어링

임베딩은 이산적인 대상이나 고차원 입력을 연속적인 벡터 공간의 좌표로 표현해, 의미·관계·유사도를 거리 계산으로 다룰 수 있게 하는 표현 학습 결과다. LLM·검색 시스템에서는 텍스트나 문서를 임베딩한 뒤 neare…

데이터 엔지니어링 LLM · 생성AI

하이브리드 검색

하이브리드 검색은 동일한 말뭉치에 대해 키워드 기반과 벡터 기반 검색을 병행 실행하고, 각 인덱스에서 반환된 후보를 랭킹 융합으로 하나의 순위로 합치는 기법으로, 정확한 용어 일치와 의미 유사성의 장점을 함께 취해 …

CS 기초 데이터 엔지니어링

역색인은 각 용어를 포함하는 문서들의 목록(포스팅 리스트)으로 용어를 연결하는 검색용 색인 구조로, 토큰화된 단어를 사전(dictionary)에 정렬·압축해 저장하고 항목이 가리키는 리스트의 바이트 오프셋으로 직접 …

LLM · 생성AI 데이터 엔지니어링

multi-hop retrieval

다중 홉 검색

다중 홉 검색은 AI가 복잡한 질문에 답할 때, 한 번에 하나의 정보만 찾는 것이 아니라 여러 단계(홉)에 걸쳐 연관된 정보를 차례로 검색해 최종 답을 도출하는 기술입니다. 주로 대형 언어 모델(LLM)이나 복잡한 …

LLM · 생성AI 데이터 엔지니어링

검색 증강 생성

검색 증강 생성(RAG)은 대규모 언어 모델에 외부 지식 검색을 결합해 질의와 함께 회수된 관련 문서 조각을 프롬프트 컨텍스트로 주입함으로써 출력을 근거에 정박시키는 프레임워크로, 문서를 청크로 분할해 임베딩·인덱싱…

LLM · 생성AI 데이터 엔지니어링

리랭킹은 RAG나 검색 파이프라인에서 1차 검색으로 모은 후보 청크를 질의와 함께 더 정밀한 모델로 재점수해 순서를 다시 매기는 2단계 랭킹 절차로, 코사인 유사도나 BM25만으로 생기는 랭킹 노이즈를 줄여 상위 K…

데이터 엔지니어링 LLM · 생성AI

상호 순위 융합

RRF(Reciprocal Rank Fusion)는 서로 다른 검색기에서 생성된 순위 목록을 점수 정규화 없이 결합하기 위해 각 문서의 순위에 대해 1/(k+rank)를 합산해 점수를 매기고, 여러 목록의 상위에 반…

데이터 엔지니어링 LLM · 생성AI ML 기초

합성 데이터

합성 데이터는 실제 관측값을 그대로 노출하지 않고 통계적 규칙, 시뮬레이션, 생성 모델 등을 통해 만든 데이터로, 학습·평가·개인정보 보호·희귀 사례 보강에 사용된다.

데이터 엔지니어링 LLM · 생성AI

Vector Database

벡터 데이터베이스

벡터 데이터베이스는 임베딩을 저장하고 유사도 기반 최근접 검색을 제공하는 특화 저장·검색 시스템으로, ANN 인덱스, 메타데이터 필터, 샤딩·복제·캐시 같은 운영 기능을 조합해 RAG, 시맨틱 검색, 추천 등에서 대…

데이터 엔지니어링

벡터 검색은 문서와 질의를 임베딩 벡터로 수치화해 동일 공간에 투영한 뒤 코사인 유사도나 내적 등으로 거리가 가까운 항목을 순위화해 Top‑K를 반환하는 유사성 기반 검색 방식으로, RAG 파이프라인에서 관련 문서 …