LLM · 생성AI

대형 언어 모델, 생성AI, 에이전트, RLHF, 멀티모달

92개 용어

LLM · 생성AI

Agent Evaluation

에이전트 평가

에이전트 평가는 LLM 기반 시스템이 계획·메모리·도구 호출로 외부 환경과 상호작용하며 다단계로 문제를 해결하는 과정을 대상으로, 고정 입·출력이 아닌 실행 궤적과 최종 상태 변화를 함께 측정하고(정확도 외에 단계 …

LLM · 생성AI

에이전트 루프

에이전트 루프는 입력과 누적 문맥을 모아 LLM이 다음 행동을 계획·결정한 뒤 도구를 실행하고 그 결과를 관찰하여 종료 조건에 이를 때까지 반복하는 에이전트의 제어 사이클로, 각 반복이 상태를 갱신하며 다음 추론의 …

LLM · 생성AI

에이전틱 RAG

에이전틱 RAG는 RAG에 플래너를 붙여 검색, 읽기, 검증, 재검색, 종료를 여러 단계로 조정하는 아키텍처다. 한 번 검색해 답하는 대신 질문의 난이도와 근거 상태에 따라 키워드 검색, 의미 검색, 청크 열람 같은…

ML 기초 LLM · 생성AI

Agentic workflows

에이전트 워크플로우

에이전트 워크플로우는 여러 개의 전문화된 AI 에이전트가 서로 상호작용하며 계획·추론·도구 사용을 통해 다단계 문제를 자율적으로 해결하도록 설계된 동적 작업 흐름을 말한다. 단일 에이전트나 고정된 순서의 정적 플로우…

LLM · 생성AI

AI 에이전트

AI 에이전트는 주어진 목표를 달성하기 위해 환경으로부터 관찰을 받아 추론·계획하고 외부 도구나 API를 호출해 일련의 행동을 반복 수행하는 시스템으로, 실행 결과 피드백과 명시적 정지 조건을 바탕으로 다음 행동을 …

인프라 · 하드웨어 LLM · 생성AI

AI 추론은 학습된 모델의 가중치를 고정한 상태에서 새 입력을 처리해 예측, 분류, 추천, 생성 결과를 내는 실행 단계다.

제품 · 플랫폼 LLM · 생성AI AI 안전 · 윤리

앤트로픽은 Claude 계열 대형 언어모델과 개발·배포 플랫폼을 제공하는 AI 기업으로, 모델을 고정 스냅샷 ID와 다중 접근면(자사 API, AWS Bedrock, Google Vertex AI 등)으로 배포하며 …

딥러닝 LLM · 생성AI

어텐션은 현재의 질의 표현과 입력 요소들의 키·값 표현 사이의 유사도를 통해 가중합을 계산해 중요한 정보에 더 큰 비중을 두는 신경망 메커니즘으로, 토큰 간 거리에 무관하게 전역 의존성을 모델링하며 트랜스포머에서는 …

LLM · 생성AI

AUC (Area Under the Curve)

곡선 아래 면적

AUC는 ROC 곡선 아래의 면적을 나타내며, 모델의 분류 성능을 평가하는 지표로 사용됩니다.

인프라 · 하드웨어 LLM · 생성AI 데이터 엔지니어링

Batch Inference

배치 추론은 실시간 응답이 필요하지 않은 대규모 입력을 일정 주기나 온디맨드 작업으로 한꺼번에 예측하는 방식으로, 클라우드 스토리지에서 분산 읽기·전처리를 거쳐 GPU 기반 모델 실행과 결과 저장까지 파이프라인으로 …

제품 · 플랫폼 인프라 · 하드웨어 LLM · 생성AI

Amazon Bedrock은 AWS가 제공하는 완전관리형 생성형 AI 서비스로, 다양한 파운데이션 모델에 대한 보안된 엔터프라이즈급 접근을 단일 API와 IAM 기반 거버넌스로 제공하며, 에이전트·지식 베이스·가드레…

CS 기초 데이터 엔지니어링 LLM · 생성AI

BM25는 질의와 문서의 관련도를 계산해 순위를 매기는 정보검색 점수 함수로, 단어 빈도를 포화함수로 완만하게 반영하고 문서 길이를 정규화한 뒤 역문헌빈도(IDF)로 가중해 각 질의어의 기여도를 합산하며, k1·b …

LLM · 생성AI

브라우저 에이전트

브라우저 에이전트는 실제 브라우저를 제어해 웹 업무를 자율 수행하는 시스템으로, 페이지 상태를 관찰하고 LLM이 다음 행동을 결정하며 실행 계층(예: Playwright)이 클릭·입력·이동을 수행한 뒤 결과를 검증하…

제품 · 플랫폼 LLM · 생성AI

ChatGPT는 OpenAI의 대화형 AI 애플리케이션으로, 사용자의 자연어 입력을 모델 추론, 대화 맥락, 파일·웹·커넥터 같은 도구 접근과 결합해 답변이나 작업 결과를 생성하는 제품이다.

제품 · 플랫폼 LLM · 생성AI 딥러닝

클로드는 Anthropic이 제공하는 대형 언어 모델 제품군과 이를 사용하는 개발·운영 플랫폼으로, Messages API와 관리형 Agents 같은 표면을 통해 텍스트·코드 중심 작업을 수행하며 모델·요금·레이트리…

LLM · 생성AI

컴퓨터 사용

컴퓨터 사용은 모델이 스크린샷으로 UI 상태를 인식하고 클릭·타이핑·스크롤 등 인터페이스 동작을 구조화해 반환하면 호스트 런타임이 이를 실행하고 갱신된 화면을 다시 입력해 루프를 이어가는 도구·하니스 통합 방식으로,…

LLM · 생성AI

Context Engineering

컨텍스트 엔지니어링

컨텍스트 엔지니어링은 한 턴에서 LLM이 읽는 시스템 지시문·메시지 이력·도구 설명과 출력·검색 스니펫 등 ‘사용자 메시지를 뺀 모든 입력’을 작업에 맞게 선별·구성·형식화하는 실무로, 에이전트 루프의 모델 호출과 …

LLM · 생성AI

컨텍스트 윈도우

컨텍스트 윈도우는 언어 모델이 응답을 생성할 때 참조할 수 있는 입력·대화 이력·출력 토큰을 포함한 한시적 ‘작업 메모리’의 총량으로, 훈련 데이터와는 별개이며 토큰이 늘수록 중요한 정보를 놓치기 쉬워 무엇을 넣고 …

LLM · 생성AI ML 기초

CoT(Chain-of-Thought)는 대규모 언어 모델이 복잡한 문제를 풀 때 중간 추론 단계를 생성하거나 모방하도록 프롬프트·예시·학습 절차로 유도해 최종 답변의 정확도를 높이려는 reasoning 기법이다.

LLM · 생성AI 데이터 엔지니어링 딥러닝

크로스 인코더

크로스 인코더는 쿼리와 문서를 하나의 입력으로 결합해 Transformer의 층별 self-attention으로 모든 토큰을 교차 상호작용시키고 [CLS] 등에서 관련성 점수를 산출하는 상호작용 기반 랭킹 모델로, …

인프라 · 하드웨어 LLM · 생성AI

edge deployment

에지 배포는 AI 모델이나 애플리케이션을 중앙 데이터센터나 퍼블릭 클라우드가 아닌 사용자가 가까이 있는 현장 장비, 통신국사, 기지국, 지역 엣지 데이터센터 등에 배치해 추론을 수행하는 방식이다. 이 방식은 지연시간…

LLM · 생성AI 딥러닝 데이터 엔지니어링

임베딩은 이산적인 대상이나 고차원 입력을 연속적인 벡터 공간의 좌표로 표현해, 의미·관계·유사도를 거리 계산으로 다룰 수 있게 하는 표현 학습 결과다. LLM·검색 시스템에서는 텍스트나 문서를 임베딩한 뒤 neare…

LLM · 생성AI

Evals는 벤치마크나 사용자 연구 같은 측정 도구로 얻은 수치를 문맥 속에서 해석해 모델에 대한 주장을 뒷받침하는 절차로, 평가를 거대 집합에서 뽑은 실험으로 보고 오차막대·신뢰구간 등으로 불확실성을 보고하며 내용…

LLM · 생성AI

Evaluation Harness

평가 하니스

평가 하니스는 언어모델과 에이전트를 표준화된 데이터셋·프롬프트·메트릭으로 일관되게 실행해 재현 가능한 성능을 비교하도록 하는 테스트 프레임워크로, 모델 백엔드와 과제 구성을 분리해 다양한 벤치마크를 동일 인터페이스에…

LLM · 생성AI 딥러닝 ML 기초

파인튜닝은 이미 사전학습된 모델을 특정 task, domain, 스타일, 출력 형식에 맞게 추가 학습하는 과정이다. 전체 파라미터를 업데이트할 수도 있고 LoRA 같은 parameter-efficient 방법으로 일…

제품 · 플랫폼 LLM · 생성AI 딥러닝

제미나이는 구글의 멀티모달 생성 모델 제품군으로 Gemini API와 Vertex AI를 통해 제공되며, 텍스트·코드·이미지·오디오·비디오 입력을 처리하고 Pro·Flash·Flash‑Lite 같은 변형을 선택해 긴…

제품 · 플랫폼 LLM · 생성AI

GPT-4o는 OpenAI가 개발한 최신 대형 언어 모델로, 텍스트, 음성, 이미지 등 다양한 입력을 동시에 이해하고 처리할 수 있는 멀티모달 AI 모델이다. 기존 GPT-4 대비 더 빠르고, 다양한 입력 방식에 대…

딥러닝 LLM · 생성AI

grouped-query attention

그룹 쿼리 어텐션

그룹 쿼리 어텐션은 대규모 언어 모델(LLM)이나 트랜스포머 모델에서 여러 쿼리(query)를 그룹으로 묶어 효율적으로 어텐션 연산을 처리하는 기술이다. 이 방식은 계산량과 메모리 사용을 줄이면서도 기존 어텐션 구조…

AI 안전 · 윤리 LLM · 생성AI

환각은 LLM이 근거 자료, 실제 사실, 또는 문제 조건과 맞지 않는 내용을 유창하게 생성하는 실패 모드다. 원인은 학습 데이터의 빈틈·편향, 검색 근거 부족, 추론 중 오류 전파가 함께 작용하며, 운영에서는 근거 …

데이터 엔지니어링 LLM · 생성AI

하이브리드 검색

하이브리드 검색은 동일한 말뭉치에 대해 키워드 기반과 벡터 기반 검색을 병행 실행하고, 각 인덱스에서 반환된 후보를 랭킹 융합으로 하나의 순위로 합치는 기법으로, 정확한 용어 일치와 의미 유사성의 장점을 함께 취해 …

LLM · 생성AI

In-Context Learning

문맥 내 학습

문맥 내 학습은 대형 언어모델이 프롬프트에 담긴 자연어 지시와 몇 개의 입력·출력 예시를 컨텍스트 윈도에 조건으로 넣어, 가중치를 바꾸지 않은 채 예시의 입력→출력 규칙을 다음 토큰 예측으로 일반화해 새 질의에 답하…

LLM · 생성AI 인프라 · 하드웨어 딥러닝

추론은 학습이 끝난 모델에 새 입력을 넣어 예측, 분류, 생성 결과를 계산하는 실행 단계다. LLM에서는 prompt를 token으로 바꾸고, prefill과 decode 과정을 거쳐 다음 token을 반복 생성하며…

LLM · 생성AI 인프라 · 하드웨어 제품 · 플랫폼

추론 비용은 LLM이 배포 환경에서 프롬프트를 토큰화해 한 토큰씩 응답을 생성하는 운영 과정에서 발생하는 계산·인프라 비용으로, 주로 토큰 단위 과금과 모델 규모·호스팅 방식에 의해 좌우되며 단일 실행당 연산량은 학…

인프라 · 하드웨어 LLM · 생성AI

inference latency

추론 지연 시간

추론 지연 시간은 AI 모델이 입력을 받아서 결과를 내놓기까지 걸리는 실제 시간입니다. 주로 챗봇, 코드 생성기, 이미지 분석 등에서 사용자가 요청을 보낸 순간부터 AI가 답을 돌려줄 때까지의 대기 시간을 의미하며,…

LLM · 생성AI

Inference-Time Scaling

추론 시점 스케일링

Inference-Time Scaling은 학습된 모델을 변경하지 않고 추론 단계에서 계산 예산·절차를 확장해 출력을 개선하는 접근으로, 확률적 생성이나 고전적 탐색으로 후보를 늘리고(확산·플로우 모델 문맥), 남은…

인프라 · 하드웨어 LLM · 생성AI

KV Cache는 autoregressive Transformer 추론에서 이전 토큰의 attention key/value 텐서를 보존해 이후 디코딩 단계가 동일한 prefix를 재계산하지 않도록 하는 메모리 구조다…

인프라 · 하드웨어 LLM · 생성AI

KV 오프로딩

KV 오프로딩은 대규모 언어모델 추론에서 self-attention의 Key/Value 캐시를 GPU 메모리에서 CPU 메모리나 NVMe 등 외부 스토리지로 계층화해 이동·관리함으로써 GPU 메모리 압력을 줄이고 캐…

LLM · 생성AI 딥러닝 ML 기초

대규모 언어 모델

대규모 언어 모델은 대규모 텍스트 말뭉치로 사전학습되어 자연어를 이해·생성하는 딥러닝 계열 모델로, 주로 Transformer를 기반으로 한 자기-어텐션으로 토큰 간 관계를 병렬로 포착하고(디코더 중심일 경우 다음 …

LLM · 생성AI 딥러닝 ML 기초

LoRA는 큰 모델의 원래 가중치는 고정하고 작은 low-rank adapter만 학습해 fine-tuning 비용을 줄이는 방법이다.

LLM · 생성AI

모델 컨텍스트 프로토콜

모델 컨텍스트 프로토콜(MCP)은 JSON-RPC 2.0 기반의 상태 유지형 client-server 프로토콜로, AI 호스트가 MCP 클라이언트를 통해 서버의 resources, tools, prompts를 발견·…

LLM · 생성AI

MCP 서버는 Model Context Protocol에서 tools, resources, prompts 같은 server capability를 JSON-RPC 세션으로 노출하는 서비스 구성요소다. 클라이언트와 초기…

제품 · 플랫폼 LLM · 생성AI

미스트랄 AI

미스트랄 AI는 대규모 언어모델을 자체 API와 엔터프라이즈 제품군(Le Chat, Studio, Vibe)으로 제공하고, 구글 Vertex AI·Azure AI Studio 같은 파트너 클라우드의 관리형 엔드포인트…

LLM · 생성AI

Model Cascading

모델 캐스케이딩

모델 캐스케이딩은 작은·저비용 모델을 선행 실행해 응답의 완전성·신뢰도·정확성 같은 품질 기준으로 검증하고 실패한 경우에만 더 큰 모델로 승격하는 동적 라우팅 기법으로, 요청 난이도와 품질 신호에 따라 모델 선택을 …

딥러닝 LLM · 생성AI

Model Distillation

모델 증류는 큰 teacher 모델의 출력 분포, 응답, 판단 패턴을 작은 student 모델이 모방하도록 학습해 추론 비용과 지연 시간을 줄이는 최적화 방법이다.

인프라 · 하드웨어 LLM · 생성AI

Model parallelism

모델 병렬 처리

모델 병렬 처리는 단일 GPU 메모리에 맞지 않는 대형 신경망을 파라미터와 활성화를 여러 GPU에 분할 배치해 연산을 이어가며 처리하는 분산 기법으로, 계층 또는 텐서 단위로 모델을 쪼개고 GPU 간 통신으로 중간 …

LLM · 생성AI 인프라 · 하드웨어

모델 라우터

모델 라우터는 입력 요청의 난이도, 모달리티, 도구 사용 여부, 비용·지연 시간 제약을 평가해 여러 후보 모델 중 실행할 모델을 선택하는 orchestration 계층이다.

인프라 · 하드웨어 LLM · 생성AI 제품 · 플랫폼

모델 서빙은 학습된 모델을 API, batch job, streaming endpoint 같은 형태로 배포해 요청을 받고 추론 결과를 안정적으로 반환하는 운영 시스템이다. 단순 model inference보다 넓은 …

LLM · 생성AI 딥러닝

전문가 혼합

MoE(전문가 혼합)는 입력 토큰마다 게이팅/라우팅 함수가 소수의 ‘전문가’ 네트워크를 선택해 계산하는 희소 조건부 연산 아키텍처로, 주로 Transformer의 FFN을 여러 전문가로 대체해 전체 파라미터 용량을 …

LLM · 생성AI

multi-agent system

다중 에이전트 시스템

다중 에이전트 시스템은 여러 개의 인공지능 에이전트가 동일한 환경에서 각자 또는 협력하여 특정 목표를 달성하기 위해 상호작용하는 시스템입니다. 각 에이전트는 독립적으로 의사결정을 내리거나, 정보를 교환하며 전체적으로…

LLM · 생성AI 데이터 엔지니어링

multi-hop retrieval

다중 홉 검색

다중 홉 검색은 AI가 복잡한 질문에 답할 때, 한 번에 하나의 정보만 찾는 것이 아니라 여러 단계(홉)에 걸쳐 연관된 정보를 차례로 검색해 최종 답을 도출하는 기술입니다. 주로 대형 언어 모델(LLM)이나 복잡한 …

ML 기초 LLM · 생성AI

multi-stage training

다단계 학습

다단계 학습은 AI 모델, 특히 대형 언어 모델(LLM)을 개발할 때 여러 단계에 걸쳐 데이터를 다르게 활용하며 점진적으로 모델을 개선하는 학습 방식이다. 각 단계는 사전학습, 중간학습, 후학습 등으로 나뉘며, 각 …

LLM · 생성AI 딥러닝

Multimodal Model

멀티모달 모델

멀티모달 모델은 텍스트, 이미지, 오디오, 비디오 등 둘 이상의 데이터 모달리티를 입력이나 출력으로 처리하도록 설계된 AI 모델이다.

LLM · 생성AI

멀티모달 RAG

멀티모달 RAG는 텍스트·이미지 등 다양한 형태의 데이터를 각 모달리티 전용 인코더로 임베딩해 인덱싱·검색한 뒤, 검색된 텍스트·그림·캡션을 시각 입력을 이해하는 모델에 함께 제공해 응답을 사실 근거에 연결하는 RA…

LLM · 생성AI 딥러닝 ML 기초

자연어 처리

자연어 처리(NLP)는 컴퓨터가 인간의 언어를 해석하고 생성하도록 하는 인공지능 분야로, 대규모 언어 데이터에서 토큰 단위 패턴과 문맥을 학습한 모델을 통해 번역·요약·감정 분류 같은 과업을 수행해 비정형 텍스트를 …

제품 · 플랫폼 LLM · 생성AI 인프라 · 하드웨어

엔비디아는 모델 배포용 NIM 마이크로서비스와 모델 개발·운영 도구 NeMo, 드라이버와 쿠버네티스 오퍼레이터 등을 포함한 엔드투엔드 소프트웨어 스택인 NVIDIA AI Enterprise를 제공하며, NIM은 헬스…

인프라 · 하드웨어 LLM · 생성AI

온디바이스 AI

온디바이스 AI는 스마트폰, 노트북 등 사용자의 기기 자체에서 인공지능 모델을 실행하는 기술로, 데이터를 클라우드로 보내지 않고도 AI 기능을 사용할 수 있게 해준다. 이 방식은 개인정보 보호와 빠른 응답 속도에서 …

LLM · 생성AI

open-source LLM

오픈소스 대형 언어 모델

오픈소스 대형 언어 모델은 누구나 자유롭게 사용할 수 있도록 소스 코드와 학습된 모델이 공개된 대규모 인공지능 언어 모델을 의미한다. 기업이나 개인이 직접 수정, 배포, 활용할 수 있어 AI 개발의 진입 장벽을 낮추…

제품 · 플랫폼 LLM · 생성AI AI 안전 · 윤리

오픈AI는 GPT‑5.5 등 모델과 호스티드 도구를 개발자에게 제공하는 AI 플랫폼·API 제공자로, 통합된 Responses API와 Agents SDK를 통해 텍스트·멀티모달 생성, 함수 호출 기반의 도구 연동,…

LLM · 생성AI CS 기초

오픈AI 코덱스

오픈AI 코덱스는 소프트웨어 엔지니어링 업무를 수행하도록 설계된 코딩 에이전트로, 기능 구현·버그 수정·코드 설명·리팩터링·PR 제안 등을 처리한다. 코덱스는 저장소가 사전 로드된 클라우드 샌드박스에서 작업을 수행하…

LLM · 생성AI

출력 토큰은 AI 모델이 입력을 처리한 후 생성하는 텍스트의 조각들로, 모델이 입력 토큰을 기반으로 가장 가능성이 높은 다음 토큰을 예측하여 일관되고 맥락에 맞는 출력을 생성한다.

인프라 · 하드웨어 LLM · 생성AI

페이지드 어텐션

페이지드 어텐션은 LLM 추론에서 어텐션의 KV 캐시를 운영체제의 가상 메모리 페이징처럼 고정 크기 블록으로 분할해 비연속 공간에 배치하고 룩업으로 접근하는 알고리즘으로, 내부·외부 단편화를 줄이고 공통 접두사의 K…

ML 기초 LLM · 생성AI

후훈련은 사전 훈련된 모델을 지시 따르기, 안전성, 도메인 지식, 인간 선호에 맞게 조정하는 단계다. 보통 SFT, 선호 데이터 기반 보상 모델·DPO·RLHF, 평가와 안전 필터를 반복해 base 모델의 행동을 제…

ML 기초 LLM · 생성AI

사전 훈련은 대규모 원천 데이터에서 다음 토큰 예측, 마스킹 복원, 대비학습 같은 자기지도 목적을 먼저 최적화해 범용 표현과 초기 가중치를 만드는 단계다. 이 체크포인트는 이후 미세조정·후훈련·RAG·에이전트화의 기…

LLM · 생성AI

프롬프트 캐싱

프롬프트 캐싱은 동일한 프롬프트 앞부분(프리픽스)을 여러 요청에서 재사용할 수 있도록 해당 구간의 전처리 상태를 캐시에 보관해, 이후 동일 프리픽스가 들어오면 조회만으로 프리필(prefill) 계산을 건너뛰어 지연시…

AI 안전 · 윤리 LLM · 생성AI

Prompt Injection

프롬프트 인젝션

프롬프트 인젝션은 LLM 애플리케이션이 신뢰할 수 없는 입력이나 외부 콘텐츠 안의 지시를 시스템·개발자 지시보다 우선하도록 유도해 정책 우회, 데이터 유출, 도구 오용을 일으키는 공격이다. 직접 입력뿐 아니라 검색 …

LLM · 생성AI

파이토치는 오픈 소스 딥러닝 프레임워크로, 신경망을 구축하고 학습시키는 데 사용됩니다. 파이썬 기반의 직관적인 인터페이스와 유연성 덕분에 연구자와 개발자 모두에게 널리 사랑받으며, 이미지 인식, 자연어 처리, 생성형…

LLM · 생성AI 데이터 엔지니어링

검색 증강 생성

검색 증강 생성(RAG)은 대규모 언어 모델에 외부 지식 검색을 결합해 질의와 함께 회수된 관련 문서 조각을 프롬프트 컨텍스트로 주입함으로써 출력을 근거에 정박시키는 프레임워크로, 문서를 청크로 분할해 임베딩·인덱싱…

LLM · 생성AI 데이터 엔지니어링

리랭킹은 RAG나 검색 파이프라인에서 1차 검색으로 모은 후보 청크를 질의와 함께 더 정밀한 모델로 재점수해 순서를 다시 매기는 2단계 랭킹 절차로, 코사인 유사도나 BM25만으로 생기는 랭킹 노이즈를 줄여 상위 K…

인프라 · 하드웨어 LLM · 생성AI

real-time inference

실시간 추론

실시간 추론은 요청 도착 시 즉시 실행·응답하도록 학습된 모델을 API로 노출하는 서빙 형태로, 서빙 프레임워크가 추론 엔진과 요청 흐름을 조율하고 오케스트레이션(Kubernetes)이 GPU 배치·스케일링·헬스를 …

LLM · 생성AI

Reasoning Model

추론 모델은 표준 LLM에 중간 추론 단계(이른바 reasoning traces)를 생성·활용하도록 학습과 추론 시간을 확장한 계열로, 체인·트리 등 구조화된 여러 후보 풀이를 만들고 선택·검증하는 전략이나 추가적인…

딥러닝 LLM · 생성AI

recurrent mechanism

순환 메커니즘

순환 메커니즘은 인공지능 모델 내부에서 이전 단계의 출력을 다음 단계의 입력으로 다시 사용하는 구조를 의미합니다. 이 방식은 모델이 과거 정보를 기억하거나 반복적으로 처리해야 하는 작업에서 효율성과 성능을 높이는 데…

LLM · 생성AI 딥러닝

인간 피드백 강화학습

RLHF는 사람의 선호 비교로 학습한 보상모델을 기준으로 언어모델을 확률적 정책으로 보고 기대 보상을 높이도록, 보통 SFT 이후의 사후학습 단계에서 최적화해 도움이 되고 무해한 행동으로 정렬시키는 방법이다.

CS 기초 딥러닝 LLM · 생성AI

RoPE(회전 위치 인코딩)

RoPE(회전 위치 인코딩)는 Transformer attention의 query/key 벡터를 위치별 각도로 회전시켜, 내적 점수에 상대 위치 정보를 직접 반영하는 위치 인코딩 방식입니다.

데이터 엔지니어링 LLM · 생성AI

상호 순위 융합

RRF(Reciprocal Rank Fusion)는 서로 다른 검색기에서 생성된 순위 목록을 점수 정규화 없이 결합하기 위해 각 문서의 순위에 대해 1/(k+rank)를 합산해 점수를 매기고, 여러 목록의 상위에 반…

LLM · 생성AI 딥러닝 ML 기초

셀프 어텐션

셀프 어텐션은 입력 안의 각 요소가 같은 입력의 다른 모든 요소를 비교해, 무엇에 더 집중해야 하는지 가중치를 계산한 뒤 그 정보를 종합해 새로운 표현을 만드는 메커니즘이다. 트랜스포머에서 핵심 역할을 하며, 멀리 …

딥러닝 LLM · 생성AI

Self-Supervised Pretext Tasks

자기지도 사전학습 과제

자기지도 사전학습 과제는 라벨이 없는 입력에서 구조적 단서를 이용해 학습 목표를 정의하고, 그 목표를 풀며 일반화 가능한 표현을 학습하는 자기지도 학습의 훈련 목적들이다. 마스킹·셔플·증강 등으로 입력을 변형해 ‘가…

LLM · 생성AI 인프라 · 하드웨어

소형 언어 모델

소형 언어 모델(SLM)은 자연어 이해와 생성을 수행하지만, 범용 대형 언어 모델보다 파라미터 수·메모리·추론 비용을 줄인 언어 모델 범주다.

LLM · 생성AI 인프라 · 하드웨어

Speculative Decoding

추측적 디코딩

Speculative Decoding은 작은 드래프터가 여러 후보 토큰을 먼저 제안하고 타깃 모델이 이를 한 번에 검증해, 타깃 모델 분포를 유지하면서 autoregressive decoding의 순차 지연을 줄이는…

LLM · 생성AI

Structured Outputs

구조화된 출력

Structured Outputs는 LLM이 미리 정의한 스키마—주로 JSON Schema—에 맞춰 출력을 강제하도록 디코딩을 제약해, 필수 키·자료형·열거형 값 같은 형식을 보장하고 function/tool cal…

ML 기초 LLM · 생성AI

supervised fine-tuning

지도 미세 조정

지도 미세 조정은 이미 사전학습된 AI 모델에 사람이 직접 정답을 달아준 데이터(라벨링 데이터)를 추가로 학습시켜, 특정 작업이나 목적에 더 잘 맞게 성능을 높이는 과정입니다. 이 방식은 모델이 실제로 원하는 답을 …

LLM · 생성AI

SWE-bench는 오픈소스 저장소의 실제 GitHub 이슈를 과제로 제시해 언어모델·에이전트가 코드베이스를 탐색·이해하고 수정 패치를 생성하는 능력을, 수정 전 상태와 이슈 설명만 제공한 뒤 숨겨진 실패·회귀 테스…

데이터 엔지니어링 LLM · 생성AI ML 기초

합성 데이터

합성 데이터는 실제 관측값을 그대로 노출하지 않고 통계적 규칙, 시뮬레이션, 생성 모델 등을 통해 만든 데이터로, 학습·평가·개인정보 보호·희귀 사례 보강에 사용된다.

LLM · 생성AI

텐서플로우

텐서플로우는 구글 브레인 팀이 개발한 오픈소스 머신러닝 및 딥러닝 프레임워크로, 수치 계산과 대규모 인공지능 모델 학습·추론을 효율적으로 지원합니다. 텐서플로우는 데이터 흐름 그래프 구조를 기반으로 다양한 하드웨어(…

LLM · 생성AI

Test-Time Compute

테스트 타임 컴퓨트

Test-Time Compute는 LLM이 추론 단계에서 소비하는 계산·토큰·시간 예산을 뜻하며, 병렬 다중 시도나 단계적 추론·탐색 등으로 입력 난이도나 사용자 제약에 맞게 계산을 고정 또는 적응적으로 배분해 추론…

LLM · 생성AI CS 기초

토큰은 LLM이 텍스트를 직접 글자나 단어로 보지 않고 처리하기 위해 나누는 기본 입력 단위다.

LLM · 생성AI

툴 호출은 LLM이 대화 중 외부 기능의 정의와 입력 스키마를 참고해 특정 도구 이름과 인자를 구조화해 내보내고—애플리케이션이 그 호출을 실제 시스템에서 실행한 뒤 결과를 다시 컨텍스트로 전달하면—모델이 그 결과를 …

LLM · 생성AI

도구 사용은 LLM이 사전에 정의된 도구 인터페이스에 맞춰 구조화된 호출을 내보내고, 애플리케이션 또는 제공자 서버가 실제 코드를 실행해 결과를 다시 컨텍스트로 돌려주는 상호작용 방식으로—텍스트 생성만으로는 불가능한…

딥러닝 LLM · 생성AI

트랜스포머

트랜스포머는 recurrence나 convolution 대신 self-attention과 feed-forward block을 쌓아 sequence 내부의 관계를 병렬로 학습하는 신경망 아키텍처다. 토큰 간 의존성을 …

데이터 엔지니어링 LLM · 생성AI

Vector Database

벡터 데이터베이스

벡터 데이터베이스는 임베딩을 저장하고 유사도 기반 최근접 검색을 제공하는 특화 저장·검색 시스템으로, ANN 인덱스, 메타데이터 필터, 샤딩·복제·캐시 같은 운영 기능을 조합해 RAG, 시맨틱 검색, 추천 등에서 대…

딥러닝 LLM · 생성AI

vision-language model

비전-언어 모델

비전-언어 모델은 이미지, 그림, 차트 등 시각 정보와 텍스트(언어) 정보를 동시에 이해하고 처리할 수 있도록 설계된 인공지능 모델이다. 이 모델은 사진을 보고 설명을 하거나, 차트 이미지를 분석해 답을 내는 등 다…

딥러닝 LLM · 생성AI

Visual Instruction Tuning

시각 지시 학습

시각 지시 학습은 이미지-텍스트 지시-응답 예시를 이용해 비전 인코더와 대형 언어 모델을 연결한 멀티모달 LLM을 지시 따르기(task following)에 맞춰 미세조정하는 기법이다. 대표적으로 GPT-4가 생성한…

인프라 · 하드웨어 LLM · 생성AI

vLLM은 PagedAttention으로 KV 캐시를 비연속 블록처럼 관리해 메모리 단편화를 줄이고, 연속 배치 스케줄러로 진행 중인 생성 배치에 새 요청을 동적으로 합류시켜 GPU 활용도를 높이는 오픈소스 LLM …