← 용어집
LLM · 생성AI
대형 언어 모델, 생성AI, 에이전트, RLHF, 멀티모달
92개 용어
Agent Evaluation
에이전트 평가
에이전트 평가는 LLM 기반 시스템이 계획·메모리·도구 호출로 외부 환경과 상호작용하며 다단계로 문제를 해결하는 과정을 대상으로, 고정 입·출력이 아닌 실행 궤적과 최종 상태 변화를 함께 측정하고(정확도 외에 단계 …
Agent Loop
에이전트 루프
에이전트 루프는 입력과 누적 문맥을 모아 LLM이 다음 행동을 계획·결정한 뒤 도구를 실행하고 그 결과를 관찰하여 종료 조건에 이를 때까지 반복하는 에이전트의 제어 사이클로, 각 반복이 상태를 갱신하며 다음 추론의 …
Agentic RAG
에이전틱 RAG
에이전틱 RAG는 RAG에 플래너를 붙여 검색, 읽기, 검증, 재검색, 종료를 여러 단계로 조정하는 아키텍처다. 한 번 검색해 답하는 대신 질문의 난이도와 근거 상태에 따라 키워드 검색, 의미 검색, 청크 열람 같은…
Agentic workflows
에이전트 워크플로우
에이전트 워크플로우는 여러 개의 전문화된 AI 에이전트가 서로 상호작용하며 계획·추론·도구 사용을 통해 다단계 문제를 자율적으로 해결하도록 설계된 동적 작업 흐름을 말한다. 단일 에이전트나 고정된 순서의 정적 플로우…
AI Agent
AI 에이전트
AI 에이전트는 주어진 목표를 달성하기 위해 환경으로부터 관찰을 받아 추론·계획하고 외부 도구나 API를 호출해 일련의 행동을 반복 수행하는 시스템으로, 실행 결과 피드백과 명시적 정지 조건을 바탕으로 다음 행동을 …
AI Inference
AI 추론
AI 추론은 학습된 모델의 가중치를 고정한 상태에서 새 입력을 처리해 예측, 분류, 추천, 생성 결과를 내는 실행 단계다.
Anthropic
앤트로픽
앤트로픽은 Claude 계열 대형 언어모델과 개발·배포 플랫폼을 제공하는 AI 기업으로, 모델을 고정 스냅샷 ID와 다중 접근면(자사 API, AWS Bedrock, Google Vertex AI 등)으로 배포하며 …
Attention
어텐션
어텐션은 현재의 질의 표현과 입력 요소들의 키·값 표현 사이의 유사도를 통해 가중합을 계산해 중요한 정보에 더 큰 비중을 두는 신경망 메커니즘으로, 토큰 간 거리에 무관하게 전역 의존성을 모델링하며 트랜스포머에서는 …
AUC (Area Under the Curve)
곡선 아래 면적
AUC는 ROC 곡선 아래의 면적을 나타내며, 모델의 분류 성능을 평가하는 지표로 사용됩니다.
Batch Inference
배치 추론
배치 추론은 실시간 응답이 필요하지 않은 대규모 입력을 일정 주기나 온디맨드 작업으로 한꺼번에 예측하는 방식으로, 클라우드 스토리지에서 분산 읽기·전처리를 거쳐 GPU 기반 모델 실행과 결과 저장까지 파이프라인으로 …
Bedrock
베드록
Amazon Bedrock은 AWS가 제공하는 완전관리형 생성형 AI 서비스로, 다양한 파운데이션 모델에 대한 보안된 엔터프라이즈급 접근을 단일 API와 IAM 기반 거버넌스로 제공하며, 에이전트·지식 베이스·가드레…
BM25
BM25
BM25는 질의와 문서의 관련도를 계산해 순위를 매기는 정보검색 점수 함수로, 단어 빈도를 포화함수로 완만하게 반영하고 문서 길이를 정규화한 뒤 역문헌빈도(IDF)로 가중해 각 질의어의 기여도를 합산하며, k1·b …
Browser Agent
브라우저 에이전트
브라우저 에이전트는 실제 브라우저를 제어해 웹 업무를 자율 수행하는 시스템으로, 페이지 상태를 관찰하고 LLM이 다음 행동을 결정하며 실행 계층(예: Playwright)이 클릭·입력·이동을 수행한 뒤 결과를 검증하…
ChatGPT
챗GPT
ChatGPT는 OpenAI의 대화형 AI 애플리케이션으로, 사용자의 자연어 입력을 모델 추론, 대화 맥락, 파일·웹·커넥터 같은 도구 접근과 결합해 답변이나 작업 결과를 생성하는 제품이다.
Claude
클로드
클로드는 Anthropic이 제공하는 대형 언어 모델 제품군과 이를 사용하는 개발·운영 플랫폼으로, Messages API와 관리형 Agents 같은 표면을 통해 텍스트·코드 중심 작업을 수행하며 모델·요금·레이트리…
Computer Use
컴퓨터 사용
컴퓨터 사용은 모델이 스크린샷으로 UI 상태를 인식하고 클릭·타이핑·스크롤 등 인터페이스 동작을 구조화해 반환하면 호스트 런타임이 이를 실행하고 갱신된 화면을 다시 입력해 루프를 이어가는 도구·하니스 통합 방식으로,…
Context Engineering
컨텍스트 엔지니어링
컨텍스트 엔지니어링은 한 턴에서 LLM이 읽는 시스템 지시문·메시지 이력·도구 설명과 출력·검색 스니펫 등 ‘사용자 메시지를 뺀 모든 입력’을 작업에 맞게 선별·구성·형식화하는 실무로, 에이전트 루프의 모델 호출과 …
Context Window
컨텍스트 윈도우
컨텍스트 윈도우는 언어 모델이 응답을 생성할 때 참조할 수 있는 입력·대화 이력·출력 토큰을 포함한 한시적 ‘작업 메모리’의 총량으로, 훈련 데이터와는 별개이며 토큰이 늘수록 중요한 정보를 놓치기 쉬워 무엇을 넣고 …
CoT
사고 과정
CoT(Chain-of-Thought)는 대규모 언어 모델이 복잡한 문제를 풀 때 중간 추론 단계를 생성하거나 모방하도록 프롬프트·예시·학습 절차로 유도해 최종 답변의 정확도를 높이려는 reasoning 기법이다.
Cross-Encoder
크로스 인코더
크로스 인코더는 쿼리와 문서를 하나의 입력으로 결합해 Transformer의 층별 self-attention으로 모든 토큰을 교차 상호작용시키고 [CLS] 등에서 관련성 점수를 산출하는 상호작용 기반 랭킹 모델로, …
edge deployment
에지 배포
에지 배포는 AI 모델이나 애플리케이션을 중앙 데이터센터나 퍼블릭 클라우드가 아닌 사용자가 가까이 있는 현장 장비, 통신국사, 기지국, 지역 엣지 데이터센터 등에 배치해 추론을 수행하는 방식이다. 이 방식은 지연시간…
Embedding
임베딩
임베딩은 이산적인 대상이나 고차원 입력을 연속적인 벡터 공간의 좌표로 표현해, 의미·관계·유사도를 거리 계산으로 다룰 수 있게 하는 표현 학습 결과다. LLM·검색 시스템에서는 텍스트나 문서를 임베딩한 뒤 neare…
Evals
모델 평가
Evals는 벤치마크나 사용자 연구 같은 측정 도구로 얻은 수치를 문맥 속에서 해석해 모델에 대한 주장을 뒷받침하는 절차로, 평가를 거대 집합에서 뽑은 실험으로 보고 오차막대·신뢰구간 등으로 불확실성을 보고하며 내용…
Evaluation Harness
평가 하니스
평가 하니스는 언어모델과 에이전트를 표준화된 데이터셋·프롬프트·메트릭으로 일관되게 실행해 재현 가능한 성능을 비교하도록 하는 테스트 프레임워크로, 모델 백엔드와 과제 구성을 분리해 다양한 벤치마크를 동일 인터페이스에…
Fine-tuning
파인튜닝
파인튜닝은 이미 사전학습된 모델을 특정 task, domain, 스타일, 출력 형식에 맞게 추가 학습하는 과정이다. 전체 파라미터를 업데이트할 수도 있고 LoRA 같은 parameter-efficient 방법으로 일…
Gemini
제미나이
제미나이는 구글의 멀티모달 생성 모델 제품군으로 Gemini API와 Vertex AI를 통해 제공되며, 텍스트·코드·이미지·오디오·비디오 입력을 처리하고 Pro·Flash·Flash‑Lite 같은 변형을 선택해 긴…
GPT-4o
GPT-4o
GPT-4o는 OpenAI가 개발한 최신 대형 언어 모델로, 텍스트, 음성, 이미지 등 다양한 입력을 동시에 이해하고 처리할 수 있는 멀티모달 AI 모델이다. 기존 GPT-4 대비 더 빠르고, 다양한 입력 방식에 대…
grouped-query attention
그룹 쿼리 어텐션
그룹 쿼리 어텐션은 대규모 언어 모델(LLM)이나 트랜스포머 모델에서 여러 쿼리(query)를 그룹으로 묶어 효율적으로 어텐션 연산을 처리하는 기술이다. 이 방식은 계산량과 메모리 사용을 줄이면서도 기존 어텐션 구조…
Hallucination
환각
환각은 LLM이 근거 자료, 실제 사실, 또는 문제 조건과 맞지 않는 내용을 유창하게 생성하는 실패 모드다. 원인은 학습 데이터의 빈틈·편향, 검색 근거 부족, 추론 중 오류 전파가 함께 작용하며, 운영에서는 근거 …
Hybrid Search
하이브리드 검색
하이브리드 검색은 동일한 말뭉치에 대해 키워드 기반과 벡터 기반 검색을 병행 실행하고, 각 인덱스에서 반환된 후보를 랭킹 융합으로 하나의 순위로 합치는 기법으로, 정확한 용어 일치와 의미 유사성의 장점을 함께 취해 …
In-Context Learning
문맥 내 학습
문맥 내 학습은 대형 언어모델이 프롬프트에 담긴 자연어 지시와 몇 개의 입력·출력 예시를 컨텍스트 윈도에 조건으로 넣어, 가중치를 바꾸지 않은 채 예시의 입력→출력 규칙을 다음 토큰 예측으로 일반화해 새 질의에 답하…
Inference
추론
추론은 학습이 끝난 모델에 새 입력을 넣어 예측, 분류, 생성 결과를 계산하는 실행 단계다. LLM에서는 prompt를 token으로 바꾸고, prefill과 decode 과정을 거쳐 다음 token을 반복 생성하며…
inference cost
추론 비용
추론 비용은 LLM이 배포 환경에서 프롬프트를 토큰화해 한 토큰씩 응답을 생성하는 운영 과정에서 발생하는 계산·인프라 비용으로, 주로 토큰 단위 과금과 모델 규모·호스팅 방식에 의해 좌우되며 단일 실행당 연산량은 학…
inference latency
추론 지연 시간
추론 지연 시간은 AI 모델이 입력을 받아서 결과를 내놓기까지 걸리는 실제 시간입니다. 주로 챗봇, 코드 생성기, 이미지 분석 등에서 사용자가 요청을 보낸 순간부터 AI가 답을 돌려줄 때까지의 대기 시간을 의미하며,…
Inference-Time Scaling
추론 시점 스케일링
Inference-Time Scaling은 학습된 모델을 변경하지 않고 추론 단계에서 계산 예산·절차를 확장해 출력을 개선하는 접근으로, 확률적 생성이나 고전적 탐색으로 후보를 늘리고(확산·플로우 모델 문맥), 남은…
KV Cache
KV 캐시
KV Cache는 autoregressive Transformer 추론에서 이전 토큰의 attention key/value 텐서를 보존해 이후 디코딩 단계가 동일한 prefix를 재계산하지 않도록 하는 메모리 구조다…
KV Offloading
KV 오프로딩
KV 오프로딩은 대규모 언어모델 추론에서 self-attention의 Key/Value 캐시를 GPU 메모리에서 CPU 메모리나 NVMe 등 외부 스토리지로 계층화해 이동·관리함으로써 GPU 메모리 압력을 줄이고 캐…
LLM
대규모 언어 모델
대규모 언어 모델은 대규모 텍스트 말뭉치로 사전학습되어 자연어를 이해·생성하는 딥러닝 계열 모델로, 주로 Transformer를 기반으로 한 자기-어텐션으로 토큰 간 관계를 병렬로 포착하고(디코더 중심일 경우 다음 …
LoRA
로라
LoRA는 큰 모델의 원래 가중치는 고정하고 작은 low-rank adapter만 학습해 fine-tuning 비용을 줄이는 방법이다.
MCP
모델 컨텍스트 프로토콜
모델 컨텍스트 프로토콜(MCP)은 JSON-RPC 2.0 기반의 상태 유지형 client-server 프로토콜로, AI 호스트가 MCP 클라이언트를 통해 서버의 resources, tools, prompts를 발견·…
MCP Server
MCP 서버
MCP 서버는 Model Context Protocol에서 tools, resources, prompts 같은 server capability를 JSON-RPC 세션으로 노출하는 서비스 구성요소다. 클라이언트와 초기…
Mistral AI
미스트랄 AI
미스트랄 AI는 대규모 언어모델을 자체 API와 엔터프라이즈 제품군(Le Chat, Studio, Vibe)으로 제공하고, 구글 Vertex AI·Azure AI Studio 같은 파트너 클라우드의 관리형 엔드포인트…
Model Cascading
모델 캐스케이딩
모델 캐스케이딩은 작은·저비용 모델을 선행 실행해 응답의 완전성·신뢰도·정확성 같은 품질 기준으로 검증하고 실패한 경우에만 더 큰 모델로 승격하는 동적 라우팅 기법으로, 요청 난이도와 품질 신호에 따라 모델 선택을 …
Model Distillation
모델 증류
모델 증류는 큰 teacher 모델의 출력 분포, 응답, 판단 패턴을 작은 student 모델이 모방하도록 학습해 추론 비용과 지연 시간을 줄이는 최적화 방법이다.
Model parallelism
모델 병렬 처리
모델 병렬 처리는 단일 GPU 메모리에 맞지 않는 대형 신경망을 파라미터와 활성화를 여러 GPU에 분할 배치해 연산을 이어가며 처리하는 분산 기법으로, 계층 또는 텐서 단위로 모델을 쪼개고 GPU 간 통신으로 중간 …
Model Router
모델 라우터
모델 라우터는 입력 요청의 난이도, 모달리티, 도구 사용 여부, 비용·지연 시간 제약을 평가해 여러 후보 모델 중 실행할 모델을 선택하는 orchestration 계층이다.
Model Serving
모델 서빙
모델 서빙은 학습된 모델을 API, batch job, streaming endpoint 같은 형태로 배포해 요청을 받고 추론 결과를 안정적으로 반환하는 운영 시스템이다. 단순 model inference보다 넓은 …
MoE
전문가 혼합
MoE(전문가 혼합)는 입력 토큰마다 게이팅/라우팅 함수가 소수의 ‘전문가’ 네트워크를 선택해 계산하는 희소 조건부 연산 아키텍처로, 주로 Transformer의 FFN을 여러 전문가로 대체해 전체 파라미터 용량을 …
multi-agent system
다중 에이전트 시스템
다중 에이전트 시스템은 여러 개의 인공지능 에이전트가 동일한 환경에서 각자 또는 협력하여 특정 목표를 달성하기 위해 상호작용하는 시스템입니다. 각 에이전트는 독립적으로 의사결정을 내리거나, 정보를 교환하며 전체적으로…
multi-hop retrieval
다중 홉 검색
다중 홉 검색은 AI가 복잡한 질문에 답할 때, 한 번에 하나의 정보만 찾는 것이 아니라 여러 단계(홉)에 걸쳐 연관된 정보를 차례로 검색해 최종 답을 도출하는 기술입니다. 주로 대형 언어 모델(LLM)이나 복잡한 …
multi-stage training
다단계 학습
다단계 학습은 AI 모델, 특히 대형 언어 모델(LLM)을 개발할 때 여러 단계에 걸쳐 데이터를 다르게 활용하며 점진적으로 모델을 개선하는 학습 방식이다. 각 단계는 사전학습, 중간학습, 후학습 등으로 나뉘며, 각 …
Multimodal Model
멀티모달 모델
멀티모달 모델은 텍스트, 이미지, 오디오, 비디오 등 둘 이상의 데이터 모달리티를 입력이나 출력으로 처리하도록 설계된 AI 모델이다.
Multimodal RAG
멀티모달 RAG
멀티모달 RAG는 텍스트·이미지 등 다양한 형태의 데이터를 각 모달리티 전용 인코더로 임베딩해 인덱싱·검색한 뒤, 검색된 텍스트·그림·캡션을 시각 입력을 이해하는 모델에 함께 제공해 응답을 사실 근거에 연결하는 RA…
NLP
자연어 처리
자연어 처리(NLP)는 컴퓨터가 인간의 언어를 해석하고 생성하도록 하는 인공지능 분야로, 대규모 언어 데이터에서 토큰 단위 패턴과 문맥을 학습한 모델을 통해 번역·요약·감정 분류 같은 과업을 수행해 비정형 텍스트를 …
NVIDIA
엔비디아
엔비디아는 모델 배포용 NIM 마이크로서비스와 모델 개발·운영 도구 NeMo, 드라이버와 쿠버네티스 오퍼레이터 등을 포함한 엔드투엔드 소프트웨어 스택인 NVIDIA AI Enterprise를 제공하며, NIM은 헬스…
on-device AI
온디바이스 AI
온디바이스 AI는 스마트폰, 노트북 등 사용자의 기기 자체에서 인공지능 모델을 실행하는 기술로, 데이터를 클라우드로 보내지 않고도 AI 기능을 사용할 수 있게 해준다. 이 방식은 개인정보 보호와 빠른 응답 속도에서 …
open-source LLM
오픈소스 대형 언어 모델
오픈소스 대형 언어 모델은 누구나 자유롭게 사용할 수 있도록 소스 코드와 학습된 모델이 공개된 대규모 인공지능 언어 모델을 의미한다. 기업이나 개인이 직접 수정, 배포, 활용할 수 있어 AI 개발의 진입 장벽을 낮추…
OpenAI
오픈AI
오픈AI는 GPT‑5.5 등 모델과 호스티드 도구를 개발자에게 제공하는 AI 플랫폼·API 제공자로, 통합된 Responses API와 Agents SDK를 통해 텍스트·멀티모달 생성, 함수 호출 기반의 도구 연동,…
OpenAI Codex
오픈AI 코덱스
오픈AI 코덱스는 소프트웨어 엔지니어링 업무를 수행하도록 설계된 코딩 에이전트로, 기능 구현·버그 수정·코드 설명·리팩터링·PR 제안 등을 처리한다. 코덱스는 저장소가 사전 로드된 클라우드 샌드박스에서 작업을 수행하…
output tokens
출력 토큰
출력 토큰은 AI 모델이 입력을 처리한 후 생성하는 텍스트의 조각들로, 모델이 입력 토큰을 기반으로 가장 가능성이 높은 다음 토큰을 예측하여 일관되고 맥락에 맞는 출력을 생성한다.
PagedAttention
페이지드 어텐션
페이지드 어텐션은 LLM 추론에서 어텐션의 KV 캐시를 운영체제의 가상 메모리 페이징처럼 고정 크기 블록으로 분할해 비연속 공간에 배치하고 룩업으로 접근하는 알고리즘으로, 내부·외부 단편화를 줄이고 공통 접두사의 K…
post-training
후훈련
후훈련은 사전 훈련된 모델을 지시 따르기, 안전성, 도메인 지식, 인간 선호에 맞게 조정하는 단계다. 보통 SFT, 선호 데이터 기반 보상 모델·DPO·RLHF, 평가와 안전 필터를 반복해 base 모델의 행동을 제…
pre-training
사전 훈련
사전 훈련은 대규모 원천 데이터에서 다음 토큰 예측, 마스킹 복원, 대비학습 같은 자기지도 목적을 먼저 최적화해 범용 표현과 초기 가중치를 만드는 단계다. 이 체크포인트는 이후 미세조정·후훈련·RAG·에이전트화의 기…
Prompt Caching
프롬프트 캐싱
프롬프트 캐싱은 동일한 프롬프트 앞부분(프리픽스)을 여러 요청에서 재사용할 수 있도록 해당 구간의 전처리 상태를 캐시에 보관해, 이후 동일 프리픽스가 들어오면 조회만으로 프리필(prefill) 계산을 건너뛰어 지연시…
Prompt Injection
프롬프트 인젝션
프롬프트 인젝션은 LLM 애플리케이션이 신뢰할 수 없는 입력이나 외부 콘텐츠 안의 지시를 시스템·개발자 지시보다 우선하도록 유도해 정책 우회, 데이터 유출, 도구 오용을 일으키는 공격이다. 직접 입력뿐 아니라 검색 …
PyTorch
파이토치
파이토치는 오픈 소스 딥러닝 프레임워크로, 신경망을 구축하고 학습시키는 데 사용됩니다. 파이썬 기반의 직관적인 인터페이스와 유연성 덕분에 연구자와 개발자 모두에게 널리 사랑받으며, 이미지 인식, 자연어 처리, 생성형…
RAG
검색 증강 생성
검색 증강 생성(RAG)은 대규모 언어 모델에 외부 지식 검색을 결합해 질의와 함께 회수된 관련 문서 조각을 프롬프트 컨텍스트로 주입함으로써 출력을 근거에 정박시키는 프레임워크로, 문서를 청크로 분할해 임베딩·인덱싱…
Re-ranking
리랭킹
리랭킹은 RAG나 검색 파이프라인에서 1차 검색으로 모은 후보 청크를 질의와 함께 더 정밀한 모델로 재점수해 순서를 다시 매기는 2단계 랭킹 절차로, 코사인 유사도나 BM25만으로 생기는 랭킹 노이즈를 줄여 상위 K…
real-time inference
실시간 추론
실시간 추론은 요청 도착 시 즉시 실행·응답하도록 학습된 모델을 API로 노출하는 서빙 형태로, 서빙 프레임워크가 추론 엔진과 요청 흐름을 조율하고 오케스트레이션(Kubernetes)이 GPU 배치·스케일링·헬스를 …
Reasoning Model
추론 모델
추론 모델은 표준 LLM에 중간 추론 단계(이른바 reasoning traces)를 생성·활용하도록 학습과 추론 시간을 확장한 계열로, 체인·트리 등 구조화된 여러 후보 풀이를 만들고 선택·검증하는 전략이나 추가적인…
recurrent mechanism
순환 메커니즘
순환 메커니즘은 인공지능 모델 내부에서 이전 단계의 출력을 다음 단계의 입력으로 다시 사용하는 구조를 의미합니다. 이 방식은 모델이 과거 정보를 기억하거나 반복적으로 처리해야 하는 작업에서 효율성과 성능을 높이는 데…
RLHF
인간 피드백 강화학습
RLHF는 사람의 선호 비교로 학습한 보상모델을 기준으로 언어모델을 확률적 정책으로 보고 기대 보상을 높이도록, 보통 SFT 이후의 사후학습 단계에서 최적화해 도움이 되고 무해한 행동으로 정렬시키는 방법이다.
RoPE
RoPE(회전 위치 인코딩)
RoPE(회전 위치 인코딩)는 Transformer attention의 query/key 벡터를 위치별 각도로 회전시켜, 내적 점수에 상대 위치 정보를 직접 반영하는 위치 인코딩 방식입니다.
RRF
상호 순위 융합
RRF(Reciprocal Rank Fusion)는 서로 다른 검색기에서 생성된 순위 목록을 점수 정규화 없이 결합하기 위해 각 문서의 순위에 대해 1/(k+rank)를 합산해 점수를 매기고, 여러 목록의 상위에 반…
Self-Attention
셀프 어텐션
셀프 어텐션은 입력 안의 각 요소가 같은 입력의 다른 모든 요소를 비교해, 무엇에 더 집중해야 하는지 가중치를 계산한 뒤 그 정보를 종합해 새로운 표현을 만드는 메커니즘이다. 트랜스포머에서 핵심 역할을 하며, 멀리 …
Self-Supervised Pretext Tasks
자기지도 사전학습 과제
자기지도 사전학습 과제는 라벨이 없는 입력에서 구조적 단서를 이용해 학습 목표를 정의하고, 그 목표를 풀며 일반화 가능한 표현을 학습하는 자기지도 학습의 훈련 목적들이다. 마스킹·셔플·증강 등으로 입력을 변형해 ‘가…
SLM
소형 언어 모델
소형 언어 모델(SLM)은 자연어 이해와 생성을 수행하지만, 범용 대형 언어 모델보다 파라미터 수·메모리·추론 비용을 줄인 언어 모델 범주다.
Speculative Decoding
추측적 디코딩
Speculative Decoding은 작은 드래프터가 여러 후보 토큰을 먼저 제안하고 타깃 모델이 이를 한 번에 검증해, 타깃 모델 분포를 유지하면서 autoregressive decoding의 순차 지연을 줄이는…
Structured Outputs
구조화된 출력
Structured Outputs는 LLM이 미리 정의한 스키마—주로 JSON Schema—에 맞춰 출력을 강제하도록 디코딩을 제약해, 필수 키·자료형·열거형 값 같은 형식을 보장하고 function/tool cal…
supervised fine-tuning
지도 미세 조정
지도 미세 조정은 이미 사전학습된 AI 모델에 사람이 직접 정답을 달아준 데이터(라벨링 데이터)를 추가로 학습시켜, 특정 작업이나 목적에 더 잘 맞게 성능을 높이는 과정입니다. 이 방식은 모델이 실제로 원하는 답을 …
SWE-bench
SWE-bench
SWE-bench는 오픈소스 저장소의 실제 GitHub 이슈를 과제로 제시해 언어모델·에이전트가 코드베이스를 탐색·이해하고 수정 패치를 생성하는 능력을, 수정 전 상태와 이슈 설명만 제공한 뒤 숨겨진 실패·회귀 테스…
Synthetic Data
합성 데이터
합성 데이터는 실제 관측값을 그대로 노출하지 않고 통계적 규칙, 시뮬레이션, 생성 모델 등을 통해 만든 데이터로, 학습·평가·개인정보 보호·희귀 사례 보강에 사용된다.
TensorFlow
텐서플로우
텐서플로우는 구글 브레인 팀이 개발한 오픈소스 머신러닝 및 딥러닝 프레임워크로, 수치 계산과 대규모 인공지능 모델 학습·추론을 효율적으로 지원합니다. 텐서플로우는 데이터 흐름 그래프 구조를 기반으로 다양한 하드웨어(…
Test-Time Compute
테스트 타임 컴퓨트
Test-Time Compute는 LLM이 추론 단계에서 소비하는 계산·토큰·시간 예산을 뜻하며, 병렬 다중 시도나 단계적 추론·탐색 등으로 입력 난이도나 사용자 제약에 맞게 계산을 고정 또는 적응적으로 배분해 추론…
Token
토큰
토큰은 LLM이 텍스트를 직접 글자나 단어로 보지 않고 처리하기 위해 나누는 기본 입력 단위다.
Tool Calling
툴 호출
툴 호출은 LLM이 대화 중 외부 기능의 정의와 입력 스키마를 참고해 특정 도구 이름과 인자를 구조화해 내보내고—애플리케이션이 그 호출을 실제 시스템에서 실행한 뒤 결과를 다시 컨텍스트로 전달하면—모델이 그 결과를 …
Tool Use
도구 사용
도구 사용은 LLM이 사전에 정의된 도구 인터페이스에 맞춰 구조화된 호출을 내보내고, 애플리케이션 또는 제공자 서버가 실제 코드를 실행해 결과를 다시 컨텍스트로 돌려주는 상호작용 방식으로—텍스트 생성만으로는 불가능한…
Transformer
트랜스포머
트랜스포머는 recurrence나 convolution 대신 self-attention과 feed-forward block을 쌓아 sequence 내부의 관계를 병렬로 학습하는 신경망 아키텍처다. 토큰 간 의존성을 …
Vector Database
벡터 데이터베이스
벡터 데이터베이스는 임베딩을 저장하고 유사도 기반 최근접 검색을 제공하는 특화 저장·검색 시스템으로, ANN 인덱스, 메타데이터 필터, 샤딩·복제·캐시 같은 운영 기능을 조합해 RAG, 시맨틱 검색, 추천 등에서 대…
vision-language model
비전-언어 모델
비전-언어 모델은 이미지, 그림, 차트 등 시각 정보와 텍스트(언어) 정보를 동시에 이해하고 처리할 수 있도록 설계된 인공지능 모델이다. 이 모델은 사진을 보고 설명을 하거나, 차트 이미지를 분석해 답을 내는 등 다…
Visual Instruction Tuning
시각 지시 학습
시각 지시 학습은 이미지-텍스트 지시-응답 예시를 이용해 비전 인코더와 대형 언어 모델을 연결한 멀티모달 LLM을 지시 따르기(task following)에 맞춰 미세조정하는 기법이다. 대표적으로 GPT-4가 생성한…
vLLM
vLLM
vLLM은 PagedAttention으로 KV 캐시를 비연속 블록처럼 관리해 메모리 단편화를 줄이고, 연속 배치 스케줄러로 진행 중인 생성 배치에 새 요청을 동적으로 합류시켜 GPU 활용도를 높이는 오픈소스 LLM …