← 용어집
인프라 · 하드웨어
GPU, 클라우드, MLOps, 배포, 최적화
28개 용어
AI Inference
AI 추론
AI 추론은 학습된 모델의 가중치를 고정한 상태에서 새 입력을 처리해 예측, 분류, 추천, 생성 결과를 내는 실행 단계다.
Batch Inference
배치 추론
배치 추론은 실시간 응답이 필요하지 않은 대규모 입력을 일정 주기나 온디맨드 작업으로 한꺼번에 예측하는 방식으로, 클라우드 스토리지에서 분산 읽기·전처리를 거쳐 GPU 기반 모델 실행과 결과 저장까지 파이프라인으로 …
Bedrock
베드록
Amazon Bedrock은 AWS가 제공하는 완전관리형 생성형 AI 서비스로, 다양한 파운데이션 모델에 대한 보안된 엔터프라이즈급 접근을 단일 API와 IAM 기반 거버넌스로 제공하며, 에이전트·지식 베이스·가드레…
CUDA
CUDA
CUDA는 NVIDIA GPU에서 대규모 병렬 계산을 실행하기 위한 프로그래밍 모델과 런타임 플랫폼이다.
cuDNN
cuDNN
cuDNN은 NVIDIA에서 제공하는 딥러닝 연산 가속 라이브러리로, GPU에서 신경망의 핵심 연산(합성곱, 풀링 등)을 빠르고 효율적으로 처리할 수 있도록 최적화된 소프트웨어입니다. 주로 TensorFlow, Py…
edge deployment
에지 배포
에지 배포는 AI 모델이나 애플리케이션을 중앙 데이터센터나 퍼블릭 클라우드가 아닌 사용자가 가까이 있는 현장 장비, 통신국사, 기지국, 지역 엣지 데이터센터 등에 배치해 추론을 수행하는 방식이다. 이 방식은 지연시간…
GPU
그래픽 처리 장치
GPU는 대규모 병렬 스레드와 전용 메모리 계층을 통해 행렬 중심의 동일 패턴 계산을 고처리량으로 실행하는 가속 프로세서로, 고대역폭 메모리와 고속 인터커넥트를 활용해 AI 학습·추론 같은 데이터 병렬 워크로드의 처…
GPU cluster
GPU 클러스터
GPU 클러스터는 여러 대의 GPU(그래픽 처리 장치)를 네트워크로 연결해 하나의 대규모 컴퓨팅 자원처럼 사용하는 시스템입니다. 주로 인공지능 모델의 대규모 학습이나 복잡한 데이터 처리를 빠르게 수행하기 위해 활용됩…
Inference
추론
추론은 학습이 끝난 모델에 새 입력을 넣어 예측, 분류, 생성 결과를 계산하는 실행 단계다. LLM에서는 prompt를 token으로 바꾸고, prefill과 decode 과정을 거쳐 다음 token을 반복 생성하며…
inference cost
추론 비용
추론 비용은 LLM이 배포 환경에서 프롬프트를 토큰화해 한 토큰씩 응답을 생성하는 운영 과정에서 발생하는 계산·인프라 비용으로, 주로 토큰 단위 과금과 모델 규모·호스팅 방식에 의해 좌우되며 단일 실행당 연산량은 학…
inference latency
추론 지연 시간
추론 지연 시간은 AI 모델이 입력을 받아서 결과를 내놓기까지 걸리는 실제 시간입니다. 주로 챗봇, 코드 생성기, 이미지 분석 등에서 사용자가 요청을 보낸 순간부터 AI가 답을 돌려줄 때까지의 대기 시간을 의미하며,…
Inference Scaling
추론 스케일링
추론 스케일링은 실사용 트래픽에서 지연과 비용 목표를 충족하도록 모델 서빙 용량을 확장·조정하는 방법으로, 게이트웨이·프론트엔드의 큐잉·배칭·지능형 라우팅과 백엔드의 메모리 관리·병렬화·캐시 활용을 결합해 가용 가속…
KV Cache
KV 캐시
KV Cache는 autoregressive Transformer 추론에서 이전 토큰의 attention key/value 텐서를 보존해 이후 디코딩 단계가 동일한 prefix를 재계산하지 않도록 하는 메모리 구조다…
KV Offloading
KV 오프로딩
KV 오프로딩은 대규모 언어모델 추론에서 self-attention의 Key/Value 캐시를 GPU 메모리에서 CPU 메모리나 NVMe 등 외부 스토리지로 계층화해 이동·관리함으로써 GPU 메모리 압력을 줄이고 캐…
Model parallelism
모델 병렬 처리
모델 병렬 처리는 단일 GPU 메모리에 맞지 않는 대형 신경망을 파라미터와 활성화를 여러 GPU에 분할 배치해 연산을 이어가며 처리하는 분산 기법으로, 계층 또는 텐서 단위로 모델을 쪼개고 GPU 간 통신으로 중간 …
Model Router
모델 라우터
모델 라우터는 입력 요청의 난이도, 모달리티, 도구 사용 여부, 비용·지연 시간 제약을 평가해 여러 후보 모델 중 실행할 모델을 선택하는 orchestration 계층이다.
Model Serving
모델 서빙
모델 서빙은 학습된 모델을 API, batch job, streaming endpoint 같은 형태로 배포해 요청을 받고 추론 결과를 안정적으로 반환하는 운영 시스템이다. 단순 model inference보다 넓은 …
NVIDIA
엔비디아
엔비디아는 모델 배포용 NIM 마이크로서비스와 모델 개발·운영 도구 NeMo, 드라이버와 쿠버네티스 오퍼레이터 등을 포함한 엔드투엔드 소프트웨어 스택인 NVIDIA AI Enterprise를 제공하며, NIM은 헬스…
Observability
관측 가능성
관측 가능성(Observability)은 분산 시스템의 내부 상태를 추론하기 위해 트레이스·메트릭·로그 같은 텔레메트리를 수집하고 상호 연관, 특히 동일 요청에 대한 trace ID 전파를 유지해 사전에 정해두지 않…
on-device AI
온디바이스 AI
온디바이스 AI는 스마트폰, 노트북 등 사용자의 기기 자체에서 인공지능 모델을 실행하는 기술로, 데이터를 클라우드로 보내지 않고도 AI 기능을 사용할 수 있게 해준다. 이 방식은 개인정보 보호와 빠른 응답 속도에서 …
OpenTelemetry
오픈텔레메트리
오픈텔레메트리는 언어별 API·SDK로 애플리케이션을 계측해 트레이스·메트릭·로그 같은 텔레메트리 데이터를 생성하고, OTLP 표준 프로토콜과 벤더 중립 Collector를 통해 이를 수집·가공·내보내도록 하는 벤더…
PagedAttention
페이지드 어텐션
페이지드 어텐션은 LLM 추론에서 어텐션의 KV 캐시를 운영체제의 가상 메모리 페이징처럼 고정 크기 블록으로 분할해 비연속 공간에 배치하고 룩업으로 접근하는 알고리즘으로, 내부·외부 단편화를 줄이고 공통 접두사의 K…
Quantization
양자화
양자화는 신경망의 가중치와 활성값을 부동소수 대신 저비트 정수로 근사해 저장·메모리 트래픽을 줄이고 저정밀 연산 하드웨어로 처리량을 높이는 기법으로, 보정된 값 범위를 기준으로 스케일과 오프셋을 선택해 균일 격자에 …
real-time inference
실시간 추론
실시간 추론은 요청 도착 시 즉시 실행·응답하도록 학습된 모델을 API로 노출하는 서빙 형태로, 서빙 프레임워크가 추론 엔진과 요청 흐름을 조율하고 오케스트레이션(Kubernetes)이 GPU 배치·스케일링·헬스를 …
SLM
소형 언어 모델
소형 언어 모델(SLM)은 자연어 이해와 생성을 수행하지만, 범용 대형 언어 모델보다 파라미터 수·메모리·추론 비용을 줄인 언어 모델 범주다.
Speculative Decoding
추측적 디코딩
Speculative Decoding은 작은 드래프터가 여러 후보 토큰을 먼저 제안하고 타깃 모델이 이를 한 번에 검증해, 타깃 모델 분포를 유지하면서 autoregressive decoding의 순차 지연을 줄이는…
Trainium
트레이늄
트레이늄은 AWS가 대규모 딥러닝 학습을 위해 설계한 맞춤형 AI 가속기(칩)로, AWS EC2의 trn 계열 인스턴스를 통해 제공되며 Neuron SDK로 구동된다. 특히 트랜스포머 기반 모델 학습에서 GPU 대비…
vLLM
vLLM
vLLM은 PagedAttention으로 KV 캐시를 비연속 블록처럼 관리해 메모리 단편화를 줄이고, 연속 배치 스케줄러로 진행 중인 생성 배치에 새 요청을 동적으로 합류시켜 GPU 활용도를 높이는 오픈소스 LLM …