인프라 · 하드웨어

GPU, 클라우드, MLOps, 배포, 최적화

28개 용어

인프라 · 하드웨어 LLM · 생성AI

AI 추론은 학습된 모델의 가중치를 고정한 상태에서 새 입력을 처리해 예측, 분류, 추천, 생성 결과를 내는 실행 단계다.

인프라 · 하드웨어 LLM · 생성AI 데이터 엔지니어링

Batch Inference

배치 추론은 실시간 응답이 필요하지 않은 대규모 입력을 일정 주기나 온디맨드 작업으로 한꺼번에 예측하는 방식으로, 클라우드 스토리지에서 분산 읽기·전처리를 거쳐 GPU 기반 모델 실행과 결과 저장까지 파이프라인으로 …

제품 · 플랫폼 인프라 · 하드웨어 LLM · 생성AI

Amazon Bedrock은 AWS가 제공하는 완전관리형 생성형 AI 서비스로, 다양한 파운데이션 모델에 대한 보안된 엔터프라이즈급 접근을 단일 API와 IAM 기반 거버넌스로 제공하며, 에이전트·지식 베이스·가드레…

인프라 · 하드웨어 딥러닝

CUDA는 NVIDIA GPU에서 대규모 병렬 계산을 실행하기 위한 프로그래밍 모델과 런타임 플랫폼이다.

인프라 · 하드웨어 제품 · 플랫폼

cuDNN은 NVIDIA에서 제공하는 딥러닝 연산 가속 라이브러리로, GPU에서 신경망의 핵심 연산(합성곱, 풀링 등)을 빠르고 효율적으로 처리할 수 있도록 최적화된 소프트웨어입니다. 주로 TensorFlow, Py…

인프라 · 하드웨어 LLM · 생성AI

edge deployment

에지 배포는 AI 모델이나 애플리케이션을 중앙 데이터센터나 퍼블릭 클라우드가 아닌 사용자가 가까이 있는 현장 장비, 통신국사, 기지국, 지역 엣지 데이터센터 등에 배치해 추론을 수행하는 방식이다. 이 방식은 지연시간…

인프라 · 하드웨어 딥러닝 ML 기초

그래픽 처리 장치

GPU는 대규모 병렬 스레드와 전용 메모리 계층을 통해 행렬 중심의 동일 패턴 계산을 고처리량으로 실행하는 가속 프로세서로, 고대역폭 메모리와 고속 인터커넥트를 활용해 AI 학습·추론 같은 데이터 병렬 워크로드의 처…

인프라 · 하드웨어

GPU 클러스터

GPU 클러스터는 여러 대의 GPU(그래픽 처리 장치)를 네트워크로 연결해 하나의 대규모 컴퓨팅 자원처럼 사용하는 시스템입니다. 주로 인공지능 모델의 대규모 학습이나 복잡한 데이터 처리를 빠르게 수행하기 위해 활용됩…

LLM · 생성AI 인프라 · 하드웨어 딥러닝

추론은 학습이 끝난 모델에 새 입력을 넣어 예측, 분류, 생성 결과를 계산하는 실행 단계다. LLM에서는 prompt를 token으로 바꾸고, prefill과 decode 과정을 거쳐 다음 token을 반복 생성하며…

LLM · 생성AI 인프라 · 하드웨어 제품 · 플랫폼

추론 비용은 LLM이 배포 환경에서 프롬프트를 토큰화해 한 토큰씩 응답을 생성하는 운영 과정에서 발생하는 계산·인프라 비용으로, 주로 토큰 단위 과금과 모델 규모·호스팅 방식에 의해 좌우되며 단일 실행당 연산량은 학…

인프라 · 하드웨어 LLM · 생성AI

inference latency

추론 지연 시간

추론 지연 시간은 AI 모델이 입력을 받아서 결과를 내놓기까지 걸리는 실제 시간입니다. 주로 챗봇, 코드 생성기, 이미지 분석 등에서 사용자가 요청을 보낸 순간부터 AI가 답을 돌려줄 때까지의 대기 시간을 의미하며,…

인프라 · 하드웨어

Inference Scaling

추론 스케일링

추론 스케일링은 실사용 트래픽에서 지연과 비용 목표를 충족하도록 모델 서빙 용량을 확장·조정하는 방법으로, 게이트웨이·프론트엔드의 큐잉·배칭·지능형 라우팅과 백엔드의 메모리 관리·병렬화·캐시 활용을 결합해 가용 가속…

인프라 · 하드웨어 LLM · 생성AI

KV Cache는 autoregressive Transformer 추론에서 이전 토큰의 attention key/value 텐서를 보존해 이후 디코딩 단계가 동일한 prefix를 재계산하지 않도록 하는 메모리 구조다…

인프라 · 하드웨어 LLM · 생성AI

KV 오프로딩

KV 오프로딩은 대규모 언어모델 추론에서 self-attention의 Key/Value 캐시를 GPU 메모리에서 CPU 메모리나 NVMe 등 외부 스토리지로 계층화해 이동·관리함으로써 GPU 메모리 압력을 줄이고 캐…

인프라 · 하드웨어 LLM · 생성AI

Model parallelism

모델 병렬 처리

모델 병렬 처리는 단일 GPU 메모리에 맞지 않는 대형 신경망을 파라미터와 활성화를 여러 GPU에 분할 배치해 연산을 이어가며 처리하는 분산 기법으로, 계층 또는 텐서 단위로 모델을 쪼개고 GPU 간 통신으로 중간 …

LLM · 생성AI 인프라 · 하드웨어

모델 라우터

모델 라우터는 입력 요청의 난이도, 모달리티, 도구 사용 여부, 비용·지연 시간 제약을 평가해 여러 후보 모델 중 실행할 모델을 선택하는 orchestration 계층이다.

인프라 · 하드웨어 LLM · 생성AI 제품 · 플랫폼

모델 서빙은 학습된 모델을 API, batch job, streaming endpoint 같은 형태로 배포해 요청을 받고 추론 결과를 안정적으로 반환하는 운영 시스템이다. 단순 model inference보다 넓은 …

제품 · 플랫폼 LLM · 생성AI 인프라 · 하드웨어

엔비디아는 모델 배포용 NIM 마이크로서비스와 모델 개발·운영 도구 NeMo, 드라이버와 쿠버네티스 오퍼레이터 등을 포함한 엔드투엔드 소프트웨어 스택인 NVIDIA AI Enterprise를 제공하며, NIM은 헬스…

인프라 · 하드웨어

관측 가능성

관측 가능성(Observability)은 분산 시스템의 내부 상태를 추론하기 위해 트레이스·메트릭·로그 같은 텔레메트리를 수집하고 상호 연관, 특히 동일 요청에 대한 trace ID 전파를 유지해 사전에 정해두지 않…

인프라 · 하드웨어 LLM · 생성AI

온디바이스 AI

온디바이스 AI는 스마트폰, 노트북 등 사용자의 기기 자체에서 인공지능 모델을 실행하는 기술로, 데이터를 클라우드로 보내지 않고도 AI 기능을 사용할 수 있게 해준다. 이 방식은 개인정보 보호와 빠른 응답 속도에서 …

인프라 · 하드웨어

오픈텔레메트리

오픈텔레메트리는 언어별 API·SDK로 애플리케이션을 계측해 트레이스·메트릭·로그 같은 텔레메트리 데이터를 생성하고, OTLP 표준 프로토콜과 벤더 중립 Collector를 통해 이를 수집·가공·내보내도록 하는 벤더…

인프라 · 하드웨어 LLM · 생성AI

페이지드 어텐션

페이지드 어텐션은 LLM 추론에서 어텐션의 KV 캐시를 운영체제의 가상 메모리 페이징처럼 고정 크기 블록으로 분할해 비연속 공간에 배치하고 룩업으로 접근하는 알고리즘으로, 내부·외부 단편화를 줄이고 공통 접두사의 K…

인프라 · 하드웨어 딥러닝

양자화는 신경망의 가중치와 활성값을 부동소수 대신 저비트 정수로 근사해 저장·메모리 트래픽을 줄이고 저정밀 연산 하드웨어로 처리량을 높이는 기법으로, 보정된 값 범위를 기준으로 스케일과 오프셋을 선택해 균일 격자에 …

인프라 · 하드웨어 LLM · 생성AI

real-time inference

실시간 추론

실시간 추론은 요청 도착 시 즉시 실행·응답하도록 학습된 모델을 API로 노출하는 서빙 형태로, 서빙 프레임워크가 추론 엔진과 요청 흐름을 조율하고 오케스트레이션(Kubernetes)이 GPU 배치·스케일링·헬스를 …

LLM · 생성AI 인프라 · 하드웨어

소형 언어 모델

소형 언어 모델(SLM)은 자연어 이해와 생성을 수행하지만, 범용 대형 언어 모델보다 파라미터 수·메모리·추론 비용을 줄인 언어 모델 범주다.

LLM · 생성AI 인프라 · 하드웨어

Speculative Decoding

추측적 디코딩

Speculative Decoding은 작은 드래프터가 여러 후보 토큰을 먼저 제안하고 타깃 모델이 이를 한 번에 검증해, 타깃 모델 분포를 유지하면서 autoregressive decoding의 순차 지연을 줄이는…

인프라 · 하드웨어

트레이늄은 AWS가 대규모 딥러닝 학습을 위해 설계한 맞춤형 AI 가속기(칩)로, AWS EC2의 trn 계열 인스턴스를 통해 제공되며 Neuron SDK로 구동된다. 특히 트랜스포머 기반 모델 학습에서 GPU 대비…

인프라 · 하드웨어 LLM · 생성AI

vLLM은 PagedAttention으로 KV 캐시를 비연속 블록처럼 관리해 메모리 단편화를 줄이고, 연속 배치 스케줄러로 진행 중인 생성 배치에 새 요청을 동적으로 합류시켜 GPU 활용도를 높이는 오픈소스 LLM …