← 용어집
인프라 · 하드웨어
GPU, 클라우드, MLOps, 배포, 최적화
40개 용어
adaptive quantization
적응형 양자화
적응형 양자화는 인공지능 모델의 각 부분(레이어, 블록, 연산 등)에 따라 숫자를 저장하는 비트 수(정밀도)를 다르게 조절해, 성능 저하 없이 모델의 크기와 연산량을 크게 줄이는 기술입니다. 이 방식은 고정된 방식의…
AI accelerator
AI 가속기
AI 가속기는 인공지능(AI)과 머신러닝(ML) 작업을 빠르고 효율적으로 처리하기 위해 특별히 설계된 하드웨어 장치입니다. 일반적인 CPU와 달리, 대규모 행렬 연산과 병렬 처리를 최적화하여 신경망 학습과 추론 속도…
AI chip
AI 칩
AI 칩은 인공지능(AI) 및 머신러닝(ML) 작업을 빠르고 효율적으로 처리하도록 특별히 설계된 집적 회로(IC)입니다. 일반적인 중앙처리장치(CPU)와 달리, AI 칩은 대규모 데이터 연산과 복잡한 신경망 모델 실…
AI-driven efficiencies
AI 기반 효율성
AI 기반 효율성은 인공지능 기술을 활용하여 업무 프로세스를 최적화하고, 오류를 줄이며, 생산성을 높이는 것을 의미한다.
AI-native framework
AI 네이티브 프레임워크
AI 네이티브 프레임워크는 인공지능을 핵심 구성 요소로 처음부터 설계된 시스템이나 프로세스를 의미하며, AI 기능이 시스템의 모든 부분에 깊이 통합되어 있다.
automation
자동화
자동화는 인간의 개입 없이 기계나 소프트웨어가 작업을 수행하도록 하는 기술입니다. 이는 생산성 향상과 오류 감소를 목표로 합니다.
battery life
배터리 수명
배터리 수명은 전자기기나 시스템에서 배터리가 한 번 충전으로 사용할 수 있는 시간 또는 전체적으로 사용할 수 있는 기간을 의미합니다. AI 및 IT 분야에서는 배터리 수명이 기기의 성능, 사용 경험, AI 기능의 지…
Bedrock
베드록
아마존 베드록은 다양한 제공사의 대형 언어·생성 모델을 하나의 관리형 서비스로 제공하고, 통합 API로 추론, 임베딩, 에이전트/플로우, 지식 베이스 등을 운영할 수 있게 해주는 AWS 서비스다. 최근에는 OpenA…
benchmark tests
벤치마크 테스트
벤치마크 테스트는 컴퓨터 시스템이나 소프트웨어의 성능을 평가하기 위해 표준화된 테스트를 수행하는 과정입니다.
Cluster scheduler
클러스터 스케줄러
클러스터 스케줄러는 여러 대의 서버(노드)로 구성된 컴퓨팅 클러스터에서 작업(잡)이나 AI 워크로드를 효율적으로 분배하고 실행 순서를 정해주는 소프트웨어입니다. 이를 통해 전체 시스템의 자원을 최적화하고, 다양한 작…
Composer 2
컴포저 2
컴포저 2는 Cursor에서 개발한 AI 모델로, 코드 작성 및 관리에 특화되어 있으며, 비용 효율성을 강조합니다.
cross-platform AI
크로스 플랫폼 AI
크로스 플랫폼 AI는 특정 운영체제나 기기에 제한되지 않고, 다양한 플랫폼(예: iOS, Android, Windows, 웹 등)에서 동일하게 동작하거나 서비스를 제공할 수 있는 인공지능 기술 또는 시스템을 의미합니…
cuDNN
cuDNN
cuDNN은 NVIDIA에서 제공하는 딥러닝 연산 가속 라이브러리로, GPU에서 신경망의 핵심 연산(합성곱, 풀링 등)을 빠르고 효율적으로 처리할 수 있도록 최적화된 소프트웨어입니다. 주로 TensorFlow, Py…
dynamic content delivery
동적 콘텐츠 전달
동적 콘텐츠 전달은 사용자 상호작용, 선호도 및 기타 맥락적 요소에 따라 적응하고 진화하는 콘텐츠를 제공하는 방식이다. 이는 정적인 콘텐츠와 달리 개인화된 경험을 제공한다.
edge deployment
에지 배포
에지 배포는 AI 모델이나 애플리케이션을 중앙 데이터센터나 퍼블릭 클라우드가 아닌 사용자가 가까이 있는 현장 장비, 통신국사, 기지국, 지역 엣지 데이터센터 등에 배치해 추론을 수행하는 방식이다. 이 방식은 지연시간…
FlashAttention-4
플래시어텐션-4
플래시어텐션-4는 대규모 AI 모델에서 사용하는 '어텐션' 연산을 GPU에서 매우 빠르고 효율적으로 처리하도록 최적화된 커널(연산 코드)이다. 최신 GPU 환경에서 기존의 cuDNN보다 더 빠른 속도를 제공하며, 대…
Floating-point operations (FLOPs)
부동소수점 연산
부동소수점 연산(Floating-point operations, FLOPs)은 소수점이 포함된 숫자(예: 3.14, 0.0001) 사이에서 이루어지는 덧셈, 곱셈 등과 같은 수학적 계산을 의미합니다. AI, 과학 계…
GPU cluster
GPU 클러스터
GPU 클러스터는 여러 대의 GPU(그래픽 처리 장치)를 네트워크로 연결해 하나의 대규모 컴퓨팅 자원처럼 사용하는 시스템입니다. 주로 인공지능 모델의 대규모 학습이나 복잡한 데이터 처리를 빠르게 수행하기 위해 활용됩…
GPU kernel optimization
GPU 커널 최적화
GPU 커널 최적화란 인공지능 모델 학습이나 추론에서 GPU가 실행하는 핵심 코드(커널)의 속도와 효율을 최대한 끌어올리는 작업을 말합니다. 최근에는 LLM 기반 에이전트가 스스로 코드를 수정·검증하며 기존 전문가 …
Hardware utilization
하드웨어 활용도
하드웨어 활용도는 컴퓨터 시스템의 CPU, GPU, 메모리 등 물리적 자원이 실제로 얼마나 효율적으로 사용되고 있는지를 나타내는 지표입니다. AI 및 IT 분야에서는 주어진 하드웨어가 최대한의 성능을 발휘하도록 자원…
inference cost
추론 비용
추론 비용은 학습이 끝난 AI 모델에 데이터를 넣어 예측, 생성, 분류 같은 결과를 얻는 데 드는 운영 비용을 뜻한다. 특히 LLM에서는 프롬프트와 응답이 만들어내는 모든 토큰이 연산을 소모해, 사용량과 처리량이 늘…
inference latency
추론 지연 시간
추론 지연 시간은 AI 모델이 입력을 받아서 결과를 내놓기까지 걸리는 실제 시간입니다. 주로 챗봇, 코드 생성기, 이미지 분석 등에서 사용자가 요청을 보낸 순간부터 AI가 답을 돌려줄 때까지의 대기 시간을 의미하며,…
legacy infrastructure
구형 인프라
구형 인프라는 오래된 하드웨어 및 소프트웨어 시스템으로, 최신 기술과의 호환성이 떨어져 유지 관리가 어려운 시스템을 말합니다.
lightweight installation script
경량 설치 스크립트
경량 설치 스크립트는 소프트웨어나 애플리케이션을 설치할 때 필요한 최소한의 명령어와 설정만을 포함하여 빠르고 효율적으로 설치를 진행할 수 있게 해주는 스크립트입니다.
live audio translation
실시간 음성 번역
실시간 음성 번역은 사용자가 말하는 소리를 인공지능이 즉시 인식하여, 다른 언어로 번역한 뒤 바로 음성이나 텍스트로 제공하는 기술입니다. 이 과정은 음성 인식, 기계 번역, 음성 합성 등 여러 AI 기술이 결합되어 …
Model parallelism
모델 병렬 처리
모델 병렬 처리는 하나의 대형 인공지능 모델을 여러 장치(예: 여러 GPU)로 나누어 각 장치가 모델의 일부 연산을 담당하도록 분산시키는 기술입니다. 주로 모델이 너무 커서 한 대의 장치 메모리에 모두 올릴 수 없을…
Multi-silicon inference
멀티 실리콘 추론
멀티 실리콘 추론은 AI 모델의 추론 과정을 CPU, GPU, 고용량 메모리 서버 등 다양한 종류의 하드웨어(실리콘)에서 동시에 분산 실행하여, 에너지 효율과 처리 속도를 극대화하는 기술입니다. 이 방식은 기존 단일…
Nvidia
엔비디아
엔비디아는 GPU로 알려진 가속 칩과 이를 활용하는 소프트웨어를 제공하는 기술 기업으로, 딥러닝·자연어 처리·컴퓨터 비전 등 AI 작업을 빠르게 처리할 수 있도록 하드웨어부터 플랫폼, 개발 도구까지 아우르는 풀스택 …
NVIDIA Blackwell
NVIDIA 블랙웰
NVIDIA 블랙웰은 차세대 AI 성능을 위한 GPU 아키텍처로, AI 공장과 실시간 AI 추론을 지원하는 핵심 기술입니다.
NVIDIA DGX Cloud
NVIDIA DGX 클라우드
NVIDIA DGX 클라우드는 대규모 AI 개발을 지원하는 클라우드 기반 AI 슈퍼컴퓨터로, 기업들이 웹 브라우저를 통해 접근할 수 있는 종합적인 하드웨어 및 소프트웨어 솔루션입니다.
on-device AI
온디바이스 AI
온디바이스 AI는 스마트폰, 노트북 등 사용자의 기기 자체에서 인공지능 모델을 실행하는 기술로, 데이터를 클라우드로 보내지 않고도 AI 기능을 사용할 수 있게 해준다. 이 방식은 개인정보 보호와 빠른 응답 속도에서 …
Oxide LCD
옥사이드 LCD
옥사이드 LCD는 산화물 반도체(주로 IGZO)를 사용한 액정 디스플레이로, 기존 LCD에 비해 전력 소모가 크게 줄고, 1Hz에서 120Hz까지 동적으로 주사율을 조절할 수 있는 최신 기술입니다. 특히 AI 기능이…
power efficiency
전력 효율
전력 효율은 컴퓨터 시스템이나 AI 하드웨어가 주어진 전력을 얼마나 효과적으로 실제 연산 작업에 사용하는지를 나타내는 지표입니다. 즉, 같은 전력을 사용할 때 더 많은 연산을 처리하거나, 동일한 작업을 더 적은 전력…
processing speed
처리 속도
처리 속도는 컴퓨터나 시스템이 주어진 작업이나 데이터를 얼마나 빠르게 처리할 수 있는지를 나타내는 지표입니다.
real-time inference
실시간 추론
실시간 추론은 훈련된 머신러닝 모델이 실시간으로 입력 데이터를 받아 즉각적으로 예측을 생성하는 과정을 의미한다. 이는 시스템이 환경에 신속하게 반응할 수 있게 하여 현대 인공지능 애플리케이션의 핵심 기능을 제공한다.
real-time neural rendering
실시간 신경 렌더링
실시간 신경 렌더링은 인공지능, 특히 딥러닝 모델을 사용하여 이미지와 비디오를 생성하거나 향상시키는 기술로, 전통적인 컴퓨터 그래픽 파이프라인의 일부를 신경망으로 대체하거나 보완하여 실시간, 포토리얼리스틱, 적응형 …
telecommunications services
통신 서비스
통신 서비스는 음성, 데이터, 영상 등의 정보를 전달하기 위해 제공되는 서비스로, 전화, 인터넷, 방송 등을 포함한다.
Trainium
트레이늄
트레이늄은 AWS가 대규모 딥러닝 학습을 위해 설계한 맞춤형 AI 가속기(칩)로, AWS EC2의 trn 계열 인스턴스를 통해 제공되며 Neuron SDK로 구동된다. 특히 트랜스포머 기반 모델 학습에서 GPU 대비…
Vera Rubin platform
베라 루빈 플랫폼
베라 루빈 플랫폼은 NVIDIA가 차세대 AI 에이전트를 지원하기 위해 개발한 AI 인프라 플랫폼으로, 대규모 AI 개발을 위한 7개의 새로운 칩을 포함한다.
workflow orchestration
워크플로우 오케스트레이션
워크플로우 오케스트레이션은 여러 개의 자동화된 작업(프로세스, 태스크 등)을 정해진 순서와 조건에 따라 효율적으로 연결하고 관리하는 기술 또는 시스템을 의미한다. 주로 AI 모델 학습, 데이터 처리, 대규모 서비스 …