딥러닝

신경망 아키텍처, 학습 기법, 비전, 오디오

29개 용어

딥러닝 LLM · 생성AI

100만 토큰 컨텍스트

100만 토큰 컨텍스트는 대형 언어 모델이 한 번의 응답(추론)에서 동시에 참고할 수 있는 입력과 대화 이력의 최대 길이가 약 100만 토큰에 달함을 뜻한다. 이는 모델이 더 긴 문서 묶음이나 장시간의 작업 흐름을 …

3D 내비게이션

3D 내비게이션은 AI 기술을 활용하여 사용자에게 더 직관적이고 시각적인 경로 안내를 제공하는 시스템으로, 전통적인 2D 지도 대신 3D로 거리와 랜드마크를 시각화합니다.

제품 · 플랫폼 딥러닝

어도비 파이어플라이

어도비 파이어플라이는 창의적 워크플로우를 가속화하고 수작업을 줄이며 누구나 그래픽 디자인을 직관적으로 실험할 수 있게 하는 AI 도구입니다. 이 모델은 라이선스된 콘텐츠나 퍼블릭 도메인 콘텐츠를 기반으로 훈련되어, …

LLM · 생성AI 딥러닝 ML 기초

BERT는 2018년 Google이 공개한 트랜스포머 기반의 양방향 언어 표현 모델로, 문장을 왼쪽과 오른쪽 방향을 동시에 고려해 단어의 문맥을 이해하도록 사전학습(pretraining)한 뒤 다양한 NLP 태스크에…

diffusion model

확산 모델은 인공지능에서 무작위 노이즈를 점진적으로 제거해가며 새로운 데이터를 생성하는 딥러닝 기반 생성 모델입니다. 이 모델은 실제 데이터에 노이즈를 반복적으로 추가한 뒤, 그 과정을 역으로 따라가면서 의미 있는 …

딥러닝 LLM · 생성AI

임베딩은 복잡한 데이터를 기계 학습 알고리즘이 쉽게 처리할 수 있도록 저차원 공간에 표현하는 수학적 방법입니다.

인프라 · 하드웨어 딥러닝

FlashAttention-4

플래시어텐션-4

플래시어텐션-4는 대규모 AI 모델에서 사용하는 '어텐션' 연산을 GPU에서 매우 빠르고 효율적으로 처리하도록 최적화된 커널(연산 코드)이다. 최신 GPU 환경에서 기존의 cuDNN보다 더 빠른 속도를 제공하며, 대…

제품 · 플랫폼 LLM · 생성AI 딥러닝

Gemini는 Google이 개발한 멀티모달 대규모 언어 모델(LLM) 계열과 이를 기반으로 한 챗봇/앱을 가리키며, 텍스트뿐 아니라 이미지, 오디오, 비디오, 코드 등 다양한 형태의 입력을 이해하고 생성할 수 있도…

제품 · 플랫폼 LLM · 생성AI 딥러닝

젬마 4는 Google DeepMind가 공개한 경량 오픈 가중치 대규모 언어 모델(LLM) 계열의 최신 버전으로, 에이전트 실행에 유리한 함수 호출과 구조적 JSON 출력 같은 기능을 기본 지원하며, 경량 하드웨어…

딥러닝 인프라 · 하드웨어

GPU kernel optimization

GPU 커널 최적화

GPU 커널 최적화란 인공지능 모델 학습이나 추론에서 GPU가 실행하는 핵심 코드(커널)의 속도와 효율을 최대한 끌어올리는 작업을 말합니다. 최근에는 LLM 기반 에이전트가 스스로 코드를 수정·검증하며 기존 전문가 …

딥러닝 LLM · 생성AI

grouped-query attention

그룹 쿼리 어텐션

그룹 쿼리 어텐션은 대규모 언어 모델(LLM)이나 트랜스포머 모델에서 여러 쿼리(query)를 그룹으로 묶어 효율적으로 어텐션 연산을 처리하는 기술이다. 이 방식은 계산량과 메모리 사용을 줄이면서도 기존 어텐션 구조…

LLM · 생성AI 딥러닝 AI 안전 · 윤리

인공지능 환각은 대규모 언어모델(LLM)이나 생성형 AI가 실제로 존재하지 않거나 사실과 다른 내용을 그럴듯하게 만들어 내는 현상이다. 이는 모델이 학습 데이터의 패턴을 바탕으로 다음에 올 말을 예측하는 과정에서 검…

image generation

이미지 생성

이미지 생성은 인공지능이 텍스트 설명이나 다른 입력을 바탕으로 새로운 이미지를 자동으로 만들어내는 기술이다. 대표적으로 DALL-E, Midjourney, 그리고 최근 애플이 공개한 이미지 생성 AI 등이 이 분야를…

제품 · 플랫폼 딥러닝

이미젠 비디오

이미젠 비디오는 구글이 개발한 AI 기반 비디오 생성 모델로, 텍스트 설명만으로도 고화질의 짧은 비디오를 자동으로 만들어내는 기술이다. 이 모델은 생성형 AI 분야에서 영상 제작의 자동화와 창의적 표현을 크게 확장시…

딥러닝 LLM · 생성AI

잠재적 전문가 혼합

Latent MoE는 표준 MoE(전문가 혼합)에서 각 전문가 계산을 모델의 전체 숨김 차원이 아닌 더 낮은 차원의 잠재 공간으로 투영해 수행한 뒤 다시 원래 차원으로 되돌리는 구조다. 동일한 희소 라우팅을 유지하면…

LLM · 생성AI 딥러닝 ML 기초

대규모 언어 모델

대규모 언어 모델(LLM)은 방대한 텍스트 데이터로 학습된 딥러닝 모델로, 인간 언어를 이해하고 생성하는 데 특화되어 있다. 주로 트랜스포머 아키텍처와 자기-어텐션을 사용하며, 다음 단어 예측 같은 자기지도 학습과 …

제품 · 플랫폼 딥러닝

MAI-이미지-2

MAI-이미지-2는 Microsoft가 개발한 텍스트-이미지 변환 모델로, 포토리얼리즘, 이미지 내 텍스트 정확성, 상세한 장면 생성에 중점을 두고 있다.

딥러닝 LLM · 생성AI

mixture of experts

전문가 혼합

전문가 혼합은 여러 개의 특화된 AI 모델(전문가) 중에서 상황에 따라 가장 적합한 모델을 선택하거나 조합해 문제를 푸는 인공지능 구조다. 각 전문가 모델은 특정 유형의 데이터나 작업에 특화되어 있으며, 전체 시스템…

multi-head attention kernel

멀티헤드 어텐션 커널

멀티헤드 어텐션 커널은 트랜스포머 등 딥러닝 모델에서 여러 개의 어텐션 연산을 동시에 빠르게 처리하기 위해 GPU 등 하드웨어에 맞춰 최적화된 핵심 연산 코드(커널)입니다. 이 커널은 대규모 언어 모델의 추론과 학습…

LLM · 생성AI 딥러닝 ML 기초

멀티모달은 텍스트, 이미지, 오디오, 비디오 등 서로 다른 형태(모달리티)의 데이터를 동시에 처리하고 통합해 더 정확하고 풍부한 이해를 만드는 인공지능 접근이다. 각 모달의 정보를 정렬·융합하여 단일 모달보다 더 강…

딥러닝 LLM · 생성AI

multimodal model

멀티모달 모델

멀티모달 모델은 텍스트, 이미지, 음성 등 여러 종류의 데이터를 동시에 이해하고 처리할 수 있는 인공지능 모델이다. 이 모델은 다양한 형태의 정보를 결합해 더 복잡한 문제를 해결하며, 최근에는 수학, 과학, UI 이…

LLM · 생성AI 딥러닝 ML 기초

자연어 처리

자연어 처리(NLP)는 컴퓨터가 인간의 언어를 읽고, 이해하고, 생성하도록 만드는 인공지능의 한 분야다. 텍스트와 음성을 분석해 의미를 파악하고 문맥에 맞게 반응하거나 새로운 문장을 만들어내며, 언어학과 머신러닝(특…

photorealistic graphics

포토리얼리스틱 그래픽

포토리얼리스틱 그래픽은 컴퓨터 그래픽 기술로, 현실 세계와 거의 구분할 수 없을 정도로 실제와 유사한 이미지를 생성하는 것을 목표로 한다.

딥러닝 인프라 · 하드웨어

real-time neural rendering

실시간 신경 렌더링

실시간 신경 렌더링은 인공지능, 특히 딥러닝 모델을 사용하여 이미지와 비디오를 생성하거나 향상시키는 기술로, 전통적인 컴퓨터 그래픽 파이프라인의 일부를 신경망으로 대체하거나 보완하여 실시간, 포토리얼리스틱, 적응형 …

딥러닝 LLM · 생성AI

recurrent mechanism

순환 메커니즘

순환 메커니즘은 인공지능 모델 내부에서 이전 단계의 출력을 다음 단계의 입력으로 다시 사용하는 구조를 의미합니다. 이 방식은 모델이 과거 정보를 기억하거나 반복적으로 처리해야 하는 작업에서 효율성과 성능을 높이는 데…

LLM · 생성AI 딥러닝 ML 기초

셀프 어텐션

셀프 어텐션은 입력 안의 각 요소가 같은 입력의 다른 모든 요소를 비교해, 무엇에 더 집중해야 하는지 가중치를 계산한 뒤 그 정보를 종합해 새로운 표현을 만드는 메커니즘이다. 트랜스포머에서 핵심 역할을 하며, 멀리 …

제품 · 플랫폼 딥러닝

Sora video model

소라 비디오 모델

소라 비디오 모델은 OpenAI가 개발한 인공지능 기반 비디오 생성 모델로, 텍스트로 입력한 설명을 바탕으로 고화질의 동영상을 자동으로 만들어내는 기술이다. 이 모델은 창작, 광고, 영화 등 다양한 분야에서 창의적인…

LLM · 생성AI 딥러닝 ML 기초

트랜스포머

트랜스포머는 입력 시퀀스(텍스트, 음성 등) 내 각 토큰이 서로를 **self-attention**으로 참조하도록 설계된 신경망 아키텍처로, 전체 시퀀스를 병렬 처리하며 번역, 요약, 분류, 텍스트 생성 같은 작업을…

딥러닝 LLM · 생성AI

vision-language model

비전-언어 모델

비전-언어 모델은 이미지, 그림, 차트 등 시각 정보와 텍스트(언어) 정보를 동시에 이해하고 처리할 수 있도록 설계된 인공지능 모델이다. 이 모델은 사진을 보고 설명을 하거나, 차트 이미지를 분석해 답을 내는 등 다…