딥러닝 LLM · 생성AI

Attention어텐션

난이도

쉽게 이해하기

문장이나 문서처럼 길고 복잡한 데이터를 순서대로만 처리하면, 멀리 떨어진 단어들 사이의 연결을 놓치기 쉽습니다. 번역처럼 문맥이 긴 작업에서는 특히 이런 문제가 크게 드러납니다. 어텐션은 “지금 이 단어를 번역할 때, 입력의 어떤 부분이 정말 중요한가?”를 스스로 골라내는 방법으로 이 한계를 줄입니다.

비유하면, 회의록 전체를 외우려 하지 않고 발언자의 핵심 멘트에 형광펜을 칠해두는 방식입니다. 모델은 매 순간 전체 입력을 훑되, 형광펜이 칠해진 부분을 더 많이 참고해 결정을 내립니다. 그래서 긴 문맥에서도 중요한 정보가 희석되지 않습니다.

구체적으로는 쿼리(query)와 키(key) 사이의 유사도를 점수로 계산하고, 소프트맥스로 정규화한 가중치로 값(value)을 가중합해 새로운 표현을 만듭니다. 이 연산을 여러 “헤드”로 병렬 수행하면 서로 다른 관점의 관계를 동시에 포착할 수 있고, 마스킹을 적용하면 미래 정보 차단 같은 제약도 줄 수 있습니다.

비유와 예시

신경 기계 번역의 컨텍스트 정렬: 출력 단어를 생성할 때 입력 문장에서 의미상 대응되는 단어에 더 큰 가중치를 두어, 멀리 떨어진 의존성도 반영합니다.
이미지 캡셔닝의 시각적 포커싱: 문장을 생성하는 순간, 이미지의 관련 영역에 주의를 분배해 더 정확한 설명 문장을 만듭니다.
그래프 표현 학습의 어텐션 풀링: 엣지나 노드 표현을 어텐션으로 집계해 순서에 영향받지 않는 그래프 수준 임베딩을 구성합니다.

한눈에 비교

	Self-Attention	Encoder-Decoder Attention	RNN 기반 순차 처리
참조 범위	같은 시퀀스 내 전 토큰	인코더 출력 전체	과거 상태 중심 순차
병렬성	토큰 간 병렬 계산 용이	디코딩 시 병렬 제한적	순차적 계산 의존
용도	LLM, 언어 이해/생성	번역 등 시퀀스 간 매핑	초기 번역/시계열
의존성 학습	장거리 문맥에 강함	소스-타깃 정렬에 최적	장거리 의존 어려움

Self-attention은 한 시퀀스 내부의 전역 관계를 병렬로 포착해 긴 문맥에 유리하고, encoder-decoder attention은 서로 다른 시퀀스를 정렬하는 데 유리하다.

어디서 왜 중요한가

생성형 모델의 표준 아키텍처 채택: Transformer가 어텐션과 FFN만으로 구성되며, 최신 생성형 AI의 골격으로 자리잡았다.
번역·요약 등 NLP 전반 확산: 입력의 중요 부분을 선택적으로 강조해, 문맥 의존 작업의 품질이 크게 향상되는 실무 변화를 견인했다.
시각·멀티모달 응용 확대: 이미지 캡셔닝과 시각 질의응답 등에서 CNN과 결합해 주목 영역을 학습적으로 선택하는 접근이 도입됐다.
그래프 학습의 간결한 대안 부상: 마스크드/셀프 어텐션을 엮은 단순한 아키텍처로, 그래프 수준 표현을 효율적으로 학습하는 사례가 보고됐다.

자주 하는 오해

❌ 오해: 어텐션은 곧 Transformer다 → ✅ 실제: 어텐션은 일반 메커니즘이며 RNN·CNN·그래프 모델에도 통합되어 쓰인다.
❌ 오해: 어텐션은 모두 self-attention이다 → ✅ 실제: 인코더-디코더 어텐션, 마스크드 어텐션 등 여러 변형이 존재한다.
❌ 오해: 어텐션만 있으면 순서 정보를 자동 학습한다 → ✅ 실제: 순서 정보는 별도 위치 표현 등으로 제공해야 안정적으로 반영된다.

대화에서는 이렇게

"이번 릴리스에서 multi-head attention 헤드 수를 8→12로 늘렸더니 긴 문장 요약이 안정적이었어요."
"디코더 쪽은 masked attention으로 미래 토큰 가려놨고, 인코더 출력에는 cross-attention만 붙였습니다."
"한글-영어 쌍에서 Q/K/V 스케일링 없이 학습하니 정렬 품질이 흔들려서 기본 스케일드 닷프로덕트로 돌렸어요."
"캡셔닝 모델은 CNN 피처 위에 attention을 얹는 구성이 가장 단순했고, 학습도 빠르게 수렴했습니다."
"그래프 태스크는 엣지 단위 인코딩 뒤 attention pooling으로 집계하니 순서 불변성이 자연스럽게 확보됐습니다."

참고 자료

★논문2017
Attention Is All You NeedVaswani et al.NeurIPS
Transformer와 self-attention의 정식 제안.
★논문
Attention Mechanism in Neural Networks: Where it Comes and Where it Goes
어텐션의 역사와 변형을 정리한 서베이.
★논문
Attention Mechanisms in Neural Networks: A Comprehensive Mathematical Treatment
어텐션의 수학적 정의와 구현 관점 정리.
★논문
An end-to-end attention-based approach for learning on graphs
그래프 학습에 순수 어텐션 아키텍처 적용 사례.
·블로그
What is an attention mechanism?
어텐션 개념, Q/K/V, 역사적 맥락 개요.
·블로그
A Technical Overview of the Attention Mechanism in Deep Learning
스케일드 닷프로덕트와 소프트맥스 설명.

도움이 되었나요?

0to1log Weekly

AI 용어집