Attention어텐션
쉽게 이해하기
문장이나 문서처럼 길고 복잡한 데이터를 순서대로만 처리하면, 멀리 떨어진 단어들 사이의 연결을 놓치기 쉽습니다. 번역처럼 문맥이 긴 작업에서는 특히 이런 문제가 크게 드러납니다. 어텐션은 “지금 이 단어를 번역할 때, 입력의 어떤 부분이 정말 중요한가?”를 스스로 골라내는 방법으로 이 한계를 줄입니다.
비유하면, 회의록 전체를 외우려 하지 않고 발언자의 핵심 멘트에 형광펜을 칠해두는 방식입니다. 모델은 매 순간 전체 입력을 훑되, 형광펜이 칠해진 부분을 더 많이 참고해 결정을 내립니다. 그래서 긴 문맥에서도 중요한 정보가 희석되지 않습니다.
구체적으로는 쿼리(query)와 키(key) 사이의 유사도를 점수로 계산하고, 소프트맥스로 정규화한 가중치로 값(value)을 가중합해 새로운 표현을 만듭니다. 이 연산을 여러 “헤드”로 병렬 수행하면 서로 다른 관점의 관계를 동시에 포착할 수 있고, 마스킹을 적용하면 미래 정보 차단 같은 제약도 줄 수 있습니다.
비유와 예시
- 신경 기계 번역의 컨텍스트 정렬: 출력 단어를 생성할 때 입력 문장에서 의미상 대응되는 단어에 더 큰 가중치를 두어, 멀리 떨어진 의존성도 반영합니다.
- 이미지 캡셔닝의 시각적 포커싱: 문장을 생성하는 순간, 이미지의 관련 영역에 주의를 분배해 더 정확한 설명 문장을 만듭니다.
- 그래프 표현 학습의 어텐션 풀링: 엣지나 노드 표현을 어텐션으로 집계해 순서에 영향받지 않는 그래프 수준 임베딩을 구성합니다.
한눈에 비교
| Self-Attention | Encoder-Decoder Attention | RNN 기반 순차 처리 | |
|---|---|---|---|
| 참조 범위 | 같은 시퀀스 내 전 토큰 | 인코더 출력 전체 | 과거 상태 중심 순차 |
| 병렬성 | 토큰 간 병렬 계산 용이 | 디코딩 시 병렬 제한적 | 순차적 계산 의존 |
| 용도 | LLM, 언어 이해/생성 | 번역 등 시퀀스 간 매핑 | 초기 번역/시계열 |
| 의존성 학습 | 장거리 문맥에 강함 | 소스-타깃 정렬에 최적 | 장거리 의존 어려움 |
Self-attention은 한 시퀀스 내부의 전역 관계를 병렬로 포착해 긴 문맥에 유리하고, encoder-decoder attention은 서로 다른 시퀀스를 정렬하는 데 유리하다.
어디서 왜 중요한가
- 생성형 모델의 표준 아키텍처 채택: Transformer가 어텐션과 FFN만으로 구성되며, 최신 생성형 AI의 골격으로 자리잡았다.
- 번역·요약 등 NLP 전반 확산: 입력의 중요 부분을 선택적으로 강조해, 문맥 의존 작업의 품질이 크게 향상되는 실무 변화를 견인했다.
- 시각·멀티모달 응용 확대: 이미지 캡셔닝과 시각 질의응답 등에서 CNN과 결합해 주목 영역을 학습적으로 선택하는 접근이 도입됐다.
- 그래프 학습의 간결한 대안 부상: 마스크드/셀프 어텐션을 엮은 단순한 아키텍처로, 그래프 수준 표현을 효율적으로 학습하는 사례가 보고됐다.
자주 하는 오해
- ❌ 오해: 어텐션은 곧 Transformer다 → ✅ 실제: 어텐션은 일반 메커니즘이며 RNN·CNN·그래프 모델에도 통합되어 쓰인다.
- ❌ 오해: 어텐션은 모두 self-attention이다 → ✅ 실제: 인코더-디코더 어텐션, 마스크드 어텐션 등 여러 변형이 존재한다.
- ❌ 오해: 어텐션만 있으면 순서 정보를 자동 학습한다 → ✅ 실제: 순서 정보는 별도 위치 표현 등으로 제공해야 안정적으로 반영된다.
대화에서는 이렇게
- "이번 릴리스에서 multi-head attention 헤드 수를 8→12로 늘렸더니 긴 문장 요약이 안정적이었어요."
- "디코더 쪽은 masked attention으로 미래 토큰 가려놨고, 인코더 출력에는 cross-attention만 붙였습니다."
- "한글-영어 쌍에서 Q/K/V 스케일링 없이 학습하니 정렬 품질이 흔들려서 기본 스케일드 닷프로덕트로 돌렸어요."
- "캡셔닝 모델은 CNN 피처 위에 attention을 얹는 구성이 가장 단순했고, 학습도 빠르게 수렴했습니다."
- "그래프 태스크는 엣지 단위 인코딩 뒤 attention pooling으로 집계하니 순서 불변성이 자연스럽게 확보됐습니다."
함께 읽으면 좋은 용어
참고 자료
- Attention Is All You NeedNeurIPS
Transformer와 self-attention의 정식 제안.
- Attention Mechanism in Neural Networks: Where it Comes and Where it Goes
어텐션의 역사와 변형을 정리한 서베이.
- Attention Mechanisms in Neural Networks: A Comprehensive Mathematical Treatment
어텐션의 수학적 정의와 구현 관점 정리.
- An end-to-end attention-based approach for learning on graphs
그래프 학습에 순수 어텐션 아키텍처 적용 사례.
- What is an attention mechanism?
어텐션 개념, Q/K/V, 역사적 맥락 개요.
- A Technical Overview of the Attention Mechanism in Deep Learning
스케일드 닷프로덕트와 소프트맥스 설명.