제01권 · 제10호 CS · AI · Infra 2026년 4월 11일

AI 용어집

용어 사전레퍼런스학습
딥러닝 LLM · 생성AI

Attention어텐션

난이도

쉽게 이해하기

문장이나 문서처럼 길고 복잡한 데이터를 순서대로만 처리하면, 멀리 떨어진 단어들 사이의 연결을 놓치기 쉽습니다. 번역처럼 문맥이 긴 작업에서는 특히 이런 문제가 크게 드러납니다. 어텐션은 “지금 이 단어를 번역할 때, 입력의 어떤 부분이 정말 중요한가?”를 스스로 골라내는 방법으로 이 한계를 줄입니다.

비유하면, 회의록 전체를 외우려 하지 않고 발언자의 핵심 멘트에 형광펜을 칠해두는 방식입니다. 모델은 매 순간 전체 입력을 훑되, 형광펜이 칠해진 부분을 더 많이 참고해 결정을 내립니다. 그래서 긴 문맥에서도 중요한 정보가 희석되지 않습니다.

구체적으로는 쿼리(query)와 키(key) 사이의 유사도를 점수로 계산하고, 소프트맥스로 정규화한 가중치로 값(value)을 가중합해 새로운 표현을 만듭니다. 이 연산을 여러 “헤드”로 병렬 수행하면 서로 다른 관점의 관계를 동시에 포착할 수 있고, 마스킹을 적용하면 미래 정보 차단 같은 제약도 줄 수 있습니다.

비유와 예시

  • 신경 기계 번역의 컨텍스트 정렬: 출력 단어를 생성할 때 입력 문장에서 의미상 대응되는 단어에 더 큰 가중치를 두어, 멀리 떨어진 의존성도 반영합니다.
  • 이미지 캡셔닝의 시각적 포커싱: 문장을 생성하는 순간, 이미지의 관련 영역에 주의를 분배해 더 정확한 설명 문장을 만듭니다.
  • 그래프 표현 학습의 어텐션 풀링: 엣지나 노드 표현을 어텐션으로 집계해 순서에 영향받지 않는 그래프 수준 임베딩을 구성합니다.

한눈에 비교

Self-AttentionEncoder-Decoder AttentionRNN 기반 순차 처리
참조 범위같은 시퀀스 내 전 토큰인코더 출력 전체과거 상태 중심 순차
병렬성토큰 간 병렬 계산 용이디코딩 시 병렬 제한적순차적 계산 의존
용도LLM, 언어 이해/생성번역 등 시퀀스 간 매핑초기 번역/시계열
의존성 학습장거리 문맥에 강함소스-타깃 정렬에 최적장거리 의존 어려움

Self-attention은 한 시퀀스 내부의 전역 관계를 병렬로 포착해 긴 문맥에 유리하고, encoder-decoder attention은 서로 다른 시퀀스를 정렬하는 데 유리하다.

어디서 왜 중요한가

  • 생성형 모델의 표준 아키텍처 채택: Transformer가 어텐션과 FFN만으로 구성되며, 최신 생성형 AI의 골격으로 자리잡았다.
  • 번역·요약 등 NLP 전반 확산: 입력의 중요 부분을 선택적으로 강조해, 문맥 의존 작업의 품질이 크게 향상되는 실무 변화를 견인했다.
  • 시각·멀티모달 응용 확대: 이미지 캡셔닝과 시각 질의응답 등에서 CNN과 결합해 주목 영역을 학습적으로 선택하는 접근이 도입됐다.
  • 그래프 학습의 간결한 대안 부상: 마스크드/셀프 어텐션을 엮은 단순한 아키텍처로, 그래프 수준 표현을 효율적으로 학습하는 사례가 보고됐다.

자주 하는 오해

  • ❌ 오해: 어텐션은 곧 Transformer다 → ✅ 실제: 어텐션은 일반 메커니즘이며 RNN·CNN·그래프 모델에도 통합되어 쓰인다.
  • ❌ 오해: 어텐션은 모두 self-attention이다 → ✅ 실제: 인코더-디코더 어텐션, 마스크드 어텐션 등 여러 변형이 존재한다.
  • ❌ 오해: 어텐션만 있으면 순서 정보를 자동 학습한다 → ✅ 실제: 순서 정보는 별도 위치 표현 등으로 제공해야 안정적으로 반영된다.

대화에서는 이렇게

  • "이번 릴리스에서 multi-head attention 헤드 수를 8→12로 늘렸더니 긴 문장 요약이 안정적이었어요."
  • "디코더 쪽은 masked attention으로 미래 토큰 가려놨고, 인코더 출력에는 cross-attention만 붙였습니다."
  • "한글-영어 쌍에서 Q/K/V 스케일링 없이 학습하니 정렬 품질이 흔들려서 기본 스케일드 닷프로덕트로 돌렸어요."
  • "캡셔닝 모델은 CNN 피처 위에 attention을 얹는 구성이 가장 단순했고, 학습도 빠르게 수렴했습니다."
  • "그래프 태스크는 엣지 단위 인코딩 뒤 attention pooling으로 집계하니 순서 불변성이 자연스럽게 확보됐습니다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?