제01권 · 제10호 CS · AI · Infra 2026년 5월 30일

AI 용어집

용어 사전레퍼런스학습
딥러닝 LLM · 생성AI

Transformer트랜스포머

난이도

쉽게 이해하기

트랜스포머는 AI가 문장 속 단어들을 순서대로 하나씩만 보지 않고, 모든 단어가 서로를 참고하도록 만든 구조다. “나는 은행에 갔다”에서 은행이 금융기관인지 강가인지 판단하려면 주변 단어를 함께 봐야 한다. self-attention은 각 토큰이 다른 토큰을 얼마나 봐야 하는지 점수화한다. 이 방식 덕분에 긴 문맥, 번역, 요약, 코드 생성 같은 작업에서 큰 모델을 병렬로 학습시키기 쉬워졌다.

비유와 예시

  • 회의 테이블: 각 참석자가 모든 발언을 듣고 중요한 사람에게 더 집중한다.
  • 문장 해석: “그것”이 무엇을 가리키는지 앞뒤 단어를 참고해 결정한다.
  • 이미지 모델: 이미지를 패치로 나누고, 각 패치가 다른 패치와 어떤 관계인지 본다.

한눈에 비교

구조정보 처리 방식강점한계
RNN순서대로 처리짧은 sequence에 직관적병렬화 어려움
CNN주변 window를 합성이미지·지역 패턴긴 의존성에 추가 구조 필요
Transformerattention으로 전체 관계 계산병렬 학습, 긴 의존성context 길이에 따라 비용 증가

어디서 왜 중요한가

트랜스포머는 GPT, BERT, T5, Vision Transformer 같은 모델 계열의 공통 기반이다. LLM이 긴 문맥을 보고 다음 토큰을 예측하거나, RAG에서 가져온 문서를 답변에 반영하거나, 멀티모달 모델이 텍스트와 이미지를 연결하는 데 attention 구조가 핵심 역할을 한다. 다만 attention 비용은 sequence length가 길어질수록 커지므로 KV Cache, sparse attention, efficient inference 같은 최적화가 함께 등장한다.

자주 하는 오해

  • “트랜스포머는 attention만 있다” → feed-forward network, residual connection, normalization도 핵심이다.
  • “순서를 모른다” → positional encoding이나 position embedding으로 순서 정보를 넣는다.
  • “LLM과 같은 말이다” → LLM은 트랜스포머를 많이 쓰는 모델 계열이지만 완전히 같은 개념은 아니다.
  • “항상 긴 문맥을 잘 처리한다” → 학습 길이, attention 방식, inference memory가 함께 제한을 만든다.

대화에서는 이렇게

  • “이 문제는 self-attention이 긴 의존성을 잡아야 해서 transformer 계열이 적합합니다.”
  • “context length를 늘리면 attention cost와 KV cache memory를 같이 봐야 합니다.”
  • “attention만 보지 말고 FFN block이 실제 파라미터와 연산량을 많이 차지한다는 점도 봅시다.”
  • “positional encoding 방식이 길이 일반화에 영향을 줄 수 있습니다.”

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?