제01권 · 제10호 CS · AI · Infra 2026년 4월 18일

AI 용어집

용어 사전레퍼런스학습
딥러닝 LLM · 생성AI

Three-Phase Transformer삼상 변환기

난이도

쉽게 이해하기

언어모델은 층을 거칠수록 잔차 스트림에 정보가 섞이며 불안정해지기 쉽습니다. 특히 위치 정보는 RoPE 같은 상대 회전으로는 충분치 않아, 문맥이 길어질수록 기준점이 흔들릴 수 있습니다. 이 문제를 더 많은 파라미터 없이 안정적인 섞임과 기준 제공으로 완화하려는 접근이 필요했습니다.

삼상 변환기는 잔차 벡터를 여러 ‘상(phase)’ 채널로 나누고, 각 블록에서 일정한 규칙으로 돌려가며 합치는 방식을 도입합니다. 신호등이 세 갈래 차선을 일정 리듬으로 합류시키는 것처럼, 채널을 주기적으로 회전·정규화해 흐름을 정돈합니다. 여기에 절대 위치를 나타내는 얇은 DC ‘horn’ 신호를 잔차와 직교하게 흘려, 상대 회전만으로는 흔들릴 수 있는 기준점을 보강합니다.

메커니즘 관점에서, 채널별 RMSNorm은 각 상의 스케일을 맞춰 상간 분산을 줄이고(교차 채널 요동 완화), 2D Givens 회전은 L2 크기를 보존하면서 블록 간 섞임을 예측 가능한 패턴으로 강제합니다(회전만 변하고 길이는 보존). 또한 DC horn r(p)=1/(p+1)을 RoPE와 직교한 1차원 하위공간에 주입해, ‘상대 위상만 학습’하는 퇴화 해를 막고 절대 위치 기준을 부여합니다. 이 조합은 구조적 prior로 손실을 낮추면서도 파라미터 증가는 사실상 0에 가깝게 유지합니다.

비유와 예시

  • WikiText-103 123M 테스트: RoPE-only와 동일 백본에서 3PT를 얹자 퍼플렉시티가 −7.20%, bits-per-byte가 −2.62% 보고되었습니다. 추가 파라미터는 +1,536(총합 대비 0.00124%)이며 12층 구성에서 학습 스텝 1.93배, 벽시계 1.64배 적게 들었다고 보고됩니다.
  • N(상 개수) 스윕 관찰: 5.5M 규모에서는 N∈{1,2,3,4,6,8,12} 스윕이 거의 단조 경향을 보이고 N=1이 가장 좋았다는 보고가 있습니다. 123M에서는 3개 시드로 N=3과 N=1이 통계적으로 유사하다고 보고되어, 단일 최적값이라기보다 공유 정도 손잡이로 해석됩니다.
  • 손쉬운 A/B 테스트: 본 설계는 기존 SwiGLU+RMSNorm+RoPE+GQA 디코더에 얹는 형태로, 파라미터·커널 변경 부담이 작아 비교 실험에 적합합니다. 다만 123M·단일 코퍼스 범위 보고이므로 더 큰 규모·다양한 데이터에 대한 재현 관찰이 권장됩니다.

한눈에 비교

RoPE-only 디코더삼상 변환기(3PT)HWTA 회로(참고)
잔차 구조단일 스트림N개 상 채널 분할계층적 라우팅
혼합 방식학습 가중치+어텐션per-블록 2D Givens 회전이산 승자독점(softmax 無)
위치 정보RoPE(상대)RoPE + DC horn(절대 보강)비-LM 조합 과제 중심
파라미터 오버헤드없음+1,536(123M 기준 보고)소규모에서 매우 작음
보고 범위범용123M, WikiText-103LM 아님, 합성 추론 강점 보고

동일 과제·규모에서의 비교가 핵심이며, 3PT는 RoPE-only 대비 ‘구조적 섞임+절대 기준’의 저비용 보강이라는 점이 차별점이다.

어디서 왜 중요한가

  • 기존 디코더에 얹기 쉬움: 파라미터 증가가 사실상 0에 가까워 기존 SwiGLU+RMSNorm+RoPE+GQA 스택에서 A/B 실험 진입 장벽이 낮다.
  • 보고 범위의 경계 명시: 결과는 123M 파라미터와 WikiText-103 단일 코퍼스에 한정되어 보고됐고, 더 큰 모델·다른 도메인에 대한 일반화는 미보고 상태다.
  • N 손잡이의 해석 변화: N은 ‘최적값 고정’보다 ‘파라미터 공유 정도 조절’로 관찰되어, 규모별로 다른 선택 가능성을 시사한다(5.5M vs 123M).
  • 긴 문맥 상호작용은 관찰 필요: RoPE 바깥의 장문맥 스케일링, horn 프로파일 대안, 하드웨어 민감도 등은 향후 검증 과제로 남아 있다.
  • 대조적 연구축 (HWTA): 합성 추론 과제에서 이산 라우팅이 큰 폭 이점을 보였다는 소규모 보고가 있으나, LM에 드롭인되는 선택지는 아니라는 점이 함께 언급된다.

자주 하는 오해

  • ❌ 오해: “세 상이면 항상 N=3이 최적” → ✅ 실제: 5.5M에서는 N=1이, 123M에서는 N=1과 N=3이 유사하다는 보고로, N은 공유 손잡이에 가깝다.
  • ❌ 오해: “절대 위치 horn만 넣으면 장문맥이 자동 개선” → ✅ 실제: horn은 RoPE의 상대 회전에 절대 기준을 직교 합성하는 장치일 뿐, 장문맥 스케일링 효과는 보고되지 않았다.
  • ❌ 오해: “구현만 되면 항상 성능·속도 이득” → ✅ 실제: 회전 초기화·DC 채널 배치·옵티마이저 스케줄 등 구현 민감성이 있을 수 있어 다중 시드 평가와 메모리/지연시간 모니터링이 필요하다.

대화에서는 이렇게

  • "이번 스프린트에 3PT A/B를 붙이고, 동일 학습 예산에서 PPL 변화수렴 스텝을 기록합시다."
  • "N 값을 {1,3,6}으로 스윕하고 3시드 평균+표준편차로 보고해 주세요."
  • "DC horn 주입장문맥 회귀가 없는지 검증 셋에서 롱컨텍스트 지표를 모니터링합시다."
  • "추론 경로는 유지하되 메모리 사용량/지연시간 변화를 별도 대시보드로 수집해 주세요."
  • "커널 변경 없이 넣는 게 원칙이니, 백엔드 차이로 인한 하드웨어 민감도도 체크리스트에 포함합시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?