Three-Phase Transformer삼상 변환기
쉽게 이해하기
언어모델은 층을 거칠수록 잔차 스트림에 정보가 섞이며 불안정해지기 쉽습니다. 특히 위치 정보는 RoPE 같은 상대 회전으로는 충분치 않아, 문맥이 길어질수록 기준점이 흔들릴 수 있습니다. 이 문제를 더 많은 파라미터 없이 안정적인 섞임과 기준 제공으로 완화하려는 접근이 필요했습니다.
삼상 변환기는 잔차 벡터를 여러 ‘상(phase)’ 채널로 나누고, 각 블록에서 일정한 규칙으로 돌려가며 합치는 방식을 도입합니다. 신호등이 세 갈래 차선을 일정 리듬으로 합류시키는 것처럼, 채널을 주기적으로 회전·정규화해 흐름을 정돈합니다. 여기에 절대 위치를 나타내는 얇은 DC ‘horn’ 신호를 잔차와 직교하게 흘려, 상대 회전만으로는 흔들릴 수 있는 기준점을 보강합니다.
메커니즘 관점에서, 채널별 RMSNorm은 각 상의 스케일을 맞춰 상간 분산을 줄이고(교차 채널 요동 완화), 2D Givens 회전은 L2 크기를 보존하면서 블록 간 섞임을 예측 가능한 패턴으로 강제합니다(회전만 변하고 길이는 보존). 또한 DC horn r(p)=1/(p+1)을 RoPE와 직교한 1차원 하위공간에 주입해, ‘상대 위상만 학습’하는 퇴화 해를 막고 절대 위치 기준을 부여합니다. 이 조합은 구조적 prior로 손실을 낮추면서도 파라미터 증가는 사실상 0에 가깝게 유지합니다.
비유와 예시
- WikiText-103 123M 테스트: RoPE-only와 동일 백본에서 3PT를 얹자 퍼플렉시티가 −7.20%, bits-per-byte가 −2.62% 보고되었습니다. 추가 파라미터는 +1,536(총합 대비 0.00124%)이며 12층 구성에서 학습 스텝 1.93배, 벽시계 1.64배 적게 들었다고 보고됩니다.
- N(상 개수) 스윕 관찰: 5.5M 규모에서는 N∈{1,2,3,4,6,8,12} 스윕이 거의 단조 경향을 보이고 N=1이 가장 좋았다는 보고가 있습니다. 123M에서는 3개 시드로 N=3과 N=1이 통계적으로 유사하다고 보고되어, 단일 최적값이라기보다 공유 정도 손잡이로 해석됩니다.
- 손쉬운 A/B 테스트: 본 설계는 기존 SwiGLU+RMSNorm+RoPE+GQA 디코더에 얹는 형태로, 파라미터·커널 변경 부담이 작아 비교 실험에 적합합니다. 다만 123M·단일 코퍼스 범위 보고이므로 더 큰 규모·다양한 데이터에 대한 재현 관찰이 권장됩니다.
한눈에 비교
| RoPE-only 디코더 | 삼상 변환기(3PT) | HWTA 회로(참고) | |
|---|---|---|---|
| 잔차 구조 | 단일 스트림 | N개 상 채널 분할 | 계층적 라우팅 |
| 혼합 방식 | 학습 가중치+어텐션 | per-블록 2D Givens 회전 | 이산 승자독점(softmax 無) |
| 위치 정보 | RoPE(상대) | RoPE + DC horn(절대 보강) | 비-LM 조합 과제 중심 |
| 파라미터 오버헤드 | 없음 | +1,536(123M 기준 보고) | 소규모에서 매우 작음 |
| 보고 범위 | 범용 | 123M, WikiText-103 | LM 아님, 합성 추론 강점 보고 |
동일 과제·규모에서의 비교가 핵심이며, 3PT는 RoPE-only 대비 ‘구조적 섞임+절대 기준’의 저비용 보강이라는 점이 차별점이다.
어디서 왜 중요한가
- 기존 디코더에 얹기 쉬움: 파라미터 증가가 사실상 0에 가까워 기존 SwiGLU+RMSNorm+RoPE+GQA 스택에서 A/B 실험 진입 장벽이 낮다.
- 보고 범위의 경계 명시: 결과는 123M 파라미터와 WikiText-103 단일 코퍼스에 한정되어 보고됐고, 더 큰 모델·다른 도메인에 대한 일반화는 미보고 상태다.
- N 손잡이의 해석 변화: N은 ‘최적값 고정’보다 ‘파라미터 공유 정도 조절’로 관찰되어, 규모별로 다른 선택 가능성을 시사한다(5.5M vs 123M).
- 긴 문맥 상호작용은 관찰 필요: RoPE 바깥의 장문맥 스케일링, horn 프로파일 대안, 하드웨어 민감도 등은 향후 검증 과제로 남아 있다.
- 대조적 연구축 (HWTA): 합성 추론 과제에서 이산 라우팅이 큰 폭 이점을 보였다는 소규모 보고가 있으나, LM에 드롭인되는 선택지는 아니라는 점이 함께 언급된다.
자주 하는 오해
- ❌ 오해: “세 상이면 항상 N=3이 최적” → ✅ 실제: 5.5M에서는 N=1이, 123M에서는 N=1과 N=3이 유사하다는 보고로, N은 공유 손잡이에 가깝다.
- ❌ 오해: “절대 위치 horn만 넣으면 장문맥이 자동 개선” → ✅ 실제: horn은 RoPE의 상대 회전에 절대 기준을 직교 합성하는 장치일 뿐, 장문맥 스케일링 효과는 보고되지 않았다.
- ❌ 오해: “구현만 되면 항상 성능·속도 이득” → ✅ 실제: 회전 초기화·DC 채널 배치·옵티마이저 스케줄 등 구현 민감성이 있을 수 있어 다중 시드 평가와 메모리/지연시간 모니터링이 필요하다.
대화에서는 이렇게
- "이번 스프린트에 3PT A/B를 붙이고, 동일 학습 예산에서 PPL 변화와 수렴 스텝을 기록합시다."
- "N 값을 {1,3,6}으로 스윕하고 3시드 평균+표준편차로 보고해 주세요."
- "DC horn 주입 후 장문맥 회귀가 없는지 검증 셋에서 롱컨텍스트 지표를 모니터링합시다."
- "추론 경로는 유지하되 메모리 사용량/지연시간 변화를 별도 대시보드로 수집해 주세요."
- "커널 변경 없이 넣는 게 원칙이니, 백엔드 차이로 인한 하드웨어 민감도도 체크리스트에 포함합시다."
함께 읽으면 좋은 용어
참고 자료
- Three-Phase Transformer: residual-stream phase structure and horn side-channel
3PT 원문: 위상 채널, Givens 회전, horn 주입과 성능 보고.
- Attention Is All You Need
트랜스포머 기반 구조 이해를 위한 기초 참조.
- Hierarchical Winner-Take-All (HWTA) repository
소프트맥스 없이 이산 라우팅으로 조합 추론 성과 보고.
- Transformer Neural Network Architecture
트랜스포머 구조 요소와 동작의 개요 정리.