딥러닝 LLM · 생성AI

Three-Phase Transformer삼상 변환기

삼상 변환기(3PT)는 표준 디코더 트랜스포머(SwiGLU + RMSNorm + RoPE + GQA)에서 잔차 스트림을 N개의 순환 채널로 분할하고 채널별 RMSNorm과 블록별 2D Givens 회전을 적용하는 구조적 선입견이다. 각 블록은 채널 i를 각도 θ + i·2π/N만큼 전진시키고, 채널들과 직교하는 1차원 DC 부분공간에 절대위치 프로파일 r(p)=1/(p+1) (가브리엘의 뿔)을 주입해 RoPE의 상대 회전과 직교적으로 합성된다. WikiText-103에서 123M 파라미터 기준으로 RoPE 전용 기준선 대비 퍼플렉시티 −7.20%(bits-per-byte −2.62%)를, 추가 파라미터 +1,536개(총량의 0.00124%)로 달성하며, 학습 단계 수 1.93배 감소(벽시계 1.64배)로 수렴을 가속한다고 보고됐다. 다만 123M 이하 및 단일 LM 코퍼스에서의 결과에 한정되고, 긴 문맥 상호작용과 horn 프로파일 선택에 대한 소거 실험, 하드웨어 민감도는 보고되지 않았다.

뉴스에서는 이렇게

"N=3 상 구조" → 잔차를 3개 위상 채널로 나눠 공유
"horn side-channel" → r(p)=1/(p+1) 절대위치 신호 주입
"RoPE와 직교" → RoPE 회전과 간섭 없이 함께 작동

난이도

쉽게 이해하기

언어모델은 층을 거칠수록 잔차 스트림에 정보가 섞이며 불안정해지기 쉽습니다. 특히 위치 정보는 RoPE 같은 상대 회전으로는 충분치 않아, 문맥이 길어질수록 기준점이 흔들릴 수 있습니다. 이 문제를 더 많은 파라미터 없이 안정적인 섞임과 기준 제공으로 완화하려는 접근이 필요했습니다.

삼상 변환기는 잔차 벡터를 여러 ‘상(phase)’ 채널로 나누고, 각 블록에서 일정한 규칙으로 돌려가며 합치는 방식을 도입합니다. 신호등이 세 갈래 차선을 일정 리듬으로 합류시키는 것처럼, 채널을 주기적으로 회전·정규화해 흐름을 정돈합니다. 여기에 절대 위치를 나타내는 얇은 DC ‘horn’ 신호를 잔차와 직교하게 흘려, 상대 회전만으로는 흔들릴 수 있는 기준점을 보강합니다.

메커니즘 관점에서, 채널별 RMSNorm은 각 상의 스케일을 맞춰 상간 분산을 줄이고(교차 채널 요동 완화), 2D Givens 회전은 L2 크기를 보존하면서 블록 간 섞임을 예측 가능한 패턴으로 강제합니다(회전만 변하고 길이는 보존). 또한 DC horn r(p)=1/(p+1)을 RoPE와 직교한 1차원 하위공간에 주입해, ‘상대 위상만 학습’하는 퇴화 해를 막고 절대 위치 기준을 부여합니다. 이 조합은 구조적 prior로 손실을 낮추면서도 파라미터 증가는 사실상 0에 가깝게 유지합니다.

비유와 예시

WikiText-103 123M 테스트: RoPE-only와 동일 백본에서 3PT를 얹자 퍼플렉시티가 −7.20%, bits-per-byte가 −2.62% 보고되었습니다. 추가 파라미터는 +1,536(총합 대비 0.00124%)이며 12층 구성에서 학습 스텝 1.93배, 벽시계 1.64배 적게 들었다고 보고됩니다.
N(상 개수) 스윕 관찰: 5.5M 규모에서는 N∈{1,2,3,4,6,8,12} 스윕이 거의 단조 경향을 보이고 N=1이 가장 좋았다는 보고가 있습니다. 123M에서는 3개 시드로 N=3과 N=1이 통계적으로 유사하다고 보고되어, 단일 최적값이라기보다 공유 정도 손잡이로 해석됩니다.
손쉬운 A/B 테스트: 본 설계는 기존 SwiGLU+RMSNorm+RoPE+GQA 디코더에 얹는 형태로, 파라미터·커널 변경 부담이 작아 비교 실험에 적합합니다. 다만 123M·단일 코퍼스 범위 보고이므로 더 큰 규모·다양한 데이터에 대한 재현 관찰이 권장됩니다.

한눈에 비교

	RoPE-only 디코더	삼상 변환기(3PT)	HWTA 회로(참고)
잔차 구조	단일 스트림	N개 상 채널 분할	계층적 라우팅
혼합 방식	학습 가중치+어텐션	per-블록 2D Givens 회전	이산 승자독점(softmax 無)
위치 정보	RoPE(상대)	RoPE + DC horn(절대 보강)	비-LM 조합 과제 중심
파라미터 오버헤드	없음	+1,536(123M 기준 보고)	소규모에서 매우 작음
보고 범위	범용	123M, WikiText-103	LM 아님, 합성 추론 강점 보고

동일 과제·규모에서의 비교가 핵심이며, 3PT는 RoPE-only 대비 ‘구조적 섞임+절대 기준’의 저비용 보강이라는 점이 차별점이다.

어디서 왜 중요한가

기존 디코더에 얹기 쉬움: 파라미터 증가가 사실상 0에 가까워 기존 SwiGLU+RMSNorm+RoPE+GQA 스택에서 A/B 실험 진입 장벽이 낮다.
보고 범위의 경계 명시: 결과는 123M 파라미터와 WikiText-103 단일 코퍼스에 한정되어 보고됐고, 더 큰 모델·다른 도메인에 대한 일반화는 미보고 상태다.
N 손잡이의 해석 변화: N은 ‘최적값 고정’보다 ‘파라미터 공유 정도 조절’로 관찰되어, 규모별로 다른 선택 가능성을 시사한다(5.5M vs 123M).
긴 문맥 상호작용은 관찰 필요: RoPE 바깥의 장문맥 스케일링, horn 프로파일 대안, 하드웨어 민감도 등은 향후 검증 과제로 남아 있다.
대조적 연구축 (HWTA): 합성 추론 과제에서 이산 라우팅이 큰 폭 이점을 보였다는 소규모 보고가 있으나, LM에 드롭인되는 선택지는 아니라는 점이 함께 언급된다.

자주 하는 오해

❌ 오해: “세 상이면 항상 N=3이 최적” → ✅ 실제: 5.5M에서는 N=1이, 123M에서는 N=1과 N=3이 유사하다는 보고로, N은 공유 손잡이에 가깝다.
❌ 오해: “절대 위치 horn만 넣으면 장문맥이 자동 개선” → ✅ 실제: horn은 RoPE의 상대 회전에 절대 기준을 직교 합성하는 장치일 뿐, 장문맥 스케일링 효과는 보고되지 않았다.
❌ 오해: “구현만 되면 항상 성능·속도 이득” → ✅ 실제: 회전 초기화·DC 채널 배치·옵티마이저 스케줄 등 구현 민감성이 있을 수 있어 다중 시드 평가와 메모리/지연시간 모니터링이 필요하다.

대화에서는 이렇게

"이번 스프린트에 3PT A/B를 붙이고, 동일 학습 예산에서 PPL 변화와 수렴 스텝을 기록합시다."
"N 값을 {1,3,6}으로 스윕하고 3시드 평균+표준편차로 보고해 주세요."
"DC horn 주입 후 장문맥 회귀가 없는지 검증 셋에서 롱컨텍스트 지표를 모니터링합시다."
"추론 경로는 유지하되 메모리 사용량/지연시간 변화를 별도 대시보드로 수집해 주세요."
"커널 변경 없이 넣는 게 원칙이니, 백엔드 차이로 인한 하드웨어 민감도도 체크리스트에 포함합시다."

참고 자료

★논문
Three-Phase Transformer: residual-stream phase structure and horn side-channel
3PT 원문: 위상 채널, Givens 회전, horn 주입과 성능 보고.
★논문
Attention Is All You Need
트랜스포머 기반 구조 이해를 위한 기초 참조.
★코드
Hierarchical Winner-Take-All (HWTA) repository
소프트맥스 없이 이산 라우팅으로 조합 추론 성과 보고.
·블로그
Transformer Neural Network Architecture
트랜스포머 구조 요소와 동작의 개요 정리.

도움이 되었나요?

0to1log Weekly

AI 용어집