LLM · 생성AI 딥러닝

MoE전문가 혼합

Mixture of Experts

난이도

쉽게 이해하기

대형 언어모델은 품질을 높이려면 보통 파라미터를 늘려야 하고, 밀집(dense) 구조에서는 토큰마다 모든 가중치를 통과하므로 비용이 같이 커집니다. MoE(Mixture of Experts)는 여러 전문가 네트워크를 두고, 입력마다 관련 있는 소수만 선택해 계산하는 방식입니다. 콜센터 상담원을 입력에 맞게 연결하는 스위치보드처럼, 라우터가 각 토큰을 상위 k명의 전문가에게 보내고 그 결과를 가중 합해 다음 레이어로 넘깁니다. 이렇게 하면 총 파라미터 용량은 커지지만, 토큰당 활성 연산은 k개 전문가로 제한됩니다.

비유와 예시

멀티도메인 텍스트: 뉴스/기술/대화체가 섞이면 라우터가 각 토큰을 더 잘 맞는 전문가로 보냅니다.
숫자·기호가 많은 입력: 수식·표 패턴을 잘 처리하는 전문가가 더 자주 선택됩니다.
다국어: 언어별 통계가 다른 토큰을 해당 패턴에 익숙한 전문가로 라우팅합니다.

한눈에 비교

	밀집 Transformer	희소 MoE Transformer
FFN 구조	블록당 1개 FFN	블록당 여러 전문가 FFN
토큰당 활성	모든 가중치 사용	상위 k 전문가만 실행
총 파라미터	증가=활성 연산 증가	E로 용량 확장, 활성은 k에 비례
토큰당 연산	~1회 FFN	~k회 FFN + 라우팅/결합 오버헤드
시스템 영향	단일 경로 단순	라우팅·디스패치 설계 필요

어디서 왜 중요한가

용량 확장: 전문가 수(E)를 늘려 표현력을 키우면서 토큰당 연산은 k로 묶어 효율을 노립니다.
블록 치환 관행: Transformer의 FFN을 MoE로 바꾸는 설계가 널리 논의됩니다.
시스템 요구: 희소·동적 라우팅으로 통신·저장·스케줄링이 성능에 큰 영향을 줍니다.
해석 관점: 어떤 토큰에 어떤 전문가가 활성화되는지 관찰해 내부 동작을 분석하려는 연구가 진행됩니다.

자주 하는 오해

❌ MoE는 attention을 바꾼다 → ✅ 보통 FFN 경로를 MoE로 치환합니다.
❌ 모든 전문가가 항상 실행된다 → ✅ 토큰마다 상위 k개만 활성화됩니다.
❌ MoE면 무조건 더 싸다 → ✅ 라우팅·통신 오버헤드가 있어 설계/운영이 중요합니다.

대화에서는 이렇게

"이 블록 FFN을 MoE로 바꾸고 k=2부터 측정해 보죠."
"특정 전문가로 토큰이 몰립니다. 라우팅 분포와 균형 항을 점검하겠습니다."
"토큰 라우팅/결합이 지연을 키웁니다. 디스패치 경로를 프로파일합시다."

참고 자료

★논문2024
A Survey on Mixture of ExpertsWeilin Cai et al.
MoE 구조·분류·시스템·응용을 포괄하는 설문.
★논문2025
Mixture of Experts Made Intrinsically InterpretableXingyi Yang et al.
MoE‑X: 희소·가폭 구조와 해석가능성 설계 연결.
★논문2026
The Rise of Sparse Mixture-of-Experts: A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain ApplicationsDong Pan et al.
희소 MoE의 원리, 분산·탈중앙 패러다임, 응용 정리.
·블로그
Mixture-of-Experts (MoE) LLMsCameron R. Wolfe
LLM에서 MoE 동작과 장단점 개요.
·블로그2024
A Visual Guide to Mixture of Experts (MoE)Maarten Grootendorst
시각 자료로 보는 전문가·라우터 개념 정리.

도움이 되었나요?

0to1log Weekly

AI 용어집