제01권 · 제10호 CS · AI · Infra 2026년 5월 13일

AI 용어집

용어 사전레퍼런스학습
LLM · 생성AI 딥러닝

MoE전문가 혼합

Mixture of Experts

난이도

쉽게 이해하기

대형 언어모델은 품질을 높이려면 보통 파라미터를 늘려야 하고, 밀집(dense) 구조에서는 토큰마다 모든 가중치를 통과하므로 비용이 같이 커집니다. MoE(Mixture of Experts)는 여러 전문가 네트워크를 두고, 입력마다 관련 있는 소수만 선택해 계산하는 방식입니다. 콜센터 상담원을 입력에 맞게 연결하는 스위치보드처럼, 라우터가 각 토큰을 상위 k명의 전문가에게 보내고 그 결과를 가중 합해 다음 레이어로 넘깁니다. 이렇게 하면 총 파라미터 용량은 커지지만, 토큰당 활성 연산은 k개 전문가로 제한됩니다.

비유와 예시

  • 멀티도메인 텍스트: 뉴스/기술/대화체가 섞이면 라우터가 각 토큰을 더 잘 맞는 전문가로 보냅니다.
  • 숫자·기호가 많은 입력: 수식·표 패턴을 잘 처리하는 전문가가 더 자주 선택됩니다.
  • 다국어: 언어별 통계가 다른 토큰을 해당 패턴에 익숙한 전문가로 라우팅합니다.

한눈에 비교

밀집 Transformer희소 MoE Transformer
FFN 구조블록당 1개 FFN블록당 여러 전문가 FFN
토큰당 활성모든 가중치 사용상위 k 전문가만 실행
총 파라미터증가=활성 연산 증가E로 용량 확장, 활성은 k에 비례
토큰당 연산~1회 FFN~k회 FFN + 라우팅/결합 오버헤드
시스템 영향단일 경로 단순라우팅·디스패치 설계 필요

어디서 왜 중요한가

  • 용량 확장: 전문가 수(E)를 늘려 표현력을 키우면서 토큰당 연산은 k로 묶어 효율을 노립니다.
  • 블록 치환 관행: Transformer의 FFN을 MoE로 바꾸는 설계가 널리 논의됩니다.
  • 시스템 요구: 희소·동적 라우팅으로 통신·저장·스케줄링이 성능에 큰 영향을 줍니다.
  • 해석 관점: 어떤 토큰에 어떤 전문가가 활성화되는지 관찰해 내부 동작을 분석하려는 연구가 진행됩니다.

자주 하는 오해

  • ❌ MoE는 attention을 바꾼다 → ✅ 보통 FFN 경로를 MoE로 치환합니다.
  • ❌ 모든 전문가가 항상 실행된다 → ✅ 토큰마다 상위 k개만 활성화됩니다.
  • ❌ MoE면 무조건 더 싸다 → ✅ 라우팅·통신 오버헤드가 있어 설계/운영이 중요합니다.

대화에서는 이렇게

  • "이 블록 FFN을 MoE로 바꾸고 k=2부터 측정해 보죠."
  • "특정 전문가로 토큰이 몰립니다. 라우팅 분포와 균형 항을 점검하겠습니다."
  • "토큰 라우팅/결합이 지연을 키웁니다. 디스패치 경로를 프로파일합시다."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?