AI 뉴스Research

약 6분 2026. 5. 10.

Mixture-of-ExpertsModular LLMsReinforcement LearningRetrievalVision-Language ModelsAgentic Systems

EMO, 대형 희소 모델을 모듈화 — 전문가 12.5–25%만 로드해도 성능 유지

1조(1 trillion) 토큰으로 학습한 1B‑active, 14B‑total 전문가 기반 모델이 전문가의 25%(약 1% 하락) 또는 12.5%(약 3% 하락)만 로드해도 거의 전체 성능을 유지한다 — 성능을 유지하면서 메모리를 줄일 현실적 경로다.

기사에서 찾기

읽기 모드

한 줄 요약

모듈형 AI가 전면에 섭니다: EMO가 희소 모델에서 선택적 전문가 로딩을 가능하게 하고, 계획 우선 강화학습, VLM 어댑터의 스택 조합, 임베딩 없이 원문을 직접 탐색하는 검색이 함께 제시된다.

LLM & SOTA Models

EMO: 도메인별 전문가를 묶어 선택 실행을 가능하게

EMO는 코드나 수학 같은 특정 도메인에 필요한 소수의 “전문가”만 실행해도 전체 모델에 가까운 성능을 내도록 설계되어, 대형 언어 모델(LLM)의 메모리·연산 부담을 줄이는 실용적 방식을 제시한다. 1조(1 trillion) 토큰으로 학습된 1B-active, 14B-total 전문가 혼합(Mixture of Experts, MoE) 모델로, 전문가의 25%만 유지해도 절대 성능 하락이 약 1%에 그치며, 12.5%만 유지해도 약 3% 하락 수준에 머문다. ¹

EMO는 사전학습 단계에서 같은 문서의 토큰들이 동일한 소수 전문가 풀을 공유하도록 유도해 모듈성을 형성한다. 라우터가 토큰 선호도를 문서 단위로 평균해 문서별 전문가 풀을 먼저 고르고, 해당 문서의 모든 토큰을 그 풀 안에서만 라우팅하도록 제한한다. 붕괴를 막고 활용 균형을 맞추기 위해 부하 분산은 많은 문서에 걸쳐 전역적으로 적용하며, 학습 중 풀 크기를 무작위로 샘플링해 추론 시 다양한 부분집합 크기를 지원하도록 했다. ²

기존 MoE가 문장부호나 기능어 같은 표면적 패턴에 특화되는 경향이 있는 반면, EMO의 전문가는 보건·코드·뉴스 등 의미적 군집으로 나타나 작게 뽑은 부분집합도 실제 능력처럼 동작한다. 범용 벤치마크에서 전체 활성화 시 표준 MoE와 대등하며, 선택 실행 하에서도 견고하다: 전문가 25% 유지 시 약 1%p, 12.5% 유지 시 약 3%p 하락에 그치며, 파인튜닝 전후 모두 이 경향이 유지된다. ¹

모델과 동일 조건의 표준 MoE 기준선, 학습 코드, 전문가 군집 인터랙티브 시각화를 공개해, 대형 희소 모델의 메모리 효율적 배치와 모듈형 조합 연구(전문가 선택·합성) 확장을 겨냥한 구성 가능한 아키텍처를 제공한다. ¹

Research Papers

StraTA: 전략 요약으로 에이전트 강화학습 효율 상승

StraTA는 에이전트가 시작 상태에서 먼저 간결한 전략을 뽑고 그 전략에 조건을 걸어 행동하는 방식을 도입해, 대형 언어 모델(LLM) 에이전트의 장기 과제 제어를 개선한다. 계층형 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 설계를 사용해 ALFWorld 93.1%, WebShop 84.2% 성공률, SciWorld 종합 63.5%를 달성해 강력한 기준선을 상회하고 SciWorld에서는 최상위 폐쇄형 모델도 앞섰다. ³

이 프레임워크는 전략 생성기와 행동 실행기를 공동 학습하고, 다양한 전략 전개로 탐색을 늘리며, 자기 비판 판단을 추가해 긴 궤적에서의 신용 할당을 개선한다. 이는 에이전트 강화학습(RL)의 고질적 과제인 희소 보상 환경에서의 탐색과 지연 보상 문제를 동시에 겨냥한다. ³

실무 측면에서 다단계 웹·과학 과제에서 표본 효율과 안정성이 장점이며, 도구·환경 전반으로 전략 추상화가 얼마나 일반화되는지, 에피소드 중 계획을 언제·어떻게 갱신할지의 기준이 관건이다. ³

GeoStack: VLM 지식 조합을 위한 기하학적 적층

GeoStack은 비전-언어 모델(Vision-Language Model, VLM)에 여러 도메인 전문가를 합쳐 넣으면서도 기반 모델의 지식을 보존한다. 어댑터 매니폴드에 기하·구조 제약을 두어 적층하고, 통합 전문가 수와 무관하게 추론 복잡도를 상수 시간(O(1))으로 만드는 “가중치 폴딩” 성질을 수학적으로 제시한다. ⁴

다중 도메인 적응과 클래스 증분 학습에서 GeoStack은 파국적 망각을 줄이고 효율을 유지해, 전체 재학습 없이 능력을 추가하는 모듈형 경로를 제공한다. 관련 코드는 저장소에 공개되어 있다. ⁴

맥락적으로 이는 연속학습의 안정성–가소성 균형을 겨냥한다. 별도의 연구·해설인 FADE(Forgetting through Adaptive Decay)는 매개변수별 가중치 감쇠를 동적으로 학습해 스트리밍 환경에서 AdamW 대비 추적 오차를 절반 수준으로 낮출 수 있음을 보이며, 옛 지식을 지우지 않고도 적응성을 유지하려는 흐름을 뒷받침한다. ⁵

Direct Corpus Interaction: 임베딩 없이 원문을 직접 탐색하는 에이전트 검색

직접 말뭉치 상호작용(Direct Corpus Interaction, DCI)은 에이전트가 임베딩 모델·벡터 인덱스·검색 응용 프로그램 인터페이스(API) 없이 grep, 파일 읽기, 셸 명령, 경량 스크립트 같은 범용 도구로 원시 말뭉치를 직접 검색하게 한다. 오프라인 인덱싱이 필요 없고, 변화하는 로컬 파일에 자연스럽게 적응한다. ⁶

정보 검색(Information Retrieval, IR) 벤치마크와 종단 간 에이전트 검색 과제에서, 이 단순한 인터페이스는 여러 BRIGHT·BEIR 데이터셋에서 강력한 희소·밀집·재랭킹 기준선을 크게 앞서고, BrowseComp-Plus와 다중 단계 질의응답(Question Answering, QA)에서도 기존 의미 검색기 없이 강한 정확도를 보였다. ⁶

핵심은 에이전트가 강해질수록 추론 능력뿐 아니라 데이터를 대하는 인터페이스의 해상도가 중요해진다는 점이다. DCI는 더 유연하고 점검 가능한 데이터 질의 방식을 열어 주지만, 그만큼 목표 지향적 검색 명령을 더 치밀하게 작성해야 한다. ⁶

Open Source & Repos

Pi 에이전트: 통합 LLM API와 코딩 에이전트 CLI를 담은 모노레포

Pi는 코딩 에이전트를 만들기 위한 “에이전트 하니스” 모노레포로, 대화형 코딩 에이전트 명령줄 인터페이스(Command-Line Interface, CLI), 통합 대형 언어 모델(LLM) 응용 프로그램 인터페이스(Application Programming Interface, API), 텍스트 기반 사용자 인터페이스(Text-based User Interface, TUI) 및 웹 UI 라이브러리, Slack 봇, vLLM 파드 배포 스캐폴딩을 제공한다. ⁷

유지관리자는 신규 기여자의 이슈·PR을 자동 종료 후 검토한다고 명시하고, v0.74.0 릴리스에서 저장소 링크와 패키지 스코프를 earendil-works/pi-mono 및 @earendil-works/* 네임스페이스로 갱신했다. ⁷

터미널·메신저·웹을 아우르는 에이전트 워크플로를 시제품 수준으로 빨리 묶어 보려는 팀에게 공통 배관을 한곳에 모아 준다. 원클릭 프레임워크보다는 점진적 업데이트에 가깝고, 도입 전 스코프·기여 정책을 확인하는 것이 좋다. ⁷

왜 중요한가

이번 소식의 공통 축은 모듈성이다. EMO는 희소 전문가를 실제 도메인과 정렬되게 사전학습해 소수만 실행해도 전체 품질에 근접하게 만들고, GeoStack은 VLM에 도메인 모듈을 보강하면서도 기존 지식을 지키는 경로를 보여 준다. ¹

동시에 StraTA와 DCI는 인터페이스의 중요성을 상기시킨다. 하나는 의사결정 수준(먼저 계획, 그다음 행동), 다른 하나는 데이터 접근 수준(유사도 대신 정밀 검색)에서 개선점을 제시해, 제한된 메모리·연산 안에서도 더 표본 효율적이고 배치 친화적인 에이전트로 가는 방향을 시사한다. ⁶

이번 주 시도해볼 것

EMO 전문가 군집 인터랙티브 시각화를 열어 학습 중 도메인이 어떻게 나타나는지 직접 확인한다(설치 불필요). ¹
Pi 코딩 에이전트 CLI를 설치해 로컬 에이전트를 스캐폴딩하고 통합 LLM API를 시험한다. ⁷

출처 7

[1] Huggingface EMO: Pretraining mixture of experts for emergent modularity [2] Arxiv EMO: Pretraining Mixture of Experts for Emergent Modularity [3] Arxiv StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction [4] Arxiv GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs [5] Substack Learning to Forget: Continual Learning with Adaptive Weight Decay [6] Arxiv Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction [7] Github earendil-works/pi: Pi Agent Harness Mono Repo

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집