컴파일 단계 최적화로 AI 에이전트 워크플로가 최대 6.4배 빨라진다

FlowCompile는 실행 전에 구조화된 에이전트 파이프라인의 정확도–지연 시간 계획을 미리 만들어 최대 6.4배 가속을 보고한다. 함께 나온 연구는 짧은 추론, 통신량을 줄인 MoE 추론, 음성 에이전트의 종단 간 벤치마크에 초점을 맞춘다.

기사에서 찾기

읽기 모드

한 줄 요약

에이전트 워크플로는 실행 전에 미리 최적화(컴파일), 추론 길이는 필요만큼만, 분산 MoE는 통신을 줄이고, 음성 에이전트는 종단 간로 성능을 재는 흐름으로 수렴하고 있다.

Research Papers

FlowCompile: 구조화된 LLM 워크플로용 최적화 컴파일러

전문 에이전트가 여러 단계를 협업하는 파이프라인을 떠올리면 된다. FlowCompile은 요청마다 즉석에서 경로를 고르지 않고, 배포 전에 전체 경로를 미리 설계한다. 즉, 구조화된 대형 언어 모델(Large Language Model, LLM) 서브에이전트 파이프라인을 컴파일 가능한 대상으로 보고, 한 번 프로파일링해 정확도–지연 시간 절충안을 재사용한다. ¹

구체적으로 FlowCompile은 워크플로를 서브에이전트로 분해해 다양한 모델·추론 예산을 바꿔 가며 프로파일링하고, 구조를 반영한 프록시로 조합 시 전체 정확도와 지연 시간을 추정한다. 이를 통해 온라인 적응이나 재학습 없이도 오프라인에서 전역 설계 공간을 탐색해 고품질 구성 집합을 만든다. ¹

다양한 워크플로와 벤치마크에서 이 컴파일된 계획은 휴리스틱·라우팅 기반 기준선을 앞서며, 정확도를 맞추면서 최대 6.4배까지 속도를 높였다고 보고한다. 선택지는 한 번 계산해 두기 때문에 실행 시점에는 품질·지연 선호에 따라 미리 컴파일된 계획만 바꾸면 된다. ¹

핵심 교훈은 명확하다. 에이전트 오케스트레이션을 소프트웨어 컴파일처럼 다루되, 모델 선택과 생각 예산을 미리 계산해 둔 기본값으로 정리하고, 운영 중에는 비즈니스 선호에 맞춰 고르는 방식이다. ¹

LEAD: 짧게 생각해도 정답을 유지하는 훈련법

LEAD는 모델이 똑똑해질수록 단계별 추론(Chain-of-Thought, CoT)이 불필요하게 길어지는 문제를 겨냥한다. 강화학습(Reinforcement Learning, RL)에서 정답–효율 균형을 학습 과정마다 동적으로 조정하고, 모델이 스스로 만든 정답 사례를 바탕으로 문제별 목표 길이를 추정해 적용한다. ²

고정 패널티 대신 Potential-Scaled Instability로 학습 신호의 정보성이 높은 지점을 겨냥하고, 과도한 장문과 과도한 압축을 모두 벌주는 대칭 효율 보상을 쓴다. 5개 수학 추론 벤치마크에서 RL 기반 효율 추론 방법 중 최고 정확도와 정확도–효율 점수를 보고하면서, 기본 모델 대비 출력 길이를 크게 줄였다. ²

Federation of Experts: 통신량을 줄인 분산 추론 MoE 설계

분산 전문가 혼합(Mixture of Experts, MoE) 모델은 네트워크 트래픽이 병목이 되기 쉽다. Federation of Experts(FoE)는 각 MoE 블록을 클러스터로 재구성하고, 각 클러스터가 하나의 키-값(Key-Value, KV) 주의를 담당하도록 한다. 클러스터 간에는 포스트-어텐션 잔차를 합산해 다음 MoE 블록의 라우팅을 유도하며, 싱글 노드에서는 올투올 통신을 제거한다. ³

LongBench 기준으로 FoE는 종단 간 순전파 지연을 최대 5.2배, 첫 토큰 대기 시간(Time to First Token, TTFT)을 3.62배, 토큰 간 지연 시간(Time Between Tokens, TBT)을 1.95배 개선하면서, 동일 크기 MoE 대비 생성 품질을 유지했다. 총 파라미터는 그대로 두고 처리량과 지연을 동시에 개선하는 설계다. ³

EVA-Bench: 음성 에이전트의 정확도와 대화 경험을 함께 재는 벤치마크

EVA-Bench는 봇 간 오디오 대화를 시뮬레이션해 음성 에이전트를 종단 간로 평가한다. 작업 완료와 사실성, 음성 충실도를 묶은 EVA-A(Accuracy)와, 대화 진행·간결성·턴 타이밍을 묶은 EVA-X(Experience) 지표를 제시하고, 억양·소음 교란과 213개 엔터프라이즈 시나리오를 포함한다. ⁴

12개 시스템을 보면 EVA-A pass@1과 EVA-X pass@1이 동시에 0.5를 넘는 경우가 없고, EVA-A에서 최고 성능과 신뢰 가능한 성능 간 중앙값 격차는 0.44에 이른다. 억양·소음 교란 하에서는 평균 최대 0.314까지 성능 저하가 나타났고, 전체 프레임워크와 데이터는 오픈소스 라이선스로 공개됐다. ⁵

Open Source & Repos

Microsoft Agent Framework: 멀티에이전트 오케스트레이션 프레임워크

Microsoft Agent Framework는 Python과 .NET을 지원해 생산 단계의 AI 에이전트와 멀티에이전트 워크플로를 구축·오케스트레이션·배포하는 다국어 툴킷이다. Microsoft Learn 문서와 PyPI·NuGet 패키지도 함께 제공된다. ⁶

리포지토리에는 2026-05-14자 dotnet-1.6.1 릴리스와 에이전트 라우팅 개선 등 업데이트가 포함되어 있으며, 프로토타입에서 운영으로 옮겨가는 팀을 겨냥한 적극적인 개발이 이어지고 있다. 개별 라이브러리를 이어 붙이기보다 대형 벤더가 관리하는 기반을 선택할 수 있게 된다. ⁶

왜 중요한가

에이전트 시스템의 공통 해법이 보인다. 실행 전에 워크플로를 컴파일(FlowCompile)하고, 생각은 필요할 때만 길게하며, 분산 모델은 덜 말하게(FoE) 만든다. 정확도를 지키면서 지연과 비용을 낮추려는 흐름이 기술 선택을 이끈다. ¹

동시에 EVA-Bench 같은 종단 간 평가는 억양·소음·신뢰성 문제를 수치로 드러내고, Microsoft Agent Framework 같은 제품군은 검증된 패턴의 운영화를 돕는다. 측정과 최적화가 맞물려 더 촘촘한 개선 주기가 형성되고 있다. ⁴

출처 6

[1] Arxiv FlowCompile: An Optimizing Compiler for Structured LLM Workflows [2] Arxiv LEAD: Length-Efficient Adaptive and Dynamic Reasoning for Large Language Models [3] Arxiv Federation of Experts: Communication Efficient Distributed Inference for Large Language Models [4] Arxiv EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents [5] Arxiv EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents (v1) [6] Github microsoft/agent-framework

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집