AI 뉴스Research

약 8분 2026. 3. 25.

multimodal-llmspeculative-decodingdiffusion-modelsocroptical-flowdeveloper-tools

추론 계획 투기로 에이전틱 멀티모달 LLM을 최대 3.35배 가속, 정확도 유지

도구 호출의 직렬 병목을 ‘에이전틱 레벨 투기’로 제거한 프레임워크, 확산 기반 OCR/광류 연구, AI 에이전트 친화 Lark/Feishu CLI까지 오늘의 핵심.

기사에서 찾기

읽기 모드

한 줄 요약

에이전틱 멀티모달 시스템은 ‘추측 실행’으로 지연을 최대 3.35배 줄이고, 확산 기반 접근이 OCR과 열악한 영상의 광류 추정까지 재설계합니다.

Research Papers

SpecEyes: 추측 기반 지각·계획으로 에이전틱 멀티모달 LLM 가속

OpenAI o3 같은 에이전틱 멀티모달 LLM은 자르기·확대·OCR 등 시각 도구를 단계별로 호출하지만, 이 연쇄 고리는 반드시 순차 실행되어 지연이 커집니다. SpecEyes는 가벼운 도구-비의존 모델이 먼저 전체 계획을 ‘추측’해도 되는 경우를 판별해, 무거운 도구 체인을 과감히 건너뜁니다. 그 결과 V* Bench, HR-Bench, POPE에서 1.1~3.35배 속도 향상과최대 +6.7% 정확도 개선을 보고합니다. 쉽게 말해, 많은 질의는 느린 도구가 필요 없고, SpecEyes는 그런 질의에 빠른 답을 안전하게 돌려줍니다. ¹ ² ³

핵심은 세 부분입니다. 첫째, 작은 모델이 도구 필요성을 미리 판단하고 가능하면 즉시 답변합니다. 둘째, 정답 분리도 기반의 라벨-프리 신뢰 게이트가 상위 K 로짓의 격차를 이용해 자기검증 신뢰도를 계산합니다. 셋째, 이 작은 모델을 고도의 동시성으로 돌려 큰 모델의 상태 의존적(직렬) 실행을 가려주는 이종 병렬 퍼널을 설계했습니다. 이 조합으로 대규모 동시 처리량이 늘고, 큰 모델 재학습 없이 지연을 줄입니다. ¹ ²

또한 성능 이득을 $\beta$ (실제 도구 불필요 질의 비율)와 $\alpha$ (그중 게이트 수락 비율)로 정식화해, $\beta$ 가 높고 게이트가 잘 보정되면 대부분의 직렬 지연을 작은 모델 병렬 스크리닝으로 가릴 수 있음을 보입니다. 소형 Qwen3-VL-2B와 대형 백본(DeepEyes, Thyme) 조합으로 일반화도 확인되며, Thyme 기반 평균 약 1.4배 가속과 소폭 정확도 상승을 관찰합니다. 재현을 위한 코드와 평가 스크립트도 공개되었습니다. ¹ ³ ⁴

From Static Templates to Dynamic Runtime Graphs: LLM 에이전트 워크플로우 최적화 설문

이 설문은 LLM 에이전트를 노드(LLM, 툴, 메모리)와 에지(데이터/제어 흐름)의 그래프로 보고, 배포 전 고정되는 정적 스캐폴드와 실행 전·중에 선택/생성/수정되는 동적 구조를 구분합니다. 구조 결정 시점, 최적화 대상(노드 vs 그래프), 평가 신호(태스크 지표, 검증기, 선호, 실행 추적 피드백)로 기존 연구를 체계화하고, 템플릿·실행 그래프·실행 트레이스를 명확히 구분하는 어휘를 제시합니다. ⁵ ⁶

핵심 정리: 연산자 공간이 좁고, 평가가 신뢰할 만하며, 워크로드가 반복적일 때는 정적 최적화가 유리합니다. 이런 경우 오프라인 탐색(MCTS 등)으로 런타임 비용이 낮고 디버깅 쉬운 템플릿이 동적 설계보다 성과가 좋습니다. 반대로 도구/환경 드리프트가 크면 입력별로 구조를 바꾸는 높은 “그래프 가소성”의 동적 방법(사전 선택, 실행 중 편집)이 필요합니다. 또한 단순 태스크 점수 외에 그래프 속성·비용·강건성·입력별 구조 변이를 포함한 구조 인식 평가를 제안합니다. ⁵ ⁷

실무적으로는, 성능 병목이 지시문 품질이 아니라 제어 흐름·조정·검증에 있을 때 프롬프트 튜닝보다 그래프 수준 최적화가 더 큰 이득을 줄 수 있음을 강조합니다. 공통 기준과 재현 가능한 보고 지침도 함께 제시합니다. ⁵ ⁶

MinerU-Diffusion: 확산 디코딩으로 ‘역 렌더링’ 관점의 문서 OCR

기존 OCR은 왼쪽→오른쪽 순차 디코딩이라 길고 복잡한 문서에서 오류 전파와 지연이 큽니다. MinerU-Diffusion은 “이 이미지를 만든 텍스트는 무엇인가?”라는 역 렌더링 관점으로 접근해, 확산 노이즈 제거를 병렬로 수행합니다. 결과적으로 최대 3.2배 빠른 디코딩과 복잡 레이아웃에서의 강건성을 보여줍니다. ⁸ ⁹

구체적으로 블록 단위 확산 디코더와 불확실성 기반 커리큘럼으로 안정적 학습과 긴 시퀀스 추론을 가능케 합니다. 새 ‘Semantic Shuffle’ 벤치마크에서 언어적 통계(문맥 기대치)에 덜 의존하고 픽셀 증거에 더 의존함을 보여, 수식·표 위주의 문서에서 유리합니다. 병렬 디노이징은 자동회귀 디코더의 토큰별 지연을 피합니다. ⁸ ¹⁰

왜 중요한가: 문서 파이프라인은 작은 오독 하나가 전체 표를 망치곤 합니다. 전역·병렬 디코딩은 오류의 연쇄를 막고, 송장 처리나 학술 PDF 파싱 같은 대량 작업의 처리량을 끌어올립니다. 개발자 커뮤니티에서도 실무적 관심이 높습니다. ⁸ ¹¹

DA-Flow: 확산 모델 기반 ‘퇴화 인지’ 광류 추정

현실 영상은 흔들리고(블러), 시끄럽고(노이즈), 압축 손상이 있습니다. DA-Flow는 이미지 복원 확산 모델의 내부 표현이 이러한 퇴화를 잘 인지한다는 점에 착안해, 여기에 전 프레임을 보는 시공간 주의를 추가해 ‘움직임 인지’를 더합니다. 이렇게 얻은 확산 특성과 CNN 특성을 결합해 반복 정제하면서, 열악한 입력에서 기존 기법을 앞섭니다. ¹² ¹³

Sintel·Spring에서 최종 점수인 EPE를 크게 낮추며(예: Spring 2.207 vs. 최고 기준2.703), 1px/3px/5px 아웃라이어 비율도 개선합니다. TartanAir에서는 아웃라이어는 더 적지만 EPE가 다소 높음(8.866 vs. FlowSeek7.694), 즉 대부분 픽셀은 더 정확하지만 소수의 큰 오차가 평균을 끌어올리는 트레이드오프를 보입니다. 소거 실험은 시공간 주의로 ‘리프팅’한 확산 특성이 성능의 핵심임을 확인합니다. ¹³ ¹⁴

현업 시사점: 복원(생성) 모델의 사전 지식을 빌려 강건한 구조 힌트를 얻고, 시간 축 주의와 판별 인코더를 섞으면 저화질에서도 쓸 만한 광류를 얻을 수 있습니다. 악천후 자율주행, 감시, 로보틱스 등에서 유용합니다. ¹² ¹⁵

Open Source & Repos

larksuite/cli: 사람과 AI 에이전트를 위한 공식 Lark/Feishu CLI

Go 기반 공식 CLI로 Messenger, Docs, Base, Sheets, Calendar, Mail, Tasks, Meetings 등 200+ 명령과19개 AI Agent Skills를 제공합니다. “에이전트-네이티브” 설계라 스크립트·LLM 에이전트가 일관된 인터페이스로 조직 워크플로우를 자동화하기 쉽습니다. MIT 라이선스, Go**>=1.23** 및 npm 배포를 지원합니다. ¹⁶

지표로는 GitHub 스타 약 4.8k,포크 225, 활발한 커밋(생성 약 7일, 최신 커밋 약 1일 전)이 관측됩니다. 트렌드 대시보드에서도 최근 활동이 확인되며, 엔터프라이즈 자동화·에이전트 빌더 수요가 초기 관심을 끌고 있음을 시사합니다. ¹⁷ ¹⁸

의미: 에이전트가 실제로 일하는 무대는 협업 스택입니다. 메시징·문서·캘린더를 단일 CLI로 묶고 에이전트 친화 스킬을 제공하면 ‘복합 AI’ 시스템이 여러 앱을 가로지르며 동작하기 쉬워지고, 접착 코드 부담이 줄어듭니다. ¹⁶

왜 중요한가

오늘의 공통점은 ‘구조의 효율화’입니다. SpecEyes는 에이전틱 루프 전체를 가속하고, MinerU-Diffusion은 OCR 디코딩을 병렬화하며, DA-Flow는 복원 사전지식을 재활용해 거친 영상에서도 강건한 광류를 냅니다. 단순히 모델을 키우지 않고 지연과 오류 연쇄를 줄이는 시스템적 개선입니다. ¹ ⁸ ¹²

LLM 에이전트가 확산되는 만큼, 설문의 정적-동적 렌즈는 ‘언제 템플릿을 고정할지, 언제 런타임에 그래프를 바꿀지’ 선택을 돕습니다. 한편 larksuite/cli 같은 인프라는 에이전트가 실제로 작동할 곳—엔터프라이즈 스택—을 비춥니다. ⁵ ¹⁶

출처 19

[1] Arxiv SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [2] Arxivlens SpecEyes - ArxivLens analysis [3] Chatpaper SpecEyes - ChatPaper [4] Github SpecEyes GitHub repository [5] Arxiv From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents [6] Liner Survey quick review - Liner [7] Chatpaper Survey - ChatPaper [8] Alphaxiv Survey - alphaXiv overview [9] Arxiv MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding [10] Alphaxiv MinerU-Diffusion - alphaXiv [11] Alphaxiv MinerU-Diffusion - alphaXiv CN overview [12] Daily Daily.dev post on MinerU-Diffusion [13] Arxiv DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models [14] Liner DA-Flow quick review - Liner [15] Gist DA-Flow - Gist.Science [16] Chatpaper DA-Flow - ChatPaper [17] Github larksuite/cli GitHub [18] Trendshift Trendshift - larksuite/cli [19] Github larksuite/cli activity

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집