AI 뉴스Research

약 5분 2026. 6. 3.

video MLLMpredictive codingrobot affordancemixture of expertsoptimal transportmultimodal

변하는 부분만 보내는 방식으로 비디오 AI 속도 상승

AdaCodec가 중복 프레임을 압축해 토큰 예산을 줄이고 첫 토큰 출력 시간을 9.26초에서 1.62초로 단축했다. 로봇 어포던스와 조밀 모델을 전문가 혼합으로 바꾸는 기법 논문도 함께 나왔다.

기사에서 찾기

읽기 모드

한 줄 요약

세 편의 논문이 한 방향을 가리킨다: 변한 내용만 보내고, 로봇에 ‘어디·어떻게’를 가르치고, 조밀 모델을 필요한 전문가만 켜는 구조로 바꿔 더 적은 계산으로 더 많은 일을 하게 한다.

Research Papers

AdaCodec: 예측형 비주얼 코드로 비디오 추론 가속

AdaCodec는 비디오 도우미가 모델에 영상을 투입하는 방식을 바꾼다. 모든 프레임을 완전한 이미지로 보내지 않고, 예측이 어려운 경우에만 기준 프레임을 온전히 보내며, 그 외에는 움직임과 잔차를 요약한 차이 토큰으로 전달한다. 저자는 이를 예측형 비주얼 코드라 부르고, 비디오 멀티모달 대형 언어 모델(MLLM)에 맞춰 AdaCodec으로 구현했다. ¹

열한 개 벤치마크 전반에서 AdaCodec는 Qwen3-VL-8B의 프레임별 RGB 기준선보다 같은 시각 토큰 예산에서 더 높은 성능을 보인다. 토큰 예산을 1/7로 줄인 32k 토큰 설정에서도 모든 장시간 비디오 벤치마크에서 224k 토큰 기준선을 앞섰고, 다섯 개 일반 비디오 벤치마크에서는 평균 점수를 올리면서 첫 토큰까지 걸리는 시간을 9.26초에서 1.62초로 단축했다. ¹

실무 관점에서 이는 긴 영상에서도 정확도를 유지하면서 응답 대기 시간과 비용을 낮춘다는 뜻이다. 기술적으로는 예측 비용이 클 때만 전체 시각 토큰을 쓰고, 프레임 간 변화를 P-토큰에 압축해 보내는데, 이는 동영상 코덱이 기준 프레임과 차이 정보만 전송하는 방식과 유사하다. ¹

AFUN: 한 장면에서 ‘어디·어떻게’를 함께 예측

AFUN은 로봇이 물체의 어떤 부분을 사용할 수 있는지(어디)와 접촉 후 어떻게 움직여야 하는지(어떻게)를 한 번의 RGB-D(컬러+깊이) 관찰과 언어로 주어진 과업 설명으로 예측한다. 과업 조건에 맞춘 기능적 마스크(어디)와 3D 접촉 이후의 운동 곡선(어떻게)을 동시에 출력해 기능성 이해를 위한 어포던스 기반 모델로 나아간다. ²

로봇·인간·시뮬레이션·실세계 스캔 데이터를 언어, 마스크, 객체 중심 3D 운동 라벨의 공통 스키마로 표준화하는 대규모 파이프라인을 바탕으로, AFUN은 여덟 개 테스트 세트에서 일반화 교집합 대비 합집합(gIoU)과 클래스별 IoU(cIoU)를 각각 23.9, 26.3포인트 끌어올렸고, 접촉 지점 적중률은 12.7–61.3% 상승했으며, 3D 운동 예측은 세 개 테스트 세트 모두에서 최고 성능을 기록했다. 별도 로봇 미세조정이나 과업별 휴리스틱 없이도 실제 로봇 조작에 적용된다. ²

DOT-MoE: 최적 수송으로 조밀 모델을 전문가로 분해

DOT-MoE는 사전 학습된 조밀 모델의 피드포워드 네트워크(FFN) 층을 미분 가능 최적 수송(Differentiable Optimal Transport, DOT) 문제로 정식화해 희소한 전문가 혼합(Mixture of Experts, MoE) 구조로 변환한다. 휴리스틱 군집화나 무작위 분할 대신 신코른-크노프 반복으로 전문가 용량 균형을 강제하고, 스트레이트-스루 추정기(Straight-Through Estimators, STE)로 뉴런-전문가 할당과 토큰-전문가 라우팅을 종단 간 공동 학습한다. ³

여러 아키텍처와 벤치마크에서 DOT-MoE는 활성 파라미터를 50% 줄이면서도 원래 조밀 모델 성능의 약 90%를 유지했고, 구조적 프루닝, 휴리스틱 군집화, 무작위 분할 대비 우위를 보였다. 요점은: 처음부터 다시 학습하지 않고도 원리 기반 라우팅·용량 제어로 MoE 수준의 효율을 얻을 수 있다는 것이다. ³

왜 중요한가

세 연구는 ‘더 똑똑한 토큰과 라우팅’으로 수렴한다. 비디오는 변한 것만 보내고(AdaCodec), 로봇은 어디서 어떻게 작동할지 명시하며(AFUN), 언어 모델은 필요한 전문가만 활성화한다(DOT-MoE). 이는 긴 입력이나 개방형 과제에서 지연과 토큰·파라미터 사용을 줄이고 성공률을 높이는 방향이다. ²

실무에서 봐야 할 지표는 첫 토큰 대기 시간과 활성 파라미터 수다. AdaCodec는 일반 비디오 과제에서 9.26초→1.62초로 단축을 보고했고, DOT-MoE는 성능 약 90%를 유지하며 활성 파라미터를 50% 줄였다. 두 수치는 사용자 경험과 클라우드 비용을 직접적으로 움직인다. ¹

이번 주 시도해볼 것

AdaCodec 빠른 훑어보기: arXiv의 그림과 예측형 비주얼 코드 설명을 보며 P-토큰 아이디어를 파악한다. https://arxiv.org/abs/2606.02569v1
AFUN 프로젝트 클립 보기: 일상 물체에서의 마스크와 3D 운동 곡선을 영상으로 확인한다. https://www.zhaoningwang.com/AFUN

출처 3

[1] Arxiv AdaCodec: A Predictive Visual Code for Video MLLMs [2] Arxiv AFUN: Towards an Affordance Foundation Model for Functionality Understanding [3] Arxiv DOT-MoE: Differentiable Optimal Transport for MoEfication

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집