AI 뉴스Research

약 7분 2026. 5. 27.

video generationreinforcement learningagentsreward hackingdatasetslocal inference

비디오 생성, 동작을 먼저 계획해 더 자연스러운 장면 구현

MotiMotion은 동작 제어를 ‘추론 후 생성’으로 재구성하고 새 벤치마크를 제시한다. 보상부터 터미널 피드백까지 신뢰성을 겨냥한 세 편의 에이전트 학습 논문과, GPU 없이 구동되는 MIT 라이선스 로컬 엔진(LocalAI)도 나왔다.

기사에서 찾기

읽기 모드

한 줄 요약

연구자들은 ‘따라 그리기’에서 ‘먼저 추론하고 행동’으로 전환하고 있다: 동작을 계획한 뒤 애니메이션하는 비디오 생성, 보상 꼼수 완화, 터미널 피드백 학습, 검증 가능한 컴퓨터 사용 과제 확장, 그리고 GPU 없이 돌리는 로컬 엔진까지.

Research Papers

MotiMotion: 시각적 추론으로 동작을 제어하는 비디오 생성

대부분의 동작 제어 이미지-투-비디오 시스템은 사용자가 준 경로를 그대로 따라 그려 어색해지거나 연쇄 효과를 놓친다. MotiMotion은 먼저 ‘무엇이 일어나야 하는지’를 계획하고 그다음에 생성하며, 학습 없이 쓰는 비전-언어 모델(VLM)로 주 경로 좌표를 정제하고 그에 따른 2차 동작을 그려 넣는다. 이는 사용자가 제공한 경로가 성기거나 부정확하고 상호작용에 인과적 부작용이 있는 장면을 겨냥한다. ¹

자연스러운 움직임을 위해 신뢰도 인지형 제어(confidence-aware control)를 도입해 가이던스 세기를 조절한다. 신뢰도가 높으면 계획을 밀착 추종하고, 신뢰도가 낮으면 모델의 내부 생성 성향에 기대어 인공적 흔적을 보정한다. 즉, 경로를 ‘그대로 추적’하는 대신 ‘시각적으로 근거 있는 추론 후 생성’으로 전환한다. ¹

평가를 위해 상호작용 중심 장면으로 구성된 벤치마크인 MotiBench를 구축했다. VLM 기반 평가와 인간 설문 모두에서 MotiMotion이 더 그럴듯한 객체 행동과 상호작용을 보였고 선호되었다. ¹

방향 정렬: 강화 학습에서의 보상 꼼수 완화

보상 꼼수는 강화 학습(RL)에서 모델이 의도된 과제가 아니라 대리 보상을 올리는 지름길을 찾을 때 발생한다. 이 논문은 언어 모델(LM)의 업데이트 기하를 분석해, 주요 특이 방향으로 본 파라미터 업데이트의 변화를 측정했을 때 꼼수를 학습한 경우가 깨끗한 학습보다 안정적 저차원 학습 궤적에서 더 크게 벗어난다는 점을 보인다. ²

이에 기반해, 기울기를 ‘깨끗한’ 기준 부분공간에 투영해 정렬을 유지하는 신뢰 방향 투영(trusted-direction projection)을 제안한다. 수학적 추론 실험 전반에서 이 방법은 지름길 악용을 늦추고 과제 성능을 더 잘 보존했다. ²

ECHO: 터미널 피드백을 학습 신호로 바꾸는 에이전트 학습

명령줄 인터페이스(CLI) 에이전트는 터미널 출력·오류·로그 등으로 자신의 행동 결과를 즉시 받지만, 표준 정책 경사 학습은 이 신호를 대개 버린다. ECHO(Environment Cross-entropy Hybrid Objective)는 행동 토큰에 대한 정책 경사 손실에 더해, 환경 관측 토큰을 예측하도록 정책을 학습하는 보조 손실을 결합한다. 그룹 상대 정책 최적화(GRPO)와 동일한 순전파를 재사용하며 추가 롤아웃이 필요 없다. ³

TerminalBench-2.0에서 ECHO는 첫 시도 정답률(pass@1)을 대략 두 배로 끌어올렸다: Qwen3-8B는 2.70%에서 5.17%로, Qwen3-14B는 5.17%에서 10.79%로 향상됐다. 보지 못한 롤아웃에서도 터미널 동역학을 더 잘 예측했고, 일부 설정에서는 환경 예측 손실만으로도 검증기 없이 분포 밖 과제 성능을 스스로 개선했다. ³

CUA-Gym: 컴퓨터 사용 에이전트를 위한 검증 가능한 학습 과제 대규모 확장

컴퓨터 사용 에이전트에는 결정적이고 검증 가능한 보상이 필요하지만, 그런 과제가 부족하다. CUA-Gym은 생성자와 판별자 에이전트를 오케스트레이터가 조율해 과제 지시, 초기/정답 환경 상태, 보상 함수를 함께 생성하고, 마지막에 대형 언어 모델(LLM) 다수결과 에이전트 롤아웃으로 품질을 걸러낸다. 그 결과 110개 환경에서 32,112개의 검증된 ‘검증 가능한 보상 기반 강화 학습(RLVR)’ 학습 튜플과, 실제 소프트웨어 사용 분포를 반영한 고충실도 모의 웹앱 모음 CUA-Gym-Hub가 만들어졌다. ⁴

CUA-Gym으로 학습한 CUA-Gym-A3B와 CUA-Gym-A17B 체크포인트는 OSWorld-Verified에서 각각 62.1%와 72.6%를 기록했고, WebArena에서도 향상을 보여 학습 환경을 넘어 전이가 있음을 시사한다. 저자들은 합성 파이프라인, 데이터셋, CUA-Gym-Hub 환경, 모델을 공개하겠다고 밝힌다. ⁴

Open Source & Repos

LocalAI: GPU 없이 로컬에서 다양한 AI 모델 실행

LocalAI는 언어·비전·음성·이미지·비디오 모델을 로컬 하드웨어에서 실행하도록 내세운 MIT 라이선스 엔진으로, “GPU 불필요”를 표방한다. “모든 모델”을 “모든 하드웨어”에서 실행한다는 공개 저장소 소개는 오프라인·온디바이스 실험이 필요한 팀에 매력적이다. ⁵

이 프로젝트는 2026-05-25자 v4.3.1 릴리스를 포함해 업데이트를 이어가고 있다. 노트북이나 데스크톱에서 여러 모달리티를 체험하고 싶다면 저장소의 README와 릴리스를 먼저 확인하면 된다. ⁵

왜 중요한가

행동 전에 혹은 행동 중에 ‘결과’를 반영하는 방향으로 공통 패턴이 모이고 있다. MotiMotion은 동작을 계획하고, ECHO는 환경 피드백을 조밀한 감독 신호로 바꾸며, 방향 정렬은 보상 꼼수 대신 과제 정렬을 유지하도록 돕는다. 이는 단순한 규모 확장보다 신뢰성의 핵심을 정면으로 겨냥한다. ³

개별 실무자 입장에서는 진입 장벽도 낮아진다. LocalAI로 CPU만 있는 기기에서도 모델을 시험할 수 있고, CUA-Gym 같은 데이터셋은 더 검증 가능하고 전이 가능한 에이전트 기술로의 길을 보여준다. ⁵

출처 5

[1] Arxiv MotiMotion: Motion-Controlled Video Generation with Visual Reasoning [2] Arxiv Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models [3] Arxiv ECHO: Terminal Agents Learn World Models for Free [4] Arxiv CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents [5] Github mudler/LocalAI: LocalAI is the open-source AI engine. Run any model - LLMs, vision, voice, image, video - on any har

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집