AI 뉴스Research

약 8분 2026. 4. 8.

Video MLLMBenchmarksReinforcement LearningAgent EvaluationTraining SystemsGPU/CPU Offload

비디오 이해 벤치마크의 새 기준선 등장

Video-MME-v2가 시간 흐름과 일관 추론을 함께 묻는 평가로 판을 높였습니다. 에이전트·훈련 연구와 맞물려 ‘점수’에서 ‘신뢰할 성능’으로 무게중심이 이동합니다.

기사에서 찾기

읽기 모드

한 줄 요약

정답 점수 경쟁을 넘어, 시간 흐름 이해·과정 일관성·자원 현실성을 중시하는 새 평가와 학습 방법이 오늘의 기준선을 다시 세웁니다.

Research Papers

Video-MME-v2: 포괄적 비디오 이해를 위한 새 기준선

이 벤치마크는 모델이 여러 프레임에서 단서를 모으고, 시간에 따라 사건을 따라가며, 마지막에 논리를 일관되게 설명하는지를 함께 묻습니다. Video-MME-v2는 난도를 단계적으로 높이는 3단 평가 체계를 도입해, 먼저 다지점 시각 정보 결합, 이어 시간적 동역학, 마지막에 복합 멀티모달 추론을 요구합니다. 또한 문항별 정답률 대신 그룹 기반 비선형 평가를 써서, 관련 질문 간 일관성과 다단계 추론의 응집성을 함께 보게 하고 추측형 정답에는 불이익을 줍니다. ¹

이 평가 방식은 “왜 맞았는가”까지 증빙하도록 설계돼, 실제 한계가 드러납니다. 시각 결합과 시간 모델링에서 생긴 오류가 상위 추론 성능을 제한하는 ‘계층 병목’을 밝혀내고, 기존 벤치마크에서 높은 점수를 받는 모델도 사람 전문가와의 격차가 큼을 확인했습니다. 즉, 표면 성적과 실제 능력 사이의 간극을 벤치마크 자체가 노출합니다. ¹

데이터 품질도 엄격히 관리했습니다. 주석은 12명의 작업자와 50명의 독립 검토자가 참여해 약 3,300시간을 투입했고, 최대 5차 품질 보증을 거쳤습니다. 또 하나의 관찰은 ‘생각 과정’이 문자 단서에 크게 의존한다는 점입니다. 자막이 있을 때는 좋아지지만, 순수 시각만 주어지면 성능이 떨어지는 사례가 확인됐습니다. 이 벤치마크는 다음 세대 비디오 멀티모달 모델 개발을 위한 까다로운 시험대로 역할하겠다는 목표를 제시합니다. ¹

관련 연구로 Microsoft Research의 STRIVE는 비디오 질문응답에서 공간·시간을 구조적으로 변형한 복수 버전을 함께 탐색해 강화학습의 안정성을 높이며, VideoMME 등 여섯 개 비디오 추론 벤치마크에서 일관된 개선을 보고합니다. 정지 이미지 중심을 넘어, 시간에 뿌리내린 이해를 끌어올리려는 흐름이 선명합니다. ²

MegaTrain: 단일 GPU로 100B+ 전체정밀 학습 시도

이 시스템은 가중치와 옵티마이저 상태를 호스트 메모리(컴퓨터 메모리)에 두고, GPU는 계산 전용 엔진으로 쓰면서 스트리밍으로 층별로 가중치를 가져와 계산한 뒤 그래디언트를 내보냅니다. MegaTrain은 다중 CUDA 스트림으로 파라미터 프리패치·계산·그래디언트 오프로딩을 겹치는 파이프라인 이중 버퍼링과, 가중치를 실행 중에 바인딩하는 상태 비저장 레이어 템플릿으로 오토그라드 그래프 상주 비용을 없앱니다. 저자들은 H200 한 대와 1.5TB 호스트 메모리에서 최대 120B 파라미터 모델을 안정적으로 학습했고, 14B 모델 학습에서는 DeepSpeed ZeRO‑3 CPU 오프로딩 대비 처리량이 1.84배였으며, GH200 한 대에서 7B 모델을 컨텍스트 512k 토큰으로 학습했다고 보고합니다. ³

핵심은 ‘메모리의 집’을 VRAM에서 호스트 메모리로 옮기고 GPU를 일시적 가속기로 재정의하는 것입니다. 다만 CPU‑GPU 대역폭, NUMA 배치, I/O 지연이 스트림을 막을 수 있어 실제 환경에서의 지속 성능이 관건입니다. 수치가 재현된다면, 대규모 GPU 없이도 프런티어급 모델 프로토타입을 돌릴 선택지가 생깁니다. ³

동시에 알고리즘 측면에서도 메모리 한계를 줄이려는 시도가 이어집니다. 예를 들어 TurboQuant를 다룬 분석은 재학습 없이 메모리를 최대 6배 줄이고 긴 컨텍스트에서 주의(attention)를 최대 13배 빠르게 만든다고 설명합니다. 하드웨어 친화적 시스템 설계와 어텐션 최적화가 만나는 지점에서, 긴 컨텍스트와 대규모 학습을 현실화하려는 공통 의도가 읽힙니다. ⁴

Claw-Eval: 신뢰 가능한 자율 에이전트 평가를 위한 설계

이 평가군은 그럴듯한 답변이 아니라, 에이전트가 작업을 끝까지 완수하고, 안전하게 행동하며, 교란에도 견디는지를 본격적으로 점검합니다. Claw‑Eval은 9개 범주의 300개 과제를 사람 검증으로 구성하고, 서비스 오케스트레이션·멀티모달 인식/생성·다중 턴 전문 대화의 세 그룹으로 묶었습니다. 모든 행동은 실행 트레이스·감사 로그·환경 스냅샷의 세 증거 채널로 기록되고, 2,159개 세부 루브릭으로 채점합니다. 평가는 완수(Completion), 안전(Safety), 견고성(Robustness)을 보고, 평균 점수와 Pass@k, Pass^k를 세 차수에 걸쳐 산출해 ‘실력’과 ‘요행’을 구분합니다. ⁵

결과는 경로를 보지 않는 평가는 위험하다는 점을 수치로 보여줍니다. 최종 출력만 보면 안전 위반의 44%, 견고성 실패의 13%를 놓치지만, Claw‑Eval의 혼합 파이프라인은 이를 잡아냅니다. 통제된 오류 주입은 최고 성능보다 일관성을 주로 떨어뜨려 Pass^3는 최대 24% 하락하지만 Pass@3는 비교적 유지됩니다. 또한 비디오 과제가 문서·이미지보다 유난히 어려웠고, 모든 모달리티를 석권한 모델은 없었습니다. ⁵

실전 보고서도 같은 결로 흘러갑니다. 실제 웹 작업에서는 선도 모델조차 “절반 남짓만 마친다”는 관찰이 있고, 실무 체크리스트는 평가·거버넌스를 초기에 설계하지 않으면 도구 오호출, 조용한 타임아웃, 루프 등 ‘운영적 실패’가 잦다고 지적합니다. Claw‑Eval의 증거 중심 트레이싱은 이런 운영 현실과 맞닿아 있습니다. ⁶ ⁷

ThinkTwice: 추론과 자기-개선을 함께 학습시키기

이 방법은 모델이 먼저 문제를 풀고, 이어 자신이 낸 답을 고치는 연습을 같은 보상 신호로 연달아 학습시킵니다. ThinkTwice는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 틀 안에서 비평 레이블 없이 정오(正誤) 보상만으로 두 단계를 번갈아 수행합니다. 다섯 개 수학 추론 벤치마크와 두 모델 계열(Qwen3‑4B, Olmo3‑7B)에서, 강한 온라인 정책 최적화 기준선보다 추론과 자기‑개선 성능을 모두 끌어올렸습니다. ⁸

Qwen3‑4B 기준으로 AIME에서 GRPO 대비 사전 단계는 5%p, 자기‑개선 한 번 반영 후에는 11.5%p 개선됐고, 평가는 pass@4로 측정했습니다. 학습 동역학을 보면 ‘수정 후 보강’이라는 자연스러운 커리큘럼이 형성돼, 초기에 오류를 바로잡고 모델이 좋아질수록 올바른 해를 유지하는 쪽으로 이동해 보상 신호가 더 정제됩니다. 저자들은 이를 검증 가능한 보상 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR)의 유효한 경로로 제시합니다. ⁸

관련 논의는 모델이 자기 출력으로부터 배우는 과정에서 평가와 공헌도 배분을 분리해야 안정화된다는 점, 그리고 표준 GRPO는 추론 다양성이 붕괴해 병렬 샘플링 이득이 떨어질 수 있어 훈련 단계에서 다양한 해법을 보존해야 한다는 점을 강조합니다. 즉, ‘검증 가능’하고 ‘다양한’ 자기‑개선이 함께 가야 한다는 메시지입니다. ⁹ ¹⁰

커뮤니티 반응

Hacker News (324↑) — MegaTrain의 야심에는 호기심, 하드웨어·구성 전제에는 회의가 공존. 현실적인 병목은 고품질 데이터와 시스템 구성이라는 지적이 중심.

"흥미로운 접근법이지만 추론용으론 localops.tech에 더 간단한 호환성 검사기가 있어요 - GPU를 입력하면 실제로 무엇이 들어맞는지 바로 확인할 수 있습니다." — Hacker News

"저도 LLM 훈련을 막 시작했는데, 훈련·검증 데이터셋이 있다면 모델을 훈련시키는 것은 비교적 단순하더군요. 문제는 좋은 대규모 훈련·검증 데이터셋을 만드는 일입니다. 데이터 수집, 정제, 큐레이션, 라벨링, 생성, 품질 관리가 어렵고 많은 작업을 요구합니다. 제가 해본 프로젝트들에서 그랬습니다." — Hacker News

왜 중요한가

시간 축과 과정 일관성, 안전 추적을 강제하는 벤치마크는 멀티모달 AI의 ‘좋음’의 정의를 바꾸고 있습니다. 이제 모델은 “맞췄다”만으로는 부족하고, “보고‑기억하고‑일관되게 추론했다”를 증명해야 합니다. ¹ ⁵

동시에 메모리·파이프라인 혁신은 대형 모델 학습의 문턱을 낮추고, 검증 가능한 보상과 자기‑개선을 결합한 학습법은 신뢰 가능한 성능 향상을 노립니다. 결과적으로 ‘리더보드 착시’는 줄고, 현업에 투입 가능한 AI에 가까워집니다. ³ ⁸ ¹⁰

출처 12

[1] Arxiv Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding [2] Microsoft STRIVE: Structured Spatiotemporal Exploration for Reinforcement Learning in Video Question Answering [3] Richlyai Agentic-MME: Benchmarking Multimodal Agentic Intelligence [4] Veomodels AI Video Generators: The Ultimate Guide to Creating Videos with AI [5] Arxiv MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU [6] Medium TurboQuant: Google Just Solved and Shrunk the Memory Wall for AI [7] Arxiv Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [8] Ainewssilo WildClawBench finds AI agents still fail real work [9] Automaly A Practical Checklist for Evaluating and Governing AI Agents [10] Arxiv ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement [11] Medium RLSD: Fixing How Language Models Learn From Their Own Outputs [12] Github All Roads Lead to Rome: Incentivizing Divergent Thinking in Vision-Language Models

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집