강화학습이 비전-언어 에이전트를 100+단계로 확장했고, 새 벤치마크가 취약점을 드러냈다
Odysseus는 Super Mario Land에서 100+번의 결정을 내리는 멀티모달 에이전트를 훈련해 선행 모델보다 최소 3배 더 멀리 진전한다. 동시에 오픈 모델은 어려운 시험에서 확장되고, 새 벤치마크는 강의 영상 이해와 시각적 ‘정직성’을 압박 테스트한다.
한 줄 요약
강화학습으로 멀티모달 모델이 100+단계 게임 의사결정을 해내는 동안, 새 벤치마크들이 실행 충실도·사실성·원근·정직성의 빈틈을 드러냈다.
Research Papers
Odysseus: Super Mario Land에서 100+턴을 내다보는 VLM 에이전트 훈련
Odysseus는 비전-언어 모델(VLM)을 Super Mario Land에서 100+번의 선택을 내리는 게임 에이전트로 훈련해, 선행 모델 대비 평균 진행 거리를 최소 3배 늘렸다. 핵심은 근접정책최적화(PPO)에 턴 단위 경량 비평가(critic)를 붙여 장기 시계열 강화학습의 불안정성을 줄였고, 비평가 없는 GRPO·Reinforce++ 대비 안정성과 표본 효율을 끌어올린 점이다. 1
사전학습 VLM에서 시작해 강한 ‘행동 사전(프라이어)’을 활용하므로 수작업 액션 설계가 줄고, 강화학습 효율이 개선된다. 학습된 에이전트는 게임 내부 레벨과 교차 게임 전이 모두에서 일관된 향상을 보였고, 일반 영역 능력도 유지했다. 저자들은 Odysseus를 공개 훈련 프레임워크로 제안한다. 1
동시에 오픈 멀티모달 모델도 확장된다. InternVL 2.5는 MMMU에서 체인 오브 쏘트(CoT) 적용 시 70.1%를 기록해, 공개 모델 최초로 70%를 넘었다(직접 응답 대비 +3.7포인트). 더 큰 비전 인코더가 학습 토큰 필요량을 줄이고(600M 인코더 대비 약 1/10 토큰으로 동급 성능 보고), 데이터 정제와 테스트 시 확장이 성능에 중요함을 보였다. 데모와 가중치가 제공된다. 2
새 평가들도 약점을 짚는다. Video-MMLU는 수학·물리·화학 강의 1,065개 영상을 모아 지각과 추론을 함께 요구하는 과제를 내며, 강한 모델들도 정확도가 대략 10%~50%에 머문다고 보고한다. ‘교실급’ 이해는 여전히 난제라는 신호다. 3
MASCing: 전문가 혼합(MoE) 라우팅을 안전하게 재구성
MASCing은 재학습 없이 추론 시간에 전문가 혼합(MoE) 모델의 어떤 ‘전문가’가 활성화될지 라우팅을 바꿔 서로 다른 안전 목표에 맞추게 하는 방법이다. LSTM 기반 대리모델이 라우팅 로짓과 다운스트림 행태의 연관을 학습하고, 학습된 조향 행렬로 라우터에 마스크를 적용해 특정 전문가 회로를 강화·억제한다. 다회차 탈옥 방어의 평균 방어 성공률을 52.5%→83.9%로 끌어올렸고(최대 +89.2%), 성인물 생성 순응도는 52.6%→82.0%(최대 +93.0%)로 향상됐다. 7개 오픈소스 MoE 전반에서 오버헤드는 미미했다. 4
의미: 희소 활성화 MoE는 라우팅이 출력에 큰 영향을 줘 시나리오별로 거동이 달라질 수 있다. MASCing은 일반 활용도를 해치지 않으면서도 용도별 안전 거동을 재구성하는 실용적 수단을 제공한다. 4
신뢰를 재는 도구도 제시됐다. MoHoBench는 ‘답할 수 없는’ 시각 질문 1만2천+개로 멀티모달 모델이 정보가 불충분하면 정직하게 거절하는지를 측정한다. 28개 MLLM 평가 결과 다수가 적절히 거절하지 못했고, 정직성은 언어만이 아니라 시각 입력의 영향도 크게 받았다. 저자들은 감독학습(SFT)과 직접 선호도 최적화(DPO) 정렬 기준선을 제시했다. 5
시스템 레벨에서는 RouteMoA가 또 다른 제어 축을 보여준다. 15개 모델 풀에서 ‘모두 실행 후 선택’ 대신, 실행 전에 유망 모델을 예측해 연산 비용을 89.8%, 지연을 63.6% 줄이면서 정확도를 유지·개선했고, 약 98% 질의에서 핵심 모델이 상위 3개 안에 들었다. 6
Stable-GFlowNet: 다양한 강공 프롬프트를 안정적으로 발굴하는 레드팀닝
Stable-GFlowNet(S-GFN)은 분포 매칭을 하는 생성 플로우 네트워크(GFN)의 불안정 원인인 분배함수 Z 추정을 없애고, 쌍대 비교 목표로 대체해 안정적으로 다양한 고효과 공격 프롬프트를 만든다. 노이즈 많은 보상에 견디는 마스킹과, 횡설수설 출력에 빠지지 않게 하는 유창성 안정화 장치를 더해 공격 성공률과 다양성을 함께 높였다. 7
핵심: 강한 안전 평가는 ‘가장 위험한 1개’가 아니라 폭넓은 실패 양상을 찾아야 한다. S-GFN은 모드 붕괴를 막아 다양한 취약 프롬프트를 발굴해, 모델이 어디서 무너지는지 더 선명한 지도를 제공한다. 7
방어 측면의 인접 연구로는 LLM 기반 표현과 행위 특성을 결합해 악성코드 탐지를 높이려는 Trident가 소개돼, 의미적 모델링과 실행 신호 결합의 흐름을 보여준다. 8
절차 실행 진단: LLM이 단계 지시를 놓치는 지점과 사실성·지시 따르기 평가
통제된 설정에서 단계별 산술 알고리즘을 끝까지 ‘정확히 실행’하는 능력을 측정하자, 절차가 길어질수록 성능이 급락했다. 14개 모델·55개 데이터셋 평균으로 5단계 절차의 최초 정답 정확도는 61%였지만 95단계에서는 20%로 떨어졌고, 조기 종료, 미완 실행, 초기 오류 후 자가 수정 같은 패턴이 잦았다. 9
영상 이해에서는 Video SimpleQA가 외부 출처로 검증 가능한 ‘짧고 단정적인’ 답을 요구해 사실성을 평가한다. 41개 LVLM을 재면 최고 모델 Gemini-1.5-Pro의 F-점수도 54.4%에 그쳤고, 테스트 시 연산 증가는 개선 폭이 작았으며, 검색 증강 생성(RAG)은 성능을 올리지만 추론 시간이 늘어나는 절충이 있었다. 10
지시 따르기에서는 MM-IFEngine이 2만3천 건의 멀티모달 훈련 데이터(SFT·DPO용)와 포맷·지각 제약을 함께 검증하는 MM-IFEval을 제시했다. Qwen2-VL-7B를 MM-IFDPO-23k로 DPO 미세조정하면 MM-IFEval·MIA·IFEval에서 각각 +10.2%, +7.6%, +12.3% 향상했고, MM-IFEval에서는 GPT-4o 64.6%, Qwen2-VL-72B 50.8%로 아직 여지가 크다. 11
원근 이해도 빈틈이다. MMPerspective는 2,711장·5,083개 문항으로 소실점, 선 관계, 원근 불변성 등을 묻는다. 43개 MLLM을 보면 표면 지각은 견조하지만 합성 추론과 원근 보존 편집에서 흔들렸고, 단계별 추론(CoT)은 도움이 되지만 격차를 다 메우지는 못했다. 12
왜 중요한가
오늘의 흐름은 ‘제어와 커버리지’다. 100+단계까지 밀어붙이는 실용 강화학습, 용도별 안전 거동을 다루는 라우팅 조정(MASCing), 그리고 강의·사실성·원근·정직성을 겨누는 평가들이 한데 맞물리며, 능력 확장과 신뢰성 투자 사이의 다음 선택지를 가늠하게 한다. 1
이번 주 시도해볼 것
- InternVL 2.5 데모: 허깅페이스 스페이스에서 오픈 멀티모달 추론을 직접 체험 — https://huggingface.co/spaces/OpenGVLab/InternVL
- ColorBench 살펴보기: 색이 VLM을 어떻게 속이는지 과제·코드를 확인 — https://github.com/tianyi-lab/ColorBench
댓글 (0)