AI 뉴스Research

약 8분 2026. 5. 18.

RLVRReinforcement LearningOmni-modalVisual reasoningAgentsmacOS

새 보상 학습 기법으로 LLM이 무작위 128개 예시만으로 학습

단 128개 예시로 전체 데이터 수준을 따라잡는 소량 예시 강화학습이 나왔고, 편향을 제거한 옴니모달 벤치마크가 성능을 재정의했습니다. 또 macOS용 로컬 AI 에이전트 앱이 실사용으로 다가옵니다.

기사에서 찾기

읽기 모드

한 줄 요약

오늘의 흐름은 “적게 가르쳐 더 멀리 간다”이다: 소량 예시로 강화학습을 돌려 정확도를 유지하고, 시각 편향을 걷어낸 옴니모달 평가로 진짜 실력을 측정하며, macOS용 로컬 AI 에이전트 앱이 실사용에 가까워진다.

Research Papers

FEST: 소수 예시로 검증 가능한 보상 강화학습을 끌어올리기

이 연구는 수학과 코딩 문제에 대해, 무작위로 뽑은 128개의 정답 예시만으로 학습을 가이드하면서 자동 검증 가능한 보상으로 강화학습을 진행하는 방법을 제안한다. 이는 검증 가능한 보상 기반 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR) 위에 서 있는데, RLVR은 체계적으로 정오를 판정할 수 있지만 단계별 추론(Chain‑of‑Thought, CoT) 롤아웃을 충분히 모으기 어려워 표본 효율이 낮다는 한계가 있었다. ¹

제안 기법 FEST(FEw‑ShoT demonstration‑guided RLVR)는 세 가지를 결합한다: 지도 미세조정(Supervised Fine‑Tuning, SFT) 신호, 온폴리시(on‑policy) 신호, 그리고 소수 예시에 대한 가중치 감쇠로 여러 에폭 학습에서 과적합을 막는다. 요컨대, 소수의 확실한 정답으로 학습을 가볍게 고정(anchor)하면서도, 검증 가능한 보상을 통해 모델이 탐색하고 개선하게 만든다. ¹

여러 벤치마크에서 FEST는 훨씬 적은 SFT 데이터로 기준선보다 우위를 보였고, 전체 데이터셋을 쓰는 설정과 성능을 맞추기도 했다. 이는 어려운 문제에서도 정확도를 유지하면서 데이터 수집 비용을 줄일 수 있음을 시사한다. ¹

재현 가능성을 위해 저자들은 추론 롤아웃 평가 데이터를 허깅페이스에 공개해, 팀들이 결과를 재현하고 가이드가 단계별 추론 경로에 어떤 영향을 주는지 살필 수 있게 했다. ²

OmniBoost + OmniClean: 시각 편향을 걷어낸 평가에서 단계적 사후학습

이 연구는 옴니모달(오디오‑비전‑언어) 성능 향상이 진짜 통합 능력인지, 아니면 시각만으로 풀 수 있는 지름길 덕분인지 점검한다. 저자들은 9개 벤치마크를 시각 단독으로 재검증하고, 이미지 단서만으로 풀리는 문항을 제거해 OmniClean을 만든다. 심사된 16,968개 중 8,551개를 유지해 다중 모달 추론을 더 정직하게 재는 평가 세트를 제시한다. ³

그리고 Qwen2.5‑Omni‑3B 기반 OmniBoost를 세 단계로 사후학습한다: 혼합 양자(SFT), 혼합 모달리티 RLVR, 그리고 자기 증류 데이터로 SFT. 균형 잡힌 양자 SFT는 제한적·불균형 향상을 보였고, 혼합 모달리티 RLVR이 처음으로 전반적 개선을 제공했다. 마지막 자기 증류 SFT 후에는 3B 모델이 더 큰 Qwen3‑Omni‑30B‑A3B‑Instruct에 비견되고, 총합에서는 약간 앞서는 수준에 도달했다. 저자들은 재현을 돕는 평가 자산도 허깅페이스에 제공한다. ³

ViMU: 비디오에서 은유·풍자·사회적 함의를 평가하기

대부분의 비디오 AI는 사물·행동 같은 표면 인식에는 강하지만, 유머·풍자·문화적 맥락 같은 함의를 이해하는 데는 약하다. ViMU는 모델이 오디오‑비전‑언어 근거에 기반해 암시적 의미를 추론하는지를 평가하는 벤치마크를 제안한다. 모든 문항은 힌트를 주지 않도록 설계되었고, 주관식과 객관식이 함께 포함된다. ⁴

면접 평가 맥락에서 “말하지 않은 것”을 읽어내는 다중모달 프레임워크도 병행 연구가 진행 중이다. 한 프레임워크는 영상·음성·텍스트 3개 모달과 6회 응답, 5개 평가 차원을 함께 다루어, 다차원 평균 MSE 0.1824를 기록하며 AVI Challenge 2025 1위를 달성했다고 보고한다. 이는 함의 평가를 위한 강건한 지표와 융합 전략에 대한 관심이 커지고 있음을 보여준다. ⁵

ATLAS: 한 개의 기능 토큰으로 에이전트형·잠재 시각 추론을 동시에

ATLAS는 시각 연산을 상징하는 단일 이산 “기능 토큰”을 도입한다. 이 토큰은 토크나이저의 일반 토큰이므로, 중간 이미지를 무겁게 생성하거나 외부 도구를 호출하지 않고도 다음 토큰 예측만으로 시각 추론을 수행할 수 있다. 또한 ATLAS는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 변형한 잠재 앵커드 GRPO(Latent‑Anchored GRPO, LA‑GRPO)를 제안해, 기능 토큰에 보조 목적을 부여해 강화학습을 안정화한다. ⁶

이 설계는 별도 아키텍처 변경 없이 표준 지도 학습과 강화학습에 그대로 호환되며, 도구 호출식 에이전트가 겪는 컨텍스트 전환 지연을 줄이고 해석 가능성을 높인다. 별도의 제안서인 BetaWeb은 블록체인을 결합해 대규모 자율 에이전트를 위한 신뢰·감사·인센티브 기반 “에이전틱 웹” 인프라의 필요성을 논의한다. ⁶ ⁷

Open Source & Repos

Osaurus: macOS용 로컬·클라우드 AI 에이전트 허니스

Osaurus는 Swift로 작성된 오픈소스 macOS 앱으로, 로컬 모델과 클라우드 제공자를 오가며 에이전트를 실행하고, 도구·파일·메모리를 사용자 기기에 유지한다. 애플 온디바이스 모델, Liquid AI의 LFM 계열을 지원하고, 클라우드에서는 OpenAI, Anthropic, Gemini, xAI/Grok, Venice AI, OpenRouter, Ollama, LM Studio에 연결할 수 있다. 또한 전체 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 서버로 동작해 MCP 호환 클라이언트에 로컬 도구를 노출할 수 있고, 메일·캘린더·브라우저·파일시스템·Git 등 20개 이상 플러그인을 내장한다. ⁸

외부 보도에 따르면 누적 다운로드는 112,000회를 넘었고, 보안을 위해 하드웨어 격리 샌드박스를 사용하며, 음성 기능도 추가됐다. 로컬 모델 실행을 위해 최소 64GB RAM(대형 모델은 약 128GB)을 권장한다. Osaurus는 개발자 지향 허니스와 달리 일반 사용자가 쓰기 쉬운 인터페이스를 제공하면서, 완전 오프라인·오픈소스라는 점을 내세운다. ⁹

왜 중요한가

소수의 정답 예시(128개)만으로도 검증 가능한 보상 강화학습을 충분히 이끌 수 있음이 확인됐다. 동시에 옴니모달 평가를 정제(16,968개 중 8,551개 유지)하면 시각 지름길이 아닌 진짜 통합 추론을 측정할 수 있다. 더 많은 데이터보다 더 똑똑한 감독 신호와 더 엄격한 측정이 효율적임을 뒷받침한다. ¹ ³

도구 측면에서는 로컬 에이전트를 macOS에서 간편히 묶어주는 Osaurus가 프라이버시 민감 작업과 오프라인 워크플로에 실용적 대안을 제시한다. 데이터가 있는 곳에서 AI를 돌리는 사용자 통제형 스택으로의 이동을 시사한다. ⁸ ⁹

이번 주 시도해볼 것

Osaurus 설치: 최신 릴리스를 내려받아 로컬 모델을 띄우고 Browser·Filesystem 같은 플러그인을 붙여 도구 사용 흐름을 확인한다. ⁸
OmniBoost + OmniClean 읽기: 필터링 방식과 3단계 사후학습 레시피를 훑고, 8,551 대 16,968 문항 수치가 평가를 어떻게 바꾸는지 살핀다. ³

한눈에 보기

오늘의 퀴즈

요약에 따르면 FEST는 제한된(128개) 시연을 어떻게 활용해 검증 가능한 보상 기반 강화학습을 개선하는가?

출처 11

[1] Arxiv Boosting Reinforcement Learning with Verifiable Rewards via Randomly Selected Few-Shot Guidance [2] Huggingface shutingmi/rollout_eval_data_20260515_144708 [3] Arxiv Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation [4] Huggingface VmaxRL/swebench-pro-public-dev-eval-v0-image-refs-20260516 [5] Huggingface soonweihong0857/so101_smolvla_task_20260517_005923 · Datasets at Hugging Face [6] Arxiv ViMU: Benchmarking Video Metaphorical Understanding [7] Arxiv Listening to the Unspoken: Exploring “365” Aspects of Multimodal Interview Performance Assessment [8] Arxiv ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both [9] Arxiv BetaWeb: Towards a Blockchain-enabled Trustworthy Agentic Web [10] Github osaurus-ai/osaurus: Own your AI. The native macOS harness for AI agents -- any model, persistent memory, autonomous exec [11] Techcrunch Osaurus brings both local and cloud AI models to your Mac

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집