AI 뉴스Research

약 6분 2026. 6. 14.

ReasoningRetrievalReinforcement Fine-TuningAgent SystemsModel Context ProtocolOpen Source

유추 중심 검색으로 추론 향상 — AIME 2025에서 최대 7.1포인트 상승

새로운 사후 훈련 레시피가 유추 인식 검색과 강화 미세조정을 결합한다. HyperTool과 EurekAgent는 도구 호출을 묶고 환경을 설계해 에이전트 안정성을 높이고 11달러 미만 비용으로 새로운 결과를 내는 방식을 보여준다.

기사에서 찾기

읽기 모드

한 줄 요약

AI 에이전트가 재사용 가능한 추론 패턴을 배우고 도구 사용을 압축하는 쪽으로 진화했고, 오픈소스 에이전트가 이를 터미널과 트레이딩 시스템에 연결한다.

Research Papers

유추 중심 검색과 강화 미세조정: 수학 추론 성능 상승

이 연구는 대형 언어 모델(LLM)이 단어가 비슷한 예시가 아니라 같은 “풀이 요령”을 쓰는 풀이 사례를 찾아 참고하도록 만들고, 그 풀이 흔적을 따르도록 강화 미세조정한다. 이 방법은 검색 증강 생성(Retrieval‑Augmented Generation, RAG)을 표면 유사성 대신 추론 이득 중심으로 재구성한 것으로, 이름은 검색 증강 강화 미세조정(Retrieval‑Augmented Reinforcement Fine‑Tuning, RA‑RFT)이다. ¹

구체적으로는 “정답 관련성 증류”로 검색기가 추론에 도움이 되는 문맥을 우선순위로 뽑도록 학습시키고, 검증 가능한 결과 보상 아래 유추 사례로 강화 미세조정한다. 또한 검색된 문맥의 다양성을 분석해, 추론 인식 검색이 문제별로 다른 해법 발판을 제공하는 상호보완적 전략을 드러낸다고 보고한다. ¹

어려운 수학 벤치마크 전반에서 RA‑RFT는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 같은 표준 강화 미세조정보다 일관되게 앞선다. 예를 들어 AIME 2025 average@32 정확도를 Qwen3‑1.7B와 Qwen3‑4B에서 각각 7.1포인트와 2.8포인트 높였고, 이는 검색 품질이 보상 설계나 학습 커리큘럼과는 독립적인 개선 축임을 시사한다. ¹

실무 관점에서 작은 모델에도 적용 가능한 레시피가 도출된다. 유추를 인식하는 검색기와 강화 미세조정을 결합해 재사용 가능한 풀이 패턴을 학습시키고, 수학을 넘어 코딩과 개방형 과제로 이득이 이어지는지 지켜볼 필요가 있다. ¹

HyperTool: 여러 도구 호출을 한 번에 묶는 인터페이스

HyperTool은 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 스타일의 통합 실행형 인터페이스로, 모델이 하나의 코드 블록으로 여러 도구를 호출하고, 중간 값을 로컬로 전달하며, 결정적인 하위 루틴을 추론 기록 밖으로 접어 넣게 한다. 이는 모델이 저수준 데이터 흐름을 한 단계씩 관리하느라 컨텍스트를 소모하는 “실행 세분성 불일치” 문제를 줄인다. ²

교차 도구 합성 과제에서 HyperTool 형식의 궤적을 합성해 학습하고 실제 MCP 환경에서 검증한 결과, MCP‑Universe 평균 정확도가 Qwen3‑32B에서는 15.69%에서 35.29%로, Qwen3‑8B에서는 9.93%에서 33.33%로 상승했으며, 평균 정확도 기준 GPT‑OSS와 Kimi‑k2.5를 넘어섰다. ²

EurekAgent: 자율 연구를 위한 환경 엔지니어링

EurekAgent는 자율 과학 발견의 병목이 에이전트 워크플로 지정보다 에이전트 행동을 규정하는 환경—자원, 제약, 인터페이스—설계로 옮겨가고 있다고 본다. 요컨대 보상 남용을 억제하고 생산적 탐색을 유도하도록 “연구실”을 설계하는 접근이다. ³

허가(경계 실행과 격리 평가), 산출물(파일시스템·Git 협업), 예산(탐색 예산), 인간 개입(감독과 개입)을 네 축으로 엔지니어링했고, 수학·커널 엔지니어링·기계학습 과제에서 최첨단 성과를 보고한다. 특히 26개 원 포장(circle packing) 새 기록을 총 응용 프로그램 프로그래밍 인터페이스(API) 비용 11달러 미만으로 달성했다. ³

저자들은 코드와 결과를 공개하고, 신뢰 가능하고 감사 가능한 연구 에이전트를 위해 ‘환경 엔지니어링’을 핵심 연구 방향으로 제안한다. ³

Open Source & Repos

Qwen Code: 터미널에서 쓰는 AI 코딩 에이전트 v0.18.0

Qwen Code는 터미널에서 동작하는 오픈소스 AI 코딩 에이전트로, 명령줄 인터페이스(Command‑Line Interface, CLI)를 통해 셸을 벗어나지 않고 코드 편집·실행·검사를 도와준다. 다국어 문서와 Node.js 패키지를 제공해 설치가 간단하다. ⁴

2026-06-12에 공개된 v0.18.0은 유지보수 업데이트와 함께 출력 복사 시 ‘생각’ 텍스트를 건너뛰는 CLI 수정이 포함되며, Node.js 22 이상이 필요하다. ⁴

NautilusTrader: Rust 기반 거래 엔진, 블록체인 어댑터 확장

NautilusTrader는 결정론적 이벤트 구동 아키텍처를 채택한 Rust 기반의 실사용급 거래 엔진으로, 재현 가능하고 지연이 낮은 실행이 필요한 퀀트·알고리즘 트레이딩 팀을 겨냥한다. 공개 저장소로 활발히 릴리스된다. ⁵

2026-06-08 배포된 1.228.0 Beta는 블록체인 어댑터에 BSC 체인 지원을 추가하고 UniswapV3·PancakeSwapV3 탈중앙화 거래소(DEX) 등록을 포함했으며, Base에서 부트스트랩·리플레이를 위한 Aerodrome Slipstream 풀 이벤트 시그니처와 파서를 더했다. ⁵

왜 중요한가

더 큰 모델보다 더 나은 구조—어디를 볼지(유추 인식 검색), 어떻게 실행할지(덜 잘게 나눈 도구 실행, 설계된 환경)—에 초점을 맞추는 접근이 어려운 추론 과제에서 수치로 입증된 이득을 내고 있다. ¹

현업 구축 관점에서는, 검색과 강화 미세조정을 결합하고, 반복적인 도구 미시 단계를 접어 넣으며, 예산·권한·산출물을 초기에 설계하고, 성숙해지는 오픈소스 에이전트를 결합하는 것이 실질적 선택지로 보인다. ²

이번 주 시도해볼 것

Qwen Code 터미널 설치: Node.js 환경에서 패키지를 설치하고 셸에서 에이전트 코딩을 체험한다(깃허브 참조). https://github.com/QwenLM/qwen-code
HyperTool 예시 읽기: 한 개 코드 블록으로 여러 도구를 오케스트레이션하는 방식을 논문에서 확인하고 MCP‑Universe 정확도 수치를 비교해본다. https://arxiv.org/abs/2606.13663v1

출처 5

[1] Arxiv Learning to Reason by Analogy via Retrieval-Augmented Reinforcement Fine-Tuning [2] Arxiv HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents [3] Arxiv EurekAgent: Agent Environment Engineering is All You Need For Autonomous Scientific Discovery [4] Github QwenLM/qwen-code: An open-source AI coding agent that lives in your terminal. [5] Github nautechsystems/nautilus_trader: Production-grade Rust-native trading engine with deterministic event-driven architecture

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집