에이전트가 하니스를 스스로 설계한다 — 신뢰성 자동화를 향한 메타‑진화
새 논문이 에이전트의 프롬프트·도구·평가 루프를 자동화하고, 새로운 강화학습 기법과 까다로운 논문 검색 벤치마크가 오늘의 한계를 드러낸다.
한 줄 요약
에이전트 성능의 무게중심이 ‘모델’에서 ‘하니스(운용층)’로 이동한다 — 하니스를 스스로 진화시키는 프레임워크, 단순해진 확률모형 강화학습, 그리고 논문 검색 벤치마크가 현재의 취약점을 드러낸다.
Research Papers
The Last Harness You'll Ever Build: 메타‑진화로 하니스 자동 설계
이 논문은 에이전트가 작업에 필요한 프롬프트·도구·오케스트레이션·평가 로직, 즉 ‘하니스(harness)’를 사람이 짜지 않고 자동으로 설계·개선하도록 만드는 두 단계 루프를 제안한다. 대상 작업은 수십 번의 클릭과 폼 입력이 필요한 엔터프라이즈 웹, 검색→추출→종합의 다단계 리서치, 낯선 저장소의 코드 검토, 고객 이슈 처리 등 실무형 과제다. 1
1단계 ‘하니스 진화 루프’에서는 워커 에이전트가 현재 하니스로 작업을 수행하고, 평가 에이전트가 실패를 적대적으로 진단·채점하며, 진화 에이전트가 모든 시도 이력을 바탕으로 하니스를 수정한다. 이렇게 반복하며 프롬프트, 도구, 정책을 조여 간다. 1
2단계 ‘메타‑진화 루프’는 진화 프로토콜 자체(Λ = (W_H, H^(0), V, E))를 다양한 작업에 걸쳐 최적화해, 새로운 도메인에 투입했을 때 빠르게 수렴하는 Λ^(best)를 학습한다. 수작업 하니스 엔지니어링을 자동 하니스 엔지니어링으로 옮기고, 더 나아가 ‘자동화의 설계’까지 자동화하려는 시도다. 1
이는 현장의 흐름과 맞닿아 있다. 실제 배포 환경에서 성패를 가르는 것은 모델이 아니라 시스템 계층이다. 메모리·상태·오류 복구·도구 거버넌스가 핵심이며, 하니스를 ‘애플리케이션’으로 보고 상태를 프레임워크 간에 이식·조회 가능한 형태로 관리해 락인 위험을 낮추는 설계가 중요해지고 있다. 2
V-GRPO: 온라인 강화학습으로 확률모형 정렬을 더 쉽게
V‑GRPO는 증거 하한(ELBO) 기반 대리함수를 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)와 결합해 노이즈 제거 생성모델을 사람/검증 가능한 보상에 맞추도록 정렬한다. 텍스트‑투‑이미지에서 최신 성능을 보이며 MixGRPO 대비 2배, DiffusionNFT 대비 3배 속도를 보고했고, 구현도 단순하다. 3
대형 언어 모델(LLM) 에이전트의 강화학습(RL)에는 숨은 실패 모드가 있다. 새 연구는 입력 간 구분 없이 템플릿만 다양해 보이는 ‘템플릿 붕괴’를 확인했고, 엔트로피보다 상호정보량(MI)이 추론 품질을 더 잘 가리킨다고 제시했다. 또한 신호대잡음비(SNR) 기반 필터링으로 보상 분산이 큰 프롬프트를 선택해 계획·수학·웹 내비게이션·코드 실행에서 입력 의존성과 성능을 함께 높였다. 4
강화학습 외에도 프롬프트 개선만으로 능력을 여는 사례가 있다. 3DAxiesPrompts는 입력 이미지에 3차원 좌표계와 스케일을 오버레이해 GPT‑4V가 2D→3D 포인트 복원, 2D→3D 포인트 매칭, 3D 객체 탐지를 새 데이터셋(3DAP‑Data)에서 안정적으로 수행하도록 했다. 5
과학 영상 영역에서는 DRACO가 529종 단백질에서 선별한 cryo‑EM 무비/마이크로그래프 27만 장 이상을 사용해, 홀짝 프레임을 Noise2Noise 방식으로 학습하는 ‘잡음 제거‑재구성’ 오토인코더를 사전학습했다. 이후 범용 노이즈 제거기이자 마이크로그래프 선별·입자 추출의 기반 모델로 일반화해 기존 기법을 앞섰다. 6
AutoResearchBench: 에이전트의 ‘논문 찾기’ 능력을 가늠하다
AutoResearchBench는 자율 문헌 발굴을 두 과제로 평가한다. 목표 논문을 단계적으로 추적하는 Deep Research, 조건을 만족하는 논문 집합을 모으는 Wide Research다. 강력한 모델들도 Deep Research 정확도 9.39%, Wide Research IoU 9.31%에 그쳤고, 데이터셋과 평가 파이프라인이 함께 공개됐다. 7
이 벤치마크는 일반 웹 브라우징과 달리 연구 지식 중심, 문헌 세부 정보 중심, 그리고 정답 개수가 정해지지 않은 개방형 문제로 구성돼, 개념 이해와 서지 정보(제목·학회/저널·연도 등)의 정밀 활용을 요구한다. 7
맥락 과부하를 줄이는 한 방향은 ‘스킬 검색 증강’이다. 가능한 스킬을 컨텍스트에 열거하는 대신, 26,262개 스킬 코퍼스(SRA‑Bench, 5,400개 테스트, 정답 스킬 636개)에서 관련 스킬을 검색해 쓰는 방식으로 성능을 높였지만, 실제 필요 여부와 무관하게 스킬을 과도하게 불러오는 ‘통합’의 병목도 드러났다. 8
아울러, 에이전트 연구 전반은 아키텍처·프레임워크, 멀티에이전트, 응용, 안전, 윤리·책임·거버넌스로 흩어져 있어 표준화된 재현 가능 평가의 필요성이 커지고 있다. 9
GoClick: 2.3억 파라미터로 GUI 요소를 정확히 짚다
GoClick은 자연어 지시만으로 스크린샷 속 버튼·입력란·메뉴를 찾아내는 비전‑언어 모델(VLM)로, 2.3억(230M) 파라미터임에도 여러 GUI 그라운딩 벤치마크에서 훨씬 큰 모델과 대등한 성능을 보인다. 10
저자들은 소형에 불리한 디코더 전용 구조를 축소하기보다, 소형에서도 유리한 인코더‑디코더 구조를 채택했고 1,080만(raw)에서 과제 유형 필터링과 비율 조정으로 380만 코어 샘플을 추린 ‘점진적 데이터 정제’로 정확도를 끌어올렸다. 또한 디바이스‑클라우드 협업에서 요소 위치 지정기로 클라우드 계획기의 성공률을 높였다. 10
이는 많은 앱이 응용프로그램 인터페이스(API)를 제공하지 않는 현실에서, 에이전트가 화면을 ‘보고·조작’하게 만드는 GUI 격차 해소에 초점을 둔 접근이다. 11
동시에, 엣지 배치에서 지연을 줄이고 데이터를 로컬에 두려는 온디바이스 다중모달 추론 흐름과도 맞물린다. 12
Open Source & Repos
vllm-mlx: Apple Silicon용 OpenAI·Anthropic 호환 로컬 서버
vllm‑mlx는 M 시리즈 Mac에서 동작하는 vLLM 스타일 추론 서버로, 연속 배칭과 멀티모달, MLX 백엔드, 모델 컨텍스트 프로토콜(MCP) 도구 호출을 제공하며 OpenAI·Anthropic 호환 API를 동시에 지원한다. 프로젝트는 초당 400개+ 토큰과 Claude Code 연동을 알리고 있다. 13
0.2.9 릴리스(2026-04-22)는 보안 강화를 중점으로, 실행 엔드포인트 MCP 샌드박스 강제, 고위험 도구 기본 차단, 인라인 인터프리터 플래그 차단 등을 포함했다. 13
하나의 로컬 서버에서 Llama, Qwen‑VL, LLaVA 등을 Apple Silicon에서 돌리면서도 익숙한 OpenAI·Anthropic 클라이언트를 그대로 쓰고자 하는 개발자에게 적합하다. 13
왜 중요한가
하니스를 자동화하고, 나아가 그 진화 과정까지 자동화하면, 노력의 초점이 프롬프트 다듬기에서 상태·메모리·도구 사용·복구·평가를 설계하는 시스템 공학으로 옮겨간다. 실제 신뢰성은 이 층에서 확보된다. 1
동시에, 벤치마크와 학습 진단이 문헌 발굴 9~10% 수준의 성과, RL 환경에서의 추론 붕괴 등 구체적 취약점을 드러내며 개선을 위한 측정 가능한 목표와 더 안전한 경로를 제시한다. 7
이번 주 시도해볼 것
- vllm‑mlx 로컬 서버 띄우기: pip install vllm-mlx 후 README대로 OpenAI·Anthropic 호환 서버 실행. https://github.com/waybarrios/vllm-mlx
- AutoResearchBench 논문에서 Deep/Wide 예시 살펴보고 직접 수동 검색을 해 보며 난이도를 체감. https://arxiv.org/abs/2604.25256
댓글 (0)