Hyperagents: 코딩 정렬 한계를 넘는 자기참조형 ‘메타인지 자기개선’ 에이전트
DGM-Hyperagents가 ‘개선 방법을 개선’하도록 메타 절차까지 편집 가능하게 만들었고, Phi-4 Reasoning‑Vision은 중간 결합과 시각 해상도 전략의 실전 트레이드오프를 수치로 제시했다.
한 줄 요약
‘하이퍼에이전트’가 자기개선의 규칙 자체를 고치며 진화하고, 멀티모달 모델은 도움을 ‘언제’ 요청할지, 멀티홉으로 ‘어떻게’ 추론할지, 픽셀 단위로 ‘어디’를 근거로 삼을지 배우고 있습니다.
LLM & SOTA Models
Microsoft Phi-4-reasoning-vision-15B
마이크로소프트는 15B 파라미터의 오픈웨이트 멀티모달 추론 모델을 공개했습니다.SigLIP-2 비전 인코더를 쓰는 미드-퓨전 설계로, ChartQA·MathVista·MMMU·ScreenSpot 일부 벤치마크에서10배 느리고 토큰을 더 쓰는 모델과 비슷한 정확도를 보입니다. 학습은 약200B 멀티모달 토큰과 Phi-4-reasoning(16B 토큰), Phi-4(400B 유니크 토큰)를 활용해, 최근1T+ 토큰을 쓰는 대형 VLM 대비 훨씬 절약적입니다. 1
고해상도 입력 처리에선 동적 해상도 인코더가 GUI 과제에 유리했습니다. 3600 토큰 동적 설정은 ScreenSpot-Pro**17.5%**로 멀티크롭 대비 우위를 보였고, 토큰/지연 증가 없이 고밀도 화면 요소에 잘 대응했습니다. 1
텍스트 계열 맥락도 중요합니다. Phi-4-reasoning(14B)은 AIME 2024에서 75.3%–81.3%를 기록했고, 비전 라인은 “작지만 잘 가르친” 철학을 계승했습니다. 한편Phi‑3 Vision ** (4.2B)은아이폰14에서 ~49ms/프레임**,DocVQA 90.1%,2.6GB 양자화 크기로 진짜 엣지 배치를 보여줬습니다. 정확도–배포성의 파레토 균형을 드러낸 사례입니다. 2 3 4
Open Source & Repos
Omni-WorldBench
Omni-WorldBench는 4D 월드 모델(공간 구조+시간 변화)을 ‘상호작용 반응성’으로 평가하는 포괄 벤치마크입니다. (1) 다양한 상호작용/장면을 아우르는 Omni-WorldSuite 프롬프트 세트와, (2) 행동이 중간 상태와 최종 결과에 미치는 인과적 영향을 수치화하는Omni-Metrics 에이전트 평가기를 제공합니다. 공개 초기부터18개 월드 모델을 비교해 ‘행동하면 진짜 상태가 바뀌는가’를 본격 측정합니다. 5
이는 기존 비디오 생성/3D 재구성 벤치마크가 시각 품질이나 정적 기하에 치우친 한계를 보완합니다. 로봇 조작(예: 집게로 과자 봉지를 집어 바구니에 넣기)이나 카메라 트래젝터리 등, 개입에 따른 상태 전이가 핵심인 실제 과제와 정렬된 평가입니다. 5
런칭 시 별 97개 수준의 관심과 함께 2026년 3월 arXiv 프리프린트가 공개되었습니다. 향후 4D 모델군 비교의 공통 잣대로 자리잡을 가능성이 큽니다. 5
Research Papers
Hyperagents: 자기참조형 자기개선 에이전트
기존 자기개선 시스템은 “과제를 잘하면 자기개선도 잘한다”는 가정을 깔고 있습니다(코딩처럼 평가·수정이 모두 코드인 영역에선 성립). 하이퍼에이전트는 이 전제를 깹니다. 과제 에이전트와 메타 에이전트를 하나의 편집 가능한 프로그램으로 통합하고, 더 중요하게는 ‘수정 절차 자체’도 수정 가능하게 만들어 메타 인지적 자기수정을 실현합니다. 6
구현체 DGM-Hyperagents ** (DGM-H)는 다윈 괴델 머신(DGM)을 확장해, 코딩을 넘어 “계산 가능한 임의 과제”에서 열린 자기개선을 지향합니다. 코딩·논문 리뷰·로보틱스 보상 설계·올림피아드 급 수학 해설 채점 등에서 시간이 지날수록 성능이 계속 오르고, 자기개선이 없거나 탐색이 닫힌 베이스라인 및 기존 자기개선 계열을 능가했습니다. 특히지속 메모리·성과 추적** 같은 일반 전략을 스스로 발명해 도메인 간 전이·런 간 누적을 보였습니다. 7 6
외부 해설은 ‘고정된 메타 최적화기’ 제거를 핵심으로 짚습니다. 이제 “어떻게 개선할지”를 결정하는 로직도 진화 대상입니다. 이로써 코딩 정렬 가정에 묶이지 않고, 경험적으로는 도메인 간 전이를 보였지만(이론 보장은 아님) 오픈소스 CC BY 4.0 코드로 재현·확장이 가능합니다. 8 9
ProactiveBench: 멀티모달 LLM의 ‘능동성’ 평가
ProactiveBench는 모델이 무리해서 추측하기보다, 예를 들어 가림을 치워달라고 ‘도움을 요청할 타이밍’을 아는지 묻습니다. 7개 데이터셋을 재구성해 가림 해소, 화질 개선, 러프 스케치 해석 등에서의 능동성을 평가하고, 22개 MLLM을 측정한 결과 전반적 결핍, 용량과의 비상관, ‘힌트’의 미미한 효과를 보고합니다. 10
의외로 대화 이력과 인컨텍스트 러닝이 부정 편향을 유발해 성능을 깎는 경우가 발견됐습니다. 이는 능동성이 디코딩 트릭이 아니라, 별도의 학습 신호가 필요한 행동임을 시사합니다. 간단한 강화학습 기반 미세조정으로 능동성이 학습·미지 시나리오로 전이 가능함도 확인했습니다. 10
보완 연구로는 언어 편향에 묻히는 미세 시각 단서를 끌어올리는 플러그인 **Attention Re-Alignment ** (ARA)가 있습니다. 정보성이 높은 중간 레이어를(피크·엔트로피로 선택) 집계해 의미 마스크를 만들고, 여러 VQA 벤치마크에서 일관된 개선을 보였습니다. 능동 행동과 결합될 수 있는 ‘더 나은 시각 그라운딩’ 경로입니다. 11
시각 표현 붕괴를 막는 예측 정규화
디코딩이 진행될수록 언어 편향이 커지며 시각 표현이 희석되는 문제를, 학습 단계의 예측 정규화로 완화하려는 시도가 제안됩니다. 이는 ARA 같은 사후 가이드 없이도 미세 정보를 유지하려는 접근으로, 고해상도·UI 중심 작업에서 토큰/지연을 억제하는 데 보탬이 될 전망입니다. 아직 초기지만 VLM 그라운딩 드리프트의 ‘학습 시점’ 해결책으로 주목됩니다. 12
HopChain: 일반화 가능한 비전-언어 멀티홉 추론을 위한 데이터 합성
멀티모달 장문의 체인 오브 소트(CoT)는 지각→추론 오류가 누적되기 쉽습니다. HopChain은 각 홉이 이전 시각 근거에 의존하도록 멀티홉 질의를 합성하고, 최종 답을 검증 가능한 수치로 만들어 RLVR(시각추론 강화학습)에 적합하게 합니다. Qwen3.5-35B-A3B·397B-A17B에 HopChain 데이터를 추가하면 STEM, VQA, 문서·OCR, 동영상 등24개 중 20개 벤치마크가 개선됩니다. 13
중요한 건 ‘완전한 체인’입니다. 절반/단일 홉으로 대체하면 평균 정확도가 각각 5.3,7.0포인트 하락했고, 초장문 CoT에선50+ 포인트 급상승이 관측됐습니다. ‘잘 구조화된 단계’가 모델 규모를 키우는 것 못지않게 강력한 개선책임을 보여줍니다. 13 14
업계/커뮤니티 반응도 “스케일보다 데이터 아키텍처”에 방점을 찍습니다. 검증 가능한 멀티홉 체인은 중소형 모델도 폐쇄형 대비 격차를 좁히는 실전 레시피가 됩니다. 15
DualCoT-VLA: 시각·언어 CoT의 병렬 추론으로 행동까지 잇기
DualCoT-VLA는 시각과 언어의 체인 오브 소트를 병렬로 굴려, “무엇을 봤는가”와 “무엇을 할 것인가”의 공신력 있는 연결을 목표로 합니다. 단일 거대 체인 대신 두 흐름을 동기화·결합해, 장기 과제에서 지각-행동의 공적 배분 혼선을 줄입니다. 초기 보고는 지각과 행동 명세의 정합성이 개선됨을 시사합니다. 16
로보틱스·UI 에이전트처럼 지각 실수와 계획이 얽히기 쉬운 영역에서 특히 유용하며, 긴 수평선 과제의 신뢰도를 높이는 구조적 장치로 볼 수 있습니다. 16
TerraScope: 지상관측을 위한 픽셀-그라운딩 시각 추론
TerraScope는 픽셀 수준 그라운딩으로 광학/SAR 단일·융합 입력과 다중 시점을 아우르는 변화를 추론합니다. reasoning 체인에 분할 마스크를 포함한 Terra-CoT ** (100만 샘플)과, 정답과 마스크 품질을 함께 평가하는6개 하위 과제의TerraScope-Bench**를 공개했습니다. 17
결과는 기존 VLM 대비 큰 폭의 향상과, 결정 근거를 픽셀 마스크로 보여주는 투명성을 제시합니다. 실무 요약은 일부 과제에서 GPT‑4o 등 강력 모델과의 경쟁력을 언급하며, 지리/정책 분야에서 감사 가능한 근거가 큰 가치를 가짐을 강조합니다. 18 19
연관 연구로 3D 비주얼 그라운딩에서 공간 인지 인코더와 LLM 기반 타깃 보정으로 오인식을 줄이는 방법이 제안되어, 위치·기하 단서와 멀티모달 융합의 중요성을 재확인합니다. 20
커뮤니티 반응
Hacker News (93↑) — 콤팩트 로컬 모델과 벤치마크 도약엔 감탄, 그러나 ‘현실 세계 이해’로 이어지는가에 대해 회의 혼재.
“이런 진전 소식을 보니 기쁘지만 특별히 놀랍진 않아요. 큰 연구실들은 우선 벤치마크에서의 정확도/높은 점수를 최적화하고, 약간의 연구 노력이 더해지면 파라미터가 100배 적은 모델도 같은 점수를 낼 수 있다고 자동으로 예상합니다.” — Hacker News
“알아요 ㅋㅋ 그게 제 요지예요. GPU에서 돌린다니 인상적이긴 한데, 그래도 유리잔을 기울이면 무슨 일이 일어나는지 알려주지는 못하잖아요. 그게 월드 모델이 목표로 하는 거고요. 하지만 그럼 뭐가 달라지죠? 완벽한 시뮬레이터만 얻을 뿐이잖아요. 유리가 기울어진다는 건 알지만 왜 누가 기울였는지, 만약 기울이지 않았다면 무슨 일이 일어나는지는 모르죠. 네 살짜리 아이는 이걸 할 수 있고 우리는 겨우 1.5단계쯤에 있는 것뿐입니다.” — Hacker News
왜 중요한가
오늘의 공통점은 ‘스케일보다 구조’입니다. 하이퍼에이전트는 고정 메타 최적화기를 없애 개선 루프 자체를 진화시키고, ProactiveBench·HopChain은 “도움을 청할 타이밍”과 “근거를 잇는 멀티홉 단계”로 학습 신호를 재설계했으며, TerraScope는 픽셀 단위로 답을 증거화합니다. 더 큰 모델 없이도 실제 과제에서 큰 폭의 개선이 가능합니다. 6 10 13 17
개발자 관점에선, ‘편집 가능한 개선 루프’, ‘마일스톤·멀티홉 감독’, ‘공간적 그라운딩’ 같은 구조적 장치가 배포 가능한 소형 모델(Phi-4-reasoning-vision, 엣지 대응 Phi‑3 Vision)과 결합될 때 실전 성과를 냅니다. 먼저 구조를 바로 세우고, 필요한 지점에서만 스케일을 키우는 전략이 유효합니다. 1 3
댓글 (0)