AI 뉴스Research

약 6분 2026. 4. 20.

medical imagingAI agentsRAGweb generationChrome CDPagent harness

의사가 검증할 수 있는 단계별 CT 리포트 AI가 나왔다

RadAgent는 흉부 CT 판독을 도구 기반의 단계형 워크플로로 바꾸고 정확도와 강건성을 끌어올렸다. 동시에 지식 탐색, 일관된 웹 UI 생성, 모델을 감싸는 ‘하니스’가 주목받고 있다.

기사에서 찾기

읽기 모드

한 줄 요약

에이전트가 한 번에 답을 뱉는 시대에서 벗어나, 의료는 단계별 추론을 공개하고 기업 문서는 ‘지식 지도’를 내비게이션하며, 브라우저 자동화는 얇은 하니스로 실무 신뢰성을 높이고 있다.

Research Papers

RadAgent: 흉부 CT를 단계별로 해석하는 도구 기반 에이전트

이 시스템은 흉부 CT를 한 번에 해석하지 않고, 계획–도구 호출–중간 판단을 차례로 진행해 리포트를 작성하며 그 전 과정을 기록으로 남긴다. 즉, 의사가 어디를 어떻게 판단했는지 모든 흔적을 열람·검증·수정할 수 있게 만드는 해석 워크플로로 바꾼다. ¹

논문은 3D 시각-언어 기반인 CT-Chat 대비 의미 있는 향상을 보고한다. 매크로 F1은 6.0포인트(상대 36.4%), 마이크로 F1은 5.4포인트(상대 19.6%) 올랐고, 적대적 조건에서의 강건성은 24.7포인트(상대 41.9%) 개선됐다. 특히 리포트가 자체 추론 기록으로 뒷받침되는 비율인 ‘정합성(faithfulness)’이 37.0%로, 기준선에는 없던 능력을 보였다. 쉽게 말해 임상 사실을 더 많이 맞히고, 근거를 함께 제시한다. ¹

의료처럼 고위험 환경에서 중간 단계와 도구 호출을 모두 노출하는 방식은 실무 에이전트 운영 조언과 맞닿아 있다. 무한 재시도나 조용한 실패 같은 문제는 모델의 지능보다 상태 관리·가시성·사람 개입의 부족에서 온다는 현장 보고가 반복되고 있으며, 명시적 상태 기계와 휴먼 체크포인트가 이를 줄인다. ²

앞으로의 관전 포인트는 외부 데이터셋 검증, 방사선 워크플로(PACS/RIS) 연계, 그리고 정합성 지표가 실제 추가 보고 감소로 이어지는지다. 핵심은 한 번의 생성이 아닌 구조화된 추론 노출이라는 설계가 안전하고 감사 가능한 임상 AI로 가는 길을 제시한다는 점이다. ¹

Don't Retrieve, Navigate: 기업 지식을 ‘탐색 가능한 기술 트리’로 증류

이 연구는 답변 전에 ‘라이브러리 지도’를 에이전트에게 준다. 문서 집합을 오프라인에서 계층적 기술 디렉터리로 컴파일해 요약 트리를 만들고, 서빙 시 에이전트가 큰 그림을 보고 가지를 따라 내려가거나 되돌아가며 필요하면 원문 문서를 ID로 불러온다. 단순 상위 검색 결과를 수동 소비하는 대신, 어디를 볼지 스스로 판단하게 한다. ³

Corpus2Skill이라 부르는 이 파이프라인은 문서를 군집화하고 각 노드에 요약을 생성해 탐색 가능한 파일 트리를 만든다. WixQA(엔터프라이즈 고객지원 벤치마크)에서 조밀 검색, RAPTOR, 에이전트형 RAG 기준선을 모든 품질 지표에서 앞서며, 말 그대로 ‘지식의 지형’을 드러내 주는 것이 다단계 추론과 근거 결합에 유리함을 시사한다. ³

실무에서 검색 증강 생성(RAG), 에이전트 메모리, 위키식 지식 정리 중 무엇을 쓸지 고민할 때, 이 논문은 ‘사전 조직화→서빙 시 내비게이션’으로 추론의 무게중심을 앞당기는 선택지를 보여준다. 이는 RAG가 기본적으로 상태가 없고, 청크로 구조가 약화되는 반면, 위키/내비게이션 계층은 초기 비용을 들여 이후 질의와 종합을 가볍게 만든다는 실무 정리와도 맞닿아 있다. ⁴

MM-WebAgent: 멀티모달 웹페이지 생성을 위한 계층형 에이전트

이 에이전트는 전체 레이아웃을 먼저 설계한 뒤, 그 계획에 맞춰 이미지·영상·컴포넌트를 생성·통합하고 필요하면 반성 루프를 돌며 조율한다. 즉, 요소를 따로따로 만들다 스타일이 어긋나는 문제를 줄이고, 처음부터 끝까지 일관된 웹페이지를 만든다. ⁵

저자들은 멀티모달 웹페이지 생성 벤치마크와 다단 평가 프로토콜도 제시한다. 실험에서는 코드 생성과 기존 에이전트 기반 방법을 앞섰고, 특히 멀티모달 요소 생성·통합에서 격차가 컸다. 코드와 데이터는 논문 링크를 통해 공개돼 있다. ⁵

이런 계층적 계획–행동–자기점검 루프는 데스크톱/웹 에이전트의 실전 운영 방식과 닮아 있다. 화면을 보고 제한된 행동을 택한 뒤 다시 관찰하고 조정하는 고리다. 픽셀 기반 상호작용을 택한 Claude의 데스크톱 제어 구조 분석은, 플랫폼별 API보다 화면 기반 루프가 다양한 앱에서 더 견고하다는 맥락을 제공한다. ⁶

Open Source & Repos

browser-use/browser-harness: 브라우저 작업을 끝내는 자가 복구 하니스

이 저장소는 브라우저 에이전트를 위한 최소 하니스를 제공한다. Chrome DevTools Protocol 위에 얇게 얹었고, 작업 도중 에이전트가 하니스를 직접 수정해 누락된 함수(예: upload_file)를 추가한 뒤 이어서 완료할 수 있다. 메시지는 단순하다. 프레임워크 없이 크롬에 한 줄(WebSocket)만 연결한다. ⁷

대상은 모델보다 ‘감싸는 층’이 더 중요해진 현실을 체감하는 팀이다. 최근 실무 보고에 따르면 하니스(프롬프트, 스킬, 서브에이전트, 제약 디코딩, 파서)가 신뢰성을 좌우하고, 최상위 모델 간 격차는 줄고 있다. 얇고 수정 가능한 하니스는 고장 나는 표면을 줄인다. ⁸

에코시스템 맥락: 셀프 호스팅 브라우저 에이전트를 원하는 경우, 다수 모델을 선택해 쓰는 무료 오픈소스 확장(WebBrain)이나 Claude Code용 스킬 플러그인 모음처럼, 능력을 모델 밖으로 분리해 이식성과 가시성을 높이는 흐름이 확산 중이다. ⁹ ¹⁰

왜 중요한가

추론 과정을 드러내고 지식을 ‘지도’처럼 구조화하면, 에이전트는 ‘똑똑하지만 불투명한’ 도우미에서 ‘검증 가능하고 수정 가능한’ 동료로 바뀐다. 의료에서는 근거를 보고 바로잡을 수 있고, 엔터프라이즈 QA에서는 어디를 봤고 안 봤는지 추적할 수 있다. ¹ ³

동시에 실무는 한 가지로 수렴한다. 신뢰성을 결정하는 것은 더 높은 벤치마크 점수가 아니라, 계획·도구 호출·상태·추적을 설계하는 하니스다. 오늘 소개한 결과물은 ‘모델 중심’에서 ‘시스템 중심’으로의 전환을 보여준다. ² ⁸

이번 주 시도해볼 것

MM-WebAgent 데모/코드: 논문 프로젝트 링크에서 계층형 웹 생성 워크플로와 평가 프로토콜을 살펴본다. ⁵
Browser Harness 빠른 시작: 로컬 크롬에 연결해 에이전트가 누락된 헬퍼를 직접 추가·수정하는 자가 복구 흐름을 체험한다. ⁷

출처 10

[1] Arxiv RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography [2] N1n Building Reliable AI Agents in Production [3] Arxiv Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG [4] Dev RAG vs. Agent Memory vs. LLM Wiki: A Practical Comparison [5] Arxiv MM-WebAgent: A Hierarchical Multimodal Web Agent for Webpage Generation [6] Iotdigitaltwinplm Claude Computer Use Architecture: How LLM Agents Actually Control a Desktop in 2026 [7] Github browser-use/browser-harness [8] Prodfeat Harness Engineering: the wrapper matters more than the model in 2026 [9] Dev WebBrain — Free Open-Source AI Browser Agent [10] Claudepluginhub dev-workflow-skills - Claude Code Plugin

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집