AI 뉴스Research

약 7분 2026. 4. 28.

Process reward modelsAgentic AIVision-languagePrompt evaluationTensorRT-LLMBrowser automation

AI 에이전트, 정답이 아닌 ‘과정’까지 스스로 채점한다

데이터 분석 에이전트를 ‘과정 단위’로 보상해 정확도를 7.21%와 11.28% 끌어올리고, 강화학습으로 78.73%/64.84%를 기록했습니다. 동시에 SketchVLM은 시각적 근거를 보여주고, promptfoo는 팀용 평가를 묶어 제공합니다.

기사에서 찾기

읽기 모드

한 줄 요약

AI 연구 흐름이 ‘정답 채점’에서 ‘과정 검증’으로 이동한다: DataPRM은 과정을 보상하고, SketchVLM은 근거를 눈에 보이게 하며, 오픈소스 도구는 테스트와 배포를 단단하게 만든다.

Research Papers

DataPRM: 데이터 분석 에이전트용 과정 보상 모델

DataPRM은 데이터 분석 중 에이전트가 밟는 각 단계를 채점하는 과정 보상 모델(PRM)로, 결과만 평가하는 대신 실행 중간을 점검한다. 저자들은 범용 PRM이 해석기 오류를 일으키지 않는 “침묵 오류”를 놓치고 필요한 시행착오를 잘못 벌점화한다는 문제를 보였고, DataPRM은 환경과 상호작용하는 능동 검증자와 수정 가능한 실수/회복 불가 실수를 구분하는 성찰 인지 3값 보상을 도입했다. 8천 개 이상 고품질 데이터로 학습한 40억(4B) 매개변수 모델은 Best‑of‑N 추론 기준 ScienceAgentBench에서 7.21%, DABStep에서 11.28% 향상을 보였으며, 테스트 시간 스케일링에서도 견고함을 보인다고 보고한다. 코드 공개도 명시되어 있다. ¹

현실적으로는 실험 조교가 중간 산출물을 확인하듯 동작한다. DataPRM은 환경을 직접 탐색해 침묵 오류를 찾아내고, 에이전트가 꼭 거쳐야 하는 탐색적 시도를 무분별하게 벌점화하지 않도록 보상 신호를 설계한다. 이는 동적인 데이터 업무에서 작은 실수가 도미노처럼 번지는 전형적 실패를 줄이려는 시도다. ¹

강화학습과 결합하면 성과는 더 분명해진다. 논문은 DABench 78.73%, TableBench 64.84%를 보고하며, 결과 기반 보상만 쓰는 기준선보다 유의미한 이득을 보인다고 밝힌다. 한 번에 정답만 보상하는 대신, 단계별 피드백이 실제 작업 정밀도를 끌어올린다는 신호다. ¹

이런 흐름은 실행 환경의 결정적 피드백으로 자기 수정 능력을 끌어내는 다른 연구와도 맞닿아 있다. 예컨대 CodeAct는 실행 가능한 파이썬 코드를 행동 형식으로 써서 즉시 오류 신호를 받는다. M3ToolEval(82개 인적 큐레이션 과제)에서 GPT‑4+CodeAct는 텍스트 행동 대비 74.4% 대 53.7%로 앞섰고 상호작용 횟수도 약 30% 줄었다. 배포 단계에서는 샌드박스 보안이 핵심 과제로 지적된다. DataPRM과는 별개 연구이지만, 해석기·도구·검증자 같은 환경 피드백이 숨은 오류를 줄인다는 점은 같다. ²

SketchVLM: 시각 주석으로 생각을 드러내는 프레임워크

SketchVLM은 시각‑언어 모델(VLM)이 입력 이미지 위에 비파괴적·편집 가능한 SVG 오버레이를 그려, 답변의 근거를 사용자에게 직접 보여주게 한다. 별도 학습 없이 기존 모델 위에서 작동하는 모델 비종속형 설계다. ³

미로 탐색, 공 낙하 궤적 예측, 객체 개수 세기부터 부품 라벨링, 점 잇기, 윤곽 그리기까지 7개 벤치마크에서, SketchVLM은 시각 추론 정확도를 최대 +28.5%포인트 높이고 주석 품질을 최대 1.48배 개선했다고 보고한다. 단일 턴 생성만으로도 성능이 견조하며, 다중 턴은 사람‑AI 협업 여지를 넓힌다. ³

현업 관점에서 이는 “믿어달라”는 답변 대신 검증 가능한 증거를 준다는 의미다. 사용자는 텍스트 설명과 하이라이트가 일치하는지 즉시 확인하고 다음 단계를 결정할 수 있다. 인터랙티브 데모와 코드도 제공된다. ³

Open Source & Repos

promptfoo: 프롬프트·에이전트 평가와 레드팀 도구

promptfoo는 프롬프트, 에이전트, 검색 증강 생성(RAG)을 평가하는 명령줄 인터페이스(CLI)·라이브러리로, 레드팀·모델 비교(GPT, Claude, Gemini, Llama 등)·CI/CD 통합을 지원한다. README에는 OpenAI와 Anthropic이 사용한다고 명시되어 있으며, 감에 의존하던 프롬프트 조정을 재현 가능한 평가로 바꾸는 것을 목표로 한다. ⁴

2026-04-27 배포된 최신 업데이트(0.121.9)에는 GPT‑5.5 제공자 지원이 추가됐다. 팀이 내부 점수표를 표준화할 때, 버전 관리되는 구성과 CLI 기반 워크플로는 모델 변경과 평가를 함께 유지하기 쉽게 만든다. ⁴

방법론 측면에서 promptfoo는 A/B 테스트, 골든 데이터셋, 통과/실패 체크리스트, “판사 역할의 LLM” 등 널리 권장되는 평가 관행과 맞닿아 있다. 정확도·안전성·비용·지연의 균형을 수치로 잡는 기본기다: 성공 지표 정의 → 고정 테스트셋 구축 → 변형 비교 → 운영 모니터링. ⁵

Skyvern: LLM+컴퓨터 비전으로 웹 자동화

Skyvern은 대형 언어 모델(LLM)과 컴퓨터 비전을 이용해 브라우저 기반 워크플로를 자동화하는 GitHub 프로젝트다. 사이트 로그인, 페이지 이동, 정보 추출·입력 같은 작업을 프로그램적으로 수행하도록 돕는다. 저장소에는 웹사이트, 문서, 커뮤니티 디스코드가 연결되어 있다. ⁶

비개발자에게는 “기록하고 안정적으로 재실행”한다는 약속에 가깝다. 손코딩한 스크립트 대신, UI 요소를 인지하고 소소한 페이지 변화에 복원력 있는 에이전트를 지향한다. 예제에서 시작해 다단계 플로로 확장하기 용이하다. ⁶

관심은 높지만 도입 논의도 활발하다. 422개 추천을 받은 Hacker News 스레드에서, 캔버스 판독·네트워크 가로채기·로컬 LLM 지원 같은 기능 요구가 제기되고, 라이선스·엔터프라이즈 적합성 우려도 나온다. 규제 환경 도입 검토 시 체크리스트로 참고할 만하다. ⁷

NVIDIA TensorRT-LLM: GPU에서 LLM 추론 가속

TensorRT‑LLM은 NVIDIA가 공개한 파이썬 프레임워크로, GPU 최적화 커널과 고성능 런타임을 통해 대형 언어 모델 추론의 지연과 비용을 줄이려 한다. 파이썬과 C++ 런타임을 제공해 효율적으로 추론 실행을 오케스트레이션한다. ⁸

빌더 관점의 매력은 실용성이다. 커널 융합, 양자화 경로, 스케줄링 같은 최적화를 API 뒤로 모아두되, 필요 시 커스텀 확장도 허용한다. 저장소의 문서·릴리스 배지는 지원 스택을 가늠하는 데 도움이 된다. ⁸

더 넓은 TensorRT 생태계와 마찬가지로 FP16·INT8 같은 정밀도 모드는 많은 레이어에서 지원되지만, 하드웨어·버전에 민감하다. NVIDIA TensorRT 지원 매트릭스는 레이어/정밀도 범위와 버전 간 엔진 비이식성을 강조하므로, 실제 배포 환경과의 호환성을 반드시 확인해야 한다. ⁹

커뮤니티 반응

Hacker News (422↑) — 프로젝트에 대한 관심은 크지만, 라이선스와 기업 도입 적합성에 대한 망설임이 공존하며 파워 유저 기능 요청도 이어진다. ⁷

"흥미로운 프로젝트인데, 제 회사에서는 AGPL3 라이선스라서 도입이 불가능합니다." — Hacker News ⁷

왜 중요한가

과정 수준의 감독과 가시적 추론은 “설명 가능하고 실행 중에 고칠 수 있는” 에이전트를 지향한다. DataPRM의 능동 검증과 3값 보상은 에이전트 벤치마크에서 수치적 이득을 보이며, “정답만이 아니라 과정도 채점”이 실제 데이터 분석에 필수 규칙이 되어가고 있음을 시사한다. ¹

엔지니어링 측면에서도 체인이 성숙하고 있다. SketchVLM은 근거를 눈으로 확인하게 하고, promptfoo는 평가를 운영화하며, Skyvern은 웹 작업의 끝단을, TensorRT‑LLM은 배포의 속도와 비용을 다룬다. 이제 신뢰성은 모델 크기만이 아니라 검증과 실행 품질의 함수라는 점이 분명해진다. ³

이번 주 시도해볼 것

promptfoo 퀵스타트: CLI를 설치해 예제 평가를 돌리고 두 프롬프트를 나란히 비교해 보세요 (repo: https://github.com/promptfoo/promptfoo)
Skyvern 헬로월드: 저장소를 클론해 비핵심 사이트에서 간단한 로그인‑스크랩 자동화를 시험해 보세요 (repo: https://github.com/Skyvern-AI/skyvern)

출처 9

[1] Arxiv Rewarding the Scientific Process: Process-Level Reward Modeling for Agentic Data Analysis [2] Beancount CodeAct: Executable code actions elicit better LLM agents [3] Arxiv SketchVLM: Vision-language models can annotate images to explain thoughts and guide users [4] Github promptfoo/promptfoo: Test your prompts, agents, and RAGs [5] Aimlinsights Best Prompt Evaluation Methods in 2026 (Metrics, A/B Tests & Scorecards) [6] Github Skyvern-AI/skyvern: Automate browser based workflows with AI [7] Github NVIDIA/TensorRT-LLM: TensorRT LLM Python API and runtime [8] Manuals NVIDIA TensorRT Support Matrix v8.2.2 [9] Ycombinator Hacker News discussion: Skyvern-AI/skyvern

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집