AI 뉴스Research

약 7분 2026. 5. 23.

text-to-imagereward modelingvision-language modelslinear attentionautonomous agentsEDA DRC

AI 평가가 명시적 규칙으로 전환: 텍스트‑이미지 라벨링을 0.01%로 축소

AutoRubric-T2I는 비전‑언어 모델 심사자를 '학습된 체크리스트'로 가르쳐 사람이 매긴 선호 데이터의 0.01% 미만만으로도 기존 보상 모델을 앞선다. 실행 결과를 기준으로 한 코딩 에이전트와 긴 문맥을 더 안정적으로 다루는 어텐션 연구도 함께 발표됐다.

기사에서 찾기

읽기 모드

한 줄 요약

평가를 명시적 규칙과 실행 결과로 바꾸는 흐름이 뚜렷하다 — 규칙 학습 보상, 실행 기반 벤치마크, 소스 코드 자가 수정, 긴 문맥을 다루는 선형 어텐션.

Research Papers

AutoRubric-T2I: 규칙 학습으로 보상 판단을 설명가능하게

AutoRubric-T2I는 텍스트-이미지 생성(T2I) 결과를 '점수'로만 매기지 않고, 비전-언어 모델(VLM) 심사자에게 명시적·학습된 체크리스트로 채점하도록 가르친다. 그 결과 사람이 매긴 선호 레이블을 0.01% 미만만 사용해도 정렬 품질을 높일 수 있다. ¹

이 시스템은 대규모 데이터로 브래들리-테리(BT) 선호 모델을 학습하는 대신, 선호 쌍에서 추론 흔적을 모아 규칙 후보를 만들고, 각 규칙 아래에서 VLM이 이미지를 채점하게 한 뒤, 쌍별 점수 차이로 선호를 학습한다. 마지막에 L1 정규화 로지스틱 회귀로 가장 변별력 있는 Top‑N 규칙만 고른다. ¹

이미지 보상 벤치마크 MMRB2에서 강력한 보상 모델 기준선을 앞서며, 강화학습(RL) 신호로 사용했을 때도 확률 확산 모델의 Flow‑GRPO(그룹 상대 정책 최적화) 파이프라인에서 TIIF와 UniGenBench++ 같은 다운스트림 T2I 과제 성능을 끌어올렸다. ¹

핵심 이점은 해석 가능성이다. 어떤 이미지가 '합격'인지 그 이유가 규칙 형태로 드러나 보상 설계와 오류 분석을 쉽게 하고, 거대한 블랙박스 재학습보다 적응 비용을 낮춘다. 동영상·편집처럼 세분 기준이 중요한 영역으로의 확장을 지켜볼 만하다. ¹

Rule2DRC: 반도체 설계 규칙 스크립트 벤치마크

Rule2DRC는 대형 언어 모델(LLM) 에이전트가 자연어 반도체 설계 규칙을 실행 가능한 설계 규칙 검사(DRC) 스크립트로 옮길 수 있는지를 평가하는 벤치마크다. 코드 유사도가 아니라 레이아웃 실행 결과로 점수를 매기며, 1,000개 규칙‑스크립트 과제와 13,921개 평가 레이아웃을 포함한다. ²

또한 실행 피드백으로 구분력을 가진 테스트 케이스를 생성해 이전에 구별되지 않던 후보 스크립트를 갈라내는 테스터 에이전트 SplitTester를 제안해 Best‑of‑N 선택을 크게 개선했다. 평가 파이프라인은 레이아웃을 에이전트 입력에 주지 않아 결과를 누설이 아닌 기능적 정확도로 해석할 수 있다. ²

MOSS: 소스 코드 자가 수정으로 에이전트 진화

MOSS는 배포 후 거의 학습하지 않는 자율 에이전트 시스템이 실제 장애 근거를 바탕으로 스스로 소스 코드를 고쳐 성능을 개선하도록 하는 시스템이다. 프롬프트나 스킬 파일, 워크플로 그래프 수정에 머무르지 않고 실행 하네스의 코드 자체를 바꾼다. ³

각 진화 단계는 결정적 다단계 파이프라인으로 진행된다. 실패 증거를 자동 큐레이션하고, 코드 수정을 플러그형 외부 코딩 에이전트 명령줄 인터페이스(CLI)에 위임하며, 후보는 임시 워커에서 재현 실행으로 검증한다. 승격은 사용자 동의 후 인플레이스 컨테이너 교체로 이뤄지고, 헬스 프로브 기반 롤백이 걸려 있다. ³

프로덕션 에이전트 기반 OpenClaw에서 인간 개입 없이 단 한 번의 자가 수정 사이클만으로 4개 과제 평균 채점이 0.25에서 0.61로 상승했다. 소스 수준 적응이 의도와 동작 사이의 반복적 간극을 줄일 수 있음을 수치로 보여준다. ³

Gated DeltaNet-2: 선형 어텐션에서 지우기·쓰기 분리

Gated DeltaNet‑2는 선형 어텐션의 고정 크기 순환 메모리에서 '지우기'와 '쓰기'를 채널별로 분리해 제어한다. 하나의 스칼라 게이트로 두 동작을 동시에 조절하던 기존 방식보다 간섭을 줄여 더 깔끔한 메모리 갱신을 제공한다. ⁴

1.3B 파라미터로 FineWeb‑Edu 100B 토큰을 학습한 모델은 언어 모델링, 상식 추론, 검색 전반에서 Mamba‑2, Gated DeltaNet, Kimi Delta Attention, Mamba‑3 변형들보다 강한 전체 성능을 보였다. 특히 긴 문맥 RULER '건초 더미 속 바늘' 다중 키 검색에서 두드러졌고, 병렬 학습을 위한 게이트 인지 역전파도 제시한다. ⁴

Open Source & Repos

Dust: 업무용 커스텀 AI 에이전트 플랫폼

Dust는 업무용 커스텀 AI 에이전트를 만드는 플랫폼이며, dsbx라는 명령줄 인터페이스(CLI)를 배포한다. 최신 태그는 v0.1.16으로, 커밋 03aea9a3f1d5c8a6b13ebafaa2f5417bd8624403과 함께 Linux x86_64 바이너리가 표기돼 있다. ⁵

저장소에는 사용자 가이드와 개발자 플랫폼 문서가 안내돼 있어 에이전트 도구 체인의 지속적 개선을 확인할 수 있다. 업무 자동화를 검토하는 팀은 문서에서 시작해 CLI 릴리스를 따라가며 기능 변화를 살필 수 있다. ⁵

왜 중요한가

오늘 소개된 연구는 평가를 '눈에 보이는 규칙'과 '실행 결과'로 옮긴다. 규칙 학습 보상은 해석 가능하고 데이터 효율적인 신호를 만들고, 실행 기반 테스트는 '겉보기에 그럴듯한' 스크립트와 실제로 통과하는 스크립트를 가른다. 소스 수준 자가 수정은 장애 증거를 곧바로 수정으로 연결한다. ¹

모델링 측면에서는 선형 어텐션의 더 깔끔한 메모리 갱신이 긴 문서와 검색 중심 과제에서의 안정적 동작으로 이어질 가능성을 보여준다. 이는 에이전트화와 보상 모델링 개선을 보완하는 흐름이다. ⁴

이번 주 시도해볼 것

AutoRubric‑T2I 논문 훑어보기: arXiv에서 방법과 그림을 중심으로 읽어본다. https://arxiv.org/abs/2605.17602
Dust dsbx CLI 설치(Linux): GitHub 저장소에서 릴리스 노트를 따라 v0.1.16을 받아본다. https://github.com/dust-tt/dust

출처 5

[1] Arxiv AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment [2] Arxiv Rule2DRC: Benchmarking LLM Agents for DRC Script Synthesis with Execution-Guided Test Generation [3] Arxiv MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems [4] Arxiv Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention [5] Github dust-tt/dust: Custom AI agent platform to speed up your work.

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집