AI 뉴스Research

약 9분 2026. 5. 7.

LLM reinforcement learningSpeculative decodingRetrievalRed teamingVideo generationAgentic workflows

추론형 AI 훈련의 새 설계도와 Gemma 속도 최대 3배 가속

두 편의 서베이가 RL 기반 추론 모델과 진화하는 에이전트 스킬의 설계·거버넌스를 정리했고, 구글은 Gemma 4를 빠르게 만드는 다중 토큰 예측과 장시간 작업용 웹훅을 공개했다.

기사에서 찾기

읽기 모드

한 줄 요약

오늘의 연구는 “더 큰 모델”보다 “더 나은 파이프라인”에 초점을 맞춘다 — RL 롤아웃과 동적 스킬 라이브러리를 체계화했고, 구글은 Gemma 4를 최대 3배까지 빠르게 하며 장시간 에이전트 작업용 도구를 내놓았다.

LLM & SOTA Models

Gemma 4: 다중 토큰 예측으로 최대 3배 빠르게

구글은 작은 보조 모델(드래프터)이 다음 단어 여러 개를 미리 제안하면 본 모델이 한꺼번에 승인하는 방식을 적용해 Gemma 4의 응답을 빠르게 했다. 이 방식은 다중 토큰 예측(Multi‑Token Prediction, MTP)과 사전 승인 추론(speculative decoding)으로 불리며, 출력 품질 저하 없이 최대 3배 속도 향상을 제공한다. 드래프터는 본 모델의 키‑값(KV) 캐시를 공유하고, Apache 2.0 라이선스로 공개되며 Transformers, MLX, vLLM, SGLang, Ollama 등에서 사용할 수 있다. 애플 실리콘에서 26B 전문가 혼합(MoE) 모델은 배치 크기를 4–8로 늘리면 로컬에서 약 2.2배의 속도 향상을 보인다. ¹

분 단위를 넘어 시간 단위로 걸리는 에이전트 작업을 위해, 구글은 Gemini API에 이벤트 기반 웹훅을 도입했다. 이는 비효율적인 폴링을 대체하는 푸시 방식으로, Standard Webhooks 규격을 따르고 서명 헤더를 사용하며 최대 24시간 자동 재시도를 보장한다. 프로젝트 전역 또는 요청별로 설정 가능하고, 해싱 기반 메시지 인증 코드(HMAC)와 JSON 웹 키 집합(JWKS)으로 보안을 구성한다. ²

또한 검색의 AI 모드와 AI 개요 기능을 업데이트해 출처 노출을 강화했다. 응답 끝의 다음 탐색 제안, 문장 옆 직접 링크, 사용자의 뉴스 구독 출처 하이라이트, 커뮤니티 관점 미리보기, 링크 호버 시 웹사이트 미리보기를 제공하며, 쿼리 팬‑아웃과 같은 기법으로 더 깊은 웹 소스를 찾아 연결한다. ³

Research Papers

GFCR: LLM 강화학습 롤아웃 설계 체계

이 서베이는 강화학습(RL)로 대형 언어 모델(LLM)의 추론을 개선할 때 학습의 재료가 되는 “롤아웃(프롬프트부터 최종 답변까지의 단계별 경로)”을 어떻게 설계할지 설명한다. 저자들은 생성‑필터‑제어‑재사용(Generate–Filter–Control–Replay, GFCR)이라는 4단계 생애주기를 제시한다: 생성은 후보 경로와 구조를 만들고, 필터는 검증기·판정기 등을 통해 중간 신호를 만들며, 제어는 예산 안에서 연속·분기·중단을 결정하고, 재사용은 가중치 업데이트 없이 산출물을 다시 써서 커리큘럼을 자가 발전시킨다. ⁴

또한 신뢰성·커버리지·비용 민감도라는 기준 축을 정의해 트레이드오프를 묘사하고, 검증 가능한 보상, 과정 감독, 판정 기반 게이팅, 트리/세그먼트 롤아웃, 적응형 연산 배분, 조기 종료·부분 롤아웃, 처리량 최적화, 재생·재구성 등 기법을 묶어 정리한다. 수학, 코드/SQL, 멀티모달 추론, 도구 사용 에이전트 사례로 체계를 고정하고, 흔한 실패를 GFCR 모듈에 매핑해 대응책을 제시하는 진단 색인을 제공한다. ⁴

보완적으로 “They Are Not Static: A Survey of Dynamic Agent Skills”는 에이전트 스킬을 코드·절차·SKILL.md 패키지·그래프·어댑터 같은 진화하는 산출물 라이브러리로 바라본다. 스킬을 적용성·정책·종료·인터페이스·편집·검증·계보의 7튜플로 형식화하고, 라이브러리 차원에서는 추가·개선·병합·분할·정리·증류·추상화·합성·재작성·재랭크 등 10연산 대수로 94편의 문헌을 조직했다. 핵심 관찰은 스킬 수보다 입고 심사와 수리, 검증기 품질의 영향이 크고, 평면형 검색은 중간 규모 라이브러리에서 성능이 떨어지기 쉽다는 점이다. ⁵

두 서베이는 “어떤 최적화기를 쓰느냐”보다 “어떤 경로 데이터를 만들고 걸러서 어떤 예산으로 배분·재사용하느냐, 그리고 진화하는 스킬을 어떻게 검증·거버넌스하느냐”에 초점을 옮긴다. 재현 가능하고 비용을 의식하며 신뢰할 수 있는 롤아웃 설계를 위한 설계도를 제시한다. ⁵

PV‑VAE: 미래를 예측하도록 학습해 더 나은 비디오 생성

Predictive Video VAE(PV‑VAE)는 보이는 프레임을 복원하면서 동시에 미래 프레임을 예측하도록 비디오 변분 오토인코더(VAE)를 학습해, 잠재공간이 시간적 구조와 움직임을 더 잘 담도록 한다. UCF101에서 PV‑VAE는 학습 수렴이 52% 빨라지고, Wan2.2 VAE 대비 프레셰 비디오 거리(FVD) 34.42 개선을 보고했다. ⁶

핵심은 예측형 복원 목적이다. 미래 프레임을 무작위로 제거하고 과거의 일부만 인코딩한 뒤, 디코더가 관측 프레임을 복원하고 미래를 동시에 예측하도록 훈련한다. 이렇게 하면 시간적으로 예측 가능한 잠재표현이 만들어져 생성 성능이 향상된다. ⁶

분석 결과, VAE 학습이 진행될수록 생성 성능이 계속 좋아지는 확장성과, 비디오 이해 과제에서도 일관된 이득을 보였다. 이는 잠재공간이 시간적 일관성과 움직임 사전 지식을 효과적으로 포착했음을 시사한다. ⁶

에이전트 시대 레드팀: 자동화로 ‘몇 주’를 ‘몇 시간’으로

오픈소스 Dreadnode 소프트웨어 개발 키트(SDK)를 바탕으로 한 에이전트형 레드팀 프레임워크는 운영자가 자연어로 목표만 설명하면 공격 워크플로를 자동 구성해, 수작업으로 라이브러리를 엮던 몇 주의 작업을 몇 시간으로 압축한다. 45+ 공격, 450+ 변환, 130+ 채점기를 통합하며, Meta Llama Scout 대상으로 사람 작성 코드 없이 공격 성공률 85%(심각도 최대 1.0)를 달성했다. ⁷

ARIS(Auto‑Research‑in‑sleep)는 장기 머신러닝 연구를 위한 개방형 하니스로, 기본 설정이 교차 모델 적대적 협업이다. 한 모델이 실행을 주도하면 다른 모델 계열의 리뷰어가 산출물을 비판하고 수정을 요구한다. 65개 재사용 스킬, 모델 컨텍스트 프로토콜(MCP) 통합, 지속 연구 위키, 결정적 그림 생성, 5개 종단‑간 워크플로, 그리고 무결성 검증·결과‑주장 매핑·주장 감사를 포함한 보증 계층과 다중 패스 과학 편집, 수학적 증명 점검, PDF 시각 검토를 제공한다. ⁸

이들 접근은 “그럴듯하지만 근거가 빈약한 성공”이라는 핵심 실패 양상을 겨냥해, 주장을 감사 가능한 근거와 연결하고 운영자가 “어떻게 구현할지”보다 “무엇을 찌를지”에 집중하게 한다. ⁷

추론 중심 검색: 평가와 데이터가 에이전트 성능을 좌우

BRIGHT‑Pro는 추론 중심 검색을 위해 전문가가 주석한 다면적 정답 근거를 확장하고, 정적·에이전트형 검색 모두에서 검색기의 성능을 시험하는 프로토콜을 제시한다. 또한 상보적 양성 샘플과 조건부 하드 네거티브를 생성하는 합성 코퍼스(RTriever‑Synth)를 만들고, Qwen3‑Embedding‑4B에서 시작한 RTriever‑4B를 저랭크 적응(LoRA)으로 미세조정해 기준선 대비 큰 향상을 보였다. ⁹

한편 OpenSeeker‑v2는 오직 1.06만 개의 높은 난이도 경로로 지도 미세조정(SFT)만 수행해, 30B 규모의 추론+행동(ReAct) 방식 에이전트가 4개 벤치마크에서 최고 성능을 달성했음을 보였다: BrowseComp 46.0%, BrowseComp‑ZH 58.1%, Humanity’s Last Exam 34.6%, xbench 78.0%. 이는 지속 사전학습(CPT)·SFT·강화학습(RL)을 모두 쓴 Tongyi DeepResearch(각각 43.4%, 46.7%, 32.9%, 75.0%)를 앞선 수치다. 순수 학계 팀이 SFT만으로 가중치를 공개했다. ¹⁰

요점은 명확하다. 다면적 근거와 에이전트형 프로토콜 같은 더 나은 평가, 그리고 더 어려운 경로와 풍부한 도구로 만든 표적형 데이터가 대규모 산업 파이프라인에 필적할 수 있으며, 측면 인지 평가가 일반 관련도 지표가 놓치는 행태를 드러낸다는 점이다. ⁹

왜 중요한가

오늘의 공통분모는 ‘과정의 설계’다. 어떤 롤아웃을 생성·필터·배분·재사용할지, 어떤 스킬을 들이고 수리할지, 어떤 근거를 검색해 조합할지가 성과를 좌우한다. 이는 훈련을 데이터·검증기·연산 예산의 생애주기 관리로 재정의한다. ⁴

실무자의 관점에서 눈여겨볼 두 축은 보증(검증기 품질, 입고 심사, 주장‑근거 매핑)과 지연(초당 토큰 수)이다. 다중 토큰 예측은 후자를 끌어올리는 확실한 수단이며, GFCR식 파이프라인은 전자를 계량화한다. ¹

이번 주 시도해볼 것

Gemma 4 다중 토큰 예측: 드래프터+타깃 모델을 Transformers/MLX/vLLM/Ollama에서 구동해 속도 향상을 체감한다. 가이드는 구글 문서를 참조. ¹
Gemini API 웹훅: 전역 웹훅을 설정하고 서명 검증을 붙여 폴링 없이 장시간 작업 알림을 받아본다. ²

출처 11

[1] Blog Multi-token-prediction in Gemma 4 [2] Arstechnica Google’s Gemma 4 AI models get 3x speed boost by predicting future tokens [3] Blog Event-Driven Webhooks in the Gemini API [4] Arxiv Generate, Filter, Control, Replay: A Comprehensive Survey of Rollout Strategies for LLM Reinforcement Learning [5] Openreview They Are Not Static: A Survey of Dynamic Agent Skills [6] Arxiv Video Generation with Predictive Latents [7] Arxiv ARIS (Auto-Research-in-sleep): an open-source research harness for autonomous research [8] Arxiv Redefining AI Red Teaming in the Agentic Era: From Weeks to Hours [9] Arxiv Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems [10] Arxiv OpenSeeker-v2: Training a frontier search agent via simple SFT [11] Blog How AI Mode and AI Overviews help you explore the web

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집