AI 뉴스Research

약 7분 2026. 5. 31.

prompt optimizationlatent reasoningvideo diffusionKV cacheLLM auditingdeveloper tools

함수 호출로 프롬프트를 스스로 고치는 대형 언어 모델, 추론 성능 최대 12.9포인트 향상

전체 데이터셋을 진단해 프롬프트를 자동 수정하는 워크플로가 등장했다. 더불어 메모리 기반 추론과 동영상 생성 메모리 절감 기법도 주목받는다.

기사에서 찾기

읽기 모드

한 줄 요약

연구진은 전체 최적화 세트를 진단해 프롬프트를 자동 수정하는 방식을 제안했고, 별도의 연구는 모델 내부 작업 기억을 열어 효율적으로 추론하며 동영상 생성의 주의 캐시를 대폭 압축했다.

Research Papers

Reflective Prompt Tuning: 함수 호출로 프롬프트 진단·수정

사례별로 프롬프트를 손보는 대신, 반성적 프롬프트 튜닝(Reflective Prompt Tuning, RPT)은 모델 전체를 점검해 반복되는 오류 패턴을 요약하고 그 결과를 바탕으로 프롬프트를 자동으로 고친다. 이 과정은 언어 모델 함수 호출(Function Calling)을 활용하며, 세 가지 추론 과제에서 초기 프롬프트 대비 최대 12.9포인트 향상을 보이고 신뢰도 보정도 강화한다. ¹

작동 방식은 다음과 같다. 최적화 담당 대형 언어 모델(Large Language Model, LLM)이 진단 함수를 호출해 대상 모델을 전체 최적화 세트에서 평가하고, 구조화된 실패 보고서를 만들어 누적 메모리에 저장한다. 이후 이 누적 진단 이력을 활용해 다음 라운드의 프롬프트를 다시 작성하므로, 단발성 수정이 아니라 이력에 근거한 표적화된 수정을 수행한다. ¹

RPT는 피드백과 최종 프롬프트 선택 모두에 신뢰도 보정 신호를 반영하는 ‘신뢰도 인지 최적화’를 지원한다. 다중 단계 추론과 수학 추론에서 특히 효과적이며, 진단된 실패 패턴과 실제 프롬프트 수정 방향이 정합적으로 맞아떨어져 성능·보정 향상을 이끈다. ¹

LLMSurgeon: 생성 결과만으로 사전학습 데이터 혼합 비율 추정

LLMSurgeon은 모델의 생성 텍스트만 보고 뉴스·코드·백과사전 등 어떤 도메인 데이터가 어느 비율로 사전학습되었는지 추정할 수 있는가라는 질문에 답한다. 이 작업을 데이터 혼합 수술(Data Mixture Surgery, DMS)로 정식화해, 실제 학습 데이터에 접근하지 않고도 대형 언어 모델의 사전학습 도메인 분포를 추정한다. ²

기술적으로는 라벨 분포 이동 가정하에서의 역문제로 다루며, 보정된 연속(soft) 혼동행렬을 추정해 체계적 도메인 혼동을 교정하고 잠재 혼합 사전분포를 복원한다. 또한 공개 모델과 투명한 혼합 레시피로 구성된 평가 수트 LLMScan을 제시하고, 고정 프로토콜에서 높은 정확도로 혼합 비율을 복원함을 보고한다. 이는 학습 데이터 접근 없이도 기반 모델의 ‘디지털 DNA’를 사후 감사를 통해 점검하는 실용적 경로다. ²

Reasoning in Memory: 토큰 생성 대신 고정 메모리 블록으로 추론

Reasoning in Memory(RiM)는 중간 추론 단계를 길게 토큰으로 출력하지 않고, 특수 토큰 시퀀스인 고정 ‘메모리 블록’을 배정해 한 번의 순전파로 처리한 뒤 각 블록 이후 최종 답만 갱신한다. 이렇게 내부 계산을 자동회귀 생성과 분리해, 계산 효율적인 잠재 추론을 노린다. ³

훈련은 두 단계다. 먼저 각 메모리 블록 뒤에 명시적 추론 단계를 예측하게 해 블록을 정합화한다. 다음에는 단계 수준 감독을 제거하고 최종 답만 반복적으로 개선한다. 다양한 계열·규모의 모델에서 RiM은 기존 잠재 추론 기법과 동률 또는 우위를 보이면서, 단계별 생각을 토큰으로 길게 생성하는 비용을 피한다. ³

VideoMLA: 길어진 동영상 확산 생성을 위한 주의 캐시 압축

VideoMLA는 스트리밍 동영상 확산 모델의 키-값 캐시(Key-Value Cache, KV) 저장 방식을 바꾼다. 헤드별 키·값을 공유 저랭크 콘텐츠 잠재표현과 분리된 3차원 회전 위치 임베딩(Rotary Position Embedding, RoPE) 키로 대체해, 캐시된 모든 계층에서 토큰당 KV 메모리를 92.7% 줄인다. 이 설계를 다중 헤드 잠재 어텐션(Multi-Head Latent Attention, MLA)이라 부른다. ⁴

VBench에서 VideoMLA는 단기 구간 스트리밍 확산 기준선과 대등하고, 평가된 방법 중 장기 구간에서는 전체 성적이 가장 좋았다. 또한 단일 B200 GPU에서 처리량이 1.23배 향상되었다. 흥미롭게도 사전학습된 동영상 어텐션은 저랭크가 아니며(99% 에너지 기준 유효 랭크가 실용적 잠재 차원을 크게 상회) 효과적 랭크는 사전 스펙트럼이 아니라 MLA 병목이 결정한다고 분석한다. ⁴

Open Source & Repos

oh-my-pi: 터미널 중심 AI 코딩 에이전트, LSP 통합

oh-my-pi는 IDE처럼 배선된 명령줄 코딩 에이전트다. 해시 기준 편집, 최적화된 도구 하니스, 언어 서버 프로토콜(Language Server Protocol, LSP) 연동, 브라우저 구동, 서브에이전트 등 기능을 터미널에서 제공한다. 웹 UI로 옮겨 다니지 않고 에이전트 기반 코드 수정을 원하는 개발자에게 적합하다. ⁵

최신 릴리스 노트(v15.6.0)는 Anthropic의 적응형 사고(adaptive-thinking) 도구 사용 흐름에서 발생하던 “최신 어시스턴트 메시지의 생각 블록을 수정할 수 없음” 400 오류를 피하도록 수정했다고 밝힌다. npm 패키지(@oh-my-pi/pi-coding-agent)로 설치할 수 있으며, 에이전트-도구 상호작용을 계속 다듬고 있음을 시사한다. ⁵

왜 중요한가

전체 세트 기반 진단으로 프롬프트를 자동 설계(RPT)하면, 새로운 파인튜닝 없이도 실패 패턴과 신뢰도 신호를 활용해 기존 대형 언어 모델을 더 안전하고 저비용으로 적응시킬 수 있다. 동시에, 내부 ‘작업 기억(RiM)’을 활용한 잠재 추론은 길고 비싼 단계별 생각 출력을 줄이면서도 정확도를 유지하는 길을 제시한다. ¹³

생성 미디어 측면에서, 동영상 확산의 주의 캐시를 압축(VideoMLA)하면 메모리·지연 부담이 낮아져 같은 하드웨어로 더 긴 시퀀스를 다룰 여지가 넓어진다. 도구 측면에서는 터미널 네이티브 코딩 에이전트(oh-my-pi)가 데모를 넘어 일상 개발 환경으로 에이전트 워크플로를 옮기는 흐름을 보여준다. ⁴⁵

출처 5

[1] Arxiv Reflective Prompt Tuning through Language Model Function-Calling [2] Arxiv LLMSurgeon: Diagnosing Data Mixture of Large Language Models [3] Arxiv Unlocking the Working Memory of Large Language Models for Latent Reasoning [4] Arxiv VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion [5] Github can1357/oh-my-pi

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집