AI 뉴스Research

약 6분 2026. 5. 30.

Vision-language modelsKV cache evictionWeb agentsGenerative datasetsInference servingBenchmarking

비전-언어 모델이 '위'와 '거리'를 혼동 — 새 벤치마크가 편향을 드러낸다

연구진은 여러 모델 계열에서 반복되는 사진 원근 편향을 확인하고, 이미지 위치 단서와 진짜 3차원(3D) 추론을 분리하는 SpatialTunnel을 공개했다.

기사에서 찾기

읽기 모드

한 줄 요약

오늘의 연구는 공간 추론에서 사진 원근 지름길이 내재해 있음을 드러내고, 긴 문맥 메모리를 신뢰도로 줄이고, 경험을 쌓을수록 비용이 낮아지는 에이전트와 28조 픽셀 공개 데이터로 실무 효율을 끌어올린다.

Research Papers

Why Far Looks Up: VLM의 '위=멀다' 공간 편향

이 연구는 이미지와 텍스트를 함께 읽는 시스템이 3차원(3D) 공간을 제대로 이해하는지, 아니면 카메라 원근 요령에 기대는지 점검한다. 저자들은 비전-언어 모델(VLM)의 내부 표현을 최소 대비쌍으로 탐색해 세 축(수직·수평·거리)이 어떻게 구성되고 분리되는지 측정한다. ¹

여러 모델 계열에서 공통적으로 수직 위치와 거리를 뒤섞는 "수직–거리 얽힘"이 관찰된다. 자연 사진의 원근 편향을 그대로 반영한 결과로, 원근에 부합하는 예시와 반직관 예시 사이 정확도 격차가 크고, 전체 벤치마크 점수가 오르는 동안에도 데이터 규모가 커질수록 격차가 심해진다. 비슷한 벤치마크 점수를 가진 모델이라도 내부 공간 표현은 달라질 수 있고, 그 차이가 다양한 공간 추론 벤치마크의 견고성을 예측한다. ¹

저자들은 평가셋 치우침과 구분하기 위해 자연 이미지 상관을 제거한 합성 벤치마크 SpatialTunnel을 제시한다. 실험은 이 편향이 모델 고유 성질임을 보여주며, 공간 축을 잘 분리한 모델일수록 견고하다. 코드와 벤치마크는 공개되어 있다. ¹

CONF-KV: 신뢰도 기반 KV 캐시 절감

긴 응답을 생성하면 이전 토큰을 저장하는 메모리가 불어나 생성이 느려지고 GPU가 가득 찬다. 이 메모리가 대형 언어 모델(LLM)의 키-값(KV) 캐시다. CONF-KV는 다음 토큰 분포를 하나의 신뢰도 점수로 바꿔 단계별 캐시 예산을 정하고, 불확실하면 더 보존하고 확신하면 과감히 가지치기한다. 이어 누적 주의(attention)와 최신성으로 토큰을 순위화하고, 최근 구간을 보호하며, 블록 단위 온라인 소프트맥스와 16비트 부동소수점(FP16)/8비트 정수(INT8) 혼합 저장을 결합한다. ²

네 가지 모델 계열과 최대 4K 토큰 길이에서 CONF-KV는 고정 512-토큰 슬라이딩 윈도와 비슷한 메모리 발자국을 유지하면서도 풀 KV 대비 당혹도(perplexity) 손실을 1.5–2.1포인트로 제한한다. 최대 32K 토큰 Needle-in-a-Haystack에서는 검색 정확도 91.4%를 기록해 슬라이딩 윈도 53.8%와 H2O 80.6%를 앞섰고, 75개 VisualWebArena 과제에서는 정점 메모리를 2.8배 낮추면서 풀-KV 성공의 95.3%를 유지했다. 이는 긴 문맥 애플리케이션에서 신뢰도 인지 캐싱이 실용적 수단임을 시사한다. ²

PANDO: 온라인 스킬 증류로 효율적인 멀티모달 에이전트

많은 멀티모달 웹 에이전트는 롤아웃 검색과 검증기, 특화 스택을 붙일수록 추론 비용이 커진다. PANDO는 반대로, 실행 중 성공한 단계를 재사용 가능한 "스킬"로 바꾸고 구조화된 스킬 라이브러리를 유지하는 단일 롤아웃 온라인 스킬 증류로 효율을 높인다. 이때 진행 반성, 신뢰도 기반 스킬 강등, 계층 라우팅, 시각 압축, 프롬프트 캐시 인지 기법을 묶어 쓴다. ³

910개 VisualWebArena 전 과제에서 PANDO는 성공률 58.3%를 달성해 SGV(54.0%)와 WALT 재현(45.2%)을 상회했고, 사전 발견 예산 없이도 SGV 대비 58%, WALT 대비 61% 적은 토큰으로 해결했다. 300개 과제 절제 실험에서는 규칙과 루틴이 주요 성과를 만들고, 라우팅·압축·캐시 인지 프롬프트가 더 큰 스킬 라이브러리를 낮은 한계 토큰 비용으로 전환함을 보였다. 또한 행동 반복율, 단계 초과 비율, 프롬프트 캐시 활용도 등 궤적 단위 효율 지표를 제안했다. ³

GPIC: 상업적 이용 가능한 28조 픽셀 이미지 코퍼스

대규모 시각 생성 모델 연구에는 안정적이고 접근 가능한 데이터가 필요하다. GPIC은 약 28조 픽셀 규모로, 학습 1억(100M), 검증 20만(200K), 테스트 100만(1M) 이미지로 구성되며, 최첨단 비전-언어 모델로 캡션이 달려 있고 연구·상업 용도로 모두 허가된다. 안전 필터링과 중복 제거를 거쳐 중앙에서 호스팅된다. ⁴

저자들은 GPIC 기반 생성 모델링 벤치마크 절차와 픽셀 공간 흐름 매칭 기준선을 제공하고, 평가 툴킷과 코드를 함께 공개한다. 데이터 스케일 연구의 재현 가능성을 높이는 토대다. ⁴

Open Source & Repos

vLLM: 고처리량·메모리 효율 LLM 서빙 v0.22.0

vLLM은 대형 언어 모델(LLM)을 빠르고 비용 효율적으로 실행·서빙하기 위한 추론 엔진이다. 실무 도입을 쉽게 하고 처리량과 메모리 효율을 함께 겨냥한다. ⁵

2026-05-29 공개된 v0.22.0은 230명의 기여자가 만든 459개의 커밋(신규 63명 포함)을 담았다. 하이라이트에는 DeepSeek V4를 전용 패키지 경로로 재구성하는 경화 작업 등이 포함되었다. ⁵

왜 중요한가

선도 논문은 벤치마크 점수 상승이 곧 제대로 된 공간 이해를 보장하지 않음을 보여준다. 스케일링은 오히려 원근 지름길을 키울 수 있어, 3차원 추론을 점검하는 표현 수준의 프로브와 합성 벤치마크가 필요하다. ¹

한편 보조 연구들은 긴 문맥에서의 신뢰도 인지 메모리, 실행 중 스킬 재사용, 관대한 라이선스의 대규모 데이터, 성숙한 서빙 스택이 견고성과 효율을 동시에 끌어올리는 현실적 수단임을 제시한다. ²

출처 5

[1] Arxiv Why Far Looks Up: Probing Spatial Representation in Vision-Language Models [2] Arxiv CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM [3] Arxiv PANDO: Efficient Multimodal AI Agents via Online Skill Distillation [4] Arxiv GPIC: A Giant Permissive Image Corpus for Visual Generation [5] Github vllm-project/vllm

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집