AI 뉴스Research

약 5분 2026. 6. 4.

World Action ModelVision-Language-ActionYOLO26KV cache quantizationHumanoid-GPTvLLM

행동 학습이 ‘고정 클립’에서 ‘사건 단위’로 이동 — WALL-WM

의미 있는 ‘사건’에 맞춰 학습을 재구성하고 가변 길이 제어를 지원한 WALL‑WM이 실세계 일반화에서 최고 성능을 보고했다. 동시에 20억 프레임 규모 Humanoid‑GPT, 실시간 통합 YOLO26, 긴 추론을 위한 2비트 KV 캐시 양자화가 발표됐다.

기사에서 찾기

읽기 모드

한 줄 요약

사건 중심의 행동 학습, 20억 프레임 전신 추적, 실시간 통합 비전 파이프라인, 2비트 KV 캐시 압축까지 — 행동·지각 전반에서 ‘고정 레시피’ 대신 확장 가능한 구조가 부상한다.

Research Papers

WALL-WM: 사건 단위로 학습하는 세계 행동 모델

WALL-WM은 고정 길이 클립을 자르는 대신, 의미 있는 ‘사건’을 최소 단위로 삼아 행동을 학습한다. 구체적으로 세계 행동 모델(World Action Model, WAM)에 맞춘 비전-언어-행동(Vision-Language-Action, VLA) 사전 학습을 사건에 정렬시키고, 시각·언어·제어를 같은 짧은 창에 끼워 맞추는 대신 과제의 의미(사건)에 맞춰 지도한다. 영화 전체를 일정 간격으로 자르면 맥락이 사라지듯, 이 방법은 중요한 장면(사건)에 표시를 하고 그 주변을 학습한다. ¹

데이터와 감독 신호 모두를 사건에 맞추기 위해 사건 수준 캡션과 클러스터 균형 샘플링을 사용하고, Muon 기반 최적화로 대규모 학습을 확장한다. 이로써 다양한 동작, 장면, 과제 구조 전반에 걸쳐 의미적으로 일관된 목표에 맞춰 학습을 조직한다. ¹

추론 단계에서는 두 가지 모드를 제공한다. 다음 사건 설명을 받아 가변 길이 실행을 하는 사건 모드와, 비전-언어 모델(Vision-Language Model, VLM)과 ‘계단식 디코딩’을 써서 기존 고정 길이 추론을 유지하면서도 VLA 경로의 그래디언트 연속성을 보존하는 통합 모드다. 사건 기반의 이점을 살리되 표준화된 청크 추론의 실용성을 놓지 않도록 설계했다. ¹

저자들은 언어·장면·과제 전반에서 넓은 일반화와, 대규모 실세계 일반화 평가에서 최고 성능을 보고한다. 체화형 에이전트를 실험하는 팀에게 핵심 교훈은 분명하다. 클립의 시작·끝이 아니라 과제의 의미(사건)에 맞춰 학습 단위를 재설계하라는 점이다. ¹

Humanoid-GPT: 20억 프레임으로 전신 추적

Humanoid‑GPT는 전신 제어를 위한 GPT 스타일(Generative Pretrained Transformer, GPT) 트랜스포머로, 20억(2B) 프레임 규모 동작 말단 데이터로 학습했다. 얕은 다층 퍼셉트론(Multi‑Layer Perceptron, MLP) 추적기가 민첩성과 일반화 사이에서 타협하던 한계를 넘어, 과제별 미세 조정 없이도 매우 역동적인 동작을 추적하고 새로운 제어 과제에 제로샷으로 일반화하는 것을 목표로 한다. ²

이 모델은 주요 동작 캡처(motion capture, mocap) 데이터셋과 대규모 사내 녹화를 통합한 2B 프레임 재타기화 코퍼스를 바탕으로, 데이터와 모델 용량을 함께 확장해 단일 생성 모델로 보편적 제로샷 일반화를 보인다고 보고한다. 전신 추적과 제어의 새로운 성능 경계를 제시하는 것으로 평가된다. ²

Ultralytics YOLO26: 실시간 통합 비전 모델

Ultralytics YOLO26은 비최대 억제(Non‑Maximum Suppression, NMS) 없는 엔드투엔드 추론을 겨냥한 실시간 비전 모델 계열이다. 분포 초점 손실(Distribution Focal Loss, DFL)을 제거해 검출 헤드를 경량화하고, 듀얼 헤드 설계로 NMS 없는 네이티브 추론을 지원한다. 단일 파이프라인에서 한 번만 본다(You Only Look Once, YOLO) 계열의 강점을 살려 검출, 인스턴스 분할, 자세 추정, 분류, 방향성 검출까지 아우른다. ³

학습 측면에서는 MuSGD(Muon–확률적 경사 하강법(Stochastic Gradient Descent, SGD) 혼합), 추론 시 사용하는 헤드에 감독을 점차 집중시키는 Progressive Loss, 작은 물체에 양성 라벨을 보장하는 STAL 라벨 할당을 도입했다. 조합 효과로 실시간성을 유지하면서 작은 물체 재현율을 끌어올리고 배포 복잡도를 낮추는 것이 목표다. ³

다섯 스케일(n/s/m/l/x) 전반에서 YOLO26은 일상 사물 데이터셋(Common Objects in Context, COCO)에서 평균 정밀도(mean Average Precision, mAP) 40.9–57.5를 보고하며, T4 TensorRT 지연은 1.7–11.8ms로 제시된다. 실시간 검출기의 정확도–지연 파레토를 전진시켰다고 밝히며, 개방 어휘 확장판 YOLOE‑26x는 대어휘 실체 분할(Large Vocabulary Instance Segmentation, LVIS) minival에서 텍스트 프롬프트 조건으로 평균 정밀도(Average Precision, AP) 40.6을 기록했다. 코드와 모델이 공개되어 있다. ³

KVarN: 긴 추론을 위한 2비트 KV 캐시 양자화

KVarN은 대형 언어 모델(Large Language Model, LLM) 디코더의 키-값 캐시(key‑value, KV 캐시)를 압축해, 긴 답변을 메모리 한도 안에서 정확도 손실을 최소화하도록 돕는 양자화 기법이다. 저자들은 자기회귀 디코딩에서는 토큰 스케일 오류가 주된 원인이 되어 양자화 오차가 시점마다 누적되며, 프리필 유사 환경 평가는 이 문제를 놓친다고 지적한다. ⁴

이를 해결하기 위해 KVarN은 아다마르 회전(Hadamard rotation) 후 K·V 양축에 이중 스케일 분산 정규화를 적용해 이상치 토큰 스케일 오류를 교정한다. 보정(calibration) 없이 작동하며 2비트 정밀도에서도 기존 KV 캐시 양자화법보다 누적 오차를 크게 줄인다고 보고한다. ⁴

KVarN은 MATH500, AIME24, HumanEval 등 생성 벤치마크에서 2비트 정밀도로 새로운 최고 성능을 세웠다고 밝히며, vLLM 구현도 제공된다. 테스트 타임 스케일링을 활용하는 실무자에게는 긴 컨텍스트 추론을 메모리 폭증 없이 뒷받침한다는 점이 핵심이다. ⁴

왜 중요한가

오늘 소개된 네 결과는 ‘구조’가 관건임을 보여준다. WALL‑WM은 과제의 의미(사건)에 맞춰 학습 단위를 재정의했고, Humanoid‑GPT는 데이터·모델 용량 확대로 과제별 미세 조정 없이 일반화를 노린다. YOLO26은 실시간 과제를 단일 파이프라인으로 통합해 배포를 단순화하고, KVarN은 KV 캐시를 2비트로 압축해 긴 추론을 더 적은 메모리로 가능하게 한다. 각기 다른 병목(학습 단위 불일치, 동작 데이터 부족, 배포 복잡도, 메모리 한계)을 정면 돌파하는 접근이다. ¹

비개발자 팀에도 신호는 분명하다. 의도 수준의 지시를 따르는 체화형 에이전트, 후처리 부담 없는 실시간 비전, 동일 하드웨어 예산에서 더 긴 추론을 견디는 언어 모델이 가까워진다. 공통 교훈은 ‘크게 키우기’에 앞서 문제를 어떻게 재구성할지(사건, 구조, 메모리)를 먼저 정하라는 점이다. ³

출처 4

[1] Arxiv WALL-WM: Carving World Action Modeling at the Event Joints [2] Arxiv Humanoid-GPT: Scaling Data and Structure for Zero-Shot Motion Tracking [3] Arxiv Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models [4] Arxiv KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집