AI 뉴스Research

약 8분 2026. 6. 17.

LLMagentic AIreinforcement learningattention mechanismsvideo embeddingsKV cache

Ling-2.6·Ring-2.6 공개 — 1조 파라미터 모델 포함

하나는 즉시 응답, 다른 하나는 깊은 추론에 맞춰 설계되었고, 하이브리드 선형 어텐션과 새로운 강화 학습 프레임워크를 결합했다. 오늘의 기타 소식: 23개 과제 비디오 임베딩 벤치마크, 문맥 인지형 강화 학습 기법, 빠른 키-값(KV) 캐시 지우개.

기사에서 찾기

읽기 모드

한 줄 요약

오늘의 연구는 에이전트 지향 AI를 더 빠르고 근거 있는 추론으로 밀어붙인다 — 1조 규모 체크포인트 공개부터 23개 과제 비디오 벤치마크, 문맥 인지형 학습, 효율적 캐시 편집까지.

LLM & SOTA Models

Ling-2.6·Ring-2.6: 1조 파라미터 지향 즉시 응답·에이전트 모델

즉시 응답에 맞춘 Ling-2.6과 더 깊은 추론·에이전트 워크플로에 맞춘 Ring-2.6이 공개 체크포인트와 함께 제시되었다. 목표는 낮은 지연시간과 강한 추론을 동시에 달성하면서 학습·서빙·도입을 실용적으로 유지하는 것이다. 기술 보고서는 2.6 계열을 효율적이고 확장 가능하며 개방적인 에이전트 시스템으로 가는 경로로 제시한다. ¹

팀은 처음부터 다시 학습하지 않고 Ling-2.0 기반을 ‘아키텍처 마이그레이션 사전학습’과 대규모 후속 학습으로 업그레이드한다. 모델 아키텍처, 최적화 목표, 서빙 시스템, 에이전트 학습 환경을 함께 설계해 개선을 끌어낸다. 또한 두 가지 선형 어텐션 방식을 결합한 하이브리드 설계를 도입해 긴 문맥 학습과 디코딩 효율을 높인다. 출력 면에서는 연쇄적 사고(Evolutionary Chain-of-Thought), Linguistic Unit Policy Optimization, 양방향 선호도 정렬, 가장 짧은 정답 응답 증류를 통해 ‘토큰당 능력’을 끌어올린다. ¹

에이전트 능력을 위해 Ring-2.6-1T(파라미터 1조) 안정 학습을 지원하는 KPop이라는 강화 학습(RL) 프레임워크를 제안한다. KPop은 코딩, 검색, 도구 사용, 워크플로 실행을 비동기적으로 스케줄링해 복잡한 에이전트–환경 상호작용에서의 학습 효율을 높인다. ¹

의미: 2.6 계열은 속도와 추론 깊이를 함께 최적화하고 학습·서빙을 공설계한다. 향후에는 독립 지연시간 측정, 긴 문맥에서의 거동, 공개 체크포인트가 실제 도구 사용 에이전트 성능으로 이어지는지 주목할 만하다. ¹

Open Source & Repos

Rivet: 에이전트용 상태 저장 실행을 위한 액터 런타임

Rivet은 메모리에 상태를 보관하고 자동으로 영속화하는 장기 실행·경량 “액터”를 제공한다. AI 에이전트, 협업 앱, 내구 실행을 위해 설계되었으며, 에이전트·세션·사용자별로 액터를 하나씩 만들고 내장 워크플로와 큐를 활용해 작업을 조율할 수 있다. ²

프로젝트는 2026-06-15 공개된 Release v2.3.0 등 활발한 변경 이력을 보여주며, 버그 수정과 프런트엔드 개선, 빠른 시작 문서와 커뮤니티 채널을 제공한다. 에이전트 백엔드를 검토하는 팀에게 여러 서비스를 조합하지 않고 상태를 관리하는 실용적 선택지다. ²

Research Papers

MVEB: 23개 과제로 비디오 임베딩을 공정 비교

MVEB는 분류, 제로샷 분류, 군집화, 쌍 분류, 검색, 비디오 중심 질의응답(QA)을 아우르는 23개 과제의 비디오 임베딩 벤치마크다. 33개 모델을 평가한 결과 하나의 방식이 모든 영역을 장악하지는 않았다. 다중모달 대형 언어 모델(MLLM) 임베딩은 분류·군집화·쌍 분류·QA에서 앞서고, 멀티모달 바인딩 계열은 검색·제로샷 분류에서 강점을 보인다. 대조학습 적응 없이 생성 중심 MLLM을 임베딩으로 쓰면 교차모달 과제에서 성능이 급락한다. ³

오디오의 효과는 데이터 라벨 생성 방식에 좌우된다. 라벨이 오디오와 영상 모두에서 만들어졌다면 오디오는 도움을 주지만, 시각만으로 라벨링된 데이터에서는 오디오가 오히려 성능을 깎는다 — 모델 계열을 가로질러 6포인트 차이가 일관되게 관찰된다. MVEB는 184개 과제 풀(MVEB+)에서 추출되었고, 대규모 텍스트 임베딩 벤치마크(MTEB) 생태계에 통합되어 코드와 리더보드를 함께 공개한다. ³

ContextRL: 답을 뒷받침하는 올바른 문맥을 고르게 가르치는 방법

ContextRL은 대형 언어 모델(LLM)을 위한 문맥 인지형 강화 학습(RL) 기법이다. 질의와 답, 매우 유사한 두 개의 문맥을 제시하고 답을 뒷받침하는 문맥을 선택할 때 보상을 주어, 긴 도구 실행 기록이나 미세한 이미지 단서에서도 정교한 근거 연결을 학습시킨다. ⁴

기준선으로 그룹 상대 정책 최적화(GRPO)를 두고, 약 1,000개의 코드 경로 쌍과 7,000개의 이미지 기반 쌍을 만들었다. 5개 장기 과제에서 표준 GRPO 대비 평균 +2.2% 향상, 12개 시각 질의응답(QA) 과제에서 +1.8% 향상을 보고했다. 동일 대조 문맥을 데이터 증강으로만 쓴 기준선은 개선이 거의 없거나 없었고, 이득이 새로운 목표식에서 비롯됨을 보여준다. ⁴

KVEraser: 전체 재계산 없이 KV 캐시에서 잘못된 문맥 지우기

KVEraser는 모델의 키-값(KV) 캐시를 학습 기반으로 편집해, 이후에 틀린 것으로 확인된 문맥 구간(유해한 프롬프트 주입, 오래된 검색 사실 등)을 그 뒤 토큰 전체를 다시 처리하지 않고 지울 수 있게 한다. 지울 구간의 KV 상태만 학습된 ‘스티어링’ 상태로 대체하고 나머지 캐시는 재사용하며, 일반 구간-이웃 사전학습과 과제 특화 미세조정의 2단계 파이프라인으로 훈련된다. ⁵

실험에서 1K–32K 컨텍스트 길이 전반에 걸쳐 지운 후 성능은 전체 재계산에 거의 근접했지만 지연시간 증가는 24%에 그쳤다. 정확한 재계산의 17.6배 증가와 대조적이다. 보지 못한 장문서 질의응답(QA)에서 유해한 혼란 유발 문구가 있을 때도 근사 방법들보다 성능이 높으면서 전체 재계산 대비 3–4배 빠르다. ⁵

왜 중요한가

빠르게 응답하면서도 근거에 기반해 행동하는 에이전트를 만들려면, 속도·추론·상태 관리가 함께 맞물려야 한다. Ling/Ring 2.6은 아키텍처·목표식·서빙·환경을 공설계하고 공개 체크포인트를 제공해, 팀이 지연시간과 도구 사용을 직접 검증해볼 수 있게 한다. ¹

동시에 평가와 제어 도구도 성숙해지고 있다. MVEB는 어떤 비디오 임베딩이 어디서 강·약점을 보이는지 분명히 하고, KVEraser는 17.6배 재계산 비용을 내지 않고도 긴 문맥에서 모델의 ‘기억’을 바로잡는 실무형 수단을 제시한다. 이는 긴 문맥의 검색 증강 생성(Retrieval-Augmented Generation, RAG)과 에이전트 파이프라인에 핵심적이다. ³

이번 주 시도해볼 것

Rivet 액터 빠른 시작: GitHub 저장소를 열어 Quickstart를 따라 기본 상태 저장 액터를 실행해본다. https://github.com/rivet-dev/rivet
MVEB 훑어보기: arXiv 논문 개요·그림을 보며 과제별로 어떤 임베딩 유형이 맞을지 감을 잡는다. https://arxiv.org/abs/2606.14958

출처 5

[1] Arxiv Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale [2] Arxiv MVEB: Massive Video Embedding Benchmark [3] Arxiv Context-Aware RL for Agentic and Multimodal LLMs [4] Arxiv KVEraser: Learning to Steer KV Cache for Efficient Localized Context Erasing [5] Github rivet-dev/rivet: Rivet Actors are the primitive for stateful workloads

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집