제01권 · 제10호 데일리 디스패치 2026년 5월 16일

최신 AI 뉴스 모음집

AI · 논문데일리 큐레이션공개 아카이브
AI 뉴스Research
약 6분

학습 전용 주의 래퍼로 초장문 학습 가속

Lighthouse Attention은 표준 어텐션 앞뒤로 시퀀스를 압축해 학습을 빠르게 하고, 짧은 복구 단계 뒤 스스로 제거된다. 실제 테이블 이해·전문가 혼합 라우팅·적응형 에이전트 평가 연구가 함께 나왔고, 쿠버네티스 추론 스택은 주요 변경을 포함한 업데이트를 배포했다.

읽기 모드

한 줄 요약

초장문 학습과 MoE 추론을 더 효율적으로 만드는 연구가 나왔고, 실제 환경을 반영한 표 이미지·적응형 에이전트 평가가 빈틈을 드러냈으며, 쿠버네티스 추론 스택은 주요 업데이트를 배포했다.

Research Papers

Lighthouse Attention: 제거 가능한 래퍼로 초장문 사전학습 가속

이 논문은 표준 스케일드 도트-프로덕트 어텐션(SDPA) 앞뒤로 시퀀스를 계층적으로 압축하는 학습 전용 래퍼인 Lighthouse Attention을 제안한다. 매우 긴 토큰 시퀀스를 학습 단계에서 압축해 속도를 높인 뒤, 마지막에 래퍼를 제거하고 짧은 복구 단계를 거쳐 완전한 어텐션 모델로 되돌린다. 이 접근은 SDPA의 시간·메모리 제곱형 병목을 학습 중 선택과 풀링으로 우회한다. 1

방법은 선택 기반 대칭형으로, 왼쪽에서 오른쪽으로의 인과성을 보존한 채 쿼리·키·값을 동시에 풀링해 병렬성을 높인다. 시퀀스를 적응적으로 압축·복원하는 부분은 제곱보다 낮은 복잡도를 가지며, 선택 단계는 그래디언트가 필요 없어 복잡한 역전파 커널을 피한다. 1

훈련은 두 단계로 진행된다. 대부분의 사전학습을 Lighthouse Attention으로 수행하고, 마지막에 짧은 “복구” 단계로 완전 어텐션을 회복해 추론 단계에서 추가 비용이 없도록 한다. 초기 소규모 대형 언어 모델(LLM) 실험에서, 동일 조건의 완전 어텐션 학습 대비 총 학습 시간이 더 짧고 최종 손실도 더 낮게 나왔다. 1

WildTableBench: 실제 테이블 이미지 이해를 묻는 벤치마크

WildTableBench는 포럼·웹사이트에서 수집한 자연발생 표 이미지를 기반으로 한 질의응답 벤치마크로, 다양한 레이아웃과 도메인에서 구조 인식과 수치 추론 능력을 실제에 가깝게 측정한다. 데이터는 표 이미지 402장과 검증된 질문 928개로 구성되며, 5개 범주 17개 하위 유형을 포함하고, 공개·상용 포함 21개 멀티모달 기초 모델을 평가한다. 2

결과는 단 하나의 모델만 정확도 50%를 넘겼고, 나머지는 4.1%에서 49.9% 사이에 머물렀다. 구조 지각과 수리 추론의 약점을 진단해 영수증·명세서·보고서 등 실제 과제에서의 한계를 보여주는 진단형 벤치마크로 제시된다. 2

BEAM: 이진 마스크로 전문가 혼합 라우팅 가속

BEAM(Binary Expert Activation Masking)은 고정 Top-K 라우팅 대신 토큰별로 활성화할 전문가를 학습된 이진 마스크로 결정해 효율을 높이는 방법이다. 직교추정기(straight-through estimator)와 보조 정규화 손실을 사용해 종단 간로 동적 희소성을 유도하고, 대규모 구조 변경 없이 vLLM 추론 프레임워크에 통합된다. 전문가 혼합(MoE)의 추론 효율화를 실무 친화적으로 구현하려는 시도다. 3

실험에서는 원래 모델 성능의 98% 이상을 유지하면서 MoE 층의 부동소수점 연산(FLOPs)을 최대 85% 줄였고, 디코딩 속도는 최대 2.5배, 처리량은 1.4배 높였다. 저자들은 이를 실전에 바로 적용 가능한 플러그앤플레이형 MoE 가속 해법으로 제시한다. 3

FutureSim: 실제 뉴스 타임라인으로 에이전트 적응력 평가

FutureSim은 지식 컷오프 이후의 기간에 대해 실제 세계 사건을 시간순으로 재생해, 새로운 정보가 도착할 때 에이전트가 어떻게 적응·예측하는지 평가한다. 2026년 1월부터 3월까지 뉴스 기사가 순차적으로 도착하는 환경에서 질문에 답하도록 구성되며, 최신 에이전트를 각자의 실행 환경에서 테스트한다. 4

결과는 능력 격차가 뚜렷함을 보였고, 최고 에이전트도 정확도 25%에 그렸으며 많은 경우 아무 예측도 하지 않는 것보다 브라이어 기술 점수(Brier skill score)가 낮았다. 이 통제된 재생 환경은 장기 추론 시점 적응, 검색, 메모리, 불확실성 추론을 체계적으로 연구하는 기반을 제공한다. 4

Open Source & Repos

llm-d 0.7.0: 쿠버네티스용 SOTA 추론 스택, CUDA 13 이미지로 전환

llm-d는 쿠버네티스 상용 운영을 염두에 둔 고성능 분산 추론 서빙 스택으로, 다양한 가속기에서 최첨단(SOTA) 성능 달성을 목표로 한다. 이 프로젝트는 Apache 2.0 라이선스로 공개되었고, 현재 v0.7.0이 배포되어 있다. 5

0.7.0 릴리스에는 중대한 변경이 포함된다. 모든 CUDA 이미지를 13.0.2로 올리며, 호스트에는 NVIDIA 드라이버 580 이상이 필요하다. v0.7.0 이미지를 배포하기 전에 드라이버가 낮은 노드는 반드시 업그레이드해야 한다는 운영상 주의 사항이다. 5

왜 중요한가

Lighthouse Attention과 BEAM은 각각 초장문 학습과 MoE 추론이라는 현대 AI의 두 비용 축을 겨냥해, 학습 중 시퀀스 압축과 토큰별 전문가 희소화를 통해 연산을 줄인다. 최종 모델에는 추가 추론 오버헤드가 없거나 작아 효율을 높이려는 흐름을 보여준다. 1

동시에 현실형 벤치마크는 약점을 드러낸다. 실제 표 이미지에서는 50% 정확도를 넘는 모델이 한 개뿐이었고, 시계열 뉴스에 맞춘 적응적 예측 역시 난도가 높다. 효율 개선과 함께 복잡하고 변하는 과제에서의 견고함을 동시에 확보해야 함을 시사한다. 2

이번 주 시도해볼 것

  1. llm-d v0.7.0 빠른 체험: 테스트 클러스터에서 배포 전 NVIDIA 드라이버 580+ 여부 확인 후 이미지를 받아 실행한다. https://github.com/llm-d/llm-d
  2. WildTableBench 그림 훑어보기: 실제 표 이미지 예시와 오류 사례를 보고 데모와 현실의 차이를 감각한다. https://arxiv.org/abs/2605.01018

출처 5

도움이 되었나요?

댓글 (0)