AI 뉴스Research

약 7분 2026. 6. 12.

LLM auditingdependency graphssparse attentionvision-language modelsbenchmarkingarXiv

AI 공급망, 감사 착수: 1,060개 모델 의존성 추적

ModSleuth라는 에이전트가 데이터 필터부터 평가까지 모델이 의존한 대상을 되짚어 다중 단계 라이선스 의무와 학습·배포 불일치를 드러낸다. 함께 발표된 논문은 긴 문맥 추론 가속(SparDA), 되살릴 수 있는 시각 토큰 라우팅(Reroute), 예측시장 1.2만 건 데이터로 평가한 사회 세계 모델을 다뤘다.

기사에서 찾기

읽기 모드

한 줄 요약

오늘의 논문은 투명성과 효율을 동시에 끌어올린다: ModSleuth가 1,060개 모델 의존성을 추적했고, 긴 문맥 추론 가속과 시각 토큰 보존 기법이 제안되었으며, 사건 이후 사회적 믿음 변화를 예측하는 모델이 등장했다.

Research Papers

ModSleuth: 보이지 않는 모델 의존성 감사

현대 대형 언어 모델(LLM)은 데이터 생성, 말뭉치 필터링, 출력 평가, 개발 의사결정에 다른 모델을 널리 활용한다. ModSleuth는 공개 아티팩트만으로 이런 숨은 의존성을 되짚어 의존성 그래프를 재구성하는 에이전트형 시스템으로, AI 모델의 자재 명세서에 가깝다. ¹

이 시스템은 직접·간접 의존성을 구분하고, 파이프라인 역할을 연산 중심 관계로 표현하며, 이름·버전·저장소가 뒤섞인 아티팩트 정체성을 정리한다. 공개 아티팩트가 풍부한 LLM 릴리스 4건에 적용해 출처로 검증된 1,060개의 의존성을 복구하고 대규모 의존성 그래프를 구축했다. ²

그래프는 다중 단계 라이선스 의무, 학습·평가 결합, 학습 시점과 배포 시점 아티팩트 불일치, 문서화 불일치를 드러냈다. 연구진은 ModSleuth와 결과 그래프를 공개해 투명한 분석을 지원한다. ¹

사회 세계 모델: 사건 이후 믿음 변화를 예측

Social World Model(SWM)은 주요 사건 뒤에 대중의 믿음이 어떻게 바뀌는지를 상태 전이를 학습해 설명한다. 명시적 라벨 없이 시간 정보가 있는 사회 데이터를 바탕으로 대형 언어 모델(LLM)이 이러한 변화를 학습한다. ³

평가를 위해 Kalshi와 Polymarket 예측시장 데이터에서 1만 2천 건이 넘는 SWM‑bench를 제시했다. SWM은 시계열 기반 기초 모델을 앞서며 Kalshi에서 최첨단 성능을 보이고 Polymarket에서도 경쟁력을 보였고, 변화 메커니즘에 대한 해석 가능성도 제공한다. ³

SparDA: 긴 문맥 추론을 위한 예측형 희소 어텐션

SparDA는 각 층에 네 번째 투영인 ‘Forecast’를 추가해 다음 층에 필요할 키‑값 캐시(KV 캐시) 블록을 예측한다. 이를 통해 선제 선택이 가능해지고, 중앙처리장치(CPU)에서 그래픽처리장치(GPU)로의 사전 적재를 현재 실행과 겹쳐 진행한다. ⁴

Forecast는 쿼리와 분리되어 그룹드 쿼리 어텐션(GQA)으로 구현되므로 선택 오버헤드가 줄어든다. 전체 매개변수는 0.5% 미만만 추가해 Forecast만 학습했고, 희소 사전학습된 80억 매개변수 모델 2종에서 정확도를 유지하거나 소폭 개선하면서 프리필 최대 1.25배, 디코드 최대 1.7배, 디코드 처리량은 최대 5.3배까지 향상했다. ⁴

Reroute: 시각 토큰을 제거하지 않고 다시 경로 지정

시각‑언어 모델(VLM)은 이미지당 수백~수천 개의 시각 토큰을 만든다. Reroute는 제거 대신 회복 가능한 라우팅으로 바꾸는 학습 없이 쓰는 플러그인으로, 보류된 토큰을 한 단계 건너뛴 뒤 다음 의사결정 시점에 다시 후보군에 넣는다. ⁵

기존 주의 점수 기반 순위와 단계별 스케줄을 재사용해, 기반 가지치기 방법의 연산량과 KV 캐시 예산을 유지하면서도 강한 토큰 축소 상황에서 접지 성능을 개선한다. LLaVA‑1.5와 Qwen 백본의 FastV, PDrop, Nüwa 변형에서 이를 확인했으며 코드가 공개됐다. ⁶

커뮤니티 반응

Hacker News (240↑) — 실무진은 다층·저지연 메모리와 벡터 데이터베이스·검색 증강 생성(Retrieval‑Augmented Generation, RAG) 사이에서 현실적 설계를 논의하며, 단기적으론 명령줄 인터페이스(CLI) 중심의 단순한 패턴을 선호한다는 의견이 나온다. ⁷

"한 층짜리 메모리를 전제로 하는 말이네요. 제 경험상 제대로 작동하려면 최소한 4층의 메모리가 필요합니다. 각 층은 검색 요구사항이 다릅니다. 단기 메모리에 있는 모든 것(앱 상태, 현재 대화, 현재 작업공간 아티팩트)은 빠른 지연과 정확성을 필요로 합니다. 예를 들어 재무 분석, 블로그 글, 또는 프로그램의 일부분을 편집하고 싶다면 그 부분만 편집하고 싶을 겁니다. 제 의견으로는 VectorDB 기반 RAG는 과도하다고 생각합니다." — Hacker News ⁷

Hacker News (134↑) — 조회 기반 효율과 일반화 필요성의 긴장 속에서 선택적 주의 메커니즘에 대한 관심이 드러난다. ⁸

"맞아요, 하지만 계산 대신 조회(lookup)를 사용하는 아이디어는 사용 가능한 계산 자원이 제한될 때 유용할 수 있습니다. 물론 단순한 룩업 테이블을 말하는 건 아니고, 최근 대형 기초 모델 동향을 보면 외부 정보를 효율적으로 접근하는 방법이나 입력에 선택적으로 주의를 기울이는 방식(예: 랜드마크 어텐션 토큰)에 대한 관심이 많습니다." — Hacker News ⁸

"그건 분명히 훈련 데이터에만 적용됩니다. 핵심은 보이지 않는 입력-출력 쌍을 예측하는(일반화) 것이므로 중요한 것은 단지 함수에 맞추는 능력이 아니라 그 함수를 보간하고 외삽하는 능력이라는 점을 상기시키는 좋은 예입니다. 서로 다른 기저와 서로 다른 적합 알고리즘은 그 점에서 다른 행태를 보일 것입니다." — Hacker News ⁸

왜 중요한가

책임성과 효율성이 맞물린다. ModSleuth는 라이선스 연쇄와 학습·평가 결합을 점검할 수 있는 출처 기반 의존성 지도를 제공하고, SparDA와 Reroute는 핵심 모델 재학습 없이 문맥과 시각 예산을 늘리는 실용적 방법을 제시한다. ¹

실무자는 숨은 가정과 예산을 드러내야 한다. 모델이 무엇에 의존하는지 파악하고, 가능하면 메모리·토큰 축소를 되돌릴 수 있게 설계하라. 커뮤니티 논의도 무거운 검색 스택보다 실용적 메모리 설계를 향한 움직임을 보여준다. ⁷

출처 8

[1] Arxiv Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs [2] Arxiv Which Models Are Our Models Built On? Auditing Invisible Dependencies in Modern LLMs (v1) [3] Arxiv Building Social World Models with Large Language Models [4] Arxiv SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference [5] Arxiv Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models [6] Arxiv Reroute, Don't Remove: Recoverable Visual Token Routing for Vision-Language Models (v1) [7] Ycombinator Hacker News discussion: Which Models Are Our Models Built On? [8] Ycombinator Hacker News discussion: Building Social World Models with Large Language Models

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집