AI 뉴스Research

약 6분 2026. 6. 18.

TransformersSystems for MLDisaggregated inferenceMultimodal agentsFormal verificationOpen-source inference

층 너비를 조절한 언어 모델이 같은 품질에 연산 22% 절감

깊이에 따라 넓고-좁고-넓은 구조를 쓰는 트랜스포머가 같은 크기의 모델을 이기면서 키-값 캐시 메모리를 15% 줄였다. 동시에 멀티에이전트 런타임을 형식 검증하고, 분리형 추론을 게임이론으로 조정하며, 시각 중심 검색 에이전트를 제안한 논문과 CPU 우선의 LocalAI 업데이트가 나왔다.

기사에서 찾기

읽기 모드

한 줄 요약

더 적은 자원으로 더 많은 일을 하려는 흐름이 뚜렷하다: 층 너비를 조절한 트랜스포머로 연산·메모리를 줄이고, 형식 검증으로 멀티에이전트 런타임을 단단히 하며, 게임이론으로 분리형 추론 라우팅을 개선하고, 시각 중심 에이전트로 그라운딩을 강화했다 — 여기에 로컬 실행용 CPU 우선 엔진도 업데이트됐다.

Research Papers

Variable-Width Transformers: 층 너비를 달리해 같은 품질로 연산 절감

이 논문은 트랜스포머 기반 대형 언어 모델(LLM)의 층을 처음과 끝은 넓게, 가운데는 좁게 만드는 넓음–좁음–넓음(X자형) 배치를 제안한다. 2억~20억 매개변수(조밀)와 30억 매개변수 전문가 혼합(MoE) 디코더 모델에서, 이런 가변 너비 모델은 언어 모델링 손실 지표에서 동일 파라미터의 균일 너비 기준선을 꾸준히 앞선다. ¹

정확도뿐 아니라 비용도 줄였다. 맞춘 손실 동등 스케일링 곡선 기준으로 부동소수점 연산 수(FLOPs)를 22% 절감하고, 키-값(KV) 캐시 메모리와 I/O를 15% 줄인다. 이는 별도 매개변수가 없는 잔차(residual) 리사이징 메커니즘의 도움을 받는다. 이런 절감은 학습 비용과 서비스 효율 모두에 직접적 영향을 준다. ¹

분석에 따르면 모래시계형 병목은 잔차 스트림 내부 표현을 바꾼다. 즉 모든 층이 같은 너비일 필요는 없다는 뜻이다. 본 연구는 최대 20억(조밀), 30억(MoE) 규모까지 평가했으며, 그보다 훨씬 큰 최전선 모델로의 적용 가능성은 이 논문에서 다루지 않는다. ¹

동시성 이상 검증: 멀티에이전트 LLM 런타임을 기계 검증

여러 에이전트가 도구, 벡터 스토어, 메모리를 공유하면 서로의 작업을 덮어써 오래된 결과를 내거나 실행 순서가 뒤바뀔 수 있다. 이 논문은 멀티에이전트 대형 언어 모델(LLM) 시스템의 네 가지 이상 현상을 형식화하고, 행동의 시간 논리(Temporal Logic of Actions, TLA+)와 TLA+ 모델 검사기(TLC)로 검출기와 예방 기법의 건전성과 완전성을 증명한다. 네 이상 현상은 stale-generation, phantom-tool, causal-cascade, tool-effect reordering다. ²

저자들은 L0 ⊂ … ⊂ L4의 일관성 계층을 기계적으로 확립하고, 하위 수준은 실제 Rust 런타임을 검증하며 상위 수준은 실행 모드로 검증했다. 가정·인정 0개의 274개 Verus 증명을 제시하고, ByteDance의 deer-flow에서 조용한 손실 업데이트를 재현해 L1로의 수정 정제를 형식화했으며, LangGraph의 ToolNode에서 tool-effect reordering을 보여주고 L3 커밋 순서 시퀀서로 제거했다. 라이브 실행에서는 A3 이상을 120개 세션 모두에서 예방했고, 의존성 없는 예방 쌍은 명세대로 0/1000 대 1000/1000 결과를 보였다. ²

분리형 추론의 무질서 비용: 게임이론 기반 적응형 라우팅

프리필과 디코드를 별도의 그래픽 처리 장치(GPU) 풀로 나누는 서빙은 제한된 하드웨어를 두고 경쟁하는 플레이어처럼 행동할 수 있다. 논문은 NVIDIA Dynamo를 자원·캐싱·라우팅의 결합 게임으로 모델링하고, 포화 구간에서 보상이 바뀌어 경험적 무질서 비용(PoA-hat) 추정치가 상승함을 보인다. 3노드 NVIDIA B200 클러스터에서 Nemotron-4-340B(텐서 병렬화, TP=8)와 Llama-3.1-70B(TP=4)로 같은 3단계 체제와 동일한 첫 무릎 이후 격자 지점 C=128을 관찰했다. ³

저자들은 포화 전이 감지를 통해 캐시 친화에서 혼잡 회피로 라우팅을 재조정하는 적응형 컨트롤러를 제안한다. 70B 1P/5D 토폴로지에서 PoA-hat이 3.1배(66.4→21.5) 떨어지는 대신 처리량이 13% 감소했고, 70B 1P/2D에서는 PoA-hat이 2.2배 하락하며 첫 토큰까지 걸린 시간(TTFT) P99가 7.6배 개선됐다. 이는 부하가 큰 상황에서 더 안정적인 서빙을 위한 실용적 조정 수단을 시사한다. ³

Visual-Seeker: 시각 증거를 단계적으로 모으는 검색 에이전트

대부분의 멀티모달 대형 언어 모델(MLLM)은 이미지 관련 질문에 답하지만, 실제 웹 환경에서는 텍스트 단서에 치우쳐 세부를 놓치기 쉽다. Visual-Seeker는 웹 검색을 능동적 시각 과정으로 정의해, 에이전트가 반복적으로 세밀 영역에 주의를 기울이며 검색 과정 전반에서 시각 증거를 단계적으로 수집한다. ⁴

연구팀은 능동적 시각 추론 데이터 파이프라인을 구성해 5,000개의 고품질 멀티모달 궤적을 합성해 학습했다. 그 결과 다섯 가지 어려운 멀티모달 검색 벤치마크에서 최신 성능을 보고했고, 일부 독점 시스템을 능가했다. 코드와 데이터는 GitHub에서 제공된다. ⁴

Open Source & Repos

LocalAI: CPU로도 LLM·비전·음성 모델 실행

LocalAI는 언어, 비전, 음성, 이미지, 비디오 모델을 자체 장비에서 실행할 수 있게 하는 오픈소스 엔진이다. 중앙 처리 장치(CPU)만으로도 동작하며 MIT 라이선스로 배포된다. “어떤 하드웨어에서든 어떤 모델이든”을 표방해 오프라인·프라이버시 요구가 큰 환경에 적합하다. ⁵

2026-06-13에 v4.4.3 릴리스를 게시하는 등 지속적으로 업데이트되고 있다. 그래픽 처리 장치(GPU) 없이도 멀티모달을 아우르는 단일 런타임을 원하는 셀프 호스팅 사용자에게 유용하다. ⁵

왜 중요한가

더 크게 만드는 것만이 해법이 아니다. 깊이별 너비를 재배치해 품질과 비용 절감을 함께 얻을 수 있음을 보였고, 형식 검증된 런타임과 게임이론적 컨트롤러는 실제 부하에서의 신뢰성을 겨냥한다. 시각 중심 에이전트 연구는 편한 텍스트에 기대지 않고 필요한 증거를 능동적으로 모을 때 그라운딩이 좋아짐을 시사한다. ¹

팀 관점에서는 선택지가 넓어진다. 가변 너비 설계를 채택해 연산·메모리 발자국을 줄이고, 에이전트 시스템에서 조용한 데이터 오염을 막기 위해 검증된 스케줄링·일관성 수준을 도입하며, 분리형 클러스터에서는 적응형 라우팅으로 꼬리 지연을 완화할 수 있다. 프라이버시·엣지 제약이 크다면 LocalAI 같은 도구로 로컬 추론을 유지할 수 있다. ²

이번 주 시도해볼 것

Variable-Width Transformers 논문 훑어보기: 초록과 그림으로 넓음–좁음–넓음 아이디어를 파악한다(arXiv). ¹
LocalAI로 로컬 추론 맛보기: 저장소 README를 따라 노트북에서 CPU만으로 작은 텍스트 모델을 실행한다. ⁵

출처 5

[1] Arxiv Variable-Width Transformers [2] Arxiv Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems [3] Arxiv The Price of Anarchy in Disaggregated Inference [4] Arxiv Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning [5] Github mudler/LocalAI: LocalAI is the open-source AI engine

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집