AI 뉴스Research

약 8분 2026. 4. 13.

Vision-Language ModelsLong-context3D DetectionGenerative ModelsMoEAgentic AI

문서 이해 특화 멀티모달의 등장 — EXAONE 4.5의 의미

LG의 EXAONE 4.5가 시각·텍스트 동시 학습과 초장문 맥락으로 문서 과제를 정면 돌파했다. 한편 NVIDIA는 에이전트용 하이브리드 모델을 내놓고, 3D 탐지와 효율적 생성 연구도 전진했다.

기사에서 찾기

읽기 모드

한 줄 요약

문서 중심 멀티모달과 효율 최적화가 동시에 전진하며, 긴 맥락 에이전트와 실세계 3D 인지가 일상 과제로 다가왔다.

LLM & SOTA Models

EXAONE 4.5: 문서 이해에 맞춘 시각·언어 동시 학습 공개 가중치 모델

LG AI Research의 EXAONE 4.5는 문서를 “보며 읽는” 데 맞춰 이미지와 텍스트를 함께 학습한 모델이다. 기존 EXAONE 4.0에 전용 비주얼 인코더를 통합해 멀티모달 사전학습을 수행했고, 문서 중심 데이터 큐레이션으로 폼·표·레이아웃이 많은 과제에서 성능을 끌어올렸다. 일반 벤치마크에서도 경쟁력을 보이며, 한국어 맥락 추론과 문서 이해에서는 동급 최고 수준을 기록했다. 컨텍스트 길이는 256K 토큰으로 늘어 기업용 장문 과제에 대응한다. ¹

차별점은 “문서 우선” 데이터 설계다. 일반 이미지 성능을 좇기보다, 실제 업무에서 오류가 잦은 표·서식·복합 레이아웃에 맞춘 학습으로 실사용 적합성을 높였다. 크기대비 성능이 좋은 이유가 여기에 있다. ¹

현업 관점에서, 장문 맥락과 문서 특화 멀티모달은 취약한 OCR·검색 증강 생성(RAG) 체인을 줄이고 “이 PDF 묶음을 읽고 불일치만 요약” 같은 직결 워크플로를 가능하게 한다. 공개 가중치라는 점도 규제 환경의 평가·온프레미스 배포에 유리하다. ¹

Nemotron 3 Super: 에이전트 작업을 위한 하이브리드 Mamba-Transformer 전문가 혼합

NVIDIA의 Nemotron 3 Super는 오랜 시간 실행되는 에이전트를 위해, 시퀀스 효율이 높은 Mamba와 정밀한 Transformer를 섞고, 전문가 혼합(Mixture of Experts)으로 처리량을 높인 모델이다. 총 120B 파라미터에 토큰당 12B만 활성화되며, 1M 토큰 컨텍스트를 지원하고 가중치·데이터·레시피를 공개한다. PinchBench에서 85.6%로 동급 공개 모델 중 두드러진 성적을 보인다. ²

핵심은 토큰을 압축해 더 많은 전문가를 같은 비용으로 호출하는 “잠재 MoE”, 한 번에 여러 미래 토큰을 예측해 내장 추측 디코딩을 가능케 하는 “멀티 토큰 예측”, 두 백본의 장점을 결합한 하이브리드 구조다. 또한 NVFP4 정밀도의 사전학습으로 메모리 요구와 속도를 크게 개선했다고 밝힌다. ²

요지는 비용과 안정성이다. 다중 에이전트는 일반 채팅 대비 최대 15배 토큰을 소모하는데, Super는 높은 처리량과 초장문 안정성으로 코드베이스 전체 분석, 보안 티어링, 툴 다단계 계획에 적합하다. ²

Research Papers

WildDet3D: 실세계 3D 객체 탐지 확장

이 연구는 한 장의 RGB 이미지에서 3D 객체를 찾을 때, 텍스트·포인트·박스 중 어떤 힌트를 주어도 작동하도록 만든다. 저자들은 텍스트·포인트·박스 프롬프트를 본래부터 받아들이는 기하 인지형 탐지기를 제안하고, 추론 시 깊이 정보를 선택적으로 넣어 정확도를 높인다. 또한 13.5K 범주, 100만 장 이상의 이미지를 갖춘 대규모 데이터셋을 제시해 열린 세계 전이를 겨냥했다. ³

결과에서, 새 벤치마크(WildDet3D-Bench) 텍스트/박스 프롬프트는 각각 22.6/24.8 AP3D, Omni3D는 34.2/36.4 AP3D를 기록했다. 제로샷에서는 Argoverse 2와 ScanNet에서 40.3/48.9 ODS를 보였다. 특히 추론 시 깊이를 추가하면 평균 +20.7 AP가 오르는 점이 눈에 띈다. ³

AR·로보틱스·맵 제작에 유익한 점은, 방대한 3D 라벨링 없이도 자연어·가벼운 사용자 입력으로 탐지를 유도하고, 가능할 때 깊이 센서를 곁들여 난제를 해소할 수 있다는 것이다. ³

360Loc: 360도 기반 위치 추정과 기기 간 일반화

카메라가 “지금 정확히 어디인가”를 알아내는 위치 추정을 360도 이미지 기준으로 다루고, 서로 다른 카메라 유형 간 일반화를 본격 문제로 삼은 벤치마크다. 360도 레퍼런스에 핀홀·어안·360도 쿼리를 섞고, 360도 카메라-라이다로 수집한 데이터에서 6자유도 정답 포즈를 얻는 파이프라인을 제시한다. ⁴

저자들은 360도 이미지에서 다양한 시야각의 가상 카메라 영상을 잘라내는 방법을 도입해, 기기 간 성능 비교를 공정하게 만들고 특징 매칭·포즈 회귀의 성능을 끌어올렸다. 대칭·반복 구조가 많은 장면에서 360도 로컬라이제이션의 강인함도 확인된다. ⁴

ELT: 적은 파라미터로 고화질 이미지·비디오 생성

ELT는 많은 층을 쌓는 대신 소수의 Transformer 블록을 반복(공유 가중치)해 파라미터를 줄이면서 품질을 유지하는 방식이다. 학습 중 “루프 내부 자기 증류”로 얕은 루프와 최대 루프의 일관성을 맞춰, 한 번의 학습으로 비용-품질을 자유롭게 바꾸는 “애니타임” 추론을 가능케 한다. ⁵

동일 추론 연산 기준으로 파라미터를 4배 줄이며, ImageNet 256×256에서 FID 2.0, UCF-101에서 FVD 72.8로 경쟁적 성능을 보인다. 최근 효율 트렌드와도 맞물린다. 텍스트-음성 분야의 WAND는 창 구조 주의로 KV 캐시를 최대 66.2% 줄이고 1.51–1.89배 속도를 높였고, SpecDiff-2는 확산 초안과 정합으로 토큰/초를 평균 +55% 높이며 표준 디코딩 대비 최대 5.5배 가속을 보고한다. ⁶ ⁷

Open Source & Repos

fireworks-tech-graph: 기술 다이어그램 자동 생성 + agnix: 에이전트 설정 린팅

이 Claude Code “스킬”은 자연어 설명만으로 출판급 SVG를 만들고 PNG로 내보낸다. 7개 스타일, 14종 다이어그램(전체 UML 포함)을 지원하며 RAG·멀티에이전트·툴콜 흐름 등 AI/에이전트 패턴 지식이 내장됐다. 라이선스는 MIT. ⁸

에이전트를 구성한다면 agnix가 유용하다. Skills·Hooks·Memory·Plugins·모델 컨텍스트 프로토콜(MCP) 계열 설정을 156개 규칙으로 검사하고, --fix 자동 수정을 제공한다. 에디터·CI 통합도 가능해 복잡한 에이전트 구성을 예측 가능하게 유지한다. ⁹ ¹⁰

커뮤니티 팁: Claude Code의 “Skills”를 프롬프트가 아닌 “컨텍스트 라우팅”으로 보라. 설명을 명확히 적어야 필요한 순간에만 지식을 불러오고, 긴 대화에서 토큰 낭비를 줄인다. ¹¹

왜 중요한가

장문 맥락 멀티모달(EXAONE 4.5)은 깨지기 쉬운 OCR·RAG 파이프라인 의존을 줄이고 문서 업무를 단일 모델로 직접 처리하게 만든다. 하이브리드·공개 가중치 에이전트 모델(Nemotron 3 Super)은 항상 켜진 도구 사용형 시스템을 더 저렴하고 안정적으로 만든다. 비전 측면에서는 프롬프트 가능한 3D 탐지와 360도 위치 추정이 “실제 환경”의 범위를 넓힌다. ¹ ² ³ ⁴

효율성은 새 기준선으로 굳어진다. 파라미터 공유(ELT), 창 구조 주의(WAND), 확산 초안 기반 디코딩(SpecDiff-2)이 공통적으로 “품질을 유지하며 계산을 줄이는” 해법을 제시한다. 팀에는 더 빠른 반복, 낮은 비용, 현실 제약에 맞는 모델이 의미가 있다. ⁵ ⁶ ⁷

이번 주 시도해볼 것

다이어그램 자동 생성: fireworks-tech-graph로 현재 AI 파이프라인을 문장으로 설명해 SVG/PNG를 받아보자. ⁸
에이전트 설정 점검: agnix를 설치해 Claude Code/Cursor 설정을 검사하고 --fix로 권장 수정을 적용하자. ⁹

출처 11

[1] Nvidia Introducing Nemotron 3 Super [2] Arxiv EXAONE 4.5 Technical Report [3] Arxiv WildDet3D: Scaling Promptable 3D Detection in the Wild [4] Arxiv Elastic Looped Transformers (ELT) [5] Nsf SpecDiff-2: Scaling Diffusion Drafter Alignment For Faster Speculative Decoding [6] Github fireworks-tech-graph GitHub repository [7] Github agnix documentation 0.10.4 [8] Github agnix documentation 0.7.2 [9] Arxiv 360Loc: A Dataset and Benchmark for Omnidirectional Visual Localization with Cross-device Queries [10] Gist WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models [11] Dev “Skills” in Claude Aren’t About Prompts — They’re About Context Design

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집