AI 뉴스Research

약 11분 2026. 4. 30.

fine-tuninghallucinationslong-contextMixture-of-ExpertsmultimodalRoPE

미세 조정이 LLM 환각을 늘린다 — 줄이는 방법을 제안한 새 연구

연구진은 미세 조정이 기존 지식 간섭으로 환각을 키운다고 분석하고, 자기 증류 기반 해법을 제시했다. 동시에 HyLo는 컨텍스트를 최대 32배로 늘리고, Nvidia Nemotron 3 Nano Omni는 멀티모달 처리량 9배를 주장한다.

기사에서 찾기

읽기 모드

한 줄 요약

환각을 줄이는 학습법, 더 길어진 컨텍스트, 하나로 통합된 멀티모달 모델까지 — 신뢰성과 효율성을 동시에 끌어올리는 연구가 이어진다.

LLM & SOTA Models

NVIDIA Nemotron 3 Nano Omni: 통합 멀티모달 모델 공개

NVIDIA가 시각·음성·언어를 하나로 묶은 단일 모델 Nemotron 3 Nano Omni를 공개했다. 서로 다른 인식 모델을 오가던 지연을 없애 에이전트 워크플로를 빠르게 하고, 유사한 상호작용성을 가진 공개 ‘옴니’ 모델 대비 처리량을 최대 9배 높였다고 밝힌다. 문서·영상·오디오 이해 리더보드에서도 선두를 보이며 Palantir, Foxconn, Dell 등이 테스트·도입 중이다. ¹

구조적으로는 30B‑A3B 하이브리드 전문가 혼합(Mixture of Experts, MoE)에 시각·오디오 인코더를 통합해, 분리된 지각 모델 없이 멀티모달 인식을 수행하고 지연을 줄이면서 컴퓨터 사용, 문서 인텔리전스 같은 에이전트 작업의 정확도를 유지한다. ¹

실무 리뷰는 토큰당 약 3B만 활성화되는 30B‑파라미터 MoE로 묘사하며, OpenAI 호환 API 제공을 언급한다. 같은 GPU에서 더 많은 동시 사용자를 처리하고 기존 앱 통합을 쉽게 한다는 평가다. ²

Research Papers

미세 조정이 환각을 늘리는 이유와 해결책

이 논문은 감독 미세 조정(SFT)이 사전학습 때 익힌 지식에 비해 환각(사실 오류)을 늘릴 수 있음을 보인다. 새 사실을 배우는 과정에서 기존 지식이 손상되기 쉬운데, 저자들은 출력 분포 드리프트를 규제하는 자기 증류(self‑distillation) 기반 SFT로 새 사실 학습과 기존 지식 보존을 함께 달성하는 방법을 제안한다. ³

연구진은 원인 가설로 용량 한계, 행동 복제, 국소적 간섭을 검토했고, 겹치는 의미 표현 간 간섭이 핵심 동인임을 확인했다. 자기 증류는 이러한 간섭을 완화하는 것으로 나타났다. ³

새 지식 습득이 필요 없는 과제에서는 파라미터 그룹을 고정해 사실 가변성(플라스티시티)을 억제하면, 작업 성능을 유지하면서 환각을 줄일 수 있음을 보고한다. ³

실무 관점에서의 결론은 명확하다. 신뢰성은 프롬프트 조정만으로 해결되지 않는다. 검색 증강 생성(RAG), 신뢰도·답변 보류 설계, 인용 검증 같은 인프라 구성요소를 파이프라인의 일급 시민으로 다뤄야 오류를 통제·감사할 수 있다. ⁴

Sapiens2: 고해상도 인간 중심 비전 모델

Sapiens2는 포즈 추정, 신체 부위 분할, 표면 노멀, 포인트맵, 알베도 등 인간 중심 비전을 겨냥한 고해상도 트랜스포머 계열로, 0.4B–5B 규모와 1K 기본 해상도(계층형 4K 변형)를 제공한다. 마스크드 이미지 재구성과 자기 증류 대비 학습을 결합해 사전학습하고, 10억 장의 고품질 인간 이미지로 구성된 데이터셋과 강화된 주석·안정화 기법을 사용한다. 4K 모델은 윈도우드 어텐션으로 더 긴 공간 문맥을 다룬다. ⁵

평가에서 Sapiens2는 전작 대비 포즈 +4 mAP, 신체 분할 +24.3 mIoU, 노멀 추정 각도 오차 45.6% 감소를 보였다. 예컨대 5B 모델은 포즈 테스트셋(1.1만 장)에서 82.3 mAP, 분할에서 82.5 mIoU에 도달했고, 0.4B 모델도 79.5 mIoU를 기록했다. ⁶

구조 측면에서는 RMSNorm, 그룹드‑쿼리 어텐션(Grouped‑Query Attention, GQA), QK‑Norm, SwiGLU 등을 도입해 훈련 안정성과 처리량을 끌어올렸고, 코드를 공개해 실무 적용을 돕는다. ⁵

HyLo: 기존 LLM을 장문 하이브리드로 ‘업사이클’

HyLo(하이브리드 롱‑컨텍스트)는 기존 트랜스포머 대형 언어 모델(LLM)을 사전학습 없이 하이브리드 장문 모델로 바꾸는 실용적 절차를 제시한다. 효율적 사후 학습으로 컨텍스트 길이를 최대 32배 늘리고 키‑값(KV) 캐시를 90% 이상 줄였다고 보고하는데, vLLM 추론 스택에서 최대 200만 토큰 프리필과 디코딩을 가능케 하며, 동급 Llama 기준선은 64K를 넘기면 메모리 부족에 걸린다. ⁷

방법은 효율적 트랜스포머 블록, 다중 헤드 잠재 주의(Multi‑Head Latent Attention, MLA), 선형 블록(Mamba2 또는 Gated DeltaNet)과 단계적 장문 학습, 교사 유도 증류를 결합한다. 유사 규모에서 HyLo‑Qwen‑1.7B는 100억 토큰만으로 학습해도 GSM8K, LM Harness 상식 추론, RULER‑64K에서 4,000억 토큰을 쓴 JetNemotron을 크게 앞섰다고 보고한다. ⁷

왜 90% 캐시 절감이 중요한가? 장문 추론은 대개 메모리 병목인데, 키‑값(KV) 캐시는 시퀀스 길이에 선형으로 커진다. 대형 모델은 10만 토큰 수준에서 수십~수백 GB에 이르러, 헤드 공유·압축·구조 변경 없이 장문 컨텍스트가 사실상 어렵다. ⁸

HyLo는 한편으로, 토큰을 블록 단위로 생성·정제해 품질과 지연을 런타임에서 조절하는 확산 기반 LLM 등 자동회귀 한계를 완화하려는 다른 흐름과도 나란히 선다. 디코딩과 메모리 발자국의 유연성이라는 공통 지점이 보인다. ⁹

SIREN-RoPE: 회전 임베딩을 시간·의미로 학습화

SIREN‑RoPE는 로터리 위치 임베딩(RoPE)의 ‘회전 공간’을 학습 가능하고 신호 조건부로 바꾼다. 타임스탬프, 주기 패턴, 범주 메타데이터를 주입해, 토큰이 시간·문맥을 따라 서로 어떻게 관계하는지를 주의 메커니즘이 표현하도록 만든다. ¹⁰

이중 분기 SIREN 네트워크로 이질 신호를 주입해, 대규모 뉴스피드 데이터셋의 생성 랭커에서 보정·순위 목적 모두에서 일관된 향상을 보고하며, 계산 오버헤드는 미미하다고 한다. ¹⁰

이는 시계열용 트랜스포머의 더 큰 흐름과 맞닿아 있다. 시계열은 연속값과 시간 구조를 갖기 때문에, 패칭이나 시간 임베딩 등 언어 기본 설정을 넘는 특화 토큰화·임베딩이 요구된다. ¹¹

커뮤니티 반응

Hacker News (360↑) — 점근 이론의 실용성에 대한 논쟁: 샘플 복잡도와 무한 차원 한계, 실제 학습 진전 사이의 균형을 놓고 의견이 엇갈림. ¹²

"그건 매우 필요하지만 충분하진 않습니다. 실제로는 샘플 복잡도도 매우 중요하며 이 역시 점근성(asymptotics)이지만 더 중요한 쪽입니다. 예를 들어 중심극한정리가 큰수의 법칙보다 훨씬 더 강력한 것처럼요." — Hacker News ¹²

"저는 그게 사실이라고 생각하지 않습니다. 이를 위해선 무한한 차원이 필요합니다(테일러 급수, 푸리에 급수, 무한히 넓거나 깊은 신경망을 생각해보세요..)" — Hacker News ¹²

왜 중요한가

오늘의 소식은 ‘신뢰성·효율성’으로 수렴한다. 기존 지식을 지키면서 환각을 줄이는 학습법, 메모리를 줄이며 컨텍스트를 늘리는 경량화, 인식 모듈을 하나로 묶어 지연을 줄이는 멀티모달 모델이 함께 등장했다. 결과적으로 신뢰하기 쉽고 비용 효율적인 LLM 시스템으로의 진전을 가리킨다. ³

실무자는 파이프라인 차원의 신뢰성(근거 제공과 검증), 장문 추론의 1순위 제약인 메모리 예산, 에이전트 워크플로에서 통합 멀티모달 인식의 편익을 중심으로 즉시 적용 가능성을 점검할 만하다. ⁸

출처 14

[1] Arxiv Why Fine-Tuning Encourages Hallucinations and How to Fix It [2] Mdpi Layer-Wise Attention with Pivot Layers for Effective Fine-Tuning of Encoder-Based Language Models [3] Medium Hallucination is an architecture problem, not a prompt one [4] Arxiv Sapiens2: High-Resolution Transformers for Human-Centric Vision [5] Marktechpost Meta AI Releases Sapiens2 [6] Arxiv Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling (HyLo) [7] Theorempath KV cache — Why long-context inference is memory-bound [8] Redhat Beyond the next token: Why diffusion LLMs are changing the game [9] Arxiv Learning to Rotate: Temporal and Semantic Rotary Encoding for Sequential Modeling (SIREN-RoPE) [10] Miraflow Time Series Forecasting with Transformers: From Theory to Implementation [11] Mdpi SeSKGC: A Semantic–Structural Fusion Framework for Knowledge Graph Completion [12] Nvidia NVIDIA Launches Nemotron 3 Nano Omni Model [13] Medium NVIDIA Nemotron 3 Nano Omni — One model to see, hear & reason [14] Ycombinator Hacker News discussion: Sapiens2

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집