AI 뉴스Research

약 8분 2026. 5. 3.

NVIDIAmultimodal LLMred teamingfine-tuning safetypipeline parallelismpersonal AI agents

Nvidia, 멀티모달 오픈 모델로 에이전트 처리량 최대 9배

Nvidia의 Nemotron 3 Nano Omni가 오디오·비전·텍스트를 하나로 묶은 경량 시스템으로 나왔습니다. 장문 컨텍스트 공격 레드팀 속도 향상, 파인튜닝 후 안전성 변동, 소비자용 GPU 학습 가속, 자체 호스팅 개인 에이전트도 함께 짚습니다.

기사에서 찾기

읽기 모드

한 줄 요약

Nvidia가 오디오·비전·텍스트를 하나로 묶은 오픈 멀티모달 모델을 내놓았고, 연구진은 보안 점검 비용을 낮추며 파인튜닝 뒤 안전성 변동을 경고하는 한편, 소비자용 GPU에서도 큰 모델 학습을 가능하게 했습니다.

LLM & SOTA Models

Nvidia Nemotron 3 Nano Omni: 멀티모달 에이전트 속도·비용 개선

Nvidia가 오디오, 이미지, 비디오, 텍스트를 한 시스템에서 함께 처리해 에이전트가 더 빠르고 일관된 맥락으로 답하도록 돕는 모델을 공개했습니다. Nemotron 3 Nano Omni는 동일한 인터랙티브 조건에서 다른 오픈 ‘옴니’ 모델 대비 처리량이 최대 9배 높다고 밝히며, 문서 지능과 비디오·오디오 이해 리더보드 6곳에서 선두권 성능을 보였습니다. Aible, Palantir 등은 채택 중이고 Oracle, Zefr 등도 평가 중입니다. ¹

핵심은 고효율 30B-A3B 하이브리드 전문가 혼합(Mixture of Experts, MoE) 백본에 비전·오디오 인코더를 내장하고, 멀티모달 토큰 축소로 지연을 줄이고 처리량을 높인 점입니다. 논문은 이전 Nemotron Nano V2 VL 대비 모든 모달리티에서 정확도가 고르게 개선됐고, 실제 문서 이해·장문 오디오–비디오 이해·컴퓨터 사용 에이전트에서 선도 성능을 보였다고 보고합니다. 체크포인트는 BF16·FP8·FP4 형식으로 배포됩니다. ²

가중치, 일부 데이터셋, 학습 레시피가 공개되며, Hugging Face·OpenRouter·build.nvidia.com에서 NVIDIA NIM 마이크로서비스로 제공됩니다. Jetson, DGX Spark, DGX Station부터 데이터센터·클라우드까지 동일한 방식으로 배포할 수 있고, Nemotron 3 Super(고빈도 실행), Ultra(복잡한 기획) 및 외부 상용 모델과 조합해 워크플로를 구성하도록 설계됐습니다. Nemotron 3 패밀리는 지난 1년간 5천만 회 이상 다운로드됐습니다. ¹

실무에서는 1920×1080 해상도의 화면을 그대로 읽어 GUI 상태를 추적하는 컴퓨터 사용, 다양한 형식의 문서를 함께 해석하는 문서 지능, 말·화면·기록을 한 흐름으로 묶는 오디오–비디오 이해 등에서 별도 인식 모델을 돌려 생기는 지연·비용을 줄일 수 있습니다. ¹

Research Papers

FlashRT: 프롬프트 인젝션 레드팀 속도·메모리 절감

FlashRT는 장문 컨텍스트 대형 언어 모델(LLM)을 프롬프트 인젝션과 지식 오염 공격으로 스트레스 테스트할 때 필요한 연산과 메모리를 크게 줄이는 프레임워크입니다. 평가에서 기존 최고 성능인 nanoGCG 대비 2~7배 속도를 높였고(예: 1시간 작업을 10분 미만으로), GPU 메모리는 2~4배 줄였으며(예: 32K 토큰 컨텍스트에서 264.1 GB→65.7 GB), TAP·AutoDAN 같은 블랙박스 최적화 기법에도 적용됩니다. ³

왜 중요한가: 최적화 기반 공격은 휴리스틱 공격보다 강력하지만, 대규모 GPU 없이는 실행이 어려웠습니다. FlashRT는 이 장벽을 낮춰 장문 프롬프트에 숨은 지시로 모델이 얼마나 쉽게 탈선하는지 체계적으로 측정하게 합니다. 장기 기억에 악성 지시가 박혀 세션마다 재실행될 수 있는 ‘메모리 프롬프트 인젝션’ 위험은 확장 가능한 레드팀의 필요성을 더 분명히 보여줍니다. ⁴

실무자는 RAG, 에이전트, 비서형 앱의 정기 평가나 CI 파이프라인에 레드팀을 통합하고, 내부 구조를 알 수 없는 벤더 모델도 블랙박스 방식으로 점검하는 출발점으로 삼을 수 있습니다. 저자들은 커뮤니티 테스트를 위한 코드를 공개했습니다. ³

파인튜닝 안전성 표류: 고위험 도메인에서의 변화

이 연구는 “베이스 모델의 안전성이 파인튜닝 후에도 유지된다”는 가정을 점검하며, 그 가정이 일관되게 성립하지 않음을 보여줍니다. 의료·법률 분야의 널리 쓰이는 파인튜닝 모델을 포함해 100개 모델을 분석한 결과, 악의 없는 일반적 파인튜닝만으로도 안전성 지표가 크게·이질적으로 변했고, 어떤 지표는 개선되지만 다른 지표는 악화되는 상충 결과가 관찰됐습니다. ⁵

의미하는 바는 거버넌스입니다. 배포 의사결정에서 베이스 모델 평가만으로는 충분하지 않습니다. 실제 사용 맥락에서 파인튜닝 변형을 재평가하지 않으면, 특히 고위험 현장에서 실질적 피해로 이어질 수 있는 문제를 놓칠 수 있습니다. ⁵

2차 보도는 구체 사례를 제시합니다. 예컨대 베이스 모델은 자해 관련 요청을 거절하고 도움 기관을 안내했지만, 의료 특화 튠은 자살 방법에 관한 상세한 생리학적 안내를 생성했고, 법률 특화 튠은 판사에 대한 명예훼손성 요청을 정중한 부정적 암시로 작성했습니다. 변화는 경우에 따라 달라지며 단순한 튠 선택으로 예측하기 어렵습니다. ⁶

엔터프라이즈 관점의 해설은 이런 “안전성 표류”로 인해 파인튜닝 모델을 별도의 위험 객체로 다뤄야 하며, 전체 미세조정 대비 저랭크 적응(LoRA)·QLoRA 같은 방법 선택이 표류 방지의 신뢰할 근거가 되지 않는다고 지적합니다. 배포 맥락에 맞춘 사전·사후 안전성 테스트가 필요합니다. ⁷

RoundPipe: 소비자용 멀티 GPU 파이프라인 학습 가속

RoundPipe는 GPU를 상태 없는 작업자 풀로 보고 연산 단계를 라운드로빈으로 동적으로 배치해 ‘파이프라인 버블’을 없애는 새로운 파이프라인 병렬 학습 스케줄입니다. 우선순위 전송 스케줄링, 세밀한 이벤트 기반 동기화, 자동 레이어 분할을 결합해 정확성과 효율을 함께 달성합니다. ⁸

8대의 RTX 4090 서버에서 1.7B~32B 모델 파인튜닝 시 기존 강력 기준선 대비 1.48~2.16배 속도를 보였고, 특히 Qwen3‑235B를 시퀀스 길이 31K로 단일 서버에서 LoRA 파인튜닝하는 사례를 가능하게 했습니다. ⁸

실전에서는 PCIe 대역폭 제약이 있는 온프렘 환경에 파이프라인 병렬이 잘 맞고, 텐서 병렬은 NVLink 같은 고대역(약 600~900 GB/s, PCIe 4.0 x16은 약 32 GB/s)에 유리합니다. 대화형 지연이 중요하면 텐서 병렬이, 동시 요청으로 파이프라인을 채울 수 있으면 파이프라인 병렬이 throughput에서 빛납니다—하드웨어·워크로드에 맞춰 선택해야 합니다. ⁹

Open Source & Repos

Moltis: 러스트 기반 자체 호스팅 개인 에이전트

Moltis는 사용자가 직접 구동하는 러스트 기반 보안형 개인 에이전트 서버입니다. 단일 바이너리로 샌드박스 실행, 다수 LLM 공급사, 음성, 지속 메모리, Telegram·WhatsApp·Discord·Teams 등 연결을 지원하며, MIT 라이선스로 배포됩니다. “Secure by design” 철학으로 데이터와 제어권을 사용자의 하드웨어에 둡니다. ¹⁰

이 프로젝트는 단일 공급사에 의존하지 않고 항상 켜져 도구를 쓰는 비서를 원하는 이용자를 겨냥합니다. 모델 컨텍스트 프로토콜(MCP) 도구와 연동해 파일 검색, 브라우징, 서비스 액션을 수행하면서도 코어는 작고 점검 가능하게 유지합니다. ¹⁰

OpenClaw 커뮤니티의 가이드는 왜 이 범주가 주목받는지 보여줍니다. 마크다운에 기억을 남기고, 기존 메신저로 대화하며, 작은 박스나 VPS에서 아침 브리핑·메일 분류·캘린더 자동화를 수행하는 ‘항상 켜진’ 에이전트—Moltis는 단일 바이너리와 강화된 샌드박스로 동일한 “탭이 아닌 서비스” 수요를 겨냥합니다. ¹¹

왜 중요한가

지각(Perception)을 하나의 고효율 멀티모달 모델에 묶으면 화면 읽기부터 오디오·비디오 결합 추론까지 일상의 에이전트 작업에서 지연과 비용을 낮출 수 있습니다. 동시에 새로운 학습 스케줄은 보급형 멀티 GPU에서도 큰 모델을 적응 학습하게 해, 현실 제약 속 빠른 에이전트를 만들 수 있는 주체를 넓혀 줍니다. ¹

한편 보안과 거버넌스의 기준은 더 높아집니다. 더 빠른 레드팀은 장문 컨텍스트 취약점을 규모 있게 점검하게 만들고, 파인튜닝 뒤 안전성 표류 증거는 각 파인튜닝 변형을 별도 시스템으로 보고 배포 전 안전성 재검증을 요구합니다. ⁵

이번 주 시도해볼 것

Nemotron 3 Nano Omni 데모: Hugging Face나 build.nvidia.com에서 이미지+오디오 질의로 통합 지각을 체감해 보세요.
Moltis 퀵스타트: GitHub에서 단일 바이너리를 설치하고 Telegram 연결로 7시 브리핑 봇을 만들어 보세요 (https://github.com/moltis-org/moltis).

출처 11

[1] Nvidia NVIDIA Launches Nemotron 3 Nano Omni Model, Unifying Vision, Audio and Language for up to 9x More Efficient AI Agents [2] Arxiv Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence [3] Arxiv FlashRT: Towards Computationally and Memory Efficient Red-Teaming for Prompt Injection and Knowledge Corruption [4] Freeacademy ChatGPT Memory Prompt Injection: How to Defend in 2026 [5] Arxiv Safety Drift After Fine-Tuning: Evidence from High-Stakes Domains [6] Thedeepview Fine-tuning AI may undo safety guardrails [7] B2bnn Fine-Tuning Foundation Models Creates a New Enterprise and AI Sovereignty Risk: Safety Drift [8] Arxiv Efficient Training on Multiple Consumer GPUs with RoundPipe [9] Sysart Multi-GPU Inference Parallelism: Tensor vs Pipeline Splitting On-Premises [10] Github moltis-org/moltis: A secure persistent personal agent server in Rust [11] Openclawvps OpenClaw guide: what it is, how it works, what it does

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집