엔비디아 공개 멀티모달 모델, 9배 처리량으로 에이전트 가속
Nemotron 3 Nano Omni는 오디오·비전·언어를 30B‑A3B 구조 하나로 묶은 공개 가중치 모델이다. 파인튜닝 후 안전성 변동과 더 빠르고 저렴한 레드팀·소비자 GPU 학습 기법을 다룬 논문도 나왔다.
한 줄 요약
엔비디아가 멀티모달을 한 모델로 통합한 공개 가중치 모델을 내놓았고, 동시에 파인튜닝 후 안전성 변동을 짚은 연구와 장문맥 레드팀·다중 GPU 학습 비용을 낮춘 기법이 제시됐다.
LLM & SOTA Models
Nemotron 3 Nano Omni: 시각·오디오·텍스트를 하나로 묶은 공개 모델
엔비디아는 이미지·비디오·오디오·문서·텍스트 입력을 한 모델에서 처리해 별도 시스템을 이어 붙이지 않아도 되게 하는 Nemotron 3 Nano Omni를 공개했다. Nemotron 3 Nano 30B‑A3B 백본을 기반으로 멀티모달 토큰 축약을 더해 지연 시간을 낮추고 처리량을 높였으며, bfloat16(BF16), 8비트 부동소수점(FP8), 4비트 부동소수점(FP4) 체크포인트와 일부 학습 데이터·코드도 함께 배포한다. 논문은 실제 문서 이해, 장시간 오디오·비디오 이해, 그래픽 사용자 인터페이스(GUI) 컴퓨터 사용에서의 강점을 강조한다. 1
아키텍처는 전문가 혼합(Mixture of Experts, MoE) 하이브리드로 총 300억(30B) 파라미터 중 추론 시 30억(3B)만 활성화되며, 256K 토큰 컨텍스트를 지원한다. 비디오용 3차원 합성곱(Conv3D)과 EVS(Enhanced Visual System)로 비주얼 토큰을 효율화하고, 동일 상호작용 지연 조건에서 다른 공개 옴니 모델 대비 최대 9배 처리량을 제시해 작업당 서비스 비용을 줄인다는 입장이다. 2
초기 도입 기업으로 Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir, Pyler가 포함되며, 고객 지원·문서 분석·GUI 에이전트에 활용한다. 배포는 Hugging Face, OpenRouter 등 25개 이상 파트너 플랫폼에 걸쳐 이뤄지며 Amazon SageMaker JumpStart도 초기부터 지원으로 소개됐다. 2
또한 에이전트 워크플로에 맞춘 공개 생태계를 표방하고, Apache 2.0 라이선스를 채택해 커스터마이징과 프라이빗 배포의 문턱을 낮춘 점이 눈에 띈다. 3
Research Papers
FlashRT: 긴 문맥 공격 레드팀을 2–7배 빠르게
FlashRT는 프롬프트 인젝션과 지식 오염 같은 최적화 기반 공격을 장문맥 대형 언어 모델(LLM)에 대해 더 빠르고 메모리 효율적으로 수행하게 하는 프레임워크다. 평가에서 FlashRT는 2–7배 속도 향상과 2–4배 GPU 메모리 절감을 보였고, 32K 토큰 환경에서 264.1 GB를 65.7 GB로 낮추는 등 nanoGCG 기준선 대비 큰 개선을 보였다. 4
이 기법은 TAP, AutoDAN 같은 블랙박스 최적화 공격에 그대로 접목 가능하며, 공격 전략을 바꾸지 않고 효율만 끌어올린다. 구현 코드는 논문이 가리키는 저장소를 통해 공개되어 있다. 4
의의: 최적화 기반 공격은 강력하지만 비용이 컸다. FlashRT는 실험 설정에서 약 1시간 걸리던 실행을 10분 미만으로 줄여, 장문맥 시스템의 보안 점검을 더 넓고 체계적으로 수행하도록 돕는다. 4
파인튜닝 후 안전성 변동: 의료·법률 모델 100개 분석
이 연구는 의료·법률 분야에 널리 배포된 파인튜닝 모델과 공개 기반모델의 통제된 파인튜닝 등 총 100개를 분석해, 선의의 파인튜닝 이후 안전성 행태가 예측 불가능하게 바뀌는 경우가 많음을 보인다. 어떤 평가는 좋아지고 다른 평가는 나빠지는 등 서로 상충하기도 해, 기반모델의 안전성이 그대로 유지된다는 가정이 흔들린다. 5
실무 관점의 해설은 파인튜닝된 모델을 “새로운 위험 객체”로 본다. 기반모델 평가가 자동으로 이전되지 않으며, 전체 파인튜닝·저순위 적응(LoRA)·양자화 저순위 적응(QLoRA) 중 무엇을 쓰더라도 변화의 방향·크기를 미리 보장하지 못한다. 벤더의 안전성 문서만으로는 충분하지 않다는 지적이다. 6
권고는 명확하다. 파인튜닝 전후를 모두 재평가하고, 도메인 특화 위험과 일반 안전성을 함께 본다. 단일 벤치마크 의존을 피하고, 데이터 갱신·프롬프트 구조 변경 등 의미 있는 업데이트마다 재시험한다. 조달 단계에서 “파인튜닝 이후 안전성은 어떻게 유지되는가”를 반드시 묻도록 제안한다. 6
RoundPipe: 소비자용 GPU 여러 대로 파이프라인 학습 가속
RoundPipe는 여러 대의 소비자용 GPU에서 대형 모델을 학습·미세조정할 때 “가중치 바인딩” 병목을 깨는 새로운 파이프라인 스케줄이다. GPU를 상태 없는 작업자로 보고 레이어를 라운드로빈으로 분배해 파이프라인 버블을 거의 없앴고, 8× RTX 4090 서버에서 17억~320억 파라미터 모델을 1.48–2.16배 빠르게 학습했다. 또한 Qwen3‑235B를 31K 시퀀스로 저순위 적응(LoRA) 파인튜닝하는 것을 단일 서버에서 가능하게 했다. 7
이 시스템은 우선순위 인식 전송 스케줄러, 세밀한 이벤트 기반 동기화, 자동 레이어 분할 알고리즘을 결합했으며, 문서를 갖춘 오픈소스 파이썬 라이브러리로 공개됐다. 7
온프레미스 배포에서는 병렬 전략 선택이 핵심이다. 텐서 병렬은 토큰당 지연을 줄이지만 고대역(노드 내부 NVLink 대략 600–900 GB/s)이 필요하고, 파이프라인 병렬은 대역 제약(PCIe 4.0 x16 약 32 GB/s, 노드 간 InfiniBand 25–50 GB/s)에서도 수용 가능하며 동시 처리로 처리량을 키운다. RoundPipe의 파이프라인 중심 접근은 이러한 절충과 맞닿아 있다. 8
Open Source & Repos
promptfoo/promptfoo: 프롬프트·에이전트·검색 증강 생성 평가/레드팀
Promptfoo는 명령줄 인터페이스(CLI)와 라이브러리 형태의 도구로, 프롬프트·에이전트·검색 증강 생성(Retrieval‑Augmented Generation, RAG)을 평가하고 레드팀 테스트를 자동화한다. 단순 설정과 지속적 통합/지속적 배포(CI/CD) 연동을 제공하며, 여러 공급사의 출력을 비교한다. OpenAI와 Anthropic이 사용 중이라고 밝히며, 2026-04-27 배포된 0.121.9 버전은 GPT‑5.5 공급자 지원을 추가했다. 9
제공자 시스템은 OpenAI, Anthropic, Google Gemini, AWS Bedrock, Hugging Face, Ollama 등 호스팅·로컬 옵션을 망라하며, YAML로 타깃을 정의해 동일 조건에서 성능을 비교한다. 문서는 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 연동으로 도구·메모리를 에이전트 테스트에 연결하는 방법도 다룬다. 10
드리프트 감지 가이드는 공격 성공률(Attack Success Rate, ASR)을 정기적으로 측정하고, 기준선을 유지하며, 임계치를 넘으면 빌드를 중단해 보안 약화를 프로덕션 전에 잡도록 한다. 11
또한 Debug Access 플러그인은 시스템이 디버그 인터페이스를 노출하거나 민감 설정을 드러내는지 점검해, 프롬프트 추출 등 다른 플러그인과 함께 오남용에 대비한 방어력을 높인다. 12
왜 중요한가
하나의 공개 가중치 모델로 지각을 통합하면 에이전트 스택이 단순해지고 오케스트레이션·추론 비용이 준다. 엔비디아가 제시한 최대 9배 처리량과 문서·오디오·비디오 이해 성능은 실시간 멀티모달 작업의 실용 이점을 시사한다. 2
동시에 책임 있는 배포에는 검증 가능한 보안과 거버넌스가 필요하다. FlashRT는 장문맥 레드팀 비용을 낮추고, 안전성 드리프트 연구는 파인튜닝된 모든 변형을 별도의 시스템으로 재평가해야 함을 강조한다. 4
댓글 (0)