AI 뉴스Research

약 6분 2026. 3. 20.

qwenllamamath-benchmarkstool-verificationnemotron-cascade2f2llm-v2

AI 도구 검증, 수리 추론 모델 정확도 31.6% 대폭 향상

AI가 직접 코드를 써서 답을 검증한다면? 수학 난제 벤치마크에서 31.6% 정확도 상승의 비밀을 파헤칩니다.

기사에서 찾기

읽기 모드

한 줄 요약

AI가 수학 문제 정답률과 3D 공간 이해력을 크게 높였고, 효율적인 다국어 임베딩과 오픈소스 모델도 대거 등장했습니다.

Research Papers

AI Tool Verification: Qwen과 Llama의 수학 정답률 31.6% 향상

대형 언어 모델(LLM)인 Qwen과 Llama는 어려운 수학 문제에서 종종 '다수결' 방식으로 오답을 강화하는 문제가 있었습니다. 스탠포드와 뮌헨대 연구팀은 여기에 '검증' 단계를 추가했습니다. 즉, 모델이 답을 내놓으면, 별도의 AI가 작은 프로그램을 짜서 논리가 맞는지 직접 확인합니다. 코드로 검증에 성공한 답만 강화 학습에 반영하는 방식입니다. 이 방법을 적용하자 AIME, AMC, MATH-500 같은 고난도 수학 벤치마크에서 최대 31.6%의 정확도 향상이 나타났습니다. ¹

이런 검증 기반 학습은 이제 수학·논리 추론 특화 LLM 훈련의 새로운 표준이 되고 있습니다. 단순히 많이 나온 답을 강화하는 게 아니라, 실제 논리적으로 맞는 답만 남기는 구조로 바뀌고 있는 겁니다. Qwen(추론·코딩·다국어 특화)과 Meta의 Llama 모두 이런 방식 덕분에 수학 경시대회 등 고난도 문제에서 성능 격차를 빠르게 좁히고 있습니다. ¹

이 흐름은 '도구 기반 검증'과 '구조화된 강화학습'이 차세대 AI 신뢰성의 기준이 되고 있음을 보여줍니다. ²

3DreamBooth: 3D 일관성 갖춘 맞춤형 영상 생성

기존 AI 영상 생성기는 물체를 평면 이미지로만 다뤄 카메라가 움직이면 결과물이 흐릿해지거나 일관성이 깨졌습니다. 연세대·성균관대 연구팀의 3DreamBooth는 여러 각도에서 찍은 사진을 활용해 물체의 3D 형태를 학습합니다. 그 결과, 물체가 회전하거나 손에 들려도 형태와 질감이 일관된 영상을 만들어냅니다. ³

훈련은 두 단계로 나뉩니다. 먼저, 한 프레임만으로 3D 구조를 '굳혀' 대용량 영상 데이터 없이도 공간 정보를 확보합니다. 이어 3Dapter라는 모듈이 여러 각도의 정보를 영상 생성에 반영해, 실제와 유사한 제품·소품 영상을 만들 수 있습니다. 사람 평가에서도 기존 방식보다 형태·색상 일치도가 크게 높았습니다. ⁴

이 기술은 전자상거래, 가상 촬영 등에서 제품을 다양한 각도로 보여줘야 할 때 특히 유용합니다. 3DreamBooth 방식이 앞으로 AI 영상 생성의 표준이 될 가능성이 큽니다. ³

Generation Models Know Space: VEGA-3D, 숨은 3D 직관 활용

멀티모달 대형 언어모델(MLLM)은 텍스트와 2D 이미지는 잘 이해하지만, 3D 공간 추론에는 약합니다. VEGA-3D는 영상 생성 AI가 '장면을 일관되게' 만들기 위해 은연중에 3D 구조와 물리 법칙을 배운다는 점에 착안했습니다. ⁵

VEGA-3D는 사전에 훈련된 영상 생성 모델을 '잠재 세계 시뮬레이터'로 활용합니다. 중간 레이어에서 시공간 특징을 뽑아 언어모델의 의미 정보와 융합(Adaptive Gated Fusion)하면, 별도 3D 데이터 없이도 AI가 공간적 직관을 갖게 됩니다. 실제 3D 장면 이해·로봇 조작 벤치마크에서 기존 최고 성능을 뛰어넘었습니다. ⁶

즉, 영상 생성기는 프레임 일관성을 위해 3D 구조를 '몰래' 배웁니다. VEGA-3D는 이 숨은 지식을 다른 AI가 빌려 쓸 수 있게 해, 공간 추론을 더 쉽고 효율적으로 만듭니다. ⁷

LLM & SOTA Models

Nemotron-Cascade 2: 30B MoE, 3B 활성 파라미터로 효율적 추론

엔비디아의 Nemotron-Cascade 2는 총 300억 파라미터 중 매 입력마다 30억만 활성화하는 Mixture-of-Experts(MoE) 구조의 오픈 LLM입니다. 이 덕분에 계산량은 줄이면서도 2025년 국제수학·정보올림피아드에서 금메달급 성능을 달성했습니다. ⁸

주요 특징은 훈련 파이프라인에 있습니다. 정교하게 선별된 데이터로 감독학습(SFT) 후, 'Cascade RL'이라는 단계별 강화학습을 거쳐 수학·코딩·에이전트형 작업을 폭넓게 학습합니다. 여기에 각 분야별 최고 교사 모델로부터 지식을 증류(MOPD)해, 여러 영역의 성능을 동시에 유지합니다. ⁹

그 결과, Nemotron-Cascade 2는 훨씬 큰 모델과 맞먹는 수학·코딩 성능을 내면서도, 실제 적용에 더 적합한 효율성을 보여줍니다. ¹⁰

F2LLM-v2: 200개 이상 언어 지원 다국어 임베딩

F2LLM-v2는 8가지 크기(8천만~140억 파라미터)로 출시된 다국어 임베딩 모델군입니다. 6천만 개의 고품질 샘플로 200개가 넘는 언어(저자원 언어 포함)를 지원합니다. 임베딩 모델은 텍스트를 벡터로 변환해 검색·RAG 등에서 핵심 역할을 합니다. ¹¹

핵심은 '마트료시카 학습'(효율적 중첩 표현), 가지치기, 지식 증류 등 최신 기법을 결합한 2단계 훈련입니다. 최대 모델(F2LLM-v2-14B)은 17개 MTEB 벤치마크 중 11개에서 1위를 차지했고, 초소형 모델도 저자원 언어에서 신기록을 세웠습니다. 즉, 개발자는 용도에 따라 크기를 자유롭게 선택할 수 있습니다. ¹²

모델·코드·데이터 모두 공개되어, 글로벌 AI 연구와 실무 적용의 진입장벽이 크게 낮아졌습니다. ¹³

왜 중요한가

오늘의 소식은 AI가 단순히 크기만 키우는 게 아니라, 논리 검증·3D 직관 활용·다국어 효율화 등 '똑똑하게' 진화하고 있음을 보여줍니다. 이로써 수학 문제 풀이, 공간 이해, 글로벌 서비스 등 실무 적용력이 크게 강화되고, Nemotron-Cascade 2·F2LLM-v2 같은 오픈소스 모델 덕분에 더 많은 개발자가 첨단 AI를 직접 활용할 수 있게 됐습니다.

출처 14

[1] arxiv.org [2] thiqaflow.com [3] gentic.news [4] arxiv.org [5] liner.com [6] aigazine.com [7] srl.inf.ethz.ch [8] sri.inf.ethz.ch [9] arxiv.org [10] studio.aifilms.ai [11] github.com [12] arxiv.org [13] arxivlens.com [14] github.com

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집