AI 뉴스Research

약 8분 2026. 3. 27.

Mixture-of-Expertslong-contextTTSdiffusion-transformerquantizationscientific-AI

1조 파라미터 과학 멀티모달 모델 공개, 1억 토큰 메모리 주의와 실시간 온디바이스 TTS도 전개

Intern-S1-Pro가 1조 파라미터로 과학 추론을 끌어올리고, MSA는 1억 토큰 메모리를 구현, Mistral의 Voxtral TTS는 90ms 엣지 지연을 달성했다.

기사에서 찾기

읽기 모드

한 줄 요약

과학 특화 1조 파라미터 모델, 1억 토큰 메모리 주의, 90ms 실시간 오픈 TTS까지 오늘의 연구 업데이트를 이끕니다.

Research Papers

Intern-S1-Pro: 1조 파라미터 과학 멀티모달 기초 모델

Intern-S1-Pro는 필요할 때 전문성을 끌어올리는 ‘특화 가능한 제너럴리스트’로, 1조 파라미터까지 확장해 일상적 추론과 과학 분야의 심층 과제를 모두 겨냥합니다. 일반 벤치마크에서도AIME-2025 93.1,MMLU-Pro 86.6을 기록하고, 과학 추론에서는SciReasoner 55.5로 Gemini-3-Pro(14.7), GPT-5.2(13.6)를 크게 앞섭니다. 화학·재료·생명·지구과학 등100+ 전문 과제에서 상위권 성능을 보이며, 공개 모델 중 최상위 일반 능력과 상용 모델 이상의 도메인 깊이를 주장합니다. ¹

내부 구조는 SAGE(일반화 가능한 전문가를 위한 시너ジ 아키텍처)와 대규모 전문가 혼합 (MoE, Mixture-of-Experts) 학습법으로, 장치 간 부하를 절대적으로 균등하게 하는 그룹 라우팅과 라우터 임베딩 전반에 밀집 그래디언트를 흘려주는직접 통과 추정기 (STE, Straight-Through Estimator)로 학습 안정성을 확보합니다. 과학 이미지-텍스트 정렬을 위한 캡션 파이프라인을 새로 만들었고, 구조적 변환·프롬프트/롤아웃 다양화·시스템 프롬프트 분리를 통해 일반/과학 데이터 간 충돌을 줄였습니다. ²

훈련·서빙 측면에서는 XTuner와LMDeploy로강화학습 (RL, Reinforcement Learning)을 1조 규모에서 정밀도 일관성을 유지하며 수행합니다. 특히 시계열 모듈을 따로 두어 SciTS의 EAU01에서F1 99.5를 달성하는 등, 순수 텍스트나 비전-언어 기반을 능가해 대규모에서의 전용 경로 설계가 효과적임을 보여줍니다. ¹

큰 그림에서 보면 과학 기초 모델은 데이터·파라미터 확대로 성능이 오르지만 비용이 급증합니다. 최근 네트워크 생물학 연구는 양자화 (quantization)로 제로/퓨샷 성능을 유지하면서, 동일 배치에서 미세조정 시간을15%, 메모리를**34%**로 낮출 수 있음을 보였습니다. 초대형 과학 모델을 엘리트 컴퓨팅 외부로 확산하려면 이런 압축·최적화가 필수일 가능성이 큽니다. ³

메모리 희소 주의(MSA): 엔드투엔드 메모리로 1억 토큰까지 효율 확장

대부분의 대규모 언어 모델(LLM)은 짧은 문맥 밖을 잊습니다. MSA는 주의를 희소하고 확장 가능하게 만들어 훈련과 추론에서 사실상 선형 복잡도를 달성, 2× A800 GPU로1억 토큰 추론을 가능케 하고, 문맥을16K → 1억으로 늘려도 성능 저하를9% 미만으로 묶었습니다. 디지털 트윈, 장기 기록 에이전트 등에서 품질 붕괴 없이 초장문맥 처리를 가능하게 합니다. ⁴

또한 분산된 메모리 구간을 가로지르는 멀티홉 추론을 위한 Memory Interleaving을 도입, “얼마나 저장하느냐”와 “얼마나 잘 추론하느냐”를 분리합니다. 장문맥 벤치에서 최전선 LLM, 최첨단 검색 증강 생성 (RAG, Retrieval-Augmented Generation), 선도 메모리 에이전트를 능가해, 초장문맥에서는 엔드투엔드 학습된 메모리가 외부 도구 조합보다 유리함을 시사합니다. ⁴

보완적으로, MemMA는 다중 에이전트로 메모리 생성·검색·수정의 전 과정을 조율합니다. Meta-Thinker가 생성·검색을 안내하고, 현장 자가진화 루프가 실패를 검증·수정 액션으로 전환합니다. 다양한 저장 백엔드에 플러그앤플레이로 적용되며, 여러 LLM 백본과 LoCoMo에서 일관된 향상을 보였습니다. 용량 못지않게 ‘메모리 거버넌스’가 중요함을 보여줍니다. ⁵

한편 희소 주의의 숨은 병목도 공략됩니다. IndexCache는 DeepSeek 희소 주의(DSA)에서 층별 인덱서를 최대75% 제거해200K 토큰에서 최초 토큰 대기 시간을1.82배, 생성 처리량을1.48배 높였고,744B GLM-5에서도1.3배+ 가속을 보여줍니다. 장문맥 정확도는 거의 동일(예: 평균 49.9 vs 50.2, AIME 2025는 오히려 +1.6)하며, 그리디 선택(무학습)이나 다층 증류(학습 aware)로 적용 가능해 KV 캐시 압축과 상보적으로 ‘연산량’ 자체를 줄입니다. ⁶

Voxtral TTS: 오픈, 다국어, 실시간 지연의 음성 합성

Mistral의 Voxtral TTS는 약 3초의 기준 음성만으로 자연스러운 다국어 음성을 만들고,약 90ms에 첫 오디오를 재생하는텍스트-음성 변환 (TTS)입니다. 토큰화는 하이브리드 VQ–FSQ 양자화를 쓰는 Voxtral Codec, 생성은 의미 토큰의 자기회귀 + 음향 토큰의 플로우 매칭을 결합합니다. 원어민 평가에서 다국어 보이스 클로닝 자연성/표현성에서 ElevenLabs Flash v2.5 대비68.4% 우위를 보였고,CC BY-NC로 공개 가중치를 제공합니다. ⁷

이 모델은 엣지 배치를 겨냥합니다. 출시 시 9개 언어, 온디바이스 추론으로 개인정보와 비용을 잡고,5초 미만 샘플로 커스텀 보이스를 적응합니다. Mistral은 자사 음성 인식과 묶어 온디바이스 음성 파이프라인을 노리며, ElevenLabs·OpenAI와 경쟁 구도를 형성합니다. Hugging Face에서 바로 사용 가능하고, 제한적 하드웨어에서도 실시간성이 확인됐다는 보도가 나옵니다. ⁸

실무적으로는 <100ms 시작 지연과 단시간 클로닝이 비서, 접근성, 차량용 음성 UX의 마찰을 줄입니다. 오픈 가중치는 감사·세분화에 유리해 폐쇄형 API 대비 커스터마이즈 경로가 넓습니다. 커뮤니티의 vLLM/SGLang 통합, 9개 언어 이상의 확장에 주목할 만합니다. ⁸

Calibri: 확산 변환기 위한 파라미터 효율 보정

Calibri의 아이디어는 직관적입니다. 많은 확산 변환기 (DiT, Diffusion Transformer) 블록은 단 하나의 학습 가능한 스케일 파라미터를 넣는 것만으로 성능을 크게 끌어올릴 수 있습니다. 저자들은 이를 블랙박스 보상 최적화로 구성해,약 100개 파라미터만 진화 알고리즘으로 조정하여 DiT 구성요소를 보정하고, 다양한 텍스트-이미지 모델에서 일관된 품질 향상을 보고합니다. ⁹

보정해야 할 가중치가 적으니, 목표 화질에 도달하기 위한 추론 스텝 수를 줄이는 경향이 있어, 품질 저하 없이 생성 시간을 단축합니다. 샘플러 스텝이 비용·지연을 좌우하는 실서비스에서 특히 매력적입니다. ¹⁰

초기 정리는 DiT 기반 텍스트-이미지 전반에서 모델 불문 적용 가능성을 강조합니다. ‘규모’만이 아니라 잘 배치된 소수의 보정 ‘노브’가 생성 품질과 효율을 함께 열 수 있음을 상기시킵니다. ¹¹

커뮤니티 반응

HN (19 upvotes) — Mistral Voxtral을 유망한 오픈 TTS로 보지만 음색이 아직 제한적이라는 의견도 있으며, 일부는 OpenAI에서의 마이그레이션을 고려 중.

"Mistral의 첫 TTS 발표 제목이 좀 혼란스럽지만, 오픈 가중치 모델이 있고 Voxtral API로도 이용 가능하다고 하네요. 아직 음색이 많지 않고 보이스 튜닝/클로닝 여부를 확인 못했지만, 현재 OpenAI 음성 워크로드를 Mistral로 옮기는 걸 진지하게 고민 중입니다." — Hacker News

왜 중요한가

오늘의 업데이트는 AI의 병목을 다른 축에서 동시에 깎습니다. 과학 모델은 ‘깊이’를, 메모리 주의는 ‘문맥 길이’를, 오픈 TTS는 ‘지연’을 낮춥니다. 각각이 실제 배치의 가장 큰 제약이었고, 이제는 1조 스케일, 1억 토큰, 90ms가 실험실 밖 요구 사항에 닿기 시작합니다. ¹ ⁴ ⁷

남은 과제는 비용과 접근성입니다. 생물학 기초 모델 사례처럼 양자화만으로도 미세조정 시간을15%, 메모리를**34%**로 낮추며 표현을 보존할 수 있습니다. 앞으로는 ‘전방에서의 규모 확장’과 ‘후방에서의 희소화·캐시·양자화’가 동시에 밀리며, 더 많은 연구실과 더 많은 디바이스로 스며드는 양상이 될 것입니다. ³

출처 14

[1] Arxiv Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale [2] Liner Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale [Quick Review] [3] Alphaxiv Intern-S1-Pro | alphaXiv [4] Nature Scaling and quantization of large-scale foundation model enables resource-efficient predictions in network biology [5] Arxiv Voxtral TTS [6] Mlq Mistral AI Releases Voxtral TTS, Lightweight Open-Source Speech Model [7] Arxiv MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens [8] Microsoft MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution [9] Venturebeat IndexCache, a new sparse attention optimizer, delivers 1.82x faster inference on long-context AI models [10] Aiagentmemory AI Memory LLM: Enhancing Large Language Models with Memory [11] Arxiv Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration [12] Chatpaper Calibri：通过参数高效校准增强扩散变换器 [13] Alphaxiv Calibri | alphaXiv [14] Alphaxiv Calibri Resources | alphaXiv

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집