Stable Audio 3, 수초 만에 수분 길이 음악 생성 — 소·중형 가중치 공개
이 확산 기반 시스템은 가변 길이 생성과 부분 편집(inpainting)을 지원하며, 라이선스·크리에이티브 커먼즈 데이터로 학습되고 소비자용 기기에서 구동된다. 연구진은 H200에서 2초 미만, MacBook Pro M4에서도 몇 초 미만으로 출력된다고 보고한다.
한 줄 요약
수분 길이 오디오를 수초에 생성하고, 전문가 라우팅을 쓰는 확산 기반 텍스트 모델의 추론을 최대 1.5배 가속하며, 시계열 모델은 25억 파라미터까지 확장·공개했다.
Research Papers
Stable Audio 3: 수초 만에 음악 생성·편집
Stable Audio 3는 음악과 효과음을 가변 길이로 생성·편집하고, 짧은 클립을 이어 붙이는 연장까지 가능한 모델 묶음이다. 연구진은 H200 그래픽 처리 장치(GPU)에서 수분 길이 오디오를 2초 미만에, MacBook Pro M4에서도 몇 초 미만에 만들 수 있다고 보고했다. 소형·중형 가중치와 학습·추론 파이프라인을 함께 공개했으며, 라이선스와 크리에이티브 커먼즈(Creative Commons) 데이터로 학습했다. 1
기술적으로는 새로운 의미‑음향 오토인코더가 오디오를 보존도 높은 잠재 공간으로 압축하고, 그 위에서 빠른 잠재 확산(diffusion) 생성이 이뤄진다. 인페인팅(inpainting)으로 특정 구간만 정밀 편집할 수 있고, 적대적 사후 학습을 더해 추론 단계를 줄이면서도 음질과 프롬프트 준수도를 함께 끌어올렸다. 1
가변 길이는 짧은 소리가 필요할 때 전체 트랙을 계산하지 않아도 되어 비용을 줄인다. 소·중형 가중치 공개로 소비자급 기기에서도 실행할 수 있어, 창작자와 도구 제작자가 로컬 음악·효과음 워크플로에 바로 써볼 수 있는 실용 옵션이 된다. 1
TIDE: 손실 없이 MoE 확산 LLM 추론 가속
TIDE는 제한된 하드웨어에서 특정 텍스트 모델을 더 빠르게 돌리기 위해, 매 스텝마다 ‘전문가’를 교체하지 않고 구간 단위로 재사용하는 방식이다. 전문가 혼합(Mixture of Experts, MoE)을 쓰는 확산 대형 언어 모델(diffusion Large Language Model, dLLM)을 겨냥하며, 단일 GPU–CPU(그래픽 처리 장치–중앙 처리 장치) 시스템에서 LLaDA 2.0‑mini와 LLaDA 2.0‑flash 기준 이전 대비 최대 1.4배, 1.5배 처리량 향상을 보였고, 모델 재학습이 필요 없는 손실 없는 최적화다. 2
확산 LLM은 자가 회귀(autoregressive, AR) 방식과 달리 블록을 병렬로 디코딩하며 양방향 문맥을 활용한다. TIDE는 블록 내부에서 전문가 활성값이 시간적으로 안정적이라는 점을 이용해, 입력/출력(I/O)을 고려한 구간 기반 갱신 전략을 도입한다. 또한 I/O 트래픽과 CPU 계산을 최소화하는 최적 구간을 찾는 수학적 프로그램으로 스케줄링 문제를 정식화해, MoE 확산 추론에 ‘공짜 점심’에 가까운 가속을 제공한다. 2
Toto 2.0: 시계열 예측, 4M→2.5B 규모 확장
Toto 2.0은 하나의 학습 레시피로 400만에서 25억 파라미터까지 커질수록 예측 품질이 일관되게 향상되는 공개 가중치 시계열 예측 모델군이다. 3
이 모델군은 BOOM, GIFT‑Eval, TIME 세 가지 벤치마크에서 새로운 최고 성능을 기록했으며, 논문은 아키텍처·데이터와 함께 u‑muP 하이퍼파라미터 이전 파이프라인을 상세히 설명한다. 다섯 개 기본 체크포인트는 Apache 2.0 라이선스로 공개되어 실전 예측 과제에 바로 활용할 수 있다. 3
Open Source & Repos
LocalAI: GPU 없이 다양한 모델 로컬 실행
LocalAI는 언어·비전·음성·이미지·비디오 모델을 로컬 환경에서, 그래픽 처리 장치(GPU)가 없어도 실행할 수 있는 오픈 소스 엔진이다. MIT 라이선스로 배포되며, “어떤 하드웨어에서도 어떤 모델이든”을 지향한다. 4
이 프로젝트는 2026‑05‑16에 v4.2.6을 배포해(예: llama‑cpp 통합 업데이트, 문서 개정) 활발히 유지·보수되고 있음을 보여준다. 클라우드 의존 없이 오프라인·프라이버시 중심 워크플로를 원하는 사용자에게 다중 모달을 시험해 볼 출발점이 된다. 4
커뮤니티 반응
Hacker News (97↑) — 속도와 작은 모델에 대한 호평과 함께, ‘일반 MIDI’ 같은 음색과 장르 한계 지적이 병존하며 실전 음악 제작 적합성을 두고 논쟁이 이어진다. 5
"엄청나게 빠릅니다. 제 3090에서 120초 오디오를 처리하는 데 2초도 채 걸리지 않아요. 소리가 너무 일반 MIDI 같고, 다른 장르보다 일렉트로니카에 더 잘 맞습니다. 그럼에도 인상적입니다." — Hacker News 5
왜 중요한가
오늘의 흐름은 실용성으로 수렴한다. 오디오는 로컬에서도 즉시 생성·편집이 가능해지고, 확산 기반 텍스트 모델은 재학습 없이도 추론 효율을 높일 수 있으며, 시계열 예측은 공개 가중치로 확장 가능한 기준선을 제시한다. 핵심 용어: 가변 길이 생성(필요한 만큼만 계산), 인페인팅(특정 구간만 편집), 확산 대형 언어 모델(dLLM, 병렬·양방향 디코딩), 전문가 혼합(MoE, 전문 하위 네트워크 라우팅). 1
댓글 (0)