PackForcing로 2분 영상 생성, TurboQuant·PolarQuant로 롱컨텍스트 효율 재정의
3분할 KV 캐시로 단클립 학습이 분 단위 영상으로 확장되고, 새 양자화 기법은 재학습 없이 롱컨텍스트 LLM을 소비자 GPU에 올린다.
한 줄 요약
긴 영상 생성은 3단계 메모리 설계로 현실화되고, KV 캐시 양자화가 롱컨텍스트 LLM을 소비자 GPU로 끌어내리며—음성 파이프라인과 벤치마크도 실제 대화 난이도에 맞춰 성숙해집니다.
LLM & SOTA Models
MiniMax Video-01: 720p·25 FPS 고품질 숏폼 기준점
MiniMax가 텍스트·이미지 기반 720p, 25 FPS 영상 생성 모델 Video-01을 공개합니다. 최대 6초 길이를 지원하고 다음 메이저 버전에서 10초로 확대 예정입니다. 높은 압축률, 텍스트 호응, 영화적 카메라 워크 등 숏폼 고품질에 초점을 맞춘 제품형 모델로, 장편보다는 짧고 임팩트 있는 콘텐츠 제작에 최적화돼 있습니다. 1
출시 흐름만 보면 최근 장편 연구에 관심이 쏠리지만, 실제 프로덕션에서는 6초 720p/25FPS의 안정적 생성과 곧 10초 확장이라는 로드맵이 당장 유용합니다. 특히 API로 바로 붙일 수 있어 앱 개발자 관점의 진입장벽이 낮습니다. 1
정리하면, 장편 연구와 숏폼 실전은 상호보완입니다. 견고한 숏폼 생성기는 실험적 장편 워크플로우의 앞단·중간단계를 튼튼히 받쳐줄 수 있습니다. 1
Open Source & Repos
ComfyUI용 LongCat Video: 오버랩 연결로 초장편 만들기
LongCat Video는 3초 남짓(≈93프레임@30FPS) 세그먼트를 13프레임 오버랩으로 이어붙여 수십 초~수분 영상으로 확장하는 ComfyUI 워크플로우를 제시합니다. 텍스트·이미지·연속생성을 단일 모델에서 처리하고, 1024×512나 1280×640 해상도, 12–16스텝과 shift 12–24 설정을 권장합니다. FP8 모델과 블록 스왑으로 12–24GB GPU에서도 동작하며, 93프레임 세그먼트와 720p 내 범위를 추천합니다. 2
핵심은 “오버랩 앵커”: 앞 세그먼트의 마지막 13프레임을 다음 세그먼트의 참조로 써서 색감·아이덴티티·움직임을 부드럽게 잇습니다. 테스트에선 shift=24·14스텝이 건물 디테일과 환경 일관성이 가장 좋았고, shift=12는 더 빠르고 자연스러운 경향을 보였습니다. VRAM 티어(예: 40블록 스왑으로 ≈12GB)와 torch.compile 시 10–15% 속도 향상도 문서화돼 있습니다. 2
스토리텔링에선 멀티 프롬프트로 장면을 순차 전개하면서 연속성을 유지합니다. 노드 기반 모듈 구성이라 연구코드 없이도 ComfyUI 사용자들이 초장편 워크플로우를 쉽게 구성할 수 있습니다. 2
YATQ: PyTorch로 구현한 TurboQuant
YATQ는 학습 없이 KV 캐시를 3–4비트로 압축하는 TurboQuant를 PyTorch로 구현합니다. MSE 전용과 QJL(Quantized Johnson–Lindenstrauss) 보정 두 모드를 제공하고, Hugging Face 통합·최근 토큰 FP 유지·Qwen3 커스텀 포워드까지 예시합니다. 초기 실험은 커뮤니티 관찰과 유사하게, 1비트 QJL이 바이어스는 제거하지만 분산 증가로 top‑k 순위가 흔들려 MSE 전용이 품질상 유리한 경우가 많음을 보여줍니다. 3
엔지니어링 관점에서 두 경로가 뚜렷합니다. 표준 DynamicCache에 얹는 MSE-only ‘간편형’과, QJL을 위해 포워드를 다시 쓰는 ‘심층형’(FlashAttention 미활용으로 느릴 수 있음)입니다. 레포는 소형 Qwen 4비트 설정에서 ≈1.73배 압축 등 실사용 전 메모리 절감을 시연합니다. 3
또한 키/밸류 비트배분 전략을 실험할 수 있습니다. 보통 주의집중 점수에 직결되는 키에 비트를 더 주고, 밸류는 더 과감히 압축하는 식으로 llama.cpp·nano‑vLLM 등 구현 사례와 궤를 같이합니다. 3
Research Papers
PackForcing: 짧은 영상 학습만으로 2분 장편 생성·장컨텍스트 추론
장편 영상에서 오토리그레시브 확산은 KV 캐시 선형 증가와 누적오류로 반복·드리프트가 생깁니다. PackForcing은 캐시를 3등분합니다: 전역 의미를 잡는 초기 ‘Sink’(풀해상도 앵커), 중간 ‘Mid’(3D 컨브+저해상 VAE로 32배 토큰 압축), 최근 ‘Recent’(지역 시간 일관성용 풀해상도). Mid는 동적 top‑k로 메모리를 엄격히 제한하고, 버린 토큰으로 생긴 위치 단절은 Temporal RoPE Adjustment로 저비용 재정렬합니다. 4
성과: 단일 NVIDIA H200로 832×480, 16 FPS, 2분 영상을 KV 캐시 4 GB에 담아 일관되게 생성합니다. 5초 학습으로 120초까지 24배 시간 외삽도 달성하며, 제로샷 또는 5초 클립만으로도 동작합니다. VBench에서 시간 일관성 26.07, 동적 정도 56.25로 최신 성능을 보이며, “짧은 감독으로도 장편 합성”이 가능함을 수치로 증명합니다. 4
내부적으로 Mid 듀얼 브랜치는 시간은 3D 컨브, 공간은 저해상 VAE 재인코딩으로 눌러 미래예측에 중요한 top‑k만 유지합니다. Temporal RoPE Adjustment가 토큰 드롭으로 생기는 간극을 거의 추가 비용 없이 메웁니다. 깃허브에는 재현 가능한 설정과 코드가 공개됐습니다. 4 5
핵심은 ‘규율 있는 메모리’: 모두 보관하지 말고, 구간별로 필요한 정보를 필요한 해상도로만 유지하는 것입니다. 초기 앵커·중간 역사·최근 맥락을 차등 대우하고, 위치를 연속 보정해 단일 GPU에서도 장편 시간 일관성을 확보합니다. 5
ShotStream: 인터랙티브 스토리텔링을 위한 스트리밍 멀티샷
다샷 생성은 양방향 구조가 흔하지만, 이는 상호작용성·지연시간에 불리합니다. ShotStream은 과제를 “과거를 조건으로 다음 샷 생성”으로 바꾸고, 양방향 교사를 분포 정합 증류로 인과 학생 모델에 증류합니다. 전역·국소 듀얼 캐시가 샷 간/내 일관성을 보존하고, RoPE 단절 인디케이터로 캐시 경계를 명시해 혼선을 막습니다. 6
오토리그레시브 누적오류를 줄이려 2단계 자기강제 학습을 채택했습니다. 1단계는 GT 히스토리로 intra-shot, 2단계는 자기생성 히스토리로 inter-shot을 연습하며, 학습-테스트 간극을 메웁니다. 단일 GPU에서 16 FPS, 서브초 지연으로 동작하며, 더 느린 양방향 모델과 대등하거나 앞서는 품질을 달성해 스트리밍 프롬프트로 실시간 내러티브 제어를 가능케 합니다. 6
맥락적으로, 장면·행동을 분리해 제어성을 높이는 연구 흐름과 맞닿아 있습니다. 예컨대 텍스트 기반 인간-장면 상호작용 합성은 키포즈→궤적을 분리해 데이터 스케일 제약 없이 다양성을 늘렸고, ShotStream은 메모리·감독을 구조화해 동영상 영역에서 실시간 멀티샷 제어를 구현합니다. 7
Sommelier: 풀듀플렉스 음성 모델을 위한 대규모 전처리 파이프라인
풀듀플렉스 모델은 겹침·백채널·끼어들기 같은 “진짜 대화”를 배워야 합니다. Sommelier는 Sortformer 발화자 분리(짧은 끼어들기 포착), 발화자 인지 분리로 겹침 해소, 배경음악 탐지/제거, 3종 ASR 앙상블+ROVER 투표와 반복 필터로 환각 감소까지 모듈형 파이프라인을 제안합니다. 팟캐스트 등 장형 자연음성을 고품질 다화자 학습 데이터로 바꾸는 데 초점을 둡니다. 8
Moshi 계열 모델 미세조정으로 백채널·턴 전환·사용자 끼어들기 대응이 향상됐고, A100 기준 RTF≈0.175, 8 GPU 병렬로 1만 시간을 약 55시간에 처리할 수 있습니다. 이는 새 벤치들이 드러낸 ‘긴 오디오 맥락·중간 수정’ 취약점을 정면으로 겨냥합니다. 9
Scale의 Audio MultiChallenge는 452개 대화, 1,712개 루브릭으로 이 격차를 수치화합니다. 최고 모델(Gemini 3 Pro Preview, thinking)도 평균 통과율이 54.65%에 그쳤고, 대화 길이가 길수록 급격히 하락했습니다. 동일 모델에서도 텍스트 출력이 오디오 출력보다 일관되게 높아(S2S 포스트트레이닝 과제) Sommelier류 데이터 파이프라인의 필요성을 뒷받침합니다. 10 11
PolarQuant와 TurboQuant: 데이터 비의존 양자화로 롱컨텍스트 열기
PolarQuant는 Walsh–Hadamard 회전으로 가중치 분포를 가우시안에 가깝게 만들고, 캘리브레이션 없이도 사실상 무손실에 가까운 사후 양자화를 보여줍니다. Qwen3.5‑9B에서 absmax Q5 대비 퍼플렉시티를 6.90→6.40( FP16과 Δ≈+0.03)으로 낮췄고, Q5 역양자화 뒤 INT4 재양자화에서도 직접 INT4보다 좋은 수치와 6.5 GB VRAM에서 43.1 tok/s 처리량을 보고합니다. 이득의 ≈98%는 회전만으로 나옵니다. 12
Google TurboQuant는 추론 병목인 KV 캐시에 초점을 맞춰, 무학습으로 요소당 3–4비트까지 압축합니다. 1단계는 임의 직교 회전+사전계산 Lloyd–Max 코드북, 2단계는 옵션인 1비트 QJL 보정으로 내적 바이어스를 제거합니다. 메모리 4–6배 절감, 메모리 압박 시 처리량 2–3배 증가, 8B 모델 기준 3.5비트에서 LongBench FP16 동가 성능 등이 보고됩니다. 커뮤니티 관찰은 ‘밸류가 키보다 민감’, ‘4비트가 안전 기본값’, ‘실전에서는 MSE-only가 QJL보다 우수한 경우 다수’입니다. 13 14
최근 서베이는 이런 기법들을 AWQ·GPTQ·SmoothQuant·QLoRA·QUIK 등과 함께 분류하며, ‘스택’으로 쓸 때 효과가 극대화됨을 강조합니다. 4비트 가중치+3–4비트 KV 캐시 조합으로 7B–8B 모델에 32K–128K 컨텍스트를 단일 소비자 GPU에서 현실화하는 방향입니다. 캘리브레이션이 필요 없는 표준 커널로 서빙 스택에 녹이기 쉬운 점도 중요합니다. 15
DVD: 생성 프라이어를 이용한 결정론적 비디오 깊이 추정
DVD는 사전학습 비디오 확산 모델을 “단일 패스 회귀”로 결정론적으로 적응시켜, 샘플링 잡음(‘기하 환각’)을 제거하면서도 데이터 의존을 대폭 줄입니다. 시간 스텝을 ‘구조 앵커’로 쓰고, 공간 그래디언트·시간 광류 정렬로 평균 붕괴를 막는 LMR, 긴 시퀀스는 겹침 구간만 전역 스케일·시프트로 정렬하는 ‘전역 아핀 일관성’을 도입합니다. 16
ScanNet/KITTI 제로샷에서 강력한 수치를 보였고, 특히 데이터 효율이 두드러집니다. 36.7만 프레임만으로 6천만 프레임 모델을 능가—무려 163배 효율입니다. 엣지가 선명해지고(예: ScanNet B‑F1=0.259), 장시퀀스 깜빡임이 줄며, 추론 속도도 ViT류 판별 모델과 비슷하면서 정확도는 더 높았습니다. 파이프라인/코드/가중치가 모두 공개돼 재현성이 높습니다. 16 17
커뮤니티 보도는 데이터 효율과 초장편 안정성에 주목합니다. 3D 이해·자율주행 등에서, “목표를 재정의하고 잠재공간을 규제하면” 거대 라벨 없이도 생성 프라이어에서 기하 지식을 꺼낼 수 있음을 시사합니다. 18 19
왜 중요한가
- 장편 영상이 임계점을 넘었습니다: PackForcing은 H200 한 장에서 2분·16FPS를 KV 4 GB에 담고, 5초 학습으로 120초까지 24배 외삽합니다. ‘무엇을 어떤 해상도로 남길지’라는 메모리 원칙이 힘을 증명했습니다. 4
- 롱컨텍스트 LLM의 시스템 기본기가 생겼습니다: TurboQuant는 학습 없이 KV를 3–4비트로 눌러 온전한 문맥을 GPU에 유지시켜 처리량·동시성·컨텍스트 길이를 모두 끌어올립니다. 가중치 4비트와의 결합으로 소비자 GPU의 한계를 넓힙니다. 13 14
- 보이스는 다음 격전지입니다: Sommelier와 Audio MultiChallenge는 겹침·백채널·중간 수정이 여전히 프런티어 모델의 약점임을 수치로 보여줍니다. 오픈 파이프라인과 엄격한 루브릭이 자연스러운 음성 에이전트로 가는 길입니다. 8 10
댓글 (0)