제01권 · 제10호 데일리 디스패치 2026년 4월 25일

최신 AI 뉴스 모음집

AI · 논문데일리 큐레이션공개 아카이브
AI 뉴스Research
약 7분

DeepSeek 1M 컨텍스트 공개 모델, 비용 낮추며 폐쇄형에 도전

DeepSeek V4는 1.6조 파라미터 MoE와 100만 토큰 컨텍스트, 저가 API 요금을 결합했다. 동시에 MoE 서빙 비용을 낮추고, 4D로 영상을 재촬영하며, 시각‑언어 환각을 줄이는 최신 연구도 나왔다.

읽기 모드

한 줄 요약

오픈 모델이 저가로 초장문 컨텍스트와 추론 능력을 밀어붙이고, 연구는 MoE 서빙 효율·4D 비디오 재촬영·시각‑언어 환각 완화에서 실행력 있는 해법을 더한다.

LLM & SOTA Models

DeepSeek V4: 폐쇄형에 근접한 성능과 1M 컨텍스트 미리보기

DeepSeek V4는 거대한 문서와 코드베이스를 한 번에 넣어 처리하고 토큰당 비용을 낮춘 미리보기 모델로, 두 가지 버전(Flash·Pro)이 모두 전문가 혼합(Mixture of Experts, MoE) 구조와 100만 토큰 컨텍스트 창을 제공한다. Pro는 총 1.6조 파라미터(요청당 490억 활성)로 Kimi K 2.6(1.1조), MiniMax M1(4,560억)을 앞서는 공개 가중치 모델로 소개됐고, Flash는 총 2,840억(활성 130억)이다. 1

경쟁 프로그래밍·코딩 기준에서 V4‑Pro는 Codeforces 3,206, LiveCodeBench 93.5를 기록했고, 코딩 대회 성능은 GPT‑5.4에 견줄 만하다는 평가가 나온다. 동시에 장문 검색은 Opus, 터미널 작업은 GPT‑5.4처럼 과제가 다르면 강점도 달라진다는 점이 드러난다. 2

대신 현재 미리보기는 텍스트 전용(오디오·이미지·영상 입출력 없음)이며, 지식 테스트에서는 GPT‑5.4와 Gemini 3.1 Pro에 다소 뒤처져 최신 수준과의 격차가 남아 있다는 보도가 있다. 1

가격은 핵심 메시지다. V4 Flash는 입력 100만 토큰당 $0.14, 출력 $0.28이고, V4 Pro는 입력 $0.145, 출력 $3.48로 안내돼 동급 대비 낮은 요금을 제시한다. 1

Research Papers

Temporally Extended MoE: 토큰마다 교체하던 전문가를 붙잡아 메모리 낭비를 줄이다

희소 MoE 서빙은 거의 매 토큰마다 전문가를 바꿔 GPU 메모리 이동이 커지는데, 이 연구는 강화학습 옵션 프레임워크를 적용해 ‘언제’ 전문가 집합을 유지·교체할지 학습하는 컨트롤러를 추가했다. 쉽게 말해 잘 맞는 “팀”을 더 오래 유지해 메모리 왕복을 줄인다. 3

gpt‑oss‑20b에 저순위 적응(LoRA)과 자기 지식 증류 보상을 적용한 실험에서, 전문가 집합 교체율을 50%대에서 5% 미만으로 낮추면서도 MATH, MMLU, MMMLU에서 기준 모델 대비 최대 90% 정확도를 유지했다. 품질 손실을 크게 늘리지 않고 메모리 절감을 노릴 수 있음을 시사한다. 3

동시 발표 맥락도 중요하다. 동일한 총 파라미터·연산량·데이터 예산에서 최적 설계의 MoE가 조밀(dense) LLM을 앞설 수 있고, 활성화율 최적점이 대략 20%로 규모가 달라도 반복 관측된다는 결과가 제시됐다. 4

Vista4D: 4D 포인트클라우드로 기존 영상을 새 시점에서 재촬영

Vista4D는 기존 영상을 받아 장면을 4차원(공간+시간) 포인트클라우드로 재구성해, 사용자가 지정한 새로운 카메라 궤적으로 같은 움직임을 보이는 영상을 다시 만든다. 시점이 바뀌면 깊이·장면 일관성이 깨지는 문제를 정면 겨냥한다. 5

이 시스템은 정적 픽셀 분할과 4D 재구성으로 4D 기반 표현을 만들고, 재구성된 다중시점 동적 데이터로 학습한다. 다양한 경로에서 최신 기법 대비 4D 일관성, 카메라 제어, 시각 품질이 개선됐다고 보고한다. 5

아울러 3D Scene Prompting처럼 정적 3D 메모리를 만들어 장면 일관성과 카메라 제어를 유지하는 접근도 병행 발전 중이다. 전체적으로 기하 일치성을 보장하는 카메라‑지시형 영상 합성을 위한 도구가 갖춰지고 있다. 6

프롬프트가 시각을 덮을 때: LVLM 환각 벤치마크와 DPO 기반 완화

대형 시각‑언어 모델(LVLM)은 때로 프롬프트 문구를 이미지보다 더 믿어 사실과 다른 내용을 내놓는다. 이 논문은 그런 경향을 재는 HalluScope 벤치마크와, 시각 근거에 맞는 응답을 선호하도록 유도하는 직접 선호도 최적화(DPO) 방식 HalluVL‑DPO를 제안한다. 7

분석에 따르면 텍스트 지시와 언어 선입견이 환각의 큰 원인이며, 제안한 미세조정은 목표 환각을 줄이는 동시에 다른 환각·시각 능력 평가에서 성능을 보존하거나 개선했다. 벤치마크·선호 데이터·코드를 공개할 계획이다. 7

관련 기법으로는 내부 활성 편집 기반 AFTER가 있다. 이는 AMBER 벤치마크에서 최대 16.3% 환각 감소를 보고하며, 학습 단계와 추론 단계 모두에서 신뢰도 강화를 노릴 수 있음을 보여준다. 8

왜 중요한가

저가의 장문 컨텍스트 모델은 코드베이스나 며칠치 대화를 한 번에 다루는 워크플로를 현실적인 비용으로 열어준다. 동시에 시간적으로 확장된 MoE는 희소 모델 서빙의 메모리 병목을 줄이는 방법을 제시한다.

지각 측면에서는 4D 재촬영과 표적 환각 완화가 “짧은 데모에서만 그럴듯한 모델”을 넘어 “시점과 지시가 바뀌어도 일관되고 사실적인 모델”에 다가서게 한다. 이는 크리에이티브 도구, 분석, 안전 민감 영역에서 필수 요건이다.

이번 주 시도해볼 것

  1. DeepSeek V4 API 퀵스타트: 샘플 코드를 따라 V4‑Pro와 V4‑Flash를 같은 프롬프트로 비교해 보세요. https://dev.to/owen_fox/deepseek-v4-released-open-source-16t-moe-1m-context-apache-20-and-its-already-on-the-api-14d6
  2. Vista4D 결과 둘러보기: 시점이 달라져도 기하 일관성이 유지되는지, 논문 그림을 통해 확인하세요. https://arxiv.org/abs/2604.21915

출처 9

도움이 되었나요?

댓글 (0)