제01권 · 제10호 데일리 디스패치 2026년 4월 11일

최신 AI 뉴스 모음집

AI · 논문데일리 큐레이션공개 아카이브
AI 뉴스Research
약 8분

알리바바 비디오 모델 1위 확인·에이전트 메모리 기술 급부상

익명으로 등장해 순위표를 휩쓴 HappyHorse-1.0이 알리바바 프로젝트로 확인됐다. 동시에 에이전트의 ‘기억’을 다루는 논문과 도구가 주목받으며 실사용 기준이 달라지고 있다.

읽기 모드

한 줄 요약

알리바바가 1위 비디오 생성 모델의 주체로 확인된 가운데, 에이전트의 ‘기억’을 안정적으로 관리·관찰하는 기술이 새 기준으로 부상했다.

LLM & SOTA Models

Alibaba confirms HappyHorse-1.0 as the top anonymous video model: 익명 1위 비디오 모델의 정체 공개

갑자기 순위표 상단에 오른 비디오 생성기 HappyHorse-1.0이 공개 벤치마크에서 텍스트→비디오와 이미지→비디오 모두 1위를 차지했고, 알리바바가 직접 자사 프로젝트라고 확인했다. 개발팀은 X 신규 계정에서 HappyHorse가 알리바바 ATH AI Innovation Unit의 작업이라고 밝혔고, 알리바바는 CNBC에 해당 게시물이 진짜라고 확인했다. 이 뉴스 이후 홍콩 상장 알리바바 주가는 당일 2.12% 상승 마감했다. 1

이 모델은 4월 7일 전후 Artificial Analysis에 처음 나타났고, 사람 선호 기반의 1:1 비교로 점수를 매기는 구조에서 양 부문 1위로 빠르게 올랐다. SCMP는 이 모델이 새로 조직된 Alibaba Token Hub(ATH) 산하 Innovation Business Unit에서 개발됐으며, 후속 제품 출시도 예고돼 있다고 전한다. ByteDance의 Seedance 2.0과 Kuaishou의 Kling을 제친 점도 강조됐다. 2

시점도 의미가 크다. OpenAI는 높은 연산 비용과 기업·코딩 도구 집중 전략을 이유로 Sora 앱과 플랫폼을 중단했고, ByteDance는 주요 스튜디오와의 저작권 분쟁으로 Seedance 2.0 출시를 일시 중단했다. 알리바바는 Qwen 계열과 전자상거래·광고·엔터테인먼트에 쌓은 AI 통합 경험을 바탕으로 이 공백을 파고들 수 있다는 평가가 나온다. 1

이 데뷔는 중국 내 인재 경쟁 구도도 비춘다. SCMP는 HappyHorse의 제작자 Zhang Di가 11월 알리바바로 복귀한 뒤 수개월간 프로젝트를 이끌어, 내부 베타 단계임에도 글로벌 무대에서 선두로 올라섰다고 보도했다. 이 벤치마크는 상대적 성능에 따라 동적으로 점수를 보정하는 구조라, 사람 선호가 새 모델로 기울면 순위 변화가 빨리 드러난다. 2

HappyHorse tops global ranking after debut, per WSJ: 데뷔 직후 글로벌 1위 유지

WSJ는 HappyHorse 1.0이 이달 초 공개 이후 Artificial Analysis의 텍스트→비디오 부문 1위를 유지하고 있다고 전하며, 광고·콘텐츠 제작·엔터테인먼트 등 산업에서 중국 기업의 경쟁력이 커졌다는 신호로 해석했다. 이 소식은 올초 공개된 ByteDance Seedance 2.0 이후 전개되는 속도전을 배경으로 한다. 3

같은 블라인드 테스트 구조에서 HappyHorse가 교차 부문에서 강세를 보였다는 점은 CNBC·SCMP 보도와 일치한다. 특정 과제에만 최적화된 것이 아니라 전반적 품질이 사람 평가에서 우수하다는 신호로 읽힌다. 3

알리바바는 이전에도 비디오 생성 기능을 선보였지만, 이렇게 빠른 주목을 받은 경우는 드물었다. 익명 시작과 즉시 1위라는 조합이 기업이 정체를 밝히기 전부터 큰 관심을 불러일으켰다. 3

Open Source & Repos

MemPalace: 벤치마크 최고 점수 주장, 무료 메모리 레이어

MemPalace는 대화 요약으로 남길지를 AI가 결정하는 대신, “모두 저장하고 나중에 찾기 쉽게 만든다”는 철학의 AI 메모리 레이어다. 프로젝트는 “역대 최고 점수” 벤치마크 성과를 내세우며 무료 사용을 표방하고, ‘궁전(Palace)’처럼 사람·프로젝트 기준으로 기억을 구획화하는 구조를 소개한다. 저장 전략이 명확하고 레포지토리가 공개돼 있어 바로 시도해볼 수 있다. 4

현업 사용자는 지역 환경(Local)에서의 실전 선택지를 공유한다. 한 사례는 MemPalace를 검토했지만 디버깅 용이성과 단순성을 이유로 mem0 + Qdrant 조합을 택하고, llama.cpp 포크의 비대칭 KV 캐시 양자화를 통해 맥 미니에서도 초장문 컨텍스트를 확보하는 방법을 정리했다. 이렇게 하면 검색 증강 대화가 보급형 하드웨어에서도 현실화된다. 5

커뮤니티 이슈도 적극적이다. 한 이슈는 키워드 검색과 벡터 검색을 병행해 점수를 결합하는 상호 순위 융합(Reciprocal Rank Fusion, RRF)을 제안하며, 실제 프로덕션 데이터에서 평균 역순위(MRR) 0.5395 → 0.8833, Hit@1 46.7% → 80.0% 개선을 보고했다. 또 다른 이슈는 요약 대신 원문 대화를 그대로 보관하는 MCP 도구 제안을 담아, ‘추론 과정’ 자체의 보존 필요를 강조했다. 이 수치는 커뮤니티 제안과 공유 코드 기반이며 아직 공식 릴리스는 아니다. 6 7

Research Papers

ClawVM: 도구 사용하는 에이전트의 ‘가상 메모리’ 계층

대부분의 에이전트는 세션이 길어지면 맥락을 잃는다. ClawVM은 에이전트 컨텍스트를 ‘형(type)이 있는 페이지’로 관리하고, 토큰 예산 안에서 다중 해상도 표현을 유지하며, 수명 주기 경계마다 검증된 기록 쓰기(writeback)를 강제하는 ‘가상 메모리’ 계층을 제안한다. 프롬프트 조립과 도구 중재를 맡는 하네스가 이미 이벤트를 관찰하므로, 여기서 상주·내구성 계약을 집행하는 것이 가장 투명하다는 논리다. 8

논문은 합성 워크로드, 실제 세션 12개 트레이스, 적대적 스트레스 테스트에서, 최소 충실도 세트가 토큰 예산에 맞을 때 정책으로 통제 가능한 결함을 모두 제거했다고 보고한다. 정책 엔진 오버헤드는 턴당 중앙값 50마이크로초 미만으로 제시돼, 응답성을 해치지 않는 수준이다. 이는 “대화 중 메모리 증발” 같은 고질적 실패를 줄이고 비용과 품질을 예측 가능하게 만든다. 8

운영 관측성도 중요하다. OpenClaw를 위한 ClawTrace 플러그인은 실행을 스팬 트리로 기록해, 토큰 소모, 도구 호출 루프, 단계별 입출력을 시각화하고, 트레이스 그래프를 질의하는 AI 분석가(“Tracy”)까지 제공한다. 튼튼한 메모리 계약과 가시성의 결합은 길고 복잡한 작업에서 실패와 비용을 통제하는 토대가 된다. 9 10

커뮤니티 반응

Hacker News (67↑) — MemPalace의 “전부 저장” 접근에 관심이 크지만, 외부 재현 테스트에서 최종 질의응답 성능이 낮게 나왔다는 보고 이후 벤치마크 주장에 대한 회의가 뚜렷하다.

왜 중요한가

고품질 비디오 생성은 소수의 빠르게 개선되는 경쟁자로 수렴하는 양상이다. 익명으로 1위를 찍은 뒤 알리바바가 정체를 밝힌 것은 “결과 우선” 공개가 시장 주목과 채택을 실제로 이끈다는 신호다. 마케터와 제작자 입장에서는 어떤 도구가 곧 일상 도구가 될지 가늠할 근거가 된다. 1 3

동시에 ‘메모리’는 에이전트 성능의 새 병목이다. ClawVM 같은 설계와 실행 추적 도구는 신뢰성, 비용 통제, 감사를 기본값으로 끌어올린다. 길고 중요한 업무를 에이전트에 맡기기 위한 최소 요건이 구체화되고 있다. 8 9

이번 주 시도해볼 것

  1. ClawTrace 설치로 에이전트 비용 누수 찾기: OpenClaw 에이전트에 플러그인을 추가하고 다음 실행의 토큰·도구 호출 루프를 시각화해보세요. https://github.com/richard-epsilla/clawtrace
  2. MemPalace 체험: 레포를 클론하고 소규모 채팅 내보내기를 ‘궁전’ 구조에 넣어 검색 감각을 확인해보세요. https://github.com/MemPalace/mempalace

출처 10

도움이 되었나요?

댓글 (0)