모델 학습 없이 AI 영상에서 감독급 카메라 제어
ActCam이 생성 영상에서 인물 동작과 카메라를 동시에 조정하게 했다. 한편, 전문가 혼합(Mixture of Experts, MoE)의 공유 풀 설계가 효율을 높였고 Hermes Agent는 사용량 1위에 올랐다.
한 줄 요약
오늘의 흐름은 ‘제어와 효율’: 학습 없이 영상에서 카메라를 세밀히 조작하고, 전문가 풀 공유로 모델 낭비를 줄이며, Transformer의 논리 추론 경계를 재정리하고, 자체 학습형 에이전트가 실사용에서 두각을 보인다.
Research Papers
ActCam: 학습 없이 영상에서 카메라·동작 동시 제어
ActCam은 ‘주행 영상’에서 인물 동작을 가져오고 사용자가 지정한 카메라 경로를 그대로 따르는 새 영상을 만들어 주는 방법이다. 추가 학습 없이, 장면 깊이와 인물 포즈로 조건을 받을 수 있는 사전학습 이미지-투-비디오 확산 모델 위에서 동작해 프롬프트 시행착오 대신 촬영감독 수준의 조작을 제공한다. 1
이 방법은 프레임 전반에 걸쳐 기하적으로 일관된 포즈·깊이 조건을 만들고, 단일 샘플링 과정에서 두 단계 스케줄을 사용한다. 초기 단계는 포즈와 희소(depth)로 장면 구조를 고정하고, 이후 단계는 깊이를 제거하고 포즈만으로 고주파 디테일을 다듬어 과도한 제약을 피한다. 또한 프레임마다 내부(예: 초점거리)·외부(위치·자세) 카메라 파라미터를 조정할 수 있다. 1
다양한 동작과 큰 시점 변화가 있는 벤치마크에서 ActCam은 포즈 전용 제어나 기존 포즈·카메라 방법보다 카메라 준수도와 동작 충실도를 높였고, 특히 큰 시점 전환에서 사람 평가 선호를 더 많이 받았다. 실무적으로는 ‘프롬프트를 덜 다시 찍는’ 방식의 신뢰도 높은 감독급 제어에 가깝다. 1
UniPool: 전문가 풀을 전 층이 공유하는 설계로 낭비 절감
UniPool은 전문가 혼합(Mixture of Experts, MoE) Transformer에서 층별 전용 전문가 집합을 없애고, 모든 층이 독립 라우터로 하나의 전역 공유 풀을 쓰도록 바꾼다. 이렇게 하면 전문가 용량을 전역 예산으로 다루어, 깊이가 늘어도 전문가 파라미터가 선형으로 불어나는 결합을 끊고 진짜 필요한 곳에 용량을 배분할 수 있다. 2
공유로 인한 학습 불안정과 불균형을 막기 위해, 풀 단위 보조 손실을 도입해 전문가 활용도를 균형 있게 만들고, 희소·스케일 안정 라우팅을 위한 NormRouter를 사용한다. 저자들은 또 현재 할당의 중복성도 지적한다. 실제 MoE 모델 다수에서 상위-k 라우터를 균등 무작위 라우팅으로 바꿔도 정확도 하락이 1.0–1.6포인트에 그쳤다. 2
LLaMA 아키텍처 기반 다섯 규모(182M, 469M, 650M, 830M, 978M 파라미터)를 The Pile 300억 토큰으로 학습했을 때, UniPool은 동일 기준의 일반 MoE 대비 검증 손실을 최대 0.0386만큼 낮췄다. 또한 일반 MoE 전문가 예산의 41.6%–66.7%만 쓰는 축소 풀 변형이 동등하거나 더 좋은 성능을 보여, 풀 크기가 깊이 스케일링의 명시적 하이퍼파라미터가 됨을 보였다. 2
Transformer의 암묵 추론 스케일링: 단계별 추론 수준에 얼마나 근접하나
이 논문은 Transformer가 Horn 절 기반 과제에서 풀이 과정을 글로 쓰지 않고도(암묵적 방식) 연역 추론을 할 수 있는지, 그리고 규모·학습 설정이 이에 어떤 영향을 주는지를 본다. 핵심은 지름길 신호를 제거해 ‘진짜 추론’을 가려내는 것이다. 3
증명 가능성과 잡음 특징의 상관을 의도적으로 끊고 알고리즘적 정렬을 강화하면, 충분히 깊은 모델이 양방향 접두 마스크를 쓸 때 단계별 추론(Chain-of-Thought, CoT) 프롬프트와 비슷한 수준으로 여러 그래프 구조·폭에서 성능이 접근한다. 3
다만 학습 때보다 더 긴 추론 사슬이 필요한 깊이 외삽에서는 CoT가 여전히 필요하다. 즉 분포 내 난이도에서는 규모·설정으로 격차를 좁힐 수 있지만, 더 어려운 일반화에는 단계별 유도가 여전히 중요하다는 경계를 그린다. 3
AI Co-Mathematician: 수학자를 위한 에이전트형 연구 작업대
AI co-mathematician은 아이디어 구상, 문헌 탐색, 계산 실험, 정리 증명, 이론 구축까지 수학 연구 전 과정을 에이전트형 AI가 상호작용적으로 돕는 작업대다. 비동기·상태 유지형 워크스페이스로 사람 협업 방식을 닮게 설계됐다. 4
시스템은 불확실성을 관리하고, 사용자 의도를 정제하며, 실패한 가설을 추적하고, 수학 고유 형식의 산출물을 만든다. 초기 테스트에서 열린 문제 해결을 돕고, 새로운 연구 방향을 드러내며, 간과된 참고문헌을 찾아냈다. 4
벤치마크에서는 FrontierMath Tier 4에서 48%를 기록해, 저자들은 평가된 AI 시스템 중 새로운 최고 성과라고 보고한다. 상호작용성 유지와 강한 문제 해결력을 함께 보여준다는 의미다. 4
Open Source & Repos
Hermes Agent: OpenRouter 사용 1위와 v0.13.0 출시
Hermes Agent는 Nous Research가 만든 오픈소스 자체 학습형 에이전트로, 작업을 실행하고 성찰해 재사용 가능한 스킬 파일을 자동 생성해 사용할수록 성능이 쌓인다. 프로젝트는 MIT 라이선스를 사용한다. 5
Marktechpost에 따르면 2026-05-10 기준 Hermes는 OpenRouter의 일간 앱·에이전트 순위에서 일간 2,240억 토큰으로 1위를 기록했고, OpenClaw는 1,860억 토큰이었다. 2026-05-07 배포된 최신 v0.13.0에는 하트비트 모니터링이 있는 칸반형 멀티에이전트 보드, 목표 고정을 위한 /goal 명령, 상태 가지치기가 포함된 Checkpoints v2, 재시작 시 게이트웨이 자동 복구, Google Chat 지원이 담겼다. 6
이 분석은 또한 저마찰 마이그레이션(hermes claw migrate) 경로와, 오픈소스 에이전트가 채널 범위(OpenClaw) 대 학습 심도(Hermes)라는 두 철학으로 갈라지는 흐름을 짚는다. 일부 팀은 둘을 병행해 하나로 오케스트레이션하고 다른 하나로 반복 작업 루프를 실행한다. 6
왜 중요한가
오늘의 결과들은 창작 도구의 ‘조종 가능성’과 모델 자원의 ‘효율’로 수렴한다. ActCam은 영상 생성기를 촬영팀처럼 다룰 수 있게 하고, UniPool은 전문가 파라미터를 더 필요한 곳에 쓰게 하며, Transformer 논문은 단계별 유도를 언제 활용할지 경계를 세운다. Hermes의 사용 증가는 ‘쓸수록 배우는’ 에이전트에 대한 수요를 보여준다. 1
이번 주 시도해볼 것
- Hermes Agent 시작하기: 저장소를 클론하고 README를 따라 로컬 작업을 실행한다. https://github.com/NousResearch/hermes-agent
- ActCam 설계 읽기: arXiv 논문으로 두 단계 조건 스케줄을 포즈 전용 제어와 비교해본다. https://arxiv.org/abs/2605.06667v1
댓글 (0)