SpatialEdit: 50만 합성 데이터와 16B 편집기로 미세 공간 편집 벤치마크 공개
이제 이미지 편집 평가는 스타일이 아니라 기하 제어다. 동시에 TRL v1.0이 정렬 스택을 고정하고, Gemma 4는 WebGPU로 브라우저 안에 들어왔다.
한 줄 요약
SpatialEdit가 기하(geometry) 중심의 이미지 공간 편집을 벤치마크·데이터·모델로 정식화했고, TRL v1.0은 정렬 학습 파이프라인을 표준화, Gemma 4는 브라우저 안에서 온디바이스로 돌아갑니다.
LLM & SOTA Models
SpatialEdit-16B와 SpatialEdit 스위트
객체 배치나 카메라 시점을 바꾸는 등 ‘정확한 공간 조작’을 위한 전용 테스트베드가 나옵니다. SpatialEdit-Bench는 시각적 그럴듯함과 기하 정합성을 함께 보는데, 3D 시점 복원(viewpoint reconstruction)과 프레이밍 분석으로 기하적 정확도를 직접 확인합니다. 팀은 또한 Blender 기반 합성 데이터셋 SpatialEdit-500k와, 공간 조작 과제에서 기존 방법을 크게 앞서는 베이스라인 모델 SpatialEdit-16B를 공개합니다. 이제 모델은 “어디에 두느냐”를 정밀하게 바꾸도록 훈련·평가됩니다. 1
이 성과의 배경에는 대규모 합성 데이터 생성이 있습니다. SpatialEdit-500k는 Blender로 다양한 배경과 체계적 카메라 궤적을 렌더링해 정확한 변환 라벨을 제공합니다. 최근 툴 비교에서도 Blender는 지오메트리 노드와 Python API로 대규모 3D 데이터 생성에 안정적, NVIDIA Omniverse는 USD·물리기반 렌더로 산업급 정밀도를 제공한다고 평가됩니다. SpatialEdit의 “기하 정확도” 요구와 이런 렌더 생태계는 매우 잘 맞물립니다. 1 2
왜 새 벤치마크가 필요할까요? 대중적 “이미지 편집” 평가는 의미 일치·시각 품질 비중이 큰데, 공간 편집은 기하 인지가 필수입니다. 예컨대 DeepEval의 ImageEditingMetric은 의미 일관성(SC)과 지각 품질(PQ)을 합성해 로 최종 점수를 냅니다. 속성·스타일 변경에는 유효하지만, 정확한 카메라/객체 변환 검증에는 부족할 수 있죠. SpatialEdit-Bench는 여기에 3D 시점 복원과 프레이밍 분석을 더해 “보기 좋은가”를 넘어서 “공간적으로 맞는가”를 잡아냅니다. 3 1
실무 감각도 비슷합니다. 동영상 대모델 미세조정에서 강조되는 건 데이터 정제·정렬, 파라미터 효율 미세조정(LoRA 같은 저랭크 적응), 프레임 간 일관성을 위한 시계열 손실 등입니다. 연산력을 쌓기보다 “정교한 감독 신호”에 투자하는 관행이, 이미지 공간 편집의 기하 정합성 확보와 정확히 맞닿아 있습니다. 4
Open Source & Repos
TRL v1.0: 안정 코어와 실험 영역을 겸비한 정렬 학습 스택
Hugging Face의 TRL이 v1.0으로 올라서며 연구용 코드를 “서비스용 라이브러리”로 전환했습니다. 75+ 포스트 트레이닝 기법을 구현하고, 안정 트레이너(SFT, DPO, 보상모델링, RLOO, GRPO)와 빠르게 변하는 실험 네임스페이스(예: ORPO, Online DPO)를 분리했으며, 통합 CLI·설정 체계로 SFT → 보상모델링 → 정렬 과정을 표준화합니다. 분야의 “정석”이 수시로 바뀌는 만큼, 과한 추상화를 피하고 중복을 감수하는 설계로 민첩성을 확보한 점이 특징입니다. 5 6
효율 면에서는 LoRA/QLoRA 같은 파라미터 효율 미세조정과 SFT의 고정 길이 패킹을 지원하고, Unsloth 커널 통합으로 SFT/DPO에서 최대 2배 속도 향상과 약 70% 메모리 절감을 달성할 수 있다고 합니다. Accelerate 연동 CLI로 단일 GPU부터 FSDP/DeepSpeed 다노드까지 동일한 명령으로 확장 가능합니다. 6
알고리즘 선택지도 표준화했습니다. Proximal Policy Optimization(PPO)은 정책·레퍼런스·보상·가치모델이 필요한 반면, Direct Preference Optimization(DPO)은 오프라인 선호쌍만으로 보상모델 없이 학습합니다. Group Relative Policy Optimization(GRPO)은 그룹 상대 보상으로 크리틱(가치모델)을 제거해 RL 오버헤드를 줄입니다. TRL v1.0은 이런 선택을 일관된 트레이너/설정으로 감싸, 데이터·연산 여건에 맞게 바꾸기 쉽게 했습니다. 5 6
Gemma Gem: 브라우저에서 완전 온디바이스로 돌리는 Gemma 4
Gemma Gem은 Google Gemma 4를 WebGPU로 브라우저에서 완전 온디바이스로 구동하는 크롬 확장입니다. API 키나 클라우드 없이, 최초 모델 캐시만 하면(E2B 약 500MB, E4B 약 1.5GB) 현재 페이지를 읽고 버튼 클릭/폼 작성/스크립트 실행까지 로컬에서 처리합니다. 오프스크린 문서(모델+에이전트 루프)–서비스 워커–컨텐트 스크립트(UI+DOM 도구)로 아키텍처를 구성합니다. 7
이는 Gemma 4의 오픈 접근 기조와 맞닿아 있습니다. 다양한 크기와 추론 능력을 갖춘 모델을 로컬로 돌려 프라이버시와 비용을 아끼고, 서버급 처리량 일부를 자율성·데이터 지역성으로 교환하는 셈입니다. WebGPU·커널 최적화가 빨라지는 만큼 성능 격차가 줄어들 것이란 기대도 큽니다. 8 9
브라우저 상주형 에이전트는 사용성도 바꿉니다. 도구가 “작업하는 곳”에 상주해 페이지에서 바로 행동하고 네트워크 왕복을 줄입니다. 양자화·어텐션 커널·브라우저 GPU 백엔드가 개선되면, 특히 모바일/웹의 “Nano” 계열이 기본값이 될 때 속도/품질이 더 끌어올려질 전망입니다. 7 8
MemPalace, Loqi, Knowledge Engine, Recall: 에이전트 메모리의 네 가지 접근
요약·삭제 대신 “모두 저장하고, 잘 찾게 하자”는 흐름이 강해집니다. MemPalace는 대화·결정·토론을 사람/프로젝트/메모리 유형으로 구조화해 보관, 세션이 끊겨도 맥락이 사라지지 않게 합니다. “무엇을 기억할지 AI가 임의로 고르지 말고, 전부 남겨 탐색성을 높이자”는 주장입니다. 10
Loqi는 컨텍스트 압축 후 정책 망각을 겨냥합니다. 5개 정책 도메인·20개 작업·3개 모델의 합성 벤치마크에서, 압축 후 준수율이 15–28%에서 42–50%로 상승(평균 +24%p). 트리거 기반 재주입이 핵심(+11%p, 단순 검색 대비)이며, 시맨틱/트리거/그래프 검색을 결합하고 헤비안식 강화로 연결을 키웁니다. 아직 연구 프로토타입이지만, “장기 규칙 상기”에 대한 정량 근거를 보여줍니다. 11
Knowledge Engine은 사람 친화 위키와 기계 속도 메모리를 연결합니다. Karpathy의 “LLM 위키” 패턴으로 Obsidian 호환 마크다운 위키를 유지하고, 필요 시 단일 파일 Memvid 메모리(서브 5ms 조회 주장)를 덧붙입니다. 브리지 스크립트가 양 레이어를 해시로 동기화·드리프트 감지하며, CLI/UI로 검색·상태 점검을 제공합니다. Recall은 로컬 우선 다중모달 메모리로, Gemini Embedding 2(768차원)와 로컬 ChromaDB를 이용해 이미지/오디오/비디오/PDF/텍스트를 임베딩하고 자연어로 무엇이든 찾습니다. Raycast 확장까지 포함되며, 벡터는 전부 로컬에 저장됩니다. 12 13
Research Papers
SpatialEdit: 미세 공간 편집을 위한 벤치마킹
SpatialEdit는 “색 바꾸기”가 아니라 “배치와 시점”을 정확히 바꾸는 편집을 목표로 합니다. 시각적 그럴듯함과 기하 정합성을 함께 보는 SpatialEdit-Bench, Blender로 정확한 변환 라벨을 담아 만든 SpatialEdit-500k, 그리고 공간 조작 성능을 크게 끌어올린 SpatialEdit-16B를 함께 제시합니다. 리소스는 공개 예정입니다. 1
데이터 측면에서 Blender 선택은 실용적입니다. 지오메트리 노드·Python API로 수백만 인스턴스를 절차적으로 생성할 수 있고, 업계 리뷰는 Blender를 대규모 3D 데이터 처리에 안정적인 오픈 툴로, Omniverse를 USD·물리기반의 산업급 파이프라인으로 평가합니다. 이 생태계는 SpatialEdit가 요구하는 기하 중심 지도학습과 잘 맞습니다. 2 1
또한 SpatialEdit-Bench는 기존 편집 지표를 보완합니다. DeepEval의 ImageEditingMetric은 의미 일관성(SC)과 지각 품질(PQ)을 묶어 를 산출하는데, 이는 속성·스타일 편집에는 좋지만 정확한 카메라/객체 변환 검증에는 한계가 있습니다. 3D 시점 복원·프레이밍 분석을 추가한 SpatialEdit-Bench는 공간 정확도를 직접 겨냥합니다. 3 1
끝으로, 이 논문의 문제의식은 비디오 모델 관행과 통합니다. 성공 여부는 순수 연산보다 데이터 선별과 효율적 미세조정(예: LoRA), 그리고 프레임 간 일관성을 위한 손실 설계에 좌우됩니다. 이미지에서도 기하·일관성이 핵심일 때 같은 태도가 통합니다. 4
커뮤니티 반응
Hacker News (145↑) — 혼합: 브라우저 내 온디바이스 Gemma의 프라이버시/오프라인 장점은 매력적이지만, 현재는 서버 모델 대비 성능이 뒤처진다는 지적; 다가올 Nano/Gemma 업데이트가 격차를 줄일 것이라는 기대가 큼.
"Gemini Nano 4가 Gemma 4가 될 것이고, 기본 Nano 모델이 되면 성능이 꽤 개선될 것으로 보입니다. (현재 Android의 AICore에서 개발자 프리뷰로 테스트 가능)" — Hacker News
"[KO quote]" — Hacker News
왜 중요한가
SpatialEdit는 50만 합성 데이터·기하 인지 벤치마크·16B 모델을 한 세트로 제시해, 공간 편집을 “측정 가능한 과제”로 정립했습니다. 이는 AR/VR, 로보틱스 인지, 디자인 툴처럼 ‘배치/시점 제어’가 중요한 분야에 바로 파급됩니다. 1 2
동시에 TRL v1.0은 정렬 실험·배포 마찰을 낮추고, 브라우저 온디바이스 Gemma 4와 새로운 메모리 시스템은 네트워크가 없어도 로컬에서 행동하고, 장기 맥락을 잃지 않는 에이전트를 예고합니다. 기하 제어, 정렬 표준화, 로컬 퍼스트 에이전트의 결합이 “무엇을 어디서 안전하게 할 수 있는가”의 경계를 다시 긋고 있습니다. 5 7 11
댓글 (0)