ConvexTok, 1% 이내 ‘거의 최적’ 토크나이저 인증
볼록 최적화로 설계한 새 토크나이저가 탐욕적 규칙을 대체해 바이트당 비트 효율을 높이고, 어휘가 최적에 얼마나 가까운지 인증까지 제공한다. 또한 소비자 노트북에서 라이브 음악 생성, 과학 진보 예측 한계, 프롬프트 가능한 동물 3D 복원, 항상 최신 컨텍스트를 유지하는 증분 인덱싱 엔진 소식.
한 줄 요약
오늘의 연구는 토크나이저·라이브 생성·인덱싱 같은 핵심 기반을 더 효율적으로 만들었고, 동시에 모델이 과학 진보를 예측하는 데는 아직 한계가 있음을 보여준다.
Research Papers
ConvexTok: 볼록 최적화로 ‘거의 최적’ 토크나이저 설계
이 논문은 토크나이저 어휘를 부분적으로 이어 붙이는 대신 한 번의 최적화 문제로 설계하는 ConvexTok을 제안한다. 즉 다음 한 조각만 최선으로 고르는 것이 아니라, 전체 어휘 집합이 텍스트를 가장 잘 압축하도록 고른다. 바이트 페어 인코딩(Byte Pair Encoding, BPE)과 유니그램(Unigram) 대비 내재적 토크나이징 지표와 바이트당 비트(BpB)가 개선된다고 보고한다. 1
기술적으로는 토크나이저 구성을 선형계획법(Linear Program, LP)으로 공식화하고 볼록 최적화로 푼다. 특히 선택한 목적함수에 대해 현재 토크나이저가 최적에서 얼마나 떨어져 있는지 알려주는 하한선 기반 ‘인증’을 제공하며, 실험에서 일반적인 어휘 크기에서 그 격차가 1% 이내임을 보인다. 1
왜 중요한가: 토크나이저는 속도, 메모리, 그리고 컨텍스트 윈도 안에 넣을 수 있는 텍스트 양을 좌우한다. BpB가 낮아지면 같은 바이트에 더 많은 정보가 담겨 토큰당 의미량이 늘어난다. 논문은 다운스트림 성능도 일부 개선을 보이지만 일관되지는 않다고 보고한다. 운영 관점에서는 감사 가능성과 ‘거의 최적’ 보장이 핵심이며, 비영어 말뭉치에서의 재현성과 현대 어휘 크기에서의 작동 방식을 지켜볼 필요가 있다. 1
Live Music Diffusion Models: 소비자 노트북에서 라이브 음악 생성
이 연구는 디퓨전 기반 음악 생성기를 라이브 공연에 맞게 바꿔, 소비자용 게이밍 노트북에서도 음악가와 ‘즉흥 연주’할 수 있을 만큼 지연 시간을 낮춘다. 라이브 뮤직 디퓨전 모델(Live Music Diffusion Models, LMDMs)을 제안해 스트리밍 가능한 효율적 생성 과정을 만든다. 2
핵심은 블록 단위 키-값(KV) 캐시로 자가회귀(Autoregressive, AR) 기반 라이브 뮤직 모델(Live Music Models, LMMs)의 추론 복잡도를 따라잡고 더 낮추는 것, 그리고 강화 학습(Reinforcement Learning, RL)이나 보상 모델 없이 오류 누적을 줄이는 ARC-Forcing이라는 사후 학습 정렬 기법이다. 논문은 텍스트 조건 생성, 스케치 기반 합성, 실제 아티스트–AI 협업에서 ‘생성 딜레이’ 이펙트 사례를 보여준다. 2
CUSP 벤치마크: AI의 과학 진보 예측 능력 점검
훈련 컷오프 조건 미관찰 과학 진보(Cutoff-conditioned Unseen Scientific Progress, CUSP)는 지식 컷오프를 통제한 상태에서 AI가 연구 성과를 예측할 수 있는지를 시험하는 벤치마크다. 실현 가능성 판단, 기전적 추론, 생성적 해결안 설계, 시간 예측을 포함해 4,760개의 과학 이벤트를 평가한다. 3
결과는 체계적이면서 분야별로 다른 한계를 보여준다. 모델은 그럴듯한 연구 방향은 고르지만 성과가 실제로 일어날지와 그 시점을 안정적으로 맞추지 못한다. 시점 예측은 AI 분야가 생물학·화학·물리보다 더 예측 가능했다. 훈련 컷오프 이전·이후 이벤트 모두 성능이 비슷하고, 컷오프 이전 지식을 더 주면 다소 나아지지만 ‘모든 정보’가 있는 설정과의 격차는 특히 인용이 많은 성과에서 더 벌어진다. 또한 과신과 강한 응답 편향을 보여 불확실성 추정의 신뢰성이 낮음을 시사한다. 3
SAM 3D Animal: 한 장 이미지로 다중 동물 3D 복원
SAM 3D Animal은 야외 촬영된 단일 이미지에서 여러 동물을 3D로 동시에 복원하는 프레임워크다. 키포인트와 마스크 형태의 프롬프트로 혼잡하거나 가려진 장면의 모호함을 줄이며, SMAL+ 매개변수화 동물 모델 위에서 다중 인스턴스를 함께 추정한다. 4
학습을 위해 종, 상호작용, 가림을 다양하게 담은 5,000장 이상 이미지의 다중 동물 데이터셋 Herd3D를 소개한다. Animal3D, APTv2, Animal Kingdom 데이터셋에서 모델 기반·비모델 기반 모두를 앞서는 최신 성능을 보고하며, 프롬프트 중심의 야외 동물 복원 접근이 확장 가능함을 보인다. 4
Open Source & Repos
CocoIndex: 장기 작업 에이전트를 위한 증분 인덱싱 엔진
CocoIndex는 코드베이스, 슬랙, 회의록, 문서 등 다양한 소스에서 변경분(델타)만 재처리해 AI 에이전트의 컨텍스트를 항상 최신으로 유지하는 ‘증분 동기화’ 인덱싱 엔진이다. 전체를 다시 들여오지 않고 업데이트만 반영하는 검색 증강 생성(Retrieval-Augmented Generation, RAG) 파이프라인과 에이전트 메모리, 엔터프라이즈 검색용 배관에 가깝다. 5
리포지토리는 운영 환경의 수집과 스트리밍 추출-변환-적재(Extract-Transform-Load, ETL)를 강조한다. 최신 v1.0.6(5월 18일)에는 Elm tree-sitter 스플리터 추가와 Rust→Python 오류 컨텍스트 개선이 포함되어 있다. 잦은 수정과 검색 사이의 지연을 최소화해야 하는 장기 작업 AI 에이전트를 겨냥한다. 5
왜 중요한가
토큰, 스트리밍 생성, 인덱싱 같은 기반 선택은 실제 비용과 품질을 좌우한다. ConvexTok의 ‘거의 최적’ 토크나이징은 효율과 감사 가능성을 동시에 끌어올릴 수 있음을 보여주고, 라이브 음악 디퓨전은 소비자 수준 장비에서도 상호작용 생성이 가능함을 시사한다. 1
동시에 CUSP는 AI 밖의 과학 분야에서 특히 시점 예측과 불확실성 추정이 어렵다는 점을 상기시킨다. 모델의 ‘예측’은 참고 신호이지 확정이 아니라는 점을 전제로 활용해야 한다. 3
댓글 (0)