웨어러블이 즉시 응답한다: 8M–30M 온디바이스 모델이 첫 4–8단어를 써준다
"초소형 모델 + 클라우드" 핸드오프로 응답을 기기에서 먼저 시작하고, 큰 모델이 문장 중간에 이어 받아 지연을 숨긴다. 함께 공개된 논문들은 LoRA 층 선택을 정밀화하고, 에이전트 심사 역량을 벤치마크하며, 언어에서 행동까지 로봇 학습을 하나로 묶는다.
한 줄 요약
기기에서 먼저 답을 시작해 큰 모델이 이어 쓰는 방식으로 즉시성은 살리고, 더 적게 미세 조정하고 더 엄격히 검증하며 로봇을 끝단까지 학습하는 실용 해법이 모인다.
Research Papers
Micro Language Models: 초소형 온디바이스 오프너로 즉시 응답
이 논문은 웨어러블이 즉각 반응하도록 설계한다. 8M–30M 규모의 초소형 마이크로 언어 모델(μLM)이 기기에서 먼저 4–8단어를 생성하고, 클라우드의 큰 모델이 문장을 이어 받아 완성해 네트워크 지연(수 초)을 가린다. 시계·스마트글래스는 100M–1B 규모의 모델을 연속 실행하기 어렵다는 전제를 두고, μLM이 “오프너”를 맡고 클라우드가 심화 생성을 담당한다. 체크포인트와 데모도 제공된다. 1
핵심은 클라우드를 답변자가 아니라 “계속 작성자(continuator)”로 재정의해 문장 중간 핸드오프를 가능케 하고, 로컬 오프너가 빗나갈 때를 대비한 3가지 오류 복구 절차를 둔 것이다. 실험에서는 극단적으로 작은 μLM이 여는 문장을 큰 모델이 자연스럽게 이어 쓰며, 70M–256M급 기준선과 견줄 만한 유용한 생성을 보인다. 1
이는 “비대칭 협업”의 방향을 시사한다. 즉, 작은 모델은 즉시성, 큰 모델은 난도 높은 추론을 맡는 구조다. 관련 연구인 잠재 가이드 추론(Latent‑Guided Reasoning)은 큰 모델이 압축된 가이드 벡터를 만들어 작은(0.5B–8B) 모델의 계획 능력을 끌어올리며, 8개 추론 벤치마크에서 최대 13.9% 정확도 향상을 보고한다. 2
또 다른 보완 아이디어는 사전학습 단계에서 사실 지식을 외부 데이터베이스로 외부화하는 제한 메모리 언어 모델(Limited Memory LM)이다. 382M 모델이 FactScore를 +17.9% 높이고 7B Llama2에 근접한 사실 정밀도를 보이는 등, 파라미터 기억 대신 구조화 조회로 작은 모델의 한계를 보완하는 방향을 제시한다. 3
RDP LoRA: 기하학으로 고른 핵심 층만 미세 조정해 효율 향상
이 연구는 어느 층을 미세 조정해야 하는지의 ‘찍기’를 멈춘다. 은닉 상태의 변화를 고차원 궤적으로 보고, 다각형 단순화 기법인 Ramer‑Douglas‑Peucker 알고리즘으로 저순위 적응(LoRA)을 적용할 핵심 “분기점” 층을 고른다. Qwen3‑8B‑Base의 MMLU‑Math에서 RDP가 고른 13개 층만 조정해 81.67%를 달성해, 전체 36개 층 조정(79.32%), 무작위 13개 층(75.56%), 기준선(74.25%)을 모두 앞선다. 4
메시지는 분명하다. 더 적은 파라미터로 더 높은 정확도를 얻을 수 있다. 이는 표현력을 키우면서도 순위를 키우지 않는 LoRA 변형 추세와 맞물린다. 예를 들어 BoRA는 블록별 대각 행렬을 도입해 효과적 랭크를 b배로 키우고, 같은 랭크(r=8)에서 GLUE 평균을 약 2% 높였다고 보고한다. 5
활용성도 넓어진다. LoRAGen은 자연어 과제 설명만으로 어댑터를 생성해 FLAN‑T5‑large에서 과제별 LoRA의 96.0%, Gemma‑2‑2B‑Instruct에서 72.7% 성능을 보였고, LoRA‑S는 실베스터 방정식을 이용해 새로운 최적화를 설계해 Mix‑of‑Show 모델의 CLIP 점수를 32.64까지 끌어올렸다. 6 7
AJ-Bench: 환경과 상호작용하는 심사 에이전트 평가
AJ‑Bench는 정적 규칙이나 프롬프트 판정만으로 채점하지 않고, 도구와 UI를 실제로 조작해 증거를 모으는 “에이전트‑형 심사자”를 평가한다. 검색·데이터시스템·GUI 3영역, 155개 과제와 516개 주석된 경로로 정보 수집, 상태 검증, 과정 검증 능력을 본다. 8
LLM‑심사자 대비 일관된 성능 향상이 관찰되지만 난이도는 여전히 높다. 이는 EXP‑Bench의 관찰과도 맞닿는다. 51편 논문에서 추출한 461개 AI 연구 과제에서 주요 지표가 30% 미만에 머물고, 설계→구현→실행→결론을 모두 충족한 완전 성공은 0.5%에 그쳤다. 9
InnovatorBench 역시 장기 지평의 코드 중심 연구 워크플로를 압박한다. Claude Sonnet 4, GPT‑5, GLM‑4.5, Kimi‑K2 같은 강력한 모델을 써도 성급 종료, 취약한 알고리듬 설계 등 한계가 드러나며 최적 수행에 11시간 이상이 걸리는 경우가 많다. 10
업스트림의 검증기 정확도도 병목으로 보인다. VerifyBench에서 최상위 LLM 검증기는 표준 세트에서 95.8%(Qwen3‑32B), 92.85%(GPT‑4o‑mini) 수준을 보였지만, 더 어려운 세트에서는 20%p 이상 하락해 약 72.4%로 떨어지고 작은 검증기는 크게 뒤처진다. 11
VLA Foundry: 언어–비전–행동을 하나로 잇는 로봇 학습 프레임워크
VLA Foundry는 언어 사전학습→비전‑언어→행동 정책까지 하나의 공개 코드베이스로 학습해, 서로 다른 파이프라인을 이어 붙이는 과정을 없앤다. 처음부터 학습하거나 Qwen3‑VL 같은 사전학습 백본을 꽂아 쓸 수 있고, 오픈 소스 LBM Eval 시뮬레이터에서 폐루프 정책을 평가한다. 12
정상 조건에서는 완전 공개·처음부터 학습한 모델이 기존 폐쇄계 성과와 비슷하고, Qwen3‑VL로 대체하면 멀티태스크 테이블탑 조작 정책이 기준선을 큰 폭으로 앞선다. 코드·가중치·분석 도구도 함께 공개됐다. 12
관련 기법인 “언어로서의 행동(Actions‑as‑Language)”은 저수준 행동을 자연어로 표현하고 주로 저순위 적응(LoRA)으로 미세 조정해, VQA 능력을 85% 이상 보존하면서 MME 76.9%, MMB‑en 74.7%, MMB‑cn 78.4%를 보고했고, 실제 로봇 실험 800회 이상으로 검증했다. 13
InstructVLA는 비전‑언어‑행동 지시 튜닝(VLA‑IT)과 65만 샘플 데이터셋으로 SimplerEnv 조작 성능을 SpatialVLA 대비 33% 높이고, GPT‑4o 보조 전문가보다 29% 우위였으며, 1.5B 모델은 LIBERO 수트에서 평균 95.8%를 기록했다. 또한 토큰‑단위 디코딩의 지연 병목을 지적하며, OFT식 병렬 액션 헤드로 스텝 지연을 200ms 초과에서 약 4–8ms로 줄이고(처리량 25–50배), 성공률을 20% 이상 높였다는 엔지니어링 보고도 나왔다. 14 15
왜 중요한가
즉시 반응은 작은 모델이, 깊은 추론은 큰 모델이 맡는 분업은 비용을 낮추고, 체감 속도를 높이며, 시스템을 더 투명하게 만든다. 적은 층만 골라 미세 조정해도 성능을 끌어올리고, 증거를 모아 판정하는 에이전트와 정교한 검증기 벤치마크는 신뢰성 향상의 경로를 제시한다. 1
동시에, 끝단까지의 연구 자동화나 어려운 사례 검증은 아직 약하다. 어디서 실패하는지 드러난 덕분에, 안정성과 안전을 위한 개선 목표가 더 또렷해졌다. 9
댓글 (0)