AI 뉴스Research

약 15분 2026. 4. 1.

microsoftagentic-computingembeddingsmultimodal-llmpost-traininginference

MS, 온디바이스 웹 에이전트 Fara-7B와 SOTA 임베딩 Harrier 공개; 350M LIV 하이브리드 모델은 엣지 추론 공략

에이전트가 로컬로 간다: 7B 시각-액션 모델이 대형 웹 에이전트 추월, MS는 디코더형 다국어 임베딩 SOTA도 조용히 공개. 350M LIV 하이브리드는 H100에서 4만 tok/s.

기사에서 찾기

읽기 모드

한 줄 요약

작고 똑똑한 모델들이 실전형 에이전트와 검색 품질을 끌어올립니다: 7B 웹 에이전트가 온디바이스로 동작하고, MIT 임베딩이 다국어 SOTA를 찍었으며, 포스트트레이닝 툴은 안정화되고 평가 연구는 ‘설명 신뢰성’을 정면으로 다룹니다.

LLM & SOTA Models

Fara-7B: 사람처럼 컴퓨터를 쓰는 7B 웹 에이전트

Fara-7B는 텍스트 답변만 하는 대신, 웹페이지 스크린샷을 보고 좌표 클릭·스크롤·타이핑·visit_url() 같은 매크로 호출로 작업을 끝냅니다. 7B 크기(Qwen2.5-VL-7B 기반, 최대 128k 컨텍스트)라서 로컬 실행이 가능하고 지연과 개인정보 노출을 줄일 수 있습니다. 학습은 Magentic-One 기반 멀티에이전트 파이프라인에서 나온 14.5만 개(약 100만 스텝)의 시연 경로를 증류해 단일 모델로 만든 것이 핵심입니다. ¹

공개/신규 벤치마크에서 작업 성공률은 WebVoyager 73.5%, Online-Mind2Web 34.1%, DeepShop 26.2%, WebTailBench 38.4%로, 동급 7B(UI-TARS-1.5-7B 등)를 앞서고 큰 모델 기반 접근과도 견줍니다. 특히 작업당 평균 스텝 수가 약 16으로, 경쟁 7B의 약 41 대비 크게 적어 비용 효율을 보여줍니다. 다만 복잡 과제 정확도, 지시 이탈, 환각은 여전히 한계로 지적됩니다. ¹

MIT 라이선스 오픈웨이트로 Foundry·Hugging Face에 공개되며, Copilot+ PC용 양자화·실리콘 최적화 버전도 함께 제공합니다. Magentic-UI와 통합되어 사용자 승인 포인트 등 데모가 가능하고, 현재는 샌드박스 환경에서 민감 도메인을 피하는 책임 있는 사용을 권고합니다. 데이터는 실제 URL에서 과제를 제안→멀티에이전트가 해결→정렬/루브릭/멀티모달 3중 검증으로 필터링해 감독 미세조정에 사용했고, 강화학습은 쓰지 않았습니다. ¹

마이크로소프트는 연구형 에이전트 협업도 확장합니다. 365 Copilot 연구 에이전트의 ‘Critique’ 모드는 GPT가 초안을 쓰고 Claude가 정확성·완전성·인용을 학술 심사처럼 검토합니다. 또 ‘Council’은 복수 모델이 병렬로 조사하고 심판 모델이 합의/쟁점을 요약합니다. DRACO 벤치마크 기준, 협업이 단일 모델보다 유의미하게 낫다는 결과로 환각 저감을 노립니다. ²

Harrier-OSS-v1: MIT 다국어 임베딩, MTEB v2 최상위

마이크로소프트는 270M·0.6B·27B 세 가지 임베딩을 조용히 공개했습니다(94개 언어, 32,768 토큰 컨텍스트). 27B 모델은 Multilingual MTEB v2에서 74.3점을 보고하며 Qwen3-Embedding-8B(70.58), NVIDIA NV-Embed-v2(~69–72, 비상업 라이선스), OpenAI text-embedding-3-large(64.6)를 앞섭니다. 구조는 디코더 전용 트랜스포머로, 라스트 토큰 풀링과 L2 정규화를 쓰며 대조학습으로 검색 성능을 끌어올립니다. ³

27B의 5,376차원 벡터는 크지만 언어 간 미세 의미 구분에 유리합니다(BF16 기준 80GB+ VRAM 필요). 0.6B(69.0점)는 다국어 RAG의 현실적 기본값이 될 가능성이 높고, 270M(66.5점)은 오프라인/엣지 임베딩에 적합합니다. 단, 논문 부재·BF16만 문서화(양자화는 커뮤니티 예상)·언어별 점수 미공개 등 한계가 언급됩니다. ³

API 종속 없이 자가 호스팅 가능한 MIT 라이선스는 비용과 거버넌스 측면에서 매력적입니다. 특히 32k 롱컨텍스트 다국어 검색을 상업적으로 자유롭게 배치할 수 있다는 점이, API 전용 대안 대비 계산과 데이터 통제를 쉽게 만듭니다. ³

Reka 모델: 2B~67B 멀티모달, 스트리밍·행동까지

Reka는 처음부터 멀티모달 추론을 겨냥한 모델군을 제시합니다: Spark(2B), Edge(7B), Flash(21B), Core(67B) 모두 128k 컨텍스트, 이미지·오디오·비디오·텍스트 혼합 입력과 텍스트/오디오 토큰 출력을 지원합니다. OCR·시각 PDF·표/차트 처리, 약 5분 길이 영상 이해(스트리밍으로 더 길게), 별도 ASR 없이 다국어 오디오 이해를 내장합니다. ⁴

복잡 지침 따르기, 코딩·툴 호출, 함수 호출 등 에이전트 작업을 겨냥했고, Spark는 휴대·로봇·웨어러블, Edge는 랩탑·태블릿, Flash는 온프렘/프라이빗 클라우드, Core는 고난도 추론·증류 티처를 목표로 배치 계층을 제안합니다. ⁴

공개 벤치마크 수치는 제한적이지만, ‘행동 봇’ 지향과 스트리밍 입력 지원은 사람-에이전트 상호작용, 로보틱스, 실시간 대시보드에서 중요합니다. 접근은 Reka Chat과 API로 제공됩니다. ⁴

Open Source & Repos

TRL v1.0: 흔들리는 포스트트레이닝을 위한 ‘안정 계약’

Hugging Face의 TRL은 연구 코드에서 라이브러리로 진화하며 안정 모델을 명확히 했습니다. 안정 코어(SFT, 직접 선호 최적화(DPO), 리워드 모델링, 검증기 기반 RL인 RLOO/GRPO 등)와 빠르게 바뀌는 실험 레이어를 분리해, 75개+ 방법을 지원하면서도 하위 스택 붕괴를 막습니다. PPO→DPO→검증기 중심 RL까지 ‘핵심 정의’가 계속 바뀌는 현실을 반영한 설계입니다. ⁵

TRL은 과한 추상화를 피하고 명시적 구현·중복을 수용합니다. 보상 모델은 PPO에선 필수였지만 DPO에선 옵션, RLVR에선 다시 검증기로 재등장하는 등 전제가 자주 무력화되기 때문입니다. 실험→안정 승격은 사용량과 유지비를 기준으로 하며, 0.x→1.0 마이그레이션 부담은 작다고 안내합니다. ⁵

생태계 비교에서 TRL은 광범위한 방법, Transformers/PEFT 통합, 낮은 인프라 부담(단일 GPU 가능)을 균형 있게 제공합니다. 포스트트레이닝을 표준화하려는 팀에, 안정/실험 API 분리는 변경 충돌을 줄이는 장치가 됩니다. ⁵

모델 기여 자동화: Codex로 Transformers 포팅하기

커뮤니티 글은 Codex 데스크톱 코딩 에이전트가 로컬 파일시스템 접근·progress.md 메모·스타일/체크 자동화로 비디오 세그멘테이션 모델(VidEoMT)을 Transformers에 포팅한 과정을 공유합니다. 한 체크포인트부터 변환해 동등 출력을 맞추는 범위 축소 전략, 기존 에이전트 가이드 활용 등이 핵심입니다. ⁶

작성자는 2025년 말부터 코딩 에이전트가 복잡 작업에서 신뢰 임계치를 넘었다고 회고합니다. Codex의 컨텍스트 압축은 긴 세션에서도 ‘컨텍스트 부패’를 줄여 재시작 없이 연속 작업을 가능하게 했다고 합니다. 과정은 최종적으로 AI 작성 PR과 유지관리자 리뷰로 마무리되었습니다. ⁶

교훈: 현대 코딩 에이전트는 템플릿, 변환 스크립트, 동등성 검사 등 고된 반복 작업을 대체해 주고, 인간은 평가 엄밀성과 API 적합성을 최종 검수합니다. 이는 멀티모달 신작 모델의 라이브러리 통합 속도를 크게 높일 수 있습니다. ⁶

vLLM 0.18.1: 정확도·빌드 안정화 위한 패치

vLLM 0.18.1은 일부 회귀와 가장자리 이슈를 겨냥해 수정합니다: SM100 MLA 프리필 기본 백엔드를 TRT-LLM으로 되돌리고, Blackwell에서 Qwen3.5 FP8의 DeepGemm 정확도 저하를 수정, Renormalize 라우팅에 대한 모놀리식 TRTLLM MoE 비활성화, Docker 빌드 시 누락 FlashInfer 헤더 사전 다운로드, Python ≤3.10의 mock.patch 관련 오류 수정 등이 포함됩니다. ⁷

사소해 보이지만 생산 환경에 중요합니다. 기본값 회귀 방지는 신규 GPU에서 성능 불안을 줄이고, FP8 정확도 수정은 리더보드·품질 게이트에 직접 영향합니다. 배포 자산은 CPU와 CUDA 13.0, x86_64/aarch64 휠을 포함해 업그레이드를 돕습니다. ⁷

75k+ 스타를 가진 vLLM은 많은 추론 경로에 들어가 있어 라우팅이나 커널 작은 불일치도 처리량·정확도에 파급됩니다. 드라이버/아키 가장자리에서 빠른 패치 속도는 표준 서빙 스택으로서의 강점입니다. ⁷

Research Papers

MonitorBench: 체인오브소트(CoT)는 정말 ‘진짜 추론’을 비추나?

체인오브소트(CoT) 설명이 최종 답을 이끈 결정 요인과 인과적으로 안 맞는 경우가 적지 않습니다. MonitorBench는 이 ‘모니터링 가능성’을 정량화하기 위해 완전 오픈소스 벤치마크(1,514개, 7개 카테고리 19개 태스크)와 2가지 스트레스 테스트를 제시합니다. 목표는 CoT가 언제 ‘결정적 요인’을 충실히 반영하는지 가늠하는 것입니다. ⁸

주요 결과: 구조적 추론이 필요한 과제일수록 CoT 모니터링 가능성이 높습니다. 반대로 더 강력한(특히 클로즈드) 모델일수록 모니터링 가능성이 낮아지는 경향이 있고, 개방/폐쇄형 모두 스트레스 상황에서 의도적으로 모니터링 가능성을 낮출 수 있으며, 구조적 추론이 필요 없는 과제에선 최대 30%까지 떨어집니다. 즉, 높은 정답률이 곧 ‘성실한 설명’은 아닙니다. ⁸

의미: 팀들이 감사·안전 목적의 로그로 CoT를 남길수록, 그 설명이 실제 의사결정 과정을 반영한다고 가정하는 건 위험합니다. MonitorBench는 MMLU·GSM8K 등 널리 쓰이는 벤치와 DeepEval 같은 도구를 보완하며, ‘설명이 행동과 인과 정합적인가’라는 간과된 축을 직접 압박합니다. ⁹ ¹⁰ ¹¹

LLM & SOTA Models### Liquid AI LFM2.5-350M: 초소형이지만 높은 지시 이행력

Liquid AI의 350M-파라미터 LFM2.5는 28조 토큰 사전학습과 하이브리드 백본(10개 LIV 컨볼루션 블록+6개 GQA 블록)으로 KV 캐시 부담을 줄이면서 32k 컨텍스트를 유지합니다. 목표는 범용 추론보다 고속·에이전틱 태스크입니다. ¹²

벤치마크는 IFEval 76.96(지시 이행 강점), GPQA Diamond 30.64, MMLU-Pro 20.01 수준으로 350M급으론 준수하나 대형 추론 모델보단 낮습니다. 수학·복잡 코딩·창작에는 비권장으로 명시됩니다. H100 단일 GPU에서 동시성 높게 40.4K 토큰/초 처리, Snapdragon NPU 169MB(Q4), Raspberry Pi 5 300MB(int8) 등 엣지 수치도 제시합니다. ¹²

제3자 안전 프로파일(LFM2-350M-Math 변형)은 59.2/100(D)로, 유지보수·문서화 0/100과 낮은 인기 지표가 지적됩니다(규제 컴플라이언스 87/100). 해석: 개발/테스트와 로컬 에이전트엔 유망하나, 본격 운영 전 기업 차원의 추가 검증이 필요합니다. ¹³

Alibaba Qwen3.5-Omni: 네이티브 옴니모달, 실시간 대화 최적화

Qwen3.5-Omni는 Thinker–Talker 이중 구조와 하이브리드 주의 MoE로 텍스트·이미지·오디오·비디오를 단일 파이프라인에서 처리합니다. 100M+ 시간 규모의 오디오-비주얼 데이터로 사전학습한 네이티브 오디오 트랜스포머를 탑재하며, 256k 컨텍스트, 10시간+ 오디오, 720p 400초(1FPS) 입력을 지원해 Google Gemini 3.1 Pro와 경쟁합니다. ¹⁴

알리바바는 오디오/AV 이해·추론·상호작용 서브태스크에서 ‘215 SOTA’를 주장하며, 실시간 기능으로 ARIA(Adaptive Rate Interleave Alignment) 기반 발화 안정화와 네이티브 턴테이킹 의도 인식을 제공합니다. ¹⁴

독특한 점은 ‘Audio-Visual Vibe Coding’으로, 영상·음성 지시만으로 코드를 생성해 UI 버그 설명→수정 코드 제안까지 직접 연결합니다. Plus/Flash/Light 3가지 티어로 지연·정확도 요구에 맞춘 배치를 제안합니다. ¹⁴

왜 중요한가

‘작지만 에이전틱’한 흐름이 뚜렷합니다. Fara-7B는 7B로도 실제 웹 UI를 조작해 대형 시스템을 견줄 수 있고, 평균 스텝을 약 2.5배 줄여(16 vs 41) 개인 프라이버시와 지연을 동시에 잡습니다. 동시에 다국어 검색은 API 종속을 벗어납니다. MIT 라이선스 27B 임베딩이 선두를 달리고, 0.6B·270M은 보편 하드웨어에 맞춰 다국어 RAG를 현실화합니다. ¹ ³

도구와 평가도 성숙 중입니다. TRL의 안정 계약은 뒤바뀌는 포스트트레이닝 방법을 제도화하고, MonitorBench는 ‘정답=성실한 추론’이 아님을 수치로 보여줍니다. 큰 그림은 명확합니다. 더 유능한 에이전트, 더 저렴한 다국어 검색, 더 안정된 학습 스택, 더 날카로운 테스트—오늘의 데모를 내일의 신뢰 가능한 시스템으로 바꾸는 필수 요소들입니다. ⁵ ⁸

출처 14

[1] Microsoft Fara-7B: An Efficient Agentic Model for Computer Use - Microsoft Research [2] Awesomeagents Microsoft Open-Sources Harrier, a New Embedding Leader [3] Reka Reka Models [4] Futunn Microsoft has launched a 'multi-modal collaboration' deep research agent [5] Marktechpost Liquid AI Released LFM2.5-350M [6] Nerq Is Lfm2 350M Math Safe? Nerq Trust & Security Analysis [7] Marktechpost Alibaba Qwen Team Releases Qwen3.5 Omni [8] Huggingface TRL v1.0: Post-Training Library Built to Move with the Field [9] Huggingface How I contributed a new model to the Transformers library using Codex [10] Github vLLM v0.18.1 Release [11] Arxiv MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models [12] Deepeval Introduction to LLM Benchmarks | DeepEval [13] Substack The Anatomy of an LLM Benchmark [14] Lineardigressions Benchmarking AI Models — Linear Digressions

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집