AI 뉴스Research

약 8분 2026. 4. 5.

MicrosoftmultimodalVLMagentsTypeScriptopen-source

MS Phi‑4‑Reasoning‑Vision 15B: 동적 해상도 비전 인코더와 적은 데이터로 다중모달 효율 전진

15B 파라미터 VLM이 SigLIP‑2 Naflex와 정교한 데이터 큐레이션으로 수학·과학·UI 과제에서 동급 속도 모델을 추월—1조 토큰 없이도.

기사에서 찾기

읽기 모드

한 줄 요약

연산 효율을 앞세운 15B 멀티모달 모델이 등장했고, TypeScript 기반 에이전트 프레임워크와 AI 구직 파이프라인이 함께 주목받고 있습니다.

LLM & SOTA Models

Phi-4-Reasoning-Vision-15B (Microsoft)

마이크로소프트가 150억 파라미터의 오픈웨이트 멀티모달 추론 모델 Phi‑4‑Reasoning‑Vision‑15B를 공개했습니다. 수학/과학 추론과 화면(UI) 이해에 강점을 두면서도, 캡셔닝·문서/영수증 읽기·다중 이미지 변화 감지 등 일반적 비전‑언어 작업을 폭넓게 지원합니다. 팀은 “정확도–연산 비용 파레토 프론티어를 민다”고 강조하며, 자신들의 모델이 10배 이상 더 많은 시간/토큰을 쓰는 느린 모델들과 경쟁하고, 속도가 비슷한 모델보다 특히 수학/과학에서 더 높은 정확도를 보인다고 말합니다. 배포는 Microsoft Foundry, 허깅페이스, 깃허브로 이뤄집니다. ¹

핵심 설계는 미드‑퓨전입니다. 사전학습 비전 인코더가 이미지에서 시각 토큰을 뽑아 사전학습 LLM 임베딩 공간으로 투영해, 과도한 연산·메모리 없이 크로스모달 추론을 가능하게 합니다. SigLIP‑2 “Naflex” 동적 해상도 인코더와 Phi‑4‑Reasoning 백본을 조합했고, 어블레이션에서 동적 해상도가 고해상도 UI 스크린샷에 특히 유리함을 보였습니다. 시각 토큰 상한을 약 3600으로 늘리면 ScreenSpot‑Pro 정확도가 17.5까지 올라가는 반면, 다른 크롭/타일링 방식은 9~11대에 머물렀습니다. 화면 그라운딩 정확도를 토큰 폭증 없이 끌어올리는 데 유효한 구성입니다. ¹

데이터는 “양보다 질”에 방점을 찍었습니다. 멀티모달 학습에는 약 2000억 토큰을 사용했는데, 160억 토큰으로 학습된 Phi‑4‑Reasoning과 4000억 유니크 토큰으로 학습된 Phi‑4 코어를 활용했습니다. 이는 Qwen 2.5/3 VL, Kimi‑VL, Gemma3 등 최근 오픈웨이트 VLM의 1조+ 토큰 대비 훨씬 적은 규모입니다. 팀은 오픈 데이터셋을 대대적으로 필터링/개선하고, 잘못된 응답은 GPT‑4o·o4‑mini로 재생성하며, 수학/과학·UI 그라운딩을 위한 풍부한 캡션·QA를 합성해, 특히 수학 추론과 컴퓨터 사용(CUA) 데이터의 균형이 단순 스케일링보다 낫다고 주장합니다. ¹

결과적으로, 비교적 소형이지만 필요할 때 구조적 추론을 유지하며 보급형 하드웨어에서도 구동하기 쉬운 모델을 지향합니다. 일상 작업 전반을 소화하면서도 수학/과학·UI 벤치마크에서 강점을 보이며, ChartQA_TEST·MathVista_MINI·MMMU_VAL·ScreenSpot_v2의 정확도·시간·출력 토큰을 평균해 정확도–연산 트레이드오프 개선을 시각화합니다. ²

Open Source & Repos

Career-Ops: Claude Code 기반 AI 구직 파이프라인

Career‑Ops는 Anthropic의 Claude Code를 구직용 “지휘 센터”로 바꿉니다. 채용 공고 URL만 붙여넣으면 구조화된 평가, ATS 최적화 PDF 이력서, 트래커 등록까지 자동화합니다. 14개 스킬 모드, 배치 평가(10개+ 병렬), 포털 스캐닝(그린하우스/Ashby/Lever/Wellfound 등 45+ 기업 프리셋), 파이프라인 관리용 터미널 대시보드(Go TUI)를 제공합니다. 깃허브에서는 약 9.5k 스타와 1.7k 포크로 빠르게 주목받고 있습니다. ³ ⁴

내부적으로는 에이전트형이지만 인간 검토를 전제로 합니다. Claude Code가 Playwright로 사이트를 탐색하고, JD–CV 적합도를 키워드 매칭이 아닌 추론으로 판단해 공고별로 이력서를 재구성합니다. 다만 자동 지원은 하지 않으며, 병합/중복 제거/상태 정규화 등 무결성 검사를 통해 단일 소스 오브 트루스를 유지합니다. 작성자는 개인적으로 740+ 제안을 평가하고 100+ 맞춤형 CV를 생성한 사용 경험을 공유합니다. ³ ⁴

최근 이슈에서는 Indeed/LinkedIn이 AI 생성 이력서를 필터링할 수 있다는 우려가 제기됐습니다. 메인테이너는 Career‑Ops가 경력을 “창작”하지 않고 본인 경험을 재구성한다고 밝히며, 이미 짧은 문장·행동 동사 등 자연스러운 문체를 사용한다고 설명했습니다. 동시에 “AI 탐지 신호”를 더 줄이는 PR이 진행 중이며, 핵심 원칙으로 “제출 전 사용자 검토”를 재차 강조했습니다. ⁵

Open Multi-Agent: 미니멀 TS 멀티에이전트 오케스트레이션

Open Multi‑Agent는 단 한 번의 runTeam() 호출로 목표를 작업으로 쪼개고(자동 분해), 의존성을 해결하며, 에이전트를 병렬 실행하는 경량 TypeScript 프레임워크입니다. 런타임 의존성 3개, 소스 파일 약 33개, Node.js가 도는 어디든 배포 가능하다는 점을 내세워, 오버헤드가 적은 에이전트 시스템을 원하는 팀에 어필합니다. ⁶

TS 에이전트 생태계는 빠르게 두터워지고 있습니다. VoltAgent(스타 7,200+)는 메모리·검색증강(RAG)·가드레일·멀티에이전트·음성·MCP 통합과 실시간 추적/평가 콘솔(VoltOps)을 “배터리 포함”으로 제공하며, 프로덕션 요구(관측성·형식검증·토큰/지연/오류 지표)를 전면에 둡니다. TypeScript 우선, Zod 기반 타입 안전 도구 정의도 특징입니다. ⁷

일본어 분석 기사에서는 Open Multi‑Agent의 배경을 Claude Code 소스 유출로부터 얻은 설계 패턴으로 설명하며, 인‑프로세스 실행(서버리스 친화), DAG 스케줄러, 메시지 버스, 모델 불가지론 어댑터(Anthropic/OpenAI/Copilot/Ollama) 등을 강조합니다. 파이썬 중심 스택(LangGraph)이나 CLI 지향 SDK 대비, TS + 서버리스 + 저의존성의 조합을 강점으로 보지만, 아직 초기 OSS로서 프로덕션 실적이 제한적이라는 점도 짚습니다. ⁸

Mastra (TypeScript AI 앱/에이전트 프레임워크)

Mastra는 TS 네이티브 스택으로 프로토타입에서 프로덕션까지를 겨냥합니다. 40+ 모델 라우팅(OpenAI/Anthropic/Gemini 등), 도구 사용이 가능한 자율 에이전트, 그래프형 워크플로우(.then/.branch/.parallel), 사용자 개입이 가능한 휴지/재개(HITL)를 지원하며, React/Next.js/Node 통합 또는 독립 서버로 동작합니다. ⁹

프로덕션 필수 요소를 내장해 관측성·평가·컨텍스트 관리로 일관성과 디버깅 편의성을 제공합니다. 또한 MCP 서버를 작성해 에이전트/도구를 모델 컨텍스트 프로토콜로 노출하고, 이를 지원하는 시스템 간에 느슨하게 결합해 조합할 수 있게 합니다. ⁹

라이선스는 듀얼 모델을 채택합니다. 대부분의 코드는 Apache‑2.0이지만, ee/ 디렉터리는 Mastra Enterprise License로 소스 이용 가능(개발/테스트 자유, 프로덕션 사용 시 라이선스 필요)합니다. 현재 포크 리포지토리도 이러한 정책과 문서를 반영하며, TS·MCP·프로덕션 관측성으로 표준화되는 흐름을 보여줍니다. ⁹

커뮤니티 반응

Hacker News (93↑) — 효율 개선에는 박수지만, 실세계 추론력에는 여전히 회의적이라는 반응이 다수. 소형 로컬 모델의 실용성도 재부각.

"이런 진전 소식을 읽으니 기쁘긴 한데 특별히 놀랍지는 않아요. 큰 연구소들은 우선 벤치마크에서의 정확도/높은 점수를 최적화하고요; 약간의 연구 노력만 있으면 파라미터가 100배 적은 모델도 같은 점수를 낼 수 있다고 자동으로 예상합니다." — Hacker News

"응 알겠음 ㅋㅋ, 그게 내 요지야. 네 GPU에서 돌린다는 건 인상적이긴 한데, 그래도 유리잔을 기울이면 무슨 일이 일어나는지 말해주진 못해. 그게 월드 모델들이 목표로 하는 거야. 하지만 그래도..그래서 어쩌라고? 완벽한 시뮬레이터를 얻는 거지. 유리가 기울어진다는 건 알지만 누가 왜 기울였는지, 안 기울이면 무슨 일이 일어나는지는 모른다. 네 살짜리도 이걸 할 수 있고 우리는 이제 겨우 한 걸음 반 정도 왔을 뿐이야." — Hacker News

왜 중요한가

거대한 데이터와 토큰을 태우지 않고도 고난도 멀티모달 추론을 달성하려는 시도가 현실화되고 있습니다. Phi‑4‑Reasoning‑Vision‑15B는 미드‑퓨전, 동적 해상도 인코더, 고품질·균형 데이터 조합으로 1조+ 토큰 모델들과 격차를 좁히며, 온디바이스·저지연 애플리케이션에 실용적인 대안을 제시합니다. ¹ ²

동시에 에이전트 도구 체인은 TypeScript 중심으로 관측성과 오케스트레이션을 내장하며 빠르게 정돈되고 있습니다(Open Multi‑Agent, VoltAgent, Mastra). Career‑Ops 같은 도메인 파이프라인과 결합되면 “강한 로컬 모델 + 실용 프레임워크 + 인간 검수”가 표준 패턴으로 굳어질 가능성이 큽니다. 플랫폼이 AI 생성물 필터링을 강화하는 만큼, 진정성 신호 관리도 중요해질 것입니다. ³ ⁶ ⁷ ⁹

출처 9

[1] Microsoft Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model [2] Msft Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model (mirror) [3] Github santifer/career-ops [4] Github career-ops repository tree [5] Github Issue: AI Generated CVs - Indeed, Linkedin, and other are filtering them out [6] Github JackChen-me/open-multi-agent [7] Tokrepo VoltAgent — TypeScript AI Agent Framework (TokRepo) [8] Ai-heartland 軽量マルチエージェントOSS「open-multi-agent」解説 [9] Github labtwofour/mastra

도움이 되었나요?

0to1log Weekly

최신 AI 뉴스 모음집