Gemini 3.5 Flash, 더 빠른 AI 에이전트를 일상 앱에 투입
이번 업데이트는 대화가 아니라 ‘작업 수행’에 초점을 맞춘다 — Gemini 앱의 기본 모델로 적용되고 24시간 에이전트를 구동하며, 오픈소스는 입력 정제와 배포 패턴을 보강한다.
한 줄 요약
구글은 Gemini 3.5 Flash로 ‘대화’에서 ‘작업 실행’으로 초점을 옮기고, 오픈소스는 에이전트에 깨끗한 입력과 배포 설계를 제공한다.
LLM & SOTA Models
Gemini 3.5 Flash: 에이전트 작업을 빠르게 하는 새 모델
구글의 Gemini 3.5는 답변을 넘어 여러 단계를 거치는 업무와 코딩 워크플로를 실행하도록 만든 모델군이다. 첫 모델인 3.5 Flash는 전 세계 Gemini 앱과 검색의 AI 모드에서 기본값으로 적용되며, 개발자는 Google Antigravity와 Gemini 응용프로그래밍 인터페이스(API), Android Studio에서, 기업은 Gemini Enterprise Agent Platform과 Gemini Enterprise에서 사용할 수 있다. 1
벤치마크에서 3.5 Flash는 Terminal‑Bench 2.1 76.2%, GDPval‑AA 1656 Elo, MCP Atlas 83.6%를 기록했고, 멀티모달 이해도에서는 CharXiv Reasoning 84.2%로 선도적 수준을 보였다. 출력 토큰 처리 속도는 다른 최전선(frontier) 모델 대비 약 4배 빠르며 비용도 절반 이하인 경우가 많다고 구글은 밝힌다. 1
이 속도‑성능 균형은 대규모 ‘장기’ 에이전트 작업에 적합하다. Antigravity 하니스를 통해 협업 서브에이전트를 배치해 자산 일괄 분류·이름 변경, 레거시 코드베이스의 Next.js 전환, 연구 논문 요약을 기반으로 한 6시간 내 플레이 가능한 게임 제작까지 수행했다. Shopify, Macquarie Bank, Salesforce, Ramp, Xero, Databricks 등은 예측, 온보딩, 엔터프라이즈 업무 자동화, 청구서 인식(광학 문자 인식, OCR), 세무 자료 수집, 데이터 운영에 적용 중이라고 했다. 1
3.5 Flash로 구동되는 개인 AI 에이전트 ‘Gemini Spark’도 공개됐다. 이 에이전트는 사용자의 지시에 따라 24시간 동작하며 Workspace와 서드파티 앱 전반에서 작업을 수행한다. 신뢰할 수 있는 테스터에게 순차적으로 제공되고, 미국의 Google AI Ultra 구독자 대상으로 베타 제공을 예고했다. 또한 ‘프런티어 안전 프레임워크(Frontier Safety Framework)’에 따라 유해 출력과 정상 질의의 오판 거부를 줄이기 위한 강화된 안전 장치를 적용했다. 1
Open Source & Repos
Firecrawl: 에이전트용 웹 검색·스크랩·정제를 한 번에
Firecrawl은 AI 에이전트를 위해 웹을 검색·스크랩·정리하는 도구 세트다. 최신 v2.10은 /parse 엔드포인트를 추가해 최대 50MB의 로컬 파일(PDF, DOCX, ODT, RTF, XLSX, HTML)을 업로드하면 표와 읽기 순서를 보존한 깔끔한 마크다운, JSON, 또는 요약을 돌려준다. 2
에이전트 파이프라인을 만드는 팀은 제각각 파서를 붙이던 수고를 줄이고 일관된 결과를 주는 API로 대체할 수 있다. 엔터프라이즈 요금제에는 업로드 데이터를 저장하지 않는 제로 데이터 보존(Zero Data Retention)이 포함된다. 2
Pi Agent Harness: 코딩 에이전트와 통합 모델 API 툴킷
Pi는 대화형 코딩 에이전트 명령줄 인터페이스(CLI), 통합 대형 언어 모델(LLM) 응용프로그래밍 인터페이스(API), 텍스트 사용자 인터페이스(TUI)·웹 UI 라이브러리, Slack 봇 등을 묶은 에이전트 툴킷이다. 3
v0.75.3 업데이트는 Node CLI에서 HTTP/2 세션 충돌을 막기 위해 이전 HTTP/1.1 전용 fetch 디스패처 동작으로 되돌리는 안정화 수정을 포함한다. 장시간 다단계 작업을 수행하는 에이전트의 신뢰성을 좌우하는 변경이다. 3
Netron: ONNX부터 PyTorch까지 모델 파일을 시각화
Netron은 신경망·기계학습 모델 파일을 시각화하는 뷰어다. 브라우저에서 바로 열어 계층과 텐서, 형상을 살피며 오픈 뉴럴 네트워크 익스체인지(ONNX), TensorFlow Lite, PyTorch, Core ML, OpenVINO, Keras, Caffe 등 다양한 형식을 지원한다. 4
v9.0.8 릴리스로 크로스플랫폼 앱이 갱신되었고, 설치 없이 확인하려면 브라우저 버전으로 바로 시작할 수도 있다. 4
Nvidia VSS: 비디오 검색·요약 에이전트 레퍼런스 설계
Nvidia의 ‘Video Search and Summarization(VSS)’ 블루프린트는 그래픽 처리 장치(GPU) 가속 컴퓨터 비전 에이전트를 위한 레퍼런스 아키텍처 모음이다. 비전 마이크로서비스, 비전‑언어 모델(VLM), 대형 언어 모델(LLM)을 결합해 영상에서 검색하고 요약하는 에이전트를 구성한다. 5
프로덕션 앱을 만드는 개발자를 겨냥해 에이전트 워크플로, 구성요소, 하드웨어 요구 사항과 문서, 퀵스타트를 제공해, 처음부터 조립하지 않고 검증된 패턴을 따를 수 있게 한다. 5
커뮤니티 반응
Hacker News (512↑) — 속도는 호평이나 신뢰성과 스로틀링 우려가 공존 6
"우리는 이 모델을 몇 주째 매일 사용 중인데, 하는 일이 정말 많습니다. 엄청 빠르고 빠른 모델치고는 지능도 그리 나쁘지 않아요. 지능적 부족분을 보완하려고 많은 시도와 검사, 재시도를 합니다. 그래서 자주 화가 나긴 하지만... 그래도 그렇게 나쁘진 않습니다. 완수 기준을 무시하는 경향은 있지만, 다른 모델들처럼 약간 밀어붙이면 명백히 성능이 떨어지진 않습니다." — Hacker News 6
"지역(로컬) 환경에서 더 까다로운 문제를 해결하려고 $20짜리 Gemini 플랜을 써왔는데 오늘 스로틀링(속도 제한)이 미친 수준이었습니다. 구독을 취소했고 로컬 환경 업그레이드를 고려해볼 생각입니다." — Hacker News 6
왜 중요한가
AI는 대화에서 실행으로 이동하고 있다. 구글은 Gemini 3.5 Flash를 도구 호출과 계획 수립을 통해 실제 일을 마무리하는 엔진으로 내세우고, 안전 장치와 지연·비용 개선으로 일상 제품에 녹이려 한다. 1
현장에서는 입력과 인프라가 관건이다. 웹에서 데이터를 깨끗이 수집·정제(Firecrawl)하고, 모델을 들여다보고(Netron), 검증된 설계를 따르는 것(Nvidia VSS)이 중요하며, 커뮤니티가 지적한 완수 기준 준수와 서비스 스로틀링 같은 제약도 함께 살펴야 한다. 2
이번 주 시도해볼 것
- Gemini 3.5 Flash 써보기: Gemini 앱 또는 검색의 AI 모드에서 다단계 작업(초안→수정→공유)을 직접 실행해 본다.
- Firecrawl /parse: PDF를 업로드해 마크다운/JSON으로 정리된 결과를 받아본다 — https://github.com/firecrawl/firecrawl
- Netron 브라우저 뷰어: https://netron.app 에서 .onnx 또는 .tflite 모델을 열어 레이어와 텐서를 확인한다.
댓글 (0)