에이전트의 실전 배치: 구글 Gemini 내장, 엔비디아 Vera 출하, ChatGPT 재정 미리보기, 블랙스톤-구글 50억 달러 TPU 동맹
에이전트가 채팅에서 행동으로 도약: 구글은 Gemini를 내장형 도우미로 만들고, 엔비디아는 에이전트 오케스트레이션용 CPU를 출하했으며, 오픈AI는 ChatGPT에 재정 보기 기능을 열고, 50억 달러 TPU 합작 벤처도 윤곽을 드러냈다 — 일상 도구 속 어시스턴트가 더 빠르고 저렴해진다는 신호다.
이번 주 한 줄
구글이 핵심 앱 전반에 Gemini 에이전트를 내장하고 더 빠른 3.5 Flash 모델을 출시했으며, 엔비디아는 Vera CPU 출하를 시작했다; 오픈AI는 ChatGPT에 재정 미리보기를 열었고, 블랙스톤은 50억 달러 규모 TPU 합작 벤처에 자금을 투입 — 한마디로, 에이전트가 일상의 워크플로로 들어오고 있다.
이번 주 숫자
- 12,000+ — ChatGPT 재정 미리보기가 Plaid를 통해 연결 가능한 금융기관 수(미국 Pro 전용). 1
- 88 — 엔비디아의 새 Vera 중앙처리장치(CPU)에 들어간 커스텀 Olympus 코어 수. 2
- 50억 달러 — 구글과 함께하는 미국 데이터센터·TPU 합작 벤처에 대한 블랙스톤의 지분 약정. 3
- 9억 — 구글 I/O 업데이트 기준 Gemini 앱 월간 활성 사용자(MAU). 4
- 월 100달러 — 사용량 상한을 높인 구글 새 AI Ultra 등급 가격. 5
- 21.67억 달러 — Publicis의 LiveRamp 전액 현금 인수 금액(주당 38.50달러). 6
- 4,000만 달러 — Dust가 ‘멀티플레이어’ 엔터프라이즈 에이전트 플랫폼으로 유치한 시리즈 B. 7
TOP 뉴스
오픈AI, 엔터프라이즈 에이전트와 개인 재정으로 확장
오픈AI는 GPT‑5.5가 이제 복잡하고 문서 중심 작업을 처리하는 Databricks 고객사용 에이전트를 구동하며, Databricks는 파싱 오류 감소와 함께 자사 OfficeQA Pro 벤치마크에서 기존 모델 대비 최초로 50%+ 정확도를 기록했다고 밝혔다. 소비자 측면에서는, ChatGPT의 재정 미리보기 기능을 통해 미국 Pro 사용자가 Plaid를 통해 12,000+ 금융기관의 은행·투자 계정을 연결하고 실제 잔액과 거래 데이터에 근거한 질문을 할 수 있으며, 오픈AI는 이를 학습 중심 기능으로 규정하고 전문적 조언은 아니라고 선을 그었다. 비전문가에게 이는 직장에서 스캔된 PDF도 견뎌내는 에이전트와, 가정에서 보다 명확한 데이터 통제 하에 돈과 관련된 질문에 답하는 도우미가 현실화되고 있음을 시사한다. 8 1
구글, Gemini를 챗봇에서 내장형 도우미로 전환
구글은 검색, YouTube, Workspace에 심긴 Gemini 기능을 상세히 소개했다 — 적절한 클립으로 점프하는 Ask YouTube부터 Docs의 음성 기반 작성 지원까지 — 그리고 규모도 공개했다: Gemini 앱 MAU 9억 명, 월간 AI Overviews 사용자 25억 명, 구글 전면에서 월 3.2쿼드릴리언 토큰 처리. 회사는 또한 출처 표시(SynthID를 Chrome과 Search에)와 수요 대응을 위한 인프라 계획을 강조했다. 일상 업무에서 이는 이미 쓰고 있는 도구 안에서 질문과 답 사이의 단계를 줄인다. 4
구글, 에이전트 속도를 위한 Gemini 3.5 Flash 출시
Gemini 3.5 Flash는 계획 수립, 도구 호출, 코딩에 초점을 둔 속도 우선 모델로 데뷔했으며, Gemini 앱과 검색의 AI 모드에서 기본값으로 제공되고, 개발자는 구글의 API와 엔터프라이즈 플랫폼을 통해 접근할 수 있다. 구글은 다른 최첨단 모델 대비 출력 토큰 속도가 약 4배 빠르고, 비용은 절반 이하인 경우가 많다고 밝히며, 에이전트·멀티모달 벤치마크에서도 강한 성능을 보고했다(예: Terminal‑Bench 2.1에서 76.2%). 팀 입장에선, 낮은 지연과 함께 하위 에이전트로 작업을 분할해 실제 업무를 끝내는 워크플로가 결합된다. 9
엔비디아, 최전선 AI 고객사에 Vera CPU 출하
엔비디아는 에이전트 오케스트레이션, 검색, 도구 사용에 최적화된 호스트 CPU인 Vera 시스템을 Anthropic, OpenAI, SpaceXAI, Oracle Cloud Infrastructure에 전달했다. Vera는 88개의 커스텀 Olympus 코어와 초당 1.2TB의 메모리 대역폭을 갖추어 GPU에 데이터를 안정적으로 공급하고 에이전트 응답 지연을 낮추도록 설계됐으며; 오라클은 2026년부터 ‘수십만 대’ 도입을 계획해, CPU 캐파 역시 GPU만큼 에이전트를 병목시킬 수 있음을 부각한다. 빌더에게 이는 에이전트 성능이 대형 GPU만의 문제가 아니라 엔드투엔드 시스템 문제임을 시사한다. 2 2
블랙스톤·구글, 50억 달러 TPU 캐파 합작 벤처 설립
블랙스톤은 구글과 함께 데이터센터 캐파와 구글의 Tensor Processing Unit(TPU)을 서비스로 제공하는 미국 AI 인프라 회사를 출범시키기 위해 50억 달러의 지분 투자를 약정했으며, 2027년까지 첫 500MW 가동을 목표로 한다. 구글 베테랑 Benjamin Treynor Sloss가 이끌며, 이는 엔터프라이즈가 엔비디아 중심의 ‘네오클라우드’ 외에 특수화된 컴퓨트로 가는 또 다른 차선을 제공한다. 파일럿을 계획 중이라면, 예측 가능한 조건으로 GPU가 아닌 가속기를 예약할 수 있는 경로가 늘어남을 의미한다. 3 3
Anthropic, SDK 단순화를 위해 Stainless 인수
Anthropic은 API 스펙에서 SDK를 자동 생성하는 소프트웨어를 보유한 Stainless를 인수하며, 이는 OpenAI, Google, Cloudflare에서도 사용 중이다. Anthropic은 호스팅 제품은 단계적으로 종료하되 고객의 생성된 SDK 권리는 유지하도록 하고, 이는 Model Context Protocol에 대한 집중과 함께 Claude에서 엔터프라이즈 시스템까지의 경로를 좁히는 조치다. 팀 입장에선, 내부 서비스에 에이전트를 연결하기 위한 커스텀 접착 코드가 줄어들 것으로 기대된다. 10 11
구글, 월 100달러 AI Ultra 추가·최상위 가격 인하
구글은 Pro 대비 사용량 한도를 5배 늘리고 20TB 스토리지, 에이전트 우선 도구 접근을 제공하는 월 100달러 AI Ultra 요금제를 도입하는 동시에 최상위 등급은 월 200달러로 낮췄다. 또한 Gemini 앱은 일일 프롬프트 개수 상한에서 5시간마다 갱신되는 컴퓨트 기반 제한으로 전환한다. 헤비 유저에게는 프롬프트 횟수보다 작업 복잡도(텍스트 vs 이미지/비디오)에 맞춘 예산 배분으로의 재정의가 된다. 5 12
Publicis, 21.67억 달러에 LiveRamp 인수
Publicis는 LiveRamp를 기업가치 21.67억 달러(주당 38.50달러)로 전액 현금 인수하기로 합의하며, 이를 ‘신뢰할 수 있는 에이전트’를 구동하는 ‘데이터 공동 창출’에 대한 베팅으로 규정했다. LiveRamp는 Publicis Technology 부문 산하에서 중립적이고 상호운용 가능한 플랫폼으로 운영될 예정이다. 마케터에게 주는 메시지는 분명하다: 관리된 데이터 협업이 에이전트의 품질을 좌우한다. 6 6
알리바바, 더 빠른 Zhenwu 칩 공개·차기 Qwen 모델 예고
알리바바는 이전 제품 대비 약 3배 성능을 내는 Zhenwu M890 AI 프로세서와 144GB 메모리, 800GB/s 칩 간 대역폭을 발표하고, 차기 대형 모델 Qwen3.7‑Max가 곧 온다고 밝혔다. 알리바바는 Zhenwu 56만 대를 20개 산업 전반의 400곳+ 고객에게 납품했다고 보고해, 엔비디아의 대중국 출하 제약 속에서도 중국 내 로컬 컴퓨트 선택지가 확대되고 있음을 시사한다. 중국 사용자를 서비스한다면, 지역 하드웨어 가용성을 로드맵에 반영하라. 13
애플, AI 글쓰기 보조와 자연어 Shortcuts 준비
보도에 따르면 iOS/iPadOS 27에는 문법 검사기, ‘Help Me Write’, 그리고 사용자가 자연어로 자동화를 기술할 수 있는 Shortcuts가 추가되며, AI 생성 배경화면도 포함된다. UI 세부로는 반투명 수정 패널과 ‘Write With Siri’ 키보드 토글이 거론된다. 모바일에서 작성·승인을 처리하는 팀에겐 별도 앱 없이 검토 사이클을 압축할 수 있다. 14 15
이번 주 트렌드 분석
에이전트가 채팅에서 행동으로 이동했다. 구글은 Gemini를 검색, YouTube, Workspace 속에 상시 도우미로 심고, 기본 빠른 실행기로 Gemini 3.5 Flash를 출시했으며, 오픈AI의 재정 미리보기, Figma의 캔버스 내 어시스턴트, IrisGo의 데스크톱 버디까지 문서·재정·디자인·반복적 PC 작업으로 에이전트의 활동 반경이 넓어졌다. 다수 독자에게 이는 익숙한 도구 안에서 복사·붙여넣기 단계가 줄고 “대신 해줘” 흐름이 늘어남을 뜻한다. 4 9 16 17 1
후면에서는 에이전트 워크로드에 맞춘 인프라 재균형이 진행 중이다. 엔비디아는 오케스트레이션·도구 사용 단계에 맞춘 CPU Vera를 출하했고, 블랙스톤은 구글과 50억 달러 TPU 벤처에 베팅했으며, Decart는 칩 전환을 수월하게 하려 자본을 유치했다 — 모두 CPU·TPU·이식성 레이어가 GPU만큼 지연과 비용을 좌우할 것이라는 신호다. 어시스턴트가 굼뜨다면 모델 문제가 아니라 스케줄링과 데이터 이동 문제일 수 있다. 2 3 18
접근성과 가격도 바뀌었다. 구글은 월 100달러 AI Ultra 요금제를 추가하고 컴퓨트 기반 쿼터로 전환해, 예산을 작업 복잡도와 정렬시키는 한편 자사 전면에서의 대규모 사용(Genimi 앱 MAU 9억; 월 3.2쿼드릴리언 토큰)을 공개했다. 팀 입장에서는 가치 대비 비용을 평가할 때 프롬프트 개수뿐 아니라 입력 유형과 길이에 따른 미터링을 고려해야 함을 시사한다. 5 4
마지막으로, 컴퓨트와 공급망이 다변화되고 있다. 알리바바의 Zhenwu 확대, 인텔·퀄컴의 Tenstorrent 인수 관심 보도, AMD 우선 전략의 Zyphra 자금 조달은 특히 수출 제약 지역에서 비(非)엔비디아 경로의 확대를 가리킨다. 프로덕션 베팅 전, 대안 하드웨어의 가용성과 툴링 성숙도를 면밀히 살펴야 한다. 13 19 20
주목할 포인트
- “Gemini Spark” — 3.5 Flash로 구동되는 구글의 개인 에이전트; 베타 확대와 가드레일을 주시. 9
- “500MW TPU venture” — 블랙스톤–구글 JV의 부지 선정과 초기 고객 소식이 엔터프라이즈 접근 타임라인의 힌트가 될 것. 3
- “Stainless 종료” — Anthropic이 Stainless를 인수하고 호스팅 제품 종료를 예고; SDK 유지 계획을 확인. 10
이번 주 오픈소스
- Osaurus — 로컬·클라우드 모델 백엔드를 아우르는 네이티브 macOS 에이전트 런너, Model Context Protocol(MCP) 서버, 20+ 내장 플러그인 제공; 프라이버시 민감·오프라인 워크플로에 적합. osaurus-ai/osaurus
- Firecrawl — 웹 검색/스크랩/클린 툴킷에 PDF·DOCX·HTML 등을 위한 /parse 엔드포인트 추가, 정돈된 Markdown/JSON 반환; 에이전트에 예측 가능한 입력을 공급하기에 이상적. firecrawl/firecrawl
- Netron — ONNX, TensorFlow Lite, PyTorch, Core ML 등용 비주얼 모델 뷰어; 데스크톱 앱과 원클릭 브라우저 버전 제공, 레이어/텐서 빠른 점검에 유용. lutzroeder/netron
- Nvidia Video Search & Summarization — 비전 에이전트의 비디오 검색·요약을 위한 GPU 가속 레퍼런스 블루프린트; 프로덕션 앱의 출발점. NVIDIA-AI-Blueprints/video-search-and-summarization
- Onyx — 다양한 LLM과 연동되는 오픈소스 챗 프런트엔드; 단일 인터페이스로 여러 제공사를 시험하려는 팀에 유용. onyx-dot-app/onyx
이번 주 해볼 것
- Gemini 3.5 Flash로 실제 업무를 돌려보기: Gemini 앱이나 검색의 AI 모드에서 짧은 브리프를 작성·수정하고, 현 어시스턴트 대비 전체 루프 시간을 재보자. 9
- 자격이 된다면 ChatGPT 재정 미리보기를 연결: Plaid로 하나의 계정을 링크하고 예산 혹은 구독 관련 질문 2개를 던져 그라운딩 품질을 확인. 1
- 에이전트용 PDF 정리: Firecrawl의 /parse에 업로드해 표가 보존된 Markdown/JSON을 받고, 기존 파서 대비 정확도를 비교. 21
- CPU 구간 병목 점검: 도구 호출, 검색, 코드 실행 단계를 나열하고, 벤더에게 CPU 스케줄링·메모리 대역폭이 지연에 미치는 영향을 문의. 2
- 구글 AI 지출 적정화: 월 100달러 AI Ultra의 더 높은 사용량과 컴퓨트 기반 상한이 워크로드 믹스에 맞는지 확인. 5
댓글 (0)