오픈AI의 사상 최대 조달과 함께 클라우드·랩의 모델·컴퓨트 재편, 구글의 아파치 2.0 Gemma 4와 MS의 저가 음성·이미지 스택이 ‘로컬·엔터프라이즈 통제형 AI’ 가속
이번 주 한 줄
오픈AI가 전례 없는 자본을 확보하는 사이, 클라우드와 연구소는 모델·컴퓨트 접근 방식을 재정렬했고, 구글의 아파치 라이선스 Gemma 4와 마이크로소프트의 저렴한 음성·이미지 스택이 강력한 AI를 로컬과 엔터프라이즈 통제로 더 가깝게 끌어왔다.
이번 주 숫자
- 1,220억 달러 — 오픈AI 신규 조달 규모로, 기업가치를 8,520억 달러로 끌어올리며 AI가 인프라급 금융의 대상임을 시사. 1
- 1,000,000 토큰 — 엔비디아가 에이전트 지향 오픈웨이트 모델 Nemotron 3 Super에 대해 발표한 네이티브 컨텍스트 윈도 창. 2
- 200+ — 구글이 실시간 음성+영상 검색 ‘Search Live’를 출시한 국가 및 지역 수. 3
- 20억 달러 — Shield AI가 고충실도 시뮬레이터 업체 Aechelon Technology 인수와 함께 조달한 자금. 4
- 2GW — 오픈AI가 새 파트너십에서 8년 동안 AWS Trainium 소비를 약정한 용량. 5
TOP 뉴스
-
오픈AI, 1,220억 달러 조달·8,520억 달러 밸류로 ‘AI 슈퍼앱’ 예고 — 주당 9억 명 소비자, 5,000만 명 구독자, 엔터프라이즈(매출의 약 40%), 다각화된 컴퓨트로 구성된 플라이휠을 내세웠다. 회사는 ChatGPT·코딩·브라우징·툴을 하나로 묶는 에이전트 퍼스트의 통합 ‘슈퍼앱’을 약속했고, 인프라 가속을 위해 47억 달러의 크레딧 라인도 확대했다. 비전문가 입장에선 통합 비서가 더 빨리 일상 업무 표면으로 스며들 전망이며, 멀티클라우드·멀티실리콘 전략은 벤더 리스크를 낮추지만 진짜 제약은 컴퓨트 공급임을 강조한다. 1
-
구글, Gemma 4를 Apache 2.0으로 공개… 폰부터 단일 GPU 워크스테이션까지 — 4가지 크기(E2B/E4B 엣지, 26B MoE, 31B 덴스)와 128K–256K 컨텍스트, 네이티브 함수 호출/JSON, 멀티모달을 모두 관대한 Apache 2.0 하에 공개했다. 대형 변형은 80GB H100 한 장에서 비양자화로 구동 가능하고, 양자화 빌드는 소비자 GPU를 겨냥한다. 팀 입장에선 과거 라이선스 마찰이 사라지며 프라이빗·로컬 코딩과 에이전트 워크플로가 훨씬 현실적이 됐고, ‘배포 가능한 오픈웨이트’로의 뚜렷한 리셋이다. 6 7
-
마이크로소프트, 공격적 가격의 자체 MAI 3종 공개 — MAI-Transcribe-1(25개 언어 STT), MAI-Voice-1(오디오 생성), MAI-Image-2(더 빠르고 사실적인 이미지)를 Azure AI Foundry/Playground에서 제공한다. 가격은 전사 1시간당 0.36달러, 보이스 100만 자당 22달러, 생성형 미디어는 텍스트 입력 100만 토큰당 5달러/이미지 출력 100만 토큰당 33달러가 핵심. 엔터프라이즈에겐 동일한 Azure 계약 안에서 기존 API 대체제가 되어 회의·컨택센터·크리에이티브 파이프라인의 비용 예측에 유리하다. 8 9
-
AWS × 오픈AI: 다년 파트너십, Trainium 약정, 상태 유지형 에이전트 런타임 — 아마존은 OpenAI Frontier의 유일한 제3자 클라우드 유통 파트너가 되는 전략적 제휴를 발표했고, 오픈AI는 8년간 약 2GW의 Trainium 소비를 약정했다. 양사는 에이전트가 컨텍스트를 유지하고 툴에 접근하며 거버넌스로 장기 워크플로를 돌릴 수 있는 상태 유지형 런타임을 Amazon Bedrock에서 공동 구축한다. AWS 빌더에겐 더 안정적인 용량과 프로덕션에서 에이전트 메모리·툴 사용의 취약한 해킹을 줄일 신호다. 5
-
엔비디아, 에이전트용 1M 토큰 하이브리드 MoE ‘Nemotron 3 Super’ 공개 — 120B 오픈웨이트에 토큰당 활성 파라미터 12B, 네이티브 100만 토큰 컨텍스트를 제공한다. Mamba-2(선형 시퀀스 처리)와 인터리브드 트랜스포머 어텐션을 결합해 정밀 회상을 달성하고, 멀티토큰 예측으로 처리량을 높였다. ‘컨텍스트 폭증’에 시달리는 팀에 전체 워크플로 상태를 메모리에 유지하면서 ‘생각세’를 줄이는 경로를 제시한다. 2
-
구글 Search Live 전 세계 확대: 실시간 음성+영상 검색이 200+ 지역으로 — 사용자는 카메라를 비추고 자연어로 말해 실시간 안내를 받으며, 다언어 모델이 이를 구동한다. 이는 키워드 입력에서 문제를 ‘보여주고 대화하는’ 방식으로 전환되는 만큼, 고객 콘텐츠 전략의 변곡점이다. 마케터와 SEO는 화면 의존이 낮은 보이스 퍼스트 흐름에 맞춘 ‘어시스턴트 최적화’ 콘텐츠가 필요해진다. 3 10
-
Shield AI, 20억 달러 조달과 Aechelon 인수로 ‘AI 파일럿×시뮬레이션’ 융합 — Shield AI는 포스트머니 127억 달러 밸류로 15억 달러 시리즈 G와 5억 달러 우선주를 확보하고, 미·우방국 프로그램용 고충실도 시뮬레이터 공급사 Aechelon을 인수한다. 전략 목표는 시뮬레이션→비행 루프: 가상 세계에서 AI 파일럿(Hivemind)을 훈련하고, 작전 데이터로 정련하는 것. 반복 주기를 조이고 리스크를 줄이는 이 패턴은 국방 밖 로보틱스·물류·자율 영역에도 유효하다. 4 11
-
마이크로소프트, Copilot 내부에서 GPT와 Claude 동시 라우팅 — Copilot의 Researcher 에이전트에 GPT가 초안을 쓰고 Anthropic Claude가 리뷰하는 ‘Critique’ 흐름과, 결과를 나란히 비교하는 ‘Council’ 보기를 추가했다. 사용자 도구를 바꾸지 않고도 환각을 줄이고 신뢰성을 높이려는 목적이다. 규제 문서·분석에서 ‘자동 초안+자동 비평’의 두 편집자 워크플로를 제도화한다. 12 13
-
오라클, 미국 연방기관용 AI 데이터 플랫폼 공개 — FedRAMP High 클라우드(IL4/IL5)에서 OCI, 벡터를 포함한 Autonomous AI Database, Enterprise AI를 통합한 플랫폼을 선보였다. ‘인-데이터베이스 AI’를 내세워 제자리 벡터 검색·자연어 질의, 데이터 홉 최소화, 감사 친화적 제어·주권 옵션과 함께 에이전트 배포를 지원한다. 공공·컴플라이언스 중심 기업에 성능과 거버넌스의 동시 중앙화를 제안한다. 14
-
오픈AI, Promptfoo 인수로 에이전트 보안 강화 — 포춘 500의 25%+가 사용해온 것으로 알려진 AI 보안 스타트업 Promptfoo를 인수해 자동 레드팀·런타임 모니터링을 엔터프라이즈 에이전트 플랫폼에 통합한다. 코파일럿에서 툴체인·자격증명을 가진 에이전트로 옮겨가며, 보안 평가는 사후가 아닌 조달 요건이 된다. 대기업 바이어들은 배포 전 레드팀 결과와 정책 제어를 요구할 가능성이 높다. 15
이번 주 트렌드 분석
자본이 제약과 만났다. 오픈AI의 1,220억 달러 조달은 AI를 인프라 금융으로 부각시키는 한편, 경영진 스스로 컴퓨트 부족을 언급하며 매출 기여도가 큰 제품에 집중하겠다고 말했다. AWS 파트너십은 장기 Trainium 약정과 관리형 상태 유지 에이전트 런타임을 더해, 용량·비용·거버넌스가 한꺼번에 협상되는 성숙한 스택의 신호를 보낸다. 팀 입장에선 접근성은 나아지지만, 용량 현실에 맞춘 엔지니어링이 필요하다. 1 5
오픈 모델은 ‘흥미로운 데모’에서 ‘운영 가능’로 이동했다. 구글 Gemma 4는 Apache 2.0으로 전환하고 폰부터 H100까지 돌며, 롱 컨텍스트·함수 호출·멀티모달을 셀프 호스팅 사정권에 넣었다. 동시에 엔비디아 Nemotron 3 Super는 100만 토큰 컨텍스트와 처리량 중심 설계로 전체 워크플로 메모리 상주를 겨냥해 에이전트 병목을 찔렀다. 이로써 폐쇄형 서비스와 개방형 통제형 배포 간 격차가 압축된다. 6 2
엔터프라이즈는 단일 모델 베팅보다 조합에 기울었다. 투명한 가격의 MS 자체 MAI 모델은 대량 미디어 워크플로를 정면 겨냥했고, Copilot의 GPT+Claude 비평/평의회 패턴은 ‘모델 품질’을 오케스트레이션 문제로 재정의한다. 오라클의 연방급 플랫폼은 벡터·에이전트·거버넌스를 한곳에 묶어, 감사 가능성과 정책이 이제 제품 기능임을 다시 확인시킨다. 8 12 14
마지막으로 사용자 인터페이스는 타이핑 프롬프트에서 생활 맥락으로 이동 중이다. 구글 Search Live의 글로벌 롤아웃은 사용자가 필요를 정확히 명명하지 못하는 순간에 실시간 멀티모달 도움을 제공하며, 콘텐츠·제품 팀이 블루 링크가 아닌 보이스+카메라 흐름에 맞춰 설계하도록 강제한다. 같은 역학—모델 구성과 맥락 고정—은 Shield AI가 ‘소프트웨어에서 훈련, 현장에서 검증’하는 시뮬레이션-현장 루프를 조여가는 국방 분야에서도 관찰된다. 3 11
주목할 포인트
- “Bedrock의 상태 유지 에이전트” — 이 출시가 보이면, 에이전트가 메모리를 보존하고 툴/데이터에 접근하며 거버넌스로 장기 워크플로를 실행하는 런타임을 AWS와 오픈AI가 공동 개발했다는 맥락이다. PoC를 프로덕션으로 더 빨리 옮기려는 시도다. 5
- “vLLM의 TurboQuant” — 대기 중인 vLLM PR은 2비트 KV 압축으로 KV 수용량 약 4배 상승을 시험한다. 채택되면 인기 추론 서버에서 롱 컨텍스트 효율화가 주류로 편입된다는 신호다. 16
- “어시스턴트 최적화 콘텐츠” — Search Live 글로벌 론칭에 맞춰, 키워드·스니펫이 아닌 음성+영상 문제 해결과 단계별 오버레이에 맞춘 새로운 SEO/SEM 관행이 등장하는지 주목. 10
이번 주 오픈소스
- Open Multi‑Agent — DAG 스케줄러, 공유 메시지 버스, 모델 불가지론 어댑터를 갖춘 경량 TypeScript 에이전트 오케스트레이션 프레임워크. 무거운 인프라 없이 병렬 작업 실행이 필요한 웹 팀에 적합. https://github.com/JackChen-me/open-multi-agent
- Open Agent SDK — 프로세스 내 에이전트 루프(무 CLI), 스트리밍, 서브에이전트, 34개 내장 툴, MCP 서버, 샌드박싱 지원. 멀티 프로바이더를 하나의 SDK로 표준화하려는 서버리스/노드 팀에 유용. https://github.com/shipany-ai/open-agent-sdk
- Claude Code Any — 어떤 LLM(OpenAI, Anthropic, DeepSeek, 로컬 vLLM/Ollama)에서도 구동되는 Claude 스타일 코딩 에이전트 CLI, 비용/품질/프라이버시에 맞춘 스마트 라우팅 프로파일 제공. 프로바이더 혼용 엔지니어링 팀에 실용적. https://github.com/jiangyurong609/claude-code-any
- YATQ (Yet Another TurboQuant) — KV 캐시 압축용 TurboQuant의 PyTorch 구현으로 MSE-only와 QJL 변형 제공. 소비자 GPU에서 롱 컨텍스트를 시험하려는 엔지니어에게 실전적. https://github.com/arclabs001/YATQ
- PackForcing (논문+코드) — 3계층 KV 설계로 4GB 유한 캐시에서 16 FPS, 2분 길이의 롱 비디오 생성을 구현. 장기 지평 생성 워크플로를 구축하는 이들에게 유익한 참고 자료. 17
이번 주 해볼 것
- Gemma 4 로컬 실행: 26B/31B 양자화 또는 엣지 E2B/E4B 빌드를 받아 OCR→JSON이나 오프라인 코딩 같은 주간 작업을 테스트하고, 기본 API 대비 지연·품질을 비교하라. 6
- 마이크로소프트 MAI 시범 적용: 일주일치 회의를 MAI‑Transcribe‑1로 일괄 처리하고 MAI‑Voice‑1로 짧은 보이스 에이전트를 만들어, 현 스택 대비 정확도와 시간당 비용을 비교하라. 8
- 롱 컨텍스트 에이전트 베이크오프: 500+쪽 코퍼스나 전체 코드베이스로 Nemotron 3 Super(또는 Nemotron 3 Nano부터)를 평가해 완수율과 토큰 경제성을 측정하라. 2
- 프롬프트 인젝션 방어 강화: 한 개의 에이전트 작업에 규칙+귀속 모니터를 프로토타입해, 툴 호출 전 인과적으로 영향력 있는 컨텍스트를 플래그하고 오탐/미탐을 문서화하라. 15
- 구글 Search Live 대비 설계: 제품의 2–3분짜리 라이브 단계별 문제 해결 플로를 녹화해 구글 앱의 Live 모드에서 시험하고, 음성 명료도와 카메라 구도를 기준으로 수정하라. 3
댓글 (0)