가리키고 말하면 실행: DeepMind AI 포인터, Chrome에 들어온다
DeepMind는 선택한 대상과 의도를 이해하는 AI 포인터를 공개해 화면의 픽셀을 ‘비교하기’, ‘길찾기’ 같은 동작으로 바꾼다. Microsoft는 16개의 Windows 취약점을 찾아낸 에이전트 시스템을 공개했고, 오픈소스 도구들은 에이전트 워크플로를 다듬고 있다.
한 줄 요약
AI가 채팅창을 넘어 화면 자체로 들어온다: DeepMind의 맥락 이해형 포인터, Microsoft의 에이전트형 보안 시스템, 그리고 에이전트 팀·멀티모달 백엔드를 돕는 오픈소스까지.
Research Papers
DeepMind: 마우스 포인터를 맥락 이해형 AI 도우미로 재구상
DeepMind는 앱을 오가며 긴 프롬프트를 쓰지 않고, 화면에서 가리키고 말하는 것만으로 작업을 실행하는 실험용 포인터를 선보였다. Gemini로 구동되며, 건물 사진을 가리키고 “길찾기 보여줘”라고 말하거나 Google AI Studio에서 이미지를 편집하고 지도를 탐색하는 시연이 포함된다. 핵심은 별도의 AI 창으로 정보를 옮기지 않고, 사용자가 일하는 화면 위에서 바로 도움을 받게 하는 것이다. 1
팀은 네 가지 원칙을 제시한다. 모든 앱에서 흐름을 유지하고, 포인터 주변의 시각·의미 맥락을 포착해 “보여주고 말하기”를 가능하게 하며, 가리키기와 함께 “이것/저것” 같은 자연스러운 축약 표현을 이해하고, 픽셀을 장소·날짜·사물 같은 실행 가능한 엔터티로 바꾼다. 예를 들어 통계 표 위에서 파이차트를 요청하거나, 레시피를 강조해 재료를 두 배로 늘리라고 말할 수 있다. 1
DeepMind는 이러한 개념을 제품에 녹이고 있다고 밝힌다. 이날부터 Chrome에서 페이지의 특정 부분을 선택해 Gemini에 질문할 수 있고(예: 상품 몇 개를 골라 비교, 거실에서 소파를 시각화할 위치를 가리키기), 새 Googlebook 노트북 환경에는 ‘Magic Pointer’가 제공될 예정이다. Google Labs의 Disco 등 플랫폼 전반에서 실험도 예고했다. 요지는 맥락 전달의 수고를 사람에서 컴퓨터로 옮기는 것이다. 1
LLM & SOTA Models
Microsoft MDASH: 다중 모델 에이전트 보안 하니스 공개
Microsoft는 프론티어·디스틸 모델을 아우르는 대형 언어 모델(LLM) 앙상블 위에 100개가 넘는 특화된 AI 에이전트를 조율해, 취약점을 끝까지 찾아내고 논증하고 입증하는 시스템을 소개했다. 이 하니스를 통해 Windows 네트워킹·인증 영역에서 16개의 신규 취약점이 발견되었고, 그중 네 건은 Windows 커널 TCP/IP 스택과 IKEv2 구성 요소의 원격 코드 실행 치명적 취약점이다. 2
평가에서 이 시스템은 비공개 드라이버의 21개 주입 취약점을 오탐 없이 모두 찾아냈고, clfs.sys에 대해 96%, tcpip.sys에 대해 100% 재현율을 보였으며, 1,507개 실제 취약점으로 구성된 CyberGym 벤치마크에서 88.45%로 최고 점수를 기록했다(다음 항목 대비 약 5포인트 우위). 현재 Microsoft 내부 보안 엔지니어링에 적용되며 소수 고객 대상 프라이빗 프리뷰가 진행 중이다. 2
MDASH는 준비(Prepare)–스캔(Scan)–검증(Validate)–중복제거(Dedup)–입증(Prove)의 파이프라인을 운영한다. 감사자·논증자·입증자 에이전트가 역할을 나눠 일하고, CLFS 입증 플러그인 같은 도메인 플러그인으로 모델이 보지 못하는 문맥을 주입한다. 타깃팅·검증·중복제거·입증 단계가 모델 비종속이라, 새 모델로 전환해도 기존 설정과 플러그인을 유지할 수 있다. 2
Open Source & Repos
notebooklm-py: Google NotebookLM 비공식 API·에이전트 스킬
notebooklm-py는 Google NotebookLM을 전체적으로 제어하는 비공식 Python 응용 프로그램 인터페이스(API)와 에이전트 스킬을 제공한다. 웹 UI에 없는 기능까지 Python, 명령줄 인터페이스(CLI), Claude Code·Codex·OpenClaw 같은 AI 에이전트로 호출할 수 있으며, MIT 라이선스와 PyPI 배포를 제공한다. 3
2026-05-11 공개된 v0.4.1 릴리스에는 “notebooklm auth refresh” CLI, NotebookLM 클라이언트의 keepalive 매개변수, 새 환경 변수, 두 개의 데이터클래스 필드 추가가 포함되어 있으며, 배지로 Python 3.10–3.14 지원이 표시된다. 연구 노트 자동화나 기존 에이전트 스택 연동에 유용하다. 3
claude_codex_bridge: 터미널에서 보이는 멀티 에이전트 팀
claude_codex_bridge(CCB)는 하나의 터미널 작업공간에서 Claude, Codex, Gemini, OpenCode, Droid용 에이전트 팀을 가시적으로 운영·감시하는 도구로, 프로젝트 메모리와 tmux 기반 감독을 제공한다. Linux·macOS·Windows를 지원하며 현재 버전 표기는 6.1.15다. 4
2026-05-13 공개된 v6.1.14는 macOS에서 Claude 자격증명의 Keychain 폴백을 문서화하고, 진단 경계—지원 번들은 폴백 Keychain 심볼릭 링크를 따라가지 않음—를 명확히 했다. 에이전트 운영에서 비밀 관리에 신경 쓰는 업데이트다. 4
Pixeltable: 멀티모달 AI 앱용 선언형 백엔드
Pixeltable은 멀티모달 AI 애플리케이션을 위한 선언형·증분형 백엔드라고 소개하며, Apache 2.0 라이선스와 PyPI 배포를 제공한다. CI 배지에는 테스트와 나이틀리 실행이 표시된다. 5
텍스트·이미지 등 다양한 모달리티를 섞는 애플리케이션의 데이터와 처리 과정을 구조화하고, 전체 재실행 없이 선언형·증분형 워크플로를 지향하는 백엔드를 표방한다. 5
커뮤니티 반응
Hacker News (245↑) — 음성+포인터 결합을 포용적 혁신으로 보는 시각과, 드래그·드롭의 재포장에 불과하다는 비판이 맞선다. 브라우저 대 운영체제 범위, 실제 사용성, 대상 사용자에 대한 논의가 이어졌다. 6
"기사의 핵심은 '사각형을 드래그' 같은 시각적 상호작용이 아닌가요? 음성은 텍스트로 전환하는 맥락 전환이 아니라 이 상호작용에 딱 맞는 보조 채널입니다. 또한 DeepMind가 기존 프로그래머나 컴퓨터에 능숙한 사용자들을 위해 설계한다고는 생각하지 않습니다. 그들은 전 세계 다른 수십억 명을 생각하고 있을 것입니다. 사람들이 이미 가지고 있는 기술은 타자가 아니라 음성입니다." — Hacker News 6
"첫 번째 예제를 보고 놀랐습니다. 표준 클릭 앤 드래그 마우스 동작에 말해야 하는 단계를 LLM에 끼워 넣고 마치 혁신인 양 행동했어요. 90년대 사람에게 이것이 진전이라고 설득하려는 모습을 상상해보세요." — Hacker News 6
왜 중요한가
채팅창 중심 상호작용에서 화면 위 맥락 중심 상호작용으로 무게중심이 이동하고 있다. DeepMind의 포인터 개념과 Chrome 적용은, 사용자가 무엇을 가리키고 왜 필요한지를 UI가 포착해 프롬프트 작성과 컨텍스트 전환을 줄이는 방향을 시사한다. 1
Microsoft의 결과는 “모델 바깥의 시스템”이 지속 우위를 만든다는 점을 보여준다. 오케스트레이션된 에이전트, 검증, 입증이 재현율을 높이면서도 소음을 낮출 수 있으며, 이런 설계 원리는 보안을 넘어 모델 교체가 쉬운 엔터프라이즈 파이프라인 전반으로 확장될 가능성을 시사한다. 2
댓글 (0)