Computer Use컴퓨터 사용
쉽게 이해하기
업무 자동화에서 큰 문제는 "설명은 잘하지만 실제 버튼은 못 누르는" AI다. 이메일 가입, 양식 제출, 사이트 탐색처럼 사람은 금방 하는 일을 모델은 말로만 안내할 뿐 직접 실행하지 못했다. 게다가 화면 속 안내문이나 광고에 섞인 지시를 그대로 따르면 보안 위험도 생길 수 있다. 컴퓨터 사용은 이 문제를 "화면을 보고 손 대신 움직이는" 방식으로 해결한다. 앱이 스크린샷을 모델에 보여주면, 모델은 클릭 좌표나 입력할 텍스트 같은 동작을 제안한다. 개발자는 이 동작을 브라우저 자동화나 VM에서 실행하고, 바뀐 화면을 다시 모델에 보내 다음 단계를 받는다. 메커니즘은 단순한 루프다. 첫 요청에서 컴퓨터 도구를 켜고, 모델이 반환한 actions 배열을 순서대로 실행한다. 실행 후 전체 화면을 다시 캡처해 computer_call_output으로 전달하면, 모델은 최신 UI 상태를 근거로 다음 동작을 계획한다. 이때 고위험 작업은 사람 확인을 요구하고, 브라우저/VM을 격리해 페이지·PDF·툴 출력 등 화면의 모든 내용을 불신 입력으로 처리하는 것이 권장된다.
비유와 예시
- 웹 양식 다단계 제출: 사용자가 목표를 말하면 모델이 화면을 보고 탭 전환, 스크롤, 필드 타이핑, 버튼 클릭을 순서대로 제안한다. 런타임이 실행하고 새 스크린샷을 보내면 다음 단계로 이어간다.
- 문서에서 조건 찾기·복사: PDF 뷰어에서 키워드 찾기, 페이지 이동, 영역 드래그 복사를 모델이 지시한다. 복사 결과나 화면 변화를 근거로 추가 조작을 계획한다.
- 브라우저 설정 변경 작업: 설정 페이지로 이동해 토글을 켜고 저장까지 진행한다. 단축키나 메뉴 탐색, 스크롤 같은 액션이 묶음으로 반환된다.
한눈에 비교
| 내장 Computer use 루프 | 커스텀 툴/하니스 | 코드 실행 하니스 | |
|---|---|---|---|
| 입력 맥락 | 스크린샷 중심 | 기존 Playwright/Selenium/VNC 등 | 코드와 시각 상호작용 혼합 |
| 액션 형태 | click/type/scroll 등 정형 액션 | 도구 호출로 하니스 제어 | 짧은 스크립트 실행+DOM/시각 혼용 |
| 장점 | 사람처럼 UI 단계 수행 직관적 | 기존 자동화 자산 재사용 용이 | 시각-프로그래밍 전환 유연 |
| 적합 작업 | 사이트 탐색, 양식, 멀티스텝 UI | 보유 프레임워크 연계 | DOM 기반 워크플로우 포함 작업 |
통합 경로는 화면 인식 비중, 기존 자동화 자산, DOM·스크립트 혼용 필요성에 따라 선택한다.
어디서 왜 중요한가
- 격리 실행의 표준화: 브라우저/VM에서 환경 변수를 비우고 확장·파일시스템 접근을 제한하는 실행 가드가 권장된다.
- Human-in-the-loop 도입: 결제·다운로드·발송 같은 고위험 액션 전 사용자 확인을 요구하도록 시스템 지침과 런타임 필터를 둔다.
- 평가 민감도 인식: 컴퓨터 사용 성능은 하니스와 시스템 프롬프트에 민감하다는 보고가 있어, 동일 모델도 환경·지침에 따라 점수가 달라질 수 있다.
- 지연 병목 관리: 계획·반성 단계의 대형 모델 호출이 전체 지연의 다수를 차지할 수 있어, 호출 수와 단계 수를 줄이는 설계가 중요하다고 분석된다.
자주 하는 오해
- ❌ 오해: 모델이 직접 클릭을 실행한다 → ✅ 실제: 모델은 액션을 제안하고, 실행은 호스트 런타임(브라우저/VM/하니스)이 담당한다.
- ❌ 오해: 화면에 쓰인 지시도 허가다 → ✅ 실제: 허가로 간주되는 것은 사용자 지시뿐이며, 페이지·PDF·툴 출력은 불신 입력으로 취급한다.
- ❌ 오해: 내 로컬 브라우저에서 그냥 돌려도 안전하다 → ✅ 실제: 격리 환경에서 실행하고, 환경 변수·확장·파일 접근을 제한하는 가드가 권장된다.
대화에서는 이렇게
- "오늘부터 컴퓨터 사용 켜고, 액션 실행은 우리 Playwright 하니스가 맡게 합시다. 고위험 단계는 사람 확인 붙이고요."
- "첫 턴에 스크린샷만 요청하는 건 정상이에요. 원화면 확인 후 클릭 좌표를 더 정확히 주거든요."
- "반복 루프는 previous_response_id 유지해서 이어가세요. 매 턴 도구 정의를 재사용하는 게 안정적입니다."
- "운영은 격리 브라우저/VM로 올리고, 컨테이너 env 비우기랑 파일시스템 차단까지 기본으로요."
- "지연이 커요. 계획 호출을 줄이고 액션을 배치해서 반환하도록 하니스를 튜닝해 보죠."
함께 읽으면 좋은 용어
참고 자료
- OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents
컴퓨터 사용 에이전트의 지연 병목과 단계 효율 분석.
- Computer use | OpenAI API
스크린샷 기반 액션 루프, 통합 경로, 안전 가이드.
- Gemini 2.5 Computer Use Model Card
웹/모바일 제어 평가 맥락과 한계·안전 고려.