제01권 · 제10호 CS · AI · Infra 2026년 5월 13일

AI 용어집

용어 사전레퍼런스학습
LLM · 생성AI

Computer Use컴퓨터 사용

난이도

쉽게 이해하기

업무 자동화에서 큰 문제는 "설명은 잘하지만 실제 버튼은 못 누르는" AI다. 이메일 가입, 양식 제출, 사이트 탐색처럼 사람은 금방 하는 일을 모델은 말로만 안내할 뿐 직접 실행하지 못했다. 게다가 화면 속 안내문이나 광고에 섞인 지시를 그대로 따르면 보안 위험도 생길 수 있다. 컴퓨터 사용은 이 문제를 "화면을 보고 손 대신 움직이는" 방식으로 해결한다. 앱이 스크린샷을 모델에 보여주면, 모델은 클릭 좌표나 입력할 텍스트 같은 동작을 제안한다. 개발자는 이 동작을 브라우저 자동화나 VM에서 실행하고, 바뀐 화면을 다시 모델에 보내 다음 단계를 받는다. 메커니즘은 단순한 루프다. 첫 요청에서 컴퓨터 도구를 켜고, 모델이 반환한 actions 배열을 순서대로 실행한다. 실행 후 전체 화면을 다시 캡처해 computer_call_output으로 전달하면, 모델은 최신 UI 상태를 근거로 다음 동작을 계획한다. 이때 고위험 작업은 사람 확인을 요구하고, 브라우저/VM을 격리해 페이지·PDF·툴 출력 등 화면의 모든 내용을 불신 입력으로 처리하는 것이 권장된다.

비유와 예시

  • 웹 양식 다단계 제출: 사용자가 목표를 말하면 모델이 화면을 보고 탭 전환, 스크롤, 필드 타이핑, 버튼 클릭을 순서대로 제안한다. 런타임이 실행하고 새 스크린샷을 보내면 다음 단계로 이어간다.
  • 문서에서 조건 찾기·복사: PDF 뷰어에서 키워드 찾기, 페이지 이동, 영역 드래그 복사를 모델이 지시한다. 복사 결과나 화면 변화를 근거로 추가 조작을 계획한다.
  • 브라우저 설정 변경 작업: 설정 페이지로 이동해 토글을 켜고 저장까지 진행한다. 단축키나 메뉴 탐색, 스크롤 같은 액션이 묶음으로 반환된다.

한눈에 비교

내장 Computer use 루프커스텀 툴/하니스코드 실행 하니스
입력 맥락스크린샷 중심기존 Playwright/Selenium/VNC 등코드와 시각 상호작용 혼합
액션 형태click/type/scroll 등 정형 액션도구 호출로 하니스 제어짧은 스크립트 실행+DOM/시각 혼용
장점사람처럼 UI 단계 수행 직관적기존 자동화 자산 재사용 용이시각-프로그래밍 전환 유연
적합 작업사이트 탐색, 양식, 멀티스텝 UI보유 프레임워크 연계DOM 기반 워크플로우 포함 작업

통합 경로는 화면 인식 비중, 기존 자동화 자산, DOM·스크립트 혼용 필요성에 따라 선택한다.

어디서 왜 중요한가

  • 격리 실행의 표준화: 브라우저/VM에서 환경 변수를 비우고 확장·파일시스템 접근을 제한하는 실행 가드가 권장된다.
  • Human-in-the-loop 도입: 결제·다운로드·발송 같은 고위험 액션 전 사용자 확인을 요구하도록 시스템 지침과 런타임 필터를 둔다.
  • 평가 민감도 인식: 컴퓨터 사용 성능은 하니스와 시스템 프롬프트에 민감하다는 보고가 있어, 동일 모델도 환경·지침에 따라 점수가 달라질 수 있다.
  • 지연 병목 관리: 계획·반성 단계의 대형 모델 호출이 전체 지연의 다수를 차지할 수 있어, 호출 수와 단계 수를 줄이는 설계가 중요하다고 분석된다.

자주 하는 오해

  • ❌ 오해: 모델이 직접 클릭을 실행한다 → ✅ 실제: 모델은 액션을 제안하고, 실행은 호스트 런타임(브라우저/VM/하니스)이 담당한다.
  • ❌ 오해: 화면에 쓰인 지시도 허가다 → ✅ 실제: 허가로 간주되는 것은 사용자 지시뿐이며, 페이지·PDF·툴 출력은 불신 입력으로 취급한다.
  • ❌ 오해: 내 로컬 브라우저에서 그냥 돌려도 안전하다 → ✅ 실제: 격리 환경에서 실행하고, 환경 변수·확장·파일 접근을 제한하는 가드가 권장된다.

대화에서는 이렇게

  • "오늘부터 컴퓨터 사용 켜고, 액션 실행은 우리 Playwright 하니스가 맡게 합시다. 고위험 단계는 사람 확인 붙이고요."
  • "첫 턴에 스크린샷만 요청하는 건 정상이에요. 원화면 확인 후 클릭 좌표를 더 정확히 주거든요."
  • "반복 루프는 previous_response_id 유지해서 이어가세요. 매 턴 도구 정의를 재사용하는 게 안정적입니다."
  • "운영은 격리 브라우저/VM로 올리고, 컨테이너 env 비우기랑 파일시스템 차단까지 기본으로요."
  • "지연이 커요. 계획 호출을 줄이고 액션을 배치해서 반환하도록 하니스를 튜닝해 보죠."

함께 읽으면 좋은 용어

참고 자료

도움이 되었나요?