Claude의 GUI Agent 활용 사례에 대한 초기 연구 (feat. ShowLab)

연구 소개: The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

이 연구는 Claude 3.5에 새롭게 추가된 GUI 기반 데스크탑 자동화 기능인 Computer Use를 다양한 실제 사례에 적용해보는 활용 사례에 대한 초기 연구입니다. 이 연구에서는 웹 검색, 오피스 생산성, 게임 등 다양한 분야에서 GUI 시각 상태 인식을 통한 종단 간(End-to-End) 데스크탑 작업의 자동화를 시험해보고, 그 결과를 정리하였습니다. Claude 3.5 Computer Use API 호출 시 별도의 메타 데이터나 사전 정의된 GUI 파싱과 같은 추가 정보를 제공하지 않고 API 호출만으로 상호작용을 하였습니다.

연구에서 Claude 3.5 Computer Use API의 동작을 평가하는 핵심 평가 영역은 다음과 같습니다:

  1. 계획(Planning): 실행 가능한 작업 시퀀스 생성
  2. 행동(Action): GUI 요소와의 매핑 및 작업 정확도
  3. 평가(Critic): 작업 결과를 모니터링하고 동적으로 전략 수정


이 연구의 주된 기여는 다음과 같습니다:

  1. Claude 3.5를 사용한 GUI 작업 자동화에 대한 포괄적인 사례 연구를 진행하며 다양한 도메인을 포괄
  2. GUI 자동화 모델 배포를 위해 간소화한 "Computer Use OOTB" 프레임워크 소개 및 GitHub 공개
  3. Claude 3.5의 계획, 실행, 환경 적응성과 관련된 성능에 대한 상세한 분석 제공

이를 위해 모델의 실제 GUI 환경 적응성을 평가하기 위한 작업 설계하고, 생산성 도구, 웹 탐색, 게임 등 다양한 시나리오에서 실행을 해보았습니다. 평가 시에는 GUI 시각 상태 기반 관찰과 더불어 마우스, 키보드 작업과 스크린샷 기반 피드백 루프와 텍스트 편집 및 파일 처리 도구 활용 여부를 측정하였습니다.

실제 측정을 위한 프롬프트 디자인 및 측정 방법 등에 대해서는 논문의 3. Claude Computer Use Revealed 섹션을 참고해주세요.

주요 사례별 실험 소개 및 결과

이 연구에서 정의한 주요 사례는 다음과 같습니다:

웹 검색 분야 사례들 (Web Search)

월드 와이드 웹(WWW, World Wide Web)은 자연어 텍스트, 이미지, 수많은 상호작용 요소들로 구성된 방대한 개방형 도메인 환경입니다. 웹 페이지의 동적 특성은 모델이 사전 정의된 경로를 단순히 따를 수 없음을 의미하며, 이는 모델의 계획(Planning) 능력에 큰 부담을 줍니다. 또한, 대규모 상호작용 요소를 정확히 식별하고 상호작용하기 위해 강력한 기반 설정(Grounding) 능력이 요구됩니다. 더불어, 웹 페이지가 상호 연결된 구조를 갖추고 있으므로, 모델은 각 단계의 실행 상태에 따라 이전 단계로 돌아가거나 진행할 시점을 결정할 수 있어야 합니다. 따라서 모델은 계획을 평가(Critic)하고 필요 시 조정할 수 있는 능력을 가져야 합니다.

이후의 사례 연구에서는 실제 웹 인터페이스를 탐색하는 동안 모델의 계획, 기반 설정, 적응 능력을 평가하기 위해 복잡한 웹 검색 작업을 수행합니다. 이 작업들을 통해 모델이 동적 콘텐츠를 처리하고, 다단계 계획을 실행하며, 예기치 않은 인터페이스 동작에 어떻게 전략을 조정하는지 살펴봅니다. 이를 통해 웹 검색 도메인에서의 모델의 가능성과 한계를 확인하고자 합니다.

사례 1. 예산 $100 이하의 ANC 헤드폰 찾기 (Amazon)

  • 계획 (Planning): 위 그림의 파란색 글씨는 모델의 계획 과정을 나타냅니다. 모델이 자신이 Amazon 메인 페이지에 있음을 인지하고, 사용자의 지시에서 추출한 검색어를 통해 헤드폰을 검색한 후, 예산 조건을 기준으로 결과 항목을 필터링하는 계획을 세우는 모습을 확인할 수 있습니다.
  • 행동 (Action): 위 그림의 갈색 글씨는 모델이 생성한 행동을 보여줍니다. 모델은 검색 상자의 중심을 정확히 찾아 클릭하고, 검색어를 입력한 후 검색 아이콘을 클릭하여 검색을 시작합니다.
  • 평가 (Critic): Claude가 "Add to Cart(장바구니에 추가)" 버튼을 클릭한 후, 모델은 스크린샷을 촬영하여 선택한 제품이 성공적으로 장바구니에 추가되었는지 확인합니다. 이를 통해 모델이 작업의 결과를 관찰하고 동적으로 재시도하거나 실행을 종료할지 결정할 수 있음을 알 수 있습니다.

사례 2. Apple 공식 사이트에서 디스플레이 및 액세서리 탐색

  • 계획 (Planning): Apple 공식 사이트의 메인 페이지를 탐색하며, 모델은 메뉴와 하위 메뉴를 통해 항목을 찾는 대신, 검색 기능을 활용하여 원하는 항목을 찾는 계획을 세웁니다. 이러한 접근은 모델이 생성한 계획의 효율성을 보여줍니다. 또한, AppleCare 창이 나타날 때, 모델은 이를 감지하고 사용자 지시에 따라 세부 계획을 조정합니다. 사용자가 모든 액세서리를 요청했기 때문에, 더 긴 보장을 제공하는 3년 AppleCare+를 장바구니에 추가하는 것이 합리적입니다.

  • 행동 (Action): Claude 모델은 텍스트, 버튼, 하이퍼링크된 이미지 등 다양한 유형의 요소와 상호작용합니다. Claude Computer Use는 HTML 메타데이터 없이 순수한 시각적 정보만을 활용하여 강력한 기반 설정 능력을 입증합니다.

  • 평가 (Critic): Claude 모델은 주요 단계 후 반영을 통해 강력한 평가 능력을 보여줍니다. Nano-texture 옵션을 성공적으로 추가한 후, 남은 작업을 계속 진행합니다. 또한, 모든 액세서리가 장바구니에 추가된 후 Claude Computer Use는 최종 확인을 위해 스크린샷을 촬영하고 추가된 액세서리를 목록화합니다. 이러한 비판적 관찰은 길고 동적인 작업을 완수하는 모델의 능력을 크게 향상시킵니다.

3. Fox Sports에서 Formula 1 구독 (실패)

  • 계획 (Planning): Fox Sports 웹사이트에서 Formula 1을 찾기 위해, 모델은 스포츠 카테고리 확장을 위해 "MORE" 버튼을 선택하는 계획을 세웁니다. 초기 스포츠 목록에서 Formula 1을 찾지 못하면 "ACCOUNT" 메뉴로 접근하여 더 많은 스포츠를 관리할 수 있을 것이라는 가정 하에 접근 방식을 변경합니다.
  • 행동 (Action): 1단계에서 모델은 스포츠 탐색 패널에서 "MORE" 버튼의 위치를 정확히 식별하고 클릭하여 추가 스포츠를 표시하도록 합니다. 2단계에서는 Formula 1을 찾지 못한 후 "ACCOUNT" 탭으로 이동하여 사용자의 목표를 달성하기 위한 대안 경로를 따르는 유연성을 보여줍니다.
  • 평가 (Critic): 모델은 "MORE" 탭에 접근한 후 타깃 스포츠를 재강조하며 대안을 탐색합니다. 최종 결과는 잘못되었지만, 평가 단계는 대안 경로를 탐색하려는 시도를 반영하며, 인증 장벽을 마주했을 때의 상황 인식을 보여줍니다.
  • 오류 (Error): 모델은 "MORE" 버튼에서 Formula 1을 찾지 못하자 탐색 패널을 스크롤하지 않고 "ACCOUNT" 탭으로 잘못 이동합니다. 이로 인해 불필요한 우회가 발생하고, 로그인 요구로 인해 작업이 복잡해집니다. 이러한 오류는 컨텍스트를 인식한 탐색의 중요성을 강조하며, 향후 모델의 시각적 검색 접근 방식을 개선하고 인터페이스 연속성을 유지해야 할 필요성을 시사합니다.

워크플로우 분야 사례들 (Workflow)

워크플로우 작업(Workflow)은 여러 애플리케이션 간 상호작용 또는 다중 타겟 사용자 쿼리를 포함하며, 모델이 다양한 소프트웨어 플랫폼 간 데이터를 원활하게 탐색하고 관리할 수 있어야 합니다. 현실적인 시나리오에서 사용자는 웹 브라우저, 생산성 도구, 전문 애플리케이션 간 작업을 조정하여 복잡한 목표를 달성해야 합니다. 이러한 작업은 모델의 컨텍스트 유지 능력, 데이터 전송 정확성, 다단계 프로세스 실행 능력을 평가합니다.

워크플로우 작업의 복잡성은 다양한 인터페이스 간 작업 조정을 위한 강력한 계획(Planning) 능력이 필요하다는 점에 있습니다. 또한, 각기 다른 애플리케이션의 사용자 인터페이스 요소를 해석하고 상호작용할 수 있는 기반 설정(Grounding) 능력을 가져야 하며, 예상치 못한 동작이나 오류 발생 시 계획을 동적으로 조정할 수 있어야 합니다. 아래 사례 연구에서는 모델이 복잡한 워크플로우 작업에서 어떻게 행동을 통합하고 일관성을 유지하는지 평가합니다. 이를 통해 워크플로우 도메인 내에서 모델의 능력과 개선 가능성을 탐색합니다.

1. 최신 및 로컬 인기 음악을 찾아 재생 목록에 추가하기

  • 계획 (Planning): Apple Music에서 "New" 탭으로 이동해 "Latest Songs" 섹션의 첫 번째 곡을 찾아 "Sonnet’s Selection" 재생 목록에 추가합니다. 이후 "New" 탭을 아래로 스크롤하여 "Singapore Top 100" 컬렉션을 찾아 상위 곡을 동일한 재생 목록에 추가하는 다단계 계획을 수립합니다.
  • 행동 (Action): "New" 탭으로 이동한 후, "Latest Songs" 섹션의 첫 번째 곡을 선택하고 세 개의 점 아이콘을 클릭해 옵션 메뉴를 엽니다. "Add to Playlist"를 선택해 "Sonnet’s Selection"에 곡을 추가하고, 이후 Page Down 키를 사용해 "Singapore Top 100" 섹션을 찾아 동일한 과정을 반복합니다.
  • 평가 (Critic): 모델은 "New" 탭에 성공적으로 접근했는지 확인하고, 각 단계마다 스크린샷을 촬영해 진행 상황을 검토합니다. "Singapore Top 100" 상위 곡을 추가한 후 작업이 성공적으로 완료되었음을 확인합니다.

2. Amazon에서 상품 검색 후 가격을 Excel에 기록

  • 계획 (Planning): Amazon에서 "27 inch 165hz gaming monitor"를 검색하고, 첫 두 결과의 제품 이름과 가격을 Excel 워크시트에 입력하는 계획을 수립합니다. 각 셀에 적합한 헤더와 데이터를 지정하며, Excel과 Amazon 간 전환이 필요합니다.
  • 행동 (Action): Amazon 검색창에 검색어를 입력해 결과를 표시한 후, Excel을 열어 A1과 B1에 각각 "Product"와 "Price" 헤더를 추가합니다. 이후 A2, B2에 첫 번째 제품의 이름과 가격을 입력하고, A3, B3에 두 번째 제품의 정보를 입력합니다.
  • 평가 (Critic): Excel이 준비되었는지 확인하기 위해 스크린샷을 촬영하며, 데이터를 입력한 후 최종 확인을 위해 또 다른 스크린샷을 촬영합니다. 이를 통해 데이터 입력이 정확히 이루어졌는지 검토합니다.

3. 온라인 문서를 로컬에서 열기 위해 내보내기 및 다운로드

  • 계획 (Planning): Google 스프레드시트의 File 메뉴를 열어 다운로드 옵션에서 ".xlsx" 형식을 선택하고 파일을 저장한 뒤, Excel에서 해당 파일을 열어 작업을 완료합니다.
  • 행동 (Action): File 메뉴에서 다운로드 옵션을 클릭한 후 "Microsoft Excel (.xlsx)"를 선택해 파일 다운로드를 시작합니다. Firefox의 다운로드 알림을 통해 파일이 저장되었음을 확인한 후, 다운로드된 파일을 클릭하여 Excel에서 엽니다.
  • 평가 (Critic): 다운로드 옵션 선택과 파일 저장 상태를 스크린샷으로 검증하며, Excel에서 파일을 열고 필요한 편집을 위한 상태까지 준비되었는지 확인합니다.

4. App Store에서 앱 설치 및 저장 공간 확인

  • 계획 (Planning): App Store에서 "GoodNotes"를 검색하여 앱의 세부 정보를 확인한 뒤, "Get"과 "Install" 버튼을 클릭하여 설치를 진행합니다. 이후 앱의 저장 공간 크기를 보고합니다.
  • 행동 (Action): App Store 검색창에 "GoodNotes"를 입력한 후, 검색 결과에서 앱 아이콘을 클릭해 세부 정보를 확인합니다. "Get" 버튼을 클릭하여 설치를 시작하고, "Install" 버튼을 클릭해 다운로드를 완료합니다.
  • 평가 (Critic): 검색 결과와 앱 세부 정보를 스크린샷으로 확인하며, 앱 크기(1.39GB)를 기록하고 설치 단계에서 사용자 인증 필요성을 알립니다. 작업이 성공적으로 시작되었음을 확인하며 완료를 위해 사용자의 추가 조치가 필요함을 인식합니다.

오피스 생산성 소프트웨어 사례들 (Office Productivity Software)

오피스 생산성 소프트웨어는 현대 직장과 교육 환경에서 가장 널리 사용되는 필수 애플리케이션입니다. 문서 작성, 데이터 분석, 프레젠테이션 제작 등의 다양한 작업을 중심으로 하며, 이러한 애플리케이션 내 작업 자동화는 효율성을 크게 향상시키고 반복적인 작업 부담을 줄이며, 인간 오류를 최소화할 수 있습니다. 따라서 GUI 자동화 모델이 해결해야 할 주요 영역 중 하나입니다.

오피스 애플리케이션은 웹 환경과 달리 파일 조작을 위한 구조적 HTML이나 API를 제공하지 않는 경우가 많습니다. 따라서 GUI 자동화 모델은 시각적 인터페이스와 직접 상호작용해야 하며, 이는 인간 사용자가 하는 방식과 유사합니다. 이는 메뉴, 버튼, 텍스트 필드, 표 셀 등 시각적 요소를 기반으로 작업을 수행하는 것을 포함하며, 다음과 같은 고유한 도전 과제를 제공합니다:

  1. 오피스 애플리케이션의 복잡하고 기능이 밀집된 인터페이스에서 정확한 요소를 신뢰성 있게 식별하고 찾아야 하는 강력한 시각적 기반 설정 능력.
  2. 작은 부정확성도 잘못된 결과나 의도치 않은 변경을 초래할 수 있으므로 정밀한 행동 실행.
  3. 소프트웨어 버전 또는 사용자 맞춤 설정에 따라 레이아웃과 테마가 달라질 수 있는 인터페이스 변형을 처리할 수 있는 유연성.

아래 사례 연구에서는 워드 프로세싱, 스프레드시트, 프레젠테이션 애플리케이션에서 모델의 계획, 실행, 적응 능력을 중점적으로 평가합니다. 이 작업들은 사용자가 흔히 접하는 현실적 시나리오를 시뮬레이션하며, 모델이 오피스 소프트웨어 환경에서 인간 생산성을 지원하거나 증강할 수 있는 잠재력을 탐구합니다.

1. 특정 이메일 전달 및 수신인 추가 (CC)

  • 계획 (Planning): Outlook에서 최신 Anthropic 이메일을 찾아 열고, 상단 우측에 있는 "Forward" 옵션을 사용하여 이메일을 전달합니다. 이메일은 주요 수신인 "siyuanhu@nus.edu.sg"와 참조 수신인(CC) "ouyangmingyu04@u.nus.sg"에게 전달됩니다. 이 계획은 이메일 선택, 전달 작업, 주소 입력을 단계별로 통합한 모델의 이메일 워크플로우 관리 능력을 보여줍니다.
  • 행동 (Action): Anthropic 이메일을 클릭하여 열고, "Forward" 버튼을 눌러 전달 작업을 시작합니다. 이후 수신인 필드에 "siyuanhu@nus.edu.sg"를 입력하고 "Enter" 키로 확인합니다. CC 필드에 "ouyangmingyu04@u.nus.sg"를 입력한 뒤, "Send" 버튼을 눌러 이메일 전달을 완료합니다.
  • 평가 (Critic): Anthropic 이메일이 올바르게 선택되었는지 확인하며, 각 주소 입력 및 CC 필드 확인 후 스크린샷을 촬영합니다. 모든 단계가 성공적으로 완료되었음을 확인하며 작업이 정확히 수행되었음을 검증합니다.

2. 문서 레이아웃을 A3 크기의 가로 방향으로 변경

  • 계획 (Planning): Microsoft Word에서 "Layout" 탭으로 이동해 "Size" 옵션에서 A3를 선택하고, "Orientation" 옵션에서 가로 방향(Landscape)으로 설정합니다. 이 계획은 Word의 레이아웃 조정 컨트롤에 대한 모델의 이해를 보여줍니다.
  • 행동 (Action): "Layout" 탭을 클릭하고, "Size" 드롭다운 메뉴에서 A3를 선택합니다. 이후 "Orientation" 드롭다운에서 "Landscape"를 선택해 문서 방향을 변경합니다.
  • 평가 (Critic): A3 크기와 가로 방향이 성공적으로 적용되었음을 확인하며, 작업이 사용자의 요청과 일치함을 검증합니다.

3. 문서를 두 개의 열로 구성

  • 계획 (Planning): Microsoft Word에서 "Layout" 탭으로 이동해 "Columns" 옵션에서 "Two"를 선택해 문서를 두 개의 열로 구성합니다. 이 계획은 Word의 레이아웃 기능을 활용하여 문서 구조를 변경하는 모델의 능력을 보여줍니다.
  • 행동 (Action): "Layout" 탭을 클릭한 뒤, "Columns" 버튼을 찾아 "Two" 옵션을 선택합니다. 이를 통해 문서를 두 개의 열로 재구성합니다.
  • 평가 (Critic): 문서 텍스트가 성공적으로 두 개의 열로 구성되었음을 확인하며, 작업이 요청대로 완료되었음을 검증합니다.

4. 이력서 템플릿에서 이름과 전화번호 업데이트 (실패)

  • 계획 (Planning): Microsoft Word에서 "Janna Gardner"를 "Sonnet"으로 교체하고, 기존 전화번호를 "7355608"로 업데이트하는 계획을 세웁니다.
  • 행동 (Action): "Janna Gardner"를 더블 클릭해 "Sonnet"으로 대체하고, 전화번호를 선택해 "7355608"로 수정합니다.
  • 평가 (Critic): 이름과 전화번호가 모두 변경되었다고 잘못 확인합니다.
  • 오류 (Error): 이름 변경 과정에서 "Gardner"만 선택하여 수정하고, "Janna"는 그대로 남았습니다. 또한 전화번호도 일부만 선택하여 수정되어 결과적으로 업데이트가 불완전합니다. 모델이 최종 결과를 잘못 확인함으로써 작업이 성공적으로 완료되지 못했습니다.

5. 슬라이드에 그라디언트 배경 적용

  • 계획 (Planning): PowerPoint에서 새 빈 슬라이드를 생성한 뒤, "Format Background" 옵션을 통해 그라디언트 배경을 적용합니다.
  • 행동 (Action): 슬라이드를 우클릭해 배경 설정 메뉴에 접근하려 했으나, 초기 시도에서는 예상한 "Format Background" 창이 나타나지 않았습니다. 이에 "Design" 탭으로 이동해 "Format Background" 버튼을 찾아 그라디언트 배경을 적용합니다.
  • 평가 (Critic): 그라디언트 배경이 성공적으로 적용되었음을 확인하며, 초기에 발생한 문제를 해결하기 위해 대안을 마련한 점에서 모델의 적응력을 보여줍니다.

6. 슬라이드 제목 수정 및 삼각형 그리기

  • 계획 (Planning): PowerPoint 슬라이드의 제목을 "Triangle"로 변경하고, 해당 제목 아래에 삼각형 모양을 추가합니다.
  • 행동 (Action): "Click to add title" 상자를 클릭해 "Triangle"을 입력하고, "Shapes" 버튼을 통해 삼각형 모양을 선택하여 슬라이드에 추가합니다.
  • 평가 (Critic): 제목과 삼각형이 성공적으로 추가되었음을 확인하며, 시각적 변경 작업이 완료되었음을 검증합니다.

7. 번호 매기기 기호 추가 (실패)

  • 계획 (Planning): PowerPoint의 두 번째 슬라이드에 번호 매기기 기호를 적용하기 위해 텍스트를 선택하고 "Numbering" 옵션을 사용하는 계획을 세웁니다.
  • 행동 (Action): 텍스트에 "Bullet" 기호를 잘못 적용한 뒤, 이를 수정하기 위해 "Numbering" 옵션을 선택하려 했으나, 텍스트 전체를 정확히 선택하지 못했습니다.
  • 평가 (Critic): 번호 매기기가 올바르게 적용되었는지 확인하지 못했습니다.
  • 오류 (Error): "Bullet" 기호를 잘못 적용했으며, 텍스트 선택 및 번호 매기기 기호 적용 과정에서도 정확성이 부족했습니다. 최종 결과 확인도 불완전했습니다.

8. Excel에서 찾아 바꾸기

  • 계획 (Planning): Excel에서 "$" 기호를 "SGD"로 대체하기 위해 "Find and Replace" 대화 상자를 열고 작업을 수행합니다.
  • 행동 (Action): "Ctrl+H" 단축키를 사용해 "Find and Replace" 창을 열고, "$"를 "SGD"로 입력한 뒤 "Replace All"을 클릭해 변경을 완료합니다.
  • 평가 (Critic): Excel에서 190건의 변경이 완료되었음을 확인하며, 작업이 요청대로 성공적으로 수행되었음을 검증합니다.

9. 셀 합계를 구하는 수식 삽입 (실패)

  • 계획 (Planning): Excel에서 "ACTUAL" 열의 값을 합산해 "Total budget" 행에 결과를 삽입하는 계획을 세웁니다.
  • 행동 (Action): "SUM" 수식을 입력하며, C6~C15 범위를 선택해 계산을 완료합니다.
  • 평가 (Critic): 합계가 올바르게 계산되었다고 잘못 확인합니다.
  • 오류 (Error): "ACTUAL" 열의 올바른 범위(D6~D16)를 선택하지 못하고, 일부 데이터를 누락하여 합계가 불완전합니다. 최종 결과 검증도 정확하지 않았습니다.

비디오 게임 사례들 (Video Games)

비디오 게임은 GUI 자동화 모델에게 가장 도전적인 작업 환경 중 하나를 제공합니다. 게임 플레이의 성공은 전략 개발, 자원 관리, 탐색을 포함하며, 이는 모델이 강력한 계획(Planning) 능력을 요구하는 이유입니다. 게임의 탐색은 중요한 정보나 단서가 즉시 가시적이지 않은 경우가 많아 표준 소프트웨어보다 더 복잡합니다. 또한, 비디오 게임은 강력한 기반 설정(Grounding) 능력을 필요로 합니다. 게임의 시각적 스타일과 인터페이스 요소는 테마와 장르에 따라 크게 달라지며, 텍스트 레이블 없이 아이콘이나 심볼로 표현된 경우가 많습니다. 이러한 요소는 컨텍스트와 추론에 기반하여 버튼이나 컨트롤의 기능을 유추해야 하므로 모델에게 일반화 능력을 요구합니다.

본 사례 연구에서는 Hearthstone과 Honkai: Star Rail이라는 두 인기 게임을 선택해 복잡한 게임 환경에서 모델의 능력을 평가했습니다. Hearthstone은 전략적인 덱 빌딩과 턴제 전투 중의 전술적 의사 결정을 강조합니다. 이 게임은 다단계 작업 계획, 자원 관리, 게임 상태 변화에 따른 전략 조정 능력을 평가합니다. Honkai: Star Rail은 턴제 RPG로서 풍부한 그래픽과 동적 인터페이스를 제공하며, 다양한 상호작용을 요구합니다. 이 게임은 복잡한 메뉴, 텍스트 레이블 없는 아이콘, 빠르게 변화하는 애니메이션 장면을 포함하여 모델의 시각적 기반 설정 능력을 더욱 도전적으로 만듭니다.

아래 사례 연구에서는 GUI 자동화 모델이 게임 환경에서 어떻게 계획을 세우고, 작업을 실행하며, 적응할 수 있는지 보여줍니다. 이를 통해 모델의 전통적인 소프트웨어 인터페이스를 넘어선 적응성과 복잡하고 시각적으로 풍부한 환경에 대한 대응 능력을 탐구합니다.

1. Hearthstone: 새로운 덱 생성 및 이름 변경

  • 계획 (Planning): "Mage" 클래스를 사용해 새로운 덱을 생성하고 "Core Mage" 프리셋 덱 옵션을 선택합니다. 덱 생성 후 사용자의 요청에 따라 "Sonnet’s New Deck"으로 이름을 변경합니다. 이 과정은 Hearthstone의 덱 생성 흐름에 대한 모델의 이해와 다단계 작업 계획 능력을 보여줍니다.
  • 행동 (Action): "New Deck" 버튼을 클릭하여 덱 생성 프로세스를 시작한 뒤, "Mage" 초상화를 선택하고 "Choose" 버튼으로 확인합니다. 이후 "Core Mage" 프리셋을 선택하고, 생성된 덱의 제목을 클릭해 이름을 변경한 뒤 "OK"로 완료합니다.
  • 평가 (Critic): 덱 이름이 "Sonnet’s New Deck"으로 성공적으로 변경되었는지 확인하며, 덱이 정상적으로 생성되고 사용 가능함을 검증합니다.

2. Hearthstone: 영웅 기술 사용

  • 계획 (Planning): "Mage"로 플레이 중이며, 3개의 마나 포인트가 사용 가능하다고 인식합니다. 2 마나를 소모해 1 데미지를 입히는 영웅 기술을 사용해 체력이 1인 적 하수인을 제거하는 최적의 전략을 계획합니다.
  • 행동 (Action): 복잡한 판타지 스타일의 게임 인터페이스에서 영웅 기술 아이콘을 찾고 적 하수인을 선택해 기술을 사용합니다. 적 하수인의 체력을 빨간 숫자로 표시된 시각적 속성으로 인식해 효과적인 대상을 평가합니다.
  • 평가 (Critic): 영웅 기술로 적 하수인을 제거한 후, 보드 상태를 검토하며 남은 하수인을 확인합니다. 남은 마나를 효율적으로 사용할 방법이 없어 턴을 종료하며, 게임 상태 변화에 따라 계획을 조정합니다.

3. Honkai: Star Rail: 10-워프 자동화

  • 계획 (Planning): "Warp" 메뉴에 접근해 "Eyes of a Ninja" 워프 옵션을 선택한 뒤 10-워프를 시작합니다. 워프 애니메이션 중 상단의 스킵 화살표를 클릭해 애니메이션을 건너뛰고, 워프 요약 화면에서 닫기를 선택해 작업을 완료합니다.
  • 행동 (Action): 게임 메뉴를 열고 "Warp" 화면으로 이동해 10-워프를 실행합니다. 애니메이션이 진행되는 동안 스킵 화살표를 반복 클릭하여 시간을 단축하며, 요약 화면에서 "X" 버튼을 눌러 워프를 종료합니다.
  • 평가 (Critic): 각 단계마다 스킵 화살표를 확인하고 클릭하며, 요약 화면에서 캐릭터 획득 정보를 검토한 후 작업이 성공적으로 완료되었음을 확인합니다.

4. Honkai: Star Rail: 일일 임무 클리어 자동화

  • 계획 (Planning): "Interastral Guide"를 열어 특정 임무(Calyx "Golden for EXP")를 선택하고, 시도 횟수를 조정한 뒤, 자동 전투 모드를 활성화해 임무를 시작합니다. 전투가 완료되면 작업을 종료합니다.
  • 행동 (Action): 게임 메뉴를 열어 "Interastral Guide"로 이동하고, "Calyx Golden for EXP" 항목을 찾아 클릭합니다. "+" 버튼을 눌러 시도 횟수를 6으로 설정한 뒤, "Start Challenge"를 클릭해 전투를 시작하고 자동 전투 모드를 활성화합니다. 전투가 완료되면 작업을 종료합니다.
  • 평가 (Critic): 각 단계의 실행 상태를 확인하며, 전투 진행 상황을 스크린샷으로 기록합니다. 완료 화면에서 작업이 정상적으로 끝났음을 확인하며 사용자의 요청을 완전히 충족합니다.

사례 연구 결과 정리: 발생 오류 분류 및 향후 발전 방향

앞에서 나타난 대표적인 실패 사례들을 살펴보고 모델의 작업 이해 및 실행에서 사용자 의도와 불일치한 부분을 분석하였습니다. 이러한 오류는 다양한 원인으로 작업 실패를 유발하지만, 오류를 체계적으로 분류하고 자연적인 원인을 파악하기 위해 세 가지로 나누어 제안합니다:

  1. 계획 오류 (Planning Error, PE)
  • 작업 쿼리로부터 부정확한 계획을 생성할 때 발생하며, 이는 작업 지침의 오해 또는 현재 컴퓨터 상태에 대한 잘못된 이해로 인한 경우가 많습니다.
  • 예시: Fox Sports 구독 작업
  1. 행동 오류 (Action Error, AE)
  • 계획이 올바르더라도 모델이 정확한 행동을 수행하지 못할 때 발생하며, 주로 인터페이스 이해 부족, 공간 인식 문제, GUI 환경 내 정밀 제어 실패와 관련됩니다.
  • 예시: 셀에 합계 수식 삽입 작업
  1. 평가 오류 (Critic Error, CE)
  • 모델이 자신의 행동이나 컴퓨터 상태를 잘못 평가하여 작업 완료 여부를 잘못 피드백할 때 발생합니다.
  • 예시: 이력서 템플릿에서 이름과 전화번호 업데이트 작업, 번호 매기기 기호 삽입 작업

연구에서는 위와 같은 오류들을 분류하고 살펴보았으며, 이를 기반으로 향후 GUI 에이전트의 발전 방향에 대해서 다음과 같이 논의하고 있습니다:

  1. 더 동적인 벤치마킹 환경 개발: 현재의 정적 데이터셋과 제한된 상호작용 패러다임은 실제 응용 프로그램에서 에이전트의 적응성과 대응 능력을 평가하는 데 한계를 가집니다. 소프트웨어 버전 업데이트 및 다양한 해상도를 고려한 더 현실적인 환경이 필요합니다.
  2. 평가 오류 교정 (Critic Error Correction): 모델이 작업 완료 여부를 잘못 판단하는 사례가 빈번하며, 이는 자체 평가 메커니즘의 부족을 보여줍니다. 이러한 문제는 프롬프트를 통해 부분적으로 해결할 수 있지만, 보다 엄격한 평가 모듈을 내장하는 프레임워크 개선이 필요합니다.
  3. 인간 컴퓨터 사용과의 차이점: 모델은 여전히 인간의 세밀한 컴퓨터 사용을 완전히 재현하지 못합니다. 예를 들어, 페이지 스크롤링 시 'Page Up/Down' 단축키 사용은 인터페이스 정보의 단편화와 불완전성을 초래합니다. 이러한 차이는 인간 사용자가 보여주는 맥락적 적응성과 다양성을 완전히 반영하지 못한 학습 데이터의 한계로 귀결됩니다.

:scroll: Claude의 GUI Agent 활용 사례에 대한 초기 연구 논문

:github: 연구에 사용한 Computer Use OOTB(Out-of-the-Box) 저장소




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요