텐센트가 공개한, 스마트폰 사용자처럼 동작하는 AppAgent 모델

PyTorchKR:fire::kr: :speech_balloon:

  • 12/18~24의 주요 ML 논문에 소개된 AppAgent 모델을 정리해보았습니다.
  • 멀티모달 분야에서의 대규모 모델들(LMM)의 연구/공개됨에 따라 더 많은 '에이전트'들이 등장할 것 같습니다.

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

AppAgent는 대규모 언어 모델(Large Language Models, LLMs)의 능력을 활용하여 인간과 유사하게 스마트폰 애플리케이션을 운영하는 새로운 멀티모달 에이전트 프레임워크입니다. AppAgent는 독자적인 탐험 또는 인간의 시연을 관찰하며 새로운 스마트폰 앱의 사용법을 학습하고, 이를 통해 다양한 애플리케이션에서 작업을 실행하기 위해 참조할 수 있는 지식(KB; Knowledge Base)을 구축합니다.

:star: 12월 26일 기준, Android 에뮬레이터를 추가로 지원하여 이제 안드로이드 단말기 없이도 AppAgent를 사용해볼 수 있게 되었습니다.

텐센트가 공개한, 스마트폰 사용자처럼 동작하는 AppAgent 모델

AppAgent 개요

AppAgent 프레임워크는 에이전트가 단순화된 액션 공간을 통해 스마트폰 애플리케이션을 작동할 수 있도록 지원하며, 탭과 스와이프와 같은 인간과 유사한 상호 작용을 모방합니다. 이 새로운 접근 방식은 시스템 백엔드 액세스의 필요성을 우회하여 다양한 앱에 걸쳐 적용 범위를 넓힙니다.
AppAgent 프레임워크 기능의 핵심은 혁신적인 학습 방식입니다. 에이전트는 자율 탐색을 통해 또는 사람의 데모를 관찰하여 새로운 앱을 탐색하고 사용하는 방법을 학습합니다. 이 프로세스는 에이전트가 여러 애플리케이션에서 복잡한 작업을 실행할 때 참조하는 지식 기반(Knowledge Base)을 생성합니다.

텐센트가 공개한, 스마트폰 사용자처럼 동작하는 AppAgent 모델

멀티모달 프레임워크

AppAgent는 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 처리할 수 있는 다중 모달 LLM 에이전트입니다. 이러한 다양성은 에이전트가 환경과 더 효과적으로 상호 작용하고 복잡한 작업을 수행하는 데 유용합니다​​.

인터페이스 상호 작용

AppAgent는 스마트폰 앱과의 상호 작용을 위해 인간과 유사한 방식으로 설계되었습니다. 예를 들어, 사용자가 이미지의 색 온도를 조정할 수 있도록 UI 요소를 스와이프하는 것과 같은 간단한 조작이 가능합니다​​.

학습 방법

AppAgent는 새로운 앱을 사용하는 방법을 자율적 탐험 또는 인간의 시연을 관찰함으로써 배웁니다. 이 과정에서 에이전트는 다른 애플리케이션에서 복잡한 작업을 수행하는 데 참조할 수 있는 지식 베이스를 생성합니다​​​​.

탐험 단계와 배포 단계

AppAgent - 탐험 단계 / Exploration Phase

AppAgent - 배포 단계 / Deployment Phase

AppAgent는 두 단계로 운영됩니다. 첫 번째 단계인 탐험 단계에서는 다양한 앱의 사용자 인터페이스와 상호 작용을 관찰합니다. 충분한 관찰을 통해 AppAgent는 앱을 사용하는 데 능숙해지며, 이 지식은 문서로 정리됩니다. 두 번째 단계인 배포 단계에서는 AppAgent가 지원하는 모든 애플리케이션에서 고급 작업을 처리할 수 있습니다​​.

실용적 적용

AppAgent는 소셜 미디어, 이메일, 지도, 쇼핑, 고급 이미지 편집 도구 등 10개의 다른 애플리케이션에서 50개의 작업에 대한 광범위한 테스트를 거쳤습니다. 이 결과는 AppAgent가 다양한 고급 작업을 처리하는 데 능숙함을 확인시켜 줍니다​​.

GitHub 저장소

AppAgent의 GitHub 저장소는 프레임워크의 사용 방법, 설치 요구 사항, 코드 구성 및 실행 방법에 대한 상세한 정보를 제공합니다. 이는 AppAgent의 사용과 개발에 대한 광범위한 지침을 제공합니다​​.

실시간 어플리케이션

AppAgent는 실시간으로 스마트폰 애플리케이션을 조작하고, 사용자가 제시한 작업을 수행할 수 있습니다. 예를 들어, 사용자가 "이 사진을 아름답게 만들어줘"라고 요청하면, AppAgent는 이 요청을 처리할 수 있습니다​​.

데모

Gmail App - 탐색 단계(Exploring Phase)

Gmail_explore

Gmail App - 배포 단계(Deploying Phase)

Gmail_deploy

Twitter(X) App - 탐색 단계(Exploring Phase)

X_explore

CAPTCHA Pass Ability

CAPTCHA

Lightroom App - Editing Images

Lightroom_deploy

더 읽어보기

AppAgent 홈페이지

GitHub 저장소

AppAgent 논문