OSWorld, 멀티모달 에이전트의 작업 실행 및 평가 등을 위한 실제 컴퓨터 환경
소개
OSWorld는 실제 웹 및 데스크톱 애플리케이션, 운영체제(OS, Operating System)의 파일 입출력(I/O), 그리고 여러 애플리케이션을 아우르는 워크플로우를 포함하는 369개의 실제 컴퓨터 환경에서의 작업 벤치마크를 제공하는 프로젝트입니다. 이러한 실제 컴퓨팅 환경에서 멀티모달 에이전트를 평가할 수 있는 환경은 최초의 실험이며, 이 연구를 통해 복잡한 컴퓨터 작업을 수행하는 자율 에이전트의 가능성을 탐구할 수 있길 기대하고 있습니다.
OSWorld는 다양한 애플리케이션을 포함한 개방형 도메인에서 새로운 작업을 추가하는데 용이하도록 구성되어 있습니다. OSWorld는 환경 구성을 위한 설정 파일을 제공하며, 이를 통해 에이전트의 상호작용과 작업 완료 후 처리, 파일 및 정보 검색, 평가 기능을 실행할 수 있습니다. 특히, 실제 컴퓨터 환경에서 발생할 수 있는 다양한 작업에 대해 신뢰성 있고 재현 가능한 설정과 평가 스크립트를 제공합니다.
또한, 우분투, 윈도우, 맥OS 등 다양한 운영체제를 지원하며, 단일 호스트 머신에서 병렬로 실행될 수 있습니다. 또한, 머신 학습을 위한 헤드리스(headless) 운영도 지원합니다. 이러한 기능을 사용하여, 에이전트로 하여금 GUI 기반 작업에서 자주 발생하는 문제를 경험하고 이를 해결하는 방법을 학습하도록 환경을 구성할 수 있습니다.
OSWorld는 다른 디지털 에이전트 벤치마크와 비교하여 유연성과 확장성 면에서 뛰어납니다. 다른 환경들은 특정 애플리케이션 또는 도메인에 제한되어 있거나 상호 작용적 환경을 제공하지 않는 반면, OSWorld는 다양한 애플리케이션과 상호 작용을 포함하여 훨씬 복잡하고 다양한 실제 컴퓨터 사용을 반영합니다.
라이선스
이 프로젝트는 Apache License 2.0에 따라 공개 및 배포되고 있습니다. 이 라이선스는 상업적 사용에 대한 제한이 없으며, 수정, 배포, 개인적 사용이 자유롭게 허용됩니다.
더 읽어보기
OSWorld 프로젝트 홈페이지
OSWorld 소개 슬라이드 (Google Slide)
OSWorld 논문
GitHub 저장소
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~