AI Employe: GPT-4V를 활용한 브라우저 자동화 도구

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 아래 내용은 GPT 모델로 자동 요약한 것으로, 자세한 내용은 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

AI Employe: GPT-4V를 활용한 브라우저 자동화 도구

소개

AI Employe는 GPT-4 Vision을 활용한 브라우저 자동화 도구로, 이메일에서 CRM이나 ERP로 데이터 전송, e2e 테스팅 등의 작업을 자동화하는 데 효과적입니다. 이 도구는 인간과 같은 지능이 필요한 작업, 예를 들어 이메일, 영수증, 인보이스 등을 이해하고 처리하는 데 사용됩니다​​.

AI Employe의 동작 방식

  1. 올바른 요소 찾기: AI Employe는 전체 DOM을 MeiliSearch에 색인화하여 GPT-4 Vision이 클릭, 복사 등의 작업을 생성할 수 있게 합니다. 이 방법은 요소 ID를 검색하고 브라우저에 해당 작업을 실행하도록 하여 기존 방법보다 더 신뢰할 수 있습니다.
  2. GPT의 작업 이탈 방지: 사용자가 특정 도메인에서 수행한 작업을 기반으로 작업 세트를 생성합니다. 이렇게 하면 GPT가 작업에서 벗어나지 않도록 할 수 있습니다. 작업의 제목, 목표, 사용자의 행동을 포함시켜 GPT가 정확한 작업을 수행하도록 합니다​​.

기존 도구들과의 차별점

AI Employe는 기존의 브라우저 자동화 도구들이 겪는 몇 가지 문제를 해결합니다:

  • 더 정확한 요소 인식: 기존 방법들은 요소를 정확하게 찾지 못하는 경우가 많았습니다. AI Employe는 전체 DOM을 색인화하는 방법으로 이 문제를 해결합니다.
  • 작업 중 GPT의 이탈 방지: 기존 도구들은 GPT가 주어진 작업에서 벗어나는 경우가 있었습니다. AI Employe는 사용자의 도메인별 작업 기록을 활용하여 GPT가 작업에 집중할 수 있도록 합니다​​.

그 외

AI Employe의 설치는 Next.js, Rust, Postgres, MeiliSearch, Firebase Auth를 사용합니다. Firebase 계정을 생성하고 프로젝트를 만든 뒤, 개발용이나 제품용 환경에 맞게 private key를 생성하고 필요한 .env 파일과 종속성을 설치합니다​​.

AI Employe는 기존 브라우저 에이전트의 문제를 해결합니다. 예를 들어, 올바른 요소를 찾는 문제는 MeiliSearch에서 전체 DOM을 색인화하여 GPT-4 Vision이 클릭이나 복사 같은 작업을 생성할 수 있게 합니다. 또한, GPT가 작업에서 벗어나지 않도록 사용자의 도메인별 작업을 포함하여 특정 작업을 생성하는 기술을 사용합니다​​.

AI Employe의 로드맵에는 워크플로우, 텍스트나 음성으로 브라우저를 제어하는 기능, 클라우드 버전, 커뮤니티에서 공유하는 워크플로우 등이 포함되어 있습니다​​.

더 읽어보기

프로젝트 홈페이지

GitHub 저장소




:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:incoming_envelope:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :bowing_man:

1개의 좋아요