PyTorchKR
- 아래 내용은 GPT 모델로 자동 요약한 것으로, 자세한 내용은 원문을 참고해주세요!
- 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
소개
AI Employe는 GPT-4 Vision을 활용한 브라우저 자동화 도구로, 이메일에서 CRM이나 ERP로 데이터 전송, e2e 테스팅 등의 작업을 자동화하는 데 효과적입니다. 이 도구는 인간과 같은 지능이 필요한 작업, 예를 들어 이메일, 영수증, 인보이스 등을 이해하고 처리하는 데 사용됩니다.
AI Employe의 동작 방식
- 올바른 요소 찾기: AI Employe는 전체 DOM을 MeiliSearch에 색인화하여 GPT-4 Vision이 클릭, 복사 등의 작업을 생성할 수 있게 합니다. 이 방법은 요소 ID를 검색하고 브라우저에 해당 작업을 실행하도록 하여 기존 방법보다 더 신뢰할 수 있습니다.
- GPT의 작업 이탈 방지: 사용자가 특정 도메인에서 수행한 작업을 기반으로 작업 세트를 생성합니다. 이렇게 하면 GPT가 작업에서 벗어나지 않도록 할 수 있습니다. 작업의 제목, 목표, 사용자의 행동을 포함시켜 GPT가 정확한 작업을 수행하도록 합니다.
기존 도구들과의 차별점
AI Employe는 기존의 브라우저 자동화 도구들이 겪는 몇 가지 문제를 해결합니다:
- 더 정확한 요소 인식: 기존 방법들은 요소를 정확하게 찾지 못하는 경우가 많았습니다. AI Employe는 전체 DOM을 색인화하는 방법으로 이 문제를 해결합니다.
- 작업 중 GPT의 이탈 방지: 기존 도구들은 GPT가 주어진 작업에서 벗어나는 경우가 있었습니다. AI Employe는 사용자의 도메인별 작업 기록을 활용하여 GPT가 작업에 집중할 수 있도록 합니다.
그 외
AI Employe의 설치는 Next.js, Rust, Postgres, MeiliSearch, Firebase Auth를 사용합니다. Firebase 계정을 생성하고 프로젝트를 만든 뒤, 개발용이나 제품용 환경에 맞게 private key를 생성하고 필요한 .env 파일과 종속성을 설치합니다.
AI Employe는 기존 브라우저 에이전트의 문제를 해결합니다. 예를 들어, 올바른 요소를 찾는 문제는 MeiliSearch에서 전체 DOM을 색인화하여 GPT-4 Vision이 클릭이나 복사 같은 작업을 생성할 수 있게 합니다. 또한, GPT가 작업에서 벗어나지 않도록 사용자의 도메인별 작업을 포함하여 특정 작업을 생성하는 기술을 사용합니다.
AI Employe의 로드맵에는 워크플로우, 텍스트나 음성으로 브라우저를 제어하는 기능, 클라우드 버전, 커뮤니티에서 공유하는 워크플로우 등이 포함되어 있습니다.
더 읽어보기
프로젝트 홈페이지
GitHub 저장소
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~