WebBench: 현실적인 웹 환경을 반영한 AI 브라우저 에이전트 벤치마크

WebBench 소개

AI 브라우저 에이전트들이 다양한 작업을 자동화하면서 각광받고 있지만, 그 성능을 제대로 평가할 수 있는 표준 벤치마크는 부족했습니다. WebBench는 그러한 공백을 메우기 위해 등장한 새로운 벤치마크로, 단순 탐색을 넘어서 로그인, 양식 입력, 파일 다운로드 같은 복잡한 웹 작업까지 포함합니다. 특히 실제 인기 웹사이트에서 수천 개의 시나리오를 기반으로 테스트되므로, AI 에이전트의 실질적 능력을 확인하고 싶은 개발자와 연구자에게 매우 유용합니다.

WebBench는 HalluminateSkyvern 팀이 공동으로 개발한 브라우저 에이전트 성능 측정 벤치마크입니다. 전 세계 상위 1000개 웹사이트 중 452개를 선정하여, 총 5,750개의 웹 작업(task)을 포함하고 있습니다. 이 중 2,454개는 GitHub를 통해 오픈소스로 공개되어 누구나 사용할 수 있습니다.

기존의 WebVoyager 벤치마크는 단 15개 사이트와 642개의 단순 읽기 작업에 국한되어 있었기 때문에, CAPTCHA, 로그인, 팝업 처리 등 현실적인 웹 환경에서 마주치는 문제들을 다루지 못했습니다. WebBench는 이러한 한계를 극복하고, 실제 업무 환경에서 필요한 쓰기 작업(write-heavy tasks)까지 포함시켜 AI 브라우저 에이전트의 진짜 실력을 평가할 수 있게 설계되었습니다. WebVoyager 벤치마크와 주요 내용들을 비교하면 다음과 같습니다:

항목 WebVoyager WebBench
웹사이트 수 15 452
작업 수 642 5,750
오픈소스 작업 수 0 2,454
작업 유형 단순 읽기(Read) 중심 읽기(Read) + 쓰기(Write)
웹 환경 반영 제한적 CAPTCHA, 2FA, 팝업, 로그인 등 포함

특히, WebBench는 단순히 작업 수를 늘린 것이 아니라, 작업 유형을 READ/WRITE로 구분하고, 현실적인 실패 조건(예: 인증 실패, 접근 차단, CAPTCHA 처리 실패 등)까지 고려하여 평가 기준을 훨씬 정교하게 만들었습니다.

Skyvern 2.0, OpenAI Operator (CUA), Browser-use 등의 최신 에이전트들이 이 벤치마크를 통해 평가되었으며, 읽기 작업은 Anthropic CUA가, 쓰기 작업은 Skyvern 2.0이 가장 우수한 성능을 보였습니다.

주요 특징

  • 방대한 작업 수: 5,750개의 실제 웹 작업 시나리오 포함 (2,454개 오픈소스 제공)
  • 다양한 웹사이트: 상위 1000개 웹사이트 중 452개를 선정 (17개 카테고리 분류)
  • 작업 유형의 명확한 구분 :
    • READ: 정보 추출, 뉴스 기사 요약 등
    • WRITE: 로그인, 양식 입력, 파일 다운로드, CAPTCHA 해결 등
  • 실패 요인 구분 :
    • 에이전트 실패: 탐색 오류, 정보 추출 오류, 실행 누락 등
    • 인프라 실패: CAPTCHA 처리 불가, 접근 차단, 인증 실패 등
  • 실행 효율성 측정: 실행 시간, 작업 단계 수(step 수) 등으로 효율성 평가

작동 방식 및 평가 구조

WebBench는 각 작업을 에이전트가 성공적으로 수행하는지 여부를 기반으로 성능을 평가합니다. 작업당 최대 50단계로 제한되며, 결과는 사람에 의해 검토되어 정확도를 보장합니다.

평가 대상 예시

  • 읽기(Read) 작업 :
    • 특정 뉴스 기사에서 주요 내용을 추출
    • 사이트 내 특정 정보를 찾기 위해 링크 탐색
  • 쓰기(Write) 작업 :
    • 로그인 후 설정 변경
    • 상품 구매를 위한 결제 정보 입력
    • 정부 양식 다운로드 및 제출

실패 사례 예시

  • 로그인 후 CAPTCHA가 등장했으나 에이전트가 이를 인식하지 못하고 종료
  • 팝업이 뜬 상태에서 다음 작업이 수행되지 않음
  • 정보를 추출해야 할 페이지를 찾지 못함

실행 성능 비교

  • 읽기 작업 정확도: 대부분의 에이전트가 양호한 성능을 보였으며, Anthropic CUA가 최고 성능
  • 쓰기 작업 정확도: 대부분 저조한 성능, Skyvern 2.0이 가장 높은 성공률
  • 실행 시간 & 단계 수: 실시간 대응이 필요한 분야에서는 짧은 시간과 적은 단계 수가 중요

라이선스

WebBench는 MIT License로 배포되며, 상업적 사용 및 수정, 배포에 제약이 없습니다.

:bar_chart: WebBench Leaderboard

:hugs: WebBench Dataset

:github: WebBench GitHub 저장소

:scroll: WebBench Technical Report (by Halluminate)

:scroll: WebBench 소개 블로그 (by Skyvern)




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: