WebAgent 소개
웹을 자유롭게 탐색하며 정보를 스스로 수집하고 추론할 수 있는 AI 에이전트는 인간의 사고를 보완하는 차세대 기술로 주목받고 있습니다. 이러한 트렌드 속에서 Alibaba의 Tongyi Lab이 개발한 WebAgent 프로젝트는 LLM 기반의 자율 웹 탐색을 위한 대표적인 오픈소스 연구 결과로, 현재까지 WebWalker, WebDancer, WebSailor, 그리고 새롭게 공개된 WebShaper로 구성되어 있습니다.
기존 모델들이 각기 다른 방식으로 웹 탐색 능력을 강화하고자 했다면, 이번에 추가된 WebShaper는 정보 탐색을 위한 학습 데이터를 체계적으로 자동 생성하는 데 초점을 맞추고 있다는 점에서 주목할 만합니다. 이 네 가지 구성 요소는 상호보완적인 역할을 수행하며, 궁극적으로 인간과 유사하거나 초월하는 수준의 정보 탐색 및 추론 능력을 갖춘 LLM 기반 에이전트를 구현하고자 합니다.
WebAgent는 단지 모델만 제공하는 것이 아니라, HuggingFace 및 ModelScope를 통한 배포, 다양한 데모 영상, 정교한 벤치마크(WebWalkerQA, GAIA 등), 간편한 설치 가이드까지 포함하고 있어 연구자와 개발자 모두 쉽게 접근하고 실험할 수 있는 구조를 가지고 있습니다. 또한, 이들 모델은 단순한 문서 검색이 아니라 복잡한 의사결정, 정보 추론, 멀티스텝 질의 수행 등 고차원적 작업 수행에 초점을 맞추고 있으며, HuggingFace 및 ModelScope 등에서 오픈소스로 공개되어 누구나 접근할 수 있습니다.
WebAgent의 서브 모델들은 모두 정보 탐색을 위한 웹 기반 에이전트이지만, 각각의 목적과 학습 방법이 다릅니다. 예를 들어, WebShaper는 복잡한 정보 탐색 작업을 학습하는데 필요한 고품질 데이터를 자동으로 생성하는 것을 목적으로 하며, WebWalker는 벤치마크 프레임워크로 LLM 기반 웹 탐색 능력을 측정하기 위해 설계되었습니다. 또한, WebDancer는 ReAct 프레임워크를 기반으로 자율적인 탐색 및 추론을 수행하는 모델이며, WebSailor는 복잡한 질의 응답과 고난도 정보 추론에 최적화된 에이전트입니다. 이처럼 각 모델이 독립적인 방향성을 가지고 설계되었다는 점에서 단일 모델 중심의 기존 웹 탐색 프로젝트와는 차별화됩니다.
WebAgent 구성 개요
WebShaper: 정보 탐색을 위한 학습 데이터 자동 생성기
WebShaper는 LLM이 복잡한 정보 탐색 태스크를 학습하는데 필요한 고품질 데이터를 자동으로 생성하는 시스템입니다. 이 프로젝트는 ‘형식화 기반(formalization-driven)’이라는 새로운 방식으로 다양한 정보 탐색 시나리오를 정의하고, 이를 바탕으로 에이전트가 점진적으로 질문을 생성하고 검증하는 과정을 통해 WebShaperQA 데이터셋을 만듭니다.
이 방식은 기존의 수작업 데이터셋 구성 방식에 비해 확장성과 일관성이 뛰어나며, 실제로 GAIA 벤치마크에서 60.19, WebWalkerQA에서 52.50이라는 기존 최고 성능을 능가하는 결과를 기록하며 그 효용성을 입증했습니다.
WebSailor: 복잡한 추론 기반 정보 탐색 모델
WebSailor는 기존 LLM 기반 에이전트들이 처리하기 어려운 고차원 정보 탐색과 추론 문제를 해결할 수 있도록 특화된 에이전트입니다. 이 모델은 SailorFog-QA라는 고난도 QA 벤치마크를 자체 생성해 학습하였으며, 복잡한 경로와 은닉된 정보 속에서도 정답에 도달하는 정교한 추론 능력을 학습했습니다.
학습 파이프라인은 전문가 추론 경로 복원, RFT 기반 초기화, DUPO(Duplicating Sampling Policy Optimization)라는 효율적 강화학습 기법을 조합해 설계되었습니다. 성능적으로도 GAIA(55.4), BrowseComp-zh(30.1), BrowseComp-en(12.0) 등 주요 벤치마크에서 오픈소스 기준 최고 성능을 기록했습니다.
WebDancer: ReAct 기반 자율 웹 추론 모델
WebDancer는 ReAct 프레임워크를 활용한 네이티브 웹 추론 에이전트입니다. 4단계로 구성된 학습 파이프라인(브라우징 데이터 생성, 경로 샘플링, 감독학습, DAPO 기반 강화학습)을 통해 자율적으로 웹을 탐색하고 필요한 정보를 종합하여 질문에 응답할 수 있습니다.
WebDancer는 특히 GAIA와 WebWalkerQA에서 각각 64.1%, 62.0%라는 높은 Pass@3 성능을 달성하며 실질적인 정보 탐색 능력을 보여줍니다. 또한 설치 및 데모 실행도 매우 간편하게 구성되어 있어 실제 프로젝트 적용에 용이합니다.
WebWalker: 웹 탐색 능력 측정을 위한 LLM 벤치마크
WebWalker는 자율 웹 에이전트가 얼마나 효과적으로 웹을 탐색할 수 있는지를 측정하는 벤치마크 프레임워크입니다. ACL 2025에 채택된 이 시스템은 다중 에이전트 협업 환경과 다양한 도메인의 복잡한 질문들을 통해 LLM의 종합적인 탐색 및 추론 능력을 평가합니다.
WebWalker는 단순한 QA 성능 측정을 넘어, 실제 사용 시나리오를 반영한 문제 해결 능력을 테스트한다는 점에서 다른 벤치마크와 차별화됩니다.
설치 및 실행 가이드 (WebDancer 예시)
다음과 같이 conda로 새로운 가상환경(venv)를 생성한 뒤, 의존성을 설치합니다:
conda create -n webdancer python=3.12
pip install -r requirements.txt
이후 모델 다운로드하고 배포하는 스크립트를 실행합니다:
cd scripts
bash deploy_model.sh WebDancer_PATH
이제 필요한 API Key들을 설정한 뒤, 데모를 실행합니다:
bash run_demo.sh
필요한 API들은 다음과 같습니다:
라이선스
WebAgent 프로젝트는 MIT License로 공개 및 배포되고 있습니다.
WebAgent 프로젝트 GitHub 저장소
더 읽어보기
WebShaper 논문
(TBD)
WebSailor 논문: WebSailor: Navigating Super-human Reasoning for Web Agent
WebDancer 논문: WebDancer: Towards Autonomous Information Seeking Agency
WebWalker 논문: WebWalker: Benchmarking LLMs in Web Traversal
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~