SURF, LLM을 위한 웹 검색/읽기 API (Search Utility & Reading Framework)

SURF 소개

SURF(Search Utility & Reading Framework)는 대규모 언어 모델(LLM)이 웹을 검색하고 읽을 수 있게 해주는 API 프레임워크입니다. OpenAI의 ChatGPT의 Web Browsing 기능과 같이 단순한 검색기능을 넘어서, HTML에서 표, 이미지, 복잡한 구조를 정제하여 LLM이 이해하기 좋은 형식(JSON, Markdown 등)으로 가공해주는 기능이 포함되어 있습니다.

기본 검색 엔진은 DuckDuckGo이지만, Brave SearchSearXNG 같은 대체 검색 엔진도 설정 가능합니다. 또한 Claude Desktop 같은 MCP(Model Context Protocol) 기반 클라이언트와도 통합할 수 있는 구조로 설계되어 있습니다. 소스 코드 또는 Docker 기반으로 쉽게 배포 및 호스팅할 수 있어 LLM 기반 RAG 시스템을 직접 구축하거나 테스트하고 싶은 분들께 적합한 도구입니다.

SURF의 주요 기능

  • HTML 파싱 및 콘텐츠 정제: 표, 이미지 포함 페이지에서도 노이즈 제거된 콘텐츠 추출

  • 여러 검색 엔진 지원: DuckDuckGo, SearXNG, Brave 중 선택 가능

  • LLM 친화적 출력: JSON/Markdown 등 context window에 최적화된 출력 형식

  • REST API 기반: 간단한 HTTP 호출로 검색 및 콘텐츠 읽기 가능

  • MCP 통합 지원: Claude Desktop 등과 연결 가능한 Model Context Protocol 서버 구성 가능

  • Docker 및 Bare Metal 배포 가능 : 다양한 환경에 유연하게 설치 가능

SURF 라이선스

SURF 프로젝트는 MIT License로 공개 및 배포 되고 있습니다. 상업적 사용에 제한은 없습니다.

:github: SURF GitHub 저장소

:books: SURF 공식 문서(설치, 사용법 및 예시 등)




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요