ScrapeGraphAI: AI 기반 Web 스크래핑 도구
소개
ScrapeGraphAI는 웹 스크래핑을 위한 파이썬 라이브러리로, LLM(Large Language Models)과 직접 그래프 로직을 활용해 웹사이트, 문서, XML 파일로부터 정보를 추출하는 파이프라인을 구축할 수 있는 파이썬 기반의 웹 스크래핑 라이브러리입니다. 이 라이브러리는 복잡한 웹사이트 구조에서도 유용한 데이터를 효과적으로 추출할 수 있는 기능을 제공하며, Playwright를 통해 JavaScript가 포함된 페이지에서도 사용이 가능합니다.
또한, ScrapeGraphAI는 다른 웹 스크래핑 라이브러리와 비교하여 LLM 기반의 분석과 그래프 로직을 통해 더 정교하고 효율적인 데이터 추출이 가능하다는 강점이 있습니다. 특히 복잡한 데이터 구조에서의 효율적인 정보 추출이 가능하며, 사용자 친화적인 API를 제공합니다.
주요 특징
- LLM 및 직접 그래프 사용: LLM을 사용하여 웹 데이터를 분석하고, 직접 그래프 로직을 통해 필요한 데이터만을 선별하여 추출합니다.
- 다양한 모델과의 호환성: Ollama, Docker, OpenAI, Groq, Azure 및 Gemini 등 다양한 환경에서 모델을 사용하여 정보를 추출할 수 있습니다.
- 사용 편의성: 간단한 명령어 입력만으로 웹사이트에서 필요한 정보를 추출할 수 있으며, 스크래핑 과정을 자동화하여 효율성을 높였습니다.
사용 방법
ScrapeGraphAI는 SmartScraperGraph
클래스를 통해 웹사이트에서 정보를 추출합니다. 사용자는 특정 웹사이트 URL과 함께 추출하고자 하는 정보에 대한 프롬프트를 설정할 수 있습니다. 예를 들어, 프로젝트 목록과 그 설명을 추출하고자 할 때 다음과 같이 설정할 수 있습니다:
from scrapegraphai.graphs import SmartScraperGraph
graph_config = {
"llm": {
"model": "ollama/mistral",
"temperature": 0,
"format": "json",
"base_url": "http://localhost:11434",
},
"embeddings": {
"model": "ollama/nomic-embed-text",
"base_url": "http://localhost:11434",
}
}
smart_scraper_graph = SmartScraperGraph(
prompt="List me all the projects with their description and the author.",
source="https://perinim.github.io/projects",
config=graph_config
)
result = smart_scraper_graph.run()
print(result)
라이선스
ScraperGraphAI는 MIT 라이선스 하에 공개 및 배포되는 오픈소스 프로젝트입니다.
더 읽어보기
프로젝트 홈페이지
사용법 등 문서 사이트
https://scrapegraph-ai.readthedocs.io/en/latest/
GitHub 저장소
https://github.com/VinciGit00/Scrapegraph-ai
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~