ScrapeGraphAI: AI 기반 Web 스크래핑 도구

ScrapeGraphAI: AI 기반 Web 스크래핑 도구

소개

ScrapeGraphAI는 웹 스크래핑을 위한 파이썬 라이브러리로, LLM(Large Language Models)과 직접 그래프 로직을 활용해 웹사이트, 문서, XML 파일로부터 정보를 추출하는 파이프라인을 구축할 수 있는 파이썬 기반의 웹 스크래핑 라이브러리입니다. 이 라이브러리는 복잡한 웹사이트 구조에서도 유용한 데이터를 효과적으로 추출할 수 있는 기능을 제공하며, Playwright를 통해 JavaScript가 포함된 페이지에서도 사용이 가능합니다.

또한, ScrapeGraphAI는 다른 웹 스크래핑 라이브러리와 비교하여 LLM 기반의 분석과 그래프 로직을 통해 더 정교하고 효율적인 데이터 추출이 가능하다는 강점이 있습니다. 특히 복잡한 데이터 구조에서의 효율적인 정보 추출이 가능하며, 사용자 친화적인 API를 제공합니다.

주요 특징

  • LLM 및 직접 그래프 사용: LLM을 사용하여 웹 데이터를 분석하고, 직접 그래프 로직을 통해 필요한 데이터만을 선별하여 추출합니다.
  • 다양한 모델과의 호환성: Ollama, Docker, OpenAI, Groq, Azure 및 Gemini 등 다양한 환경에서 모델을 사용하여 정보를 추출할 수 있습니다.
  • 사용 편의성: 간단한 명령어 입력만으로 웹사이트에서 필요한 정보를 추출할 수 있으며, 스크래핑 과정을 자동화하여 효율성을 높였습니다.

사용 방법

ScrapeGraphAI는 SmartScraperGraph 클래스를 통해 웹사이트에서 정보를 추출합니다. 사용자는 특정 웹사이트 URL과 함께 추출하고자 하는 정보에 대한 프롬프트를 설정할 수 있습니다. 예를 들어, 프로젝트 목록과 그 설명을 추출하고자 할 때 다음과 같이 설정할 수 있습니다:

from scrapegraphai.graphs import SmartScraperGraph

graph_config = {
    "llm": {
        "model": "ollama/mistral",
        "temperature": 0,
        "format": "json",
        "base_url": "http://localhost:11434",
    },
    "embeddings": {
        "model": "ollama/nomic-embed-text",
        "base_url": "http://localhost:11434",
    }
}

smart_scraper_graph = SmartScraperGraph(
    prompt="List me all the projects with their description and the author.",
    source="https://perinim.github.io/projects",
    config=graph_config
)

result = smart_scraper_graph.run()
print(result)

라이선스

ScraperGraphAI는 MIT 라이선스 하에 공개 및 배포되는 오픈소스 프로젝트입니다.

더 읽어보기

프로젝트 홈페이지

사용법 등 문서 사이트

https://scrapegraph-ai.readthedocs.io/en/latest/

GitHub 저장소




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

이거 저도 몇일 전에 알게 되었는데 쓰보고 싶네요. 누가 UI좀 만들어 주면 좋겠네여. 파이썬 주피터 노트북에서 사용하는게 아니라. 그런데 서양 애들이 왜 이 스크랩 툴에 문어를 로고로 그렸는지 이해를 못하더라고요.. 문화적 차이입니다. 한국이나 극동아시아에서는 문어발이 무슨 상징인지 아는데 서양애들은 이게 무슨 뜻인지 모르는 것같더군요.

이 라이브러리 UI를 찾았는데 누가 streamlit으로 이미 만들어 놨네요.

그런데 데모말고 open Source 배포판좀 만들어 주면 안되나요?