Cloudflare, AI Bot들(Scraper&Crawler)을 한 번에 차단하는 새로운 기능 도입 (feat. AI 독립선언, AI Independence)

들어가며 :pytorch::kr:

LLM이 학습하는 데이터를 비롯하여, 최근 RAG 등을 위해 웹 사이트에서 데이터를 수집하는 AI 봇(bot)들이 늘어가고 있습니다. 이러한 AI 봇은 기존의 검색엔진과 다르게 데이터만 수집할 뿐 사용자를 직접 사이트로 연결해주거나 하지 않기 때문에 약탈적이라고 보는 시각도 있습니다. :see_no_evil:

이와 관련하여 최근 Cloudflare는 모든 사용자, 특히 무료 요금제 사용자들도 간단한 클릭만으로 AI 봇을 차단할 수 있는 기능을 제공하기 시작했습니다. LLM이 학습할 수 있는 콘텐츠 자체가 부족해질 수 있고, Web이 점차 합성 데이터로 차오르고 있다는 걱정이 있는 가운데, 이러한 방식이 창작자들에게 도움이 될 수 있을지 궁금합니다. 옛날옛적 Daum의 인터넷 우표제와 같은 것이 되지는 않을지 하는 생각도 들기도 하고요. :sweat_smile:

소개

Cloudflare는 최근 사용자가 AI 봇(bot), 스크래퍼(scraper) 및 크롤러(crawler)를 한 번의 클릭으로 차단할 수 있는 새로운 기능을 도입했습니다. AI 봇은 종종 웹사이트의 컨텐츠를 무단으로 스크래핑하여 자신들의 모델을 훈련시키거나 추론에 사용합니다. 이런 불법적인 활동을 방지하고자, Cloudflare는 AI 봇을 차단할 수 있는 기능을 모든 사용자에게 제공하며, 이는 특히 콘텐츠 창작자들에게 중요한 보호막이 될 수 있습니다.

다양한 AI 봇이 Cloudflare의 네트워크를 통해 활동하고 있으며, 가장 많이 요청을 보내는 AI 봇으로는 ByteDance의 Bytespider, Amazonbot, ClaudeBot, GPTBot 등이 있습니다. 특히 Bytespider는 인터넷 속성을 광범위하게 크롤링하며 차단 빈도가 높은 편입니다. GPTBot은 OpenAI에서 운영하며 ChatGPT와 같은 AI 제품의 학습 데이터를 수집합니다. 이러한 차단 기능은 기존에도 Cloudflare에서 사용할 수 있었는데, 이전에는 특정 봇 카테고리들을 따로 사용자가 지정해야 했던 것에 비해 이번에는 원클릭으로 간편하게 막을 수 있는 것이 특징입니다.

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

이러한 AI 봇 차단 기능은 기존의 robot.txt 파일에 의존하는 방법보다 더 강력합니다. 대다수의 AI 봇들이 robot.txt 파일을 준수하지만, 일부 봇이나 크롤러들은 이를 무시하곤 합니다. Cloudflare의 새로운 기능은 AI 봇이 이를 무시하더라도 차단할 수 있습니다.

Cloudflare 대시보드의 "Security > Bots" 섹션에서 "AI Scrapers and Crawlers" 토글을 클릭하여 활성화할 수 있습니다. 이 기능은 자동으로 AI 봇을 감지하고 차단합니다.


이를 통해 Cloudflare가 제공하는 주요 기능은 다음과 같습니다:

  • AI 봇 차단: 모든 AI 봇을 한 번의 클릭으로 차단 가능

  • 실시간 업데이트: 새로운 봇 지문이 감지될 때마다 자동으로 업데이트

  • 포괄적인 분석: Cloudflare 네트워크를 통해 AI 크롤러 활동을 지속적으로 모니터링

AI 봇의 불법적 활동을 감지하고 차단하는 것은 Cloudflare의 글로벌 신호를 활용하여 가능하며, 이를 통해 새로운 스크래핑 도구를 신속하게 탐지할 수 있습니다. AI 봇의 비정상적인 행동을 신고하고 싶은 경우 보고 도구를 통해 신고할 수 있습니다.

원문 보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: