[GN⁺] GPTBot - OpenAI의 웹 크롤러

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
  • OpenAI가 개발한 웹 크롤러인 GPTBot 소개글
  • "GPTBot" 이라는 유저 에이전트 토큰 및 전체 유저 에이전트 문자열로 식별 가능
  • GPTBot이 크롤링한 웹 페이지는 미래의 AI 모델 개선에 사용될 수 있음
  • 크롤러는 페이월 접근이 필요한 소스, 개인 식별 정보(PII) 수집한다고 알려진 곳, OpenAI 정책을 위반하는 텍스트를 필터링함
  • GPTBot에 사이트 접근을 허용하면 AI 모델의 정확성, 일반 기능, 안전성 향상에 도움이 될 수 있음
  • 사이트의 robots.txt에 GPTBot을 추가하여 사이트 접근을 방지 가능하며, 사이트의 특정 디렉토리에 대한 GPTBot의 접근 허용도 가능
  • 크롤러가 사용하는 IP egress 범위는 OpenAI 웹사이트에 별도로 명시 되어있음

원문

https://platform.openai.com/docs/gptbot

출처 / GeekNews