[GN] RedPajama - LLaMA 데이터셋을 재작성하는 오픈소스 프로젝트

GeekNews xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. ^^


소개

  • LLaMA, Alpaca, Vicuna 같은 반개방형 모델이 아니라 재현가능하고 완전한 개방형 언어 모델을 만들기 위한 프로젝트
  • 3가지 구성요소
    • 높은 품질과 넓은 커버리지를 가진 Pre-Training 데이터
    • 이 데이터 기반으로 대규모로 학습된 베이스 모델
    • 베이스 보델은 안전하고 사용가능하게 만들기 위한 인스트럭션 튜닝 데이터와 모델
  • 첫번째 컴포넌트로 RedPajama-Data-1T 데이터셋을 공개
    • LLaMA 논문에 설명된 레시피에 따라서 생성한 1.2조개의 토큰으로 구성된 완전 개방형 데이터 셋
    • HuggingFace를 통해 다운로드 가능. 전체 5TB(3TB로 압축하여 배포)
    • 7개의 데이터 조각으로 구성 : 각각 전처리와 필터링하여 LLaMA 논문과 비슷한 갯수로 구성(전처리 방법 및 필터 역시 GitHub에 공개)
      • CommonCrawl (878b) - 웹 크롤링 데이터
      • C4 (175b) - Colossal, Cleaned version of Common Crawl
      • GitHub (59b) - 라이센스와 품질로 필터링된 GitHub의 데이터
      • arXiv (28b) - 과학 논문과 기사들 (boilerplate 제거)
      • Books (26b) - 콘텐츠 유사성에 따라서 중복을 제거한 공개 서적 Corpus
      • Wikipedia (24b) - 위키피디어의 일부 페이지들 (boilerplate 제거)
      • StackExchange (20b) - 스택익스체인지의 일부 페이지들 (boilerplate 제거)
  • 다음 단계는 강력한 베이스모델을 훈련하는 것. 몇주내로 공개 예정
  • 명령어 튜닝은 OpenChatkit을 통해서 제공된 것으로 할 예정

원문

출처