[GN] AI2 Dolma: 언어모델을 위한 3T 토큰 오픈 코퍼스

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • Allen Institute for AI 가 만드는 데이터셋
  • 웹 콘텐츠, 학술 간행물, 코드, 서적 및 백과사전 자료의 믹스
  • 3조(Trillion)개로 현재까지 공개된 것중 가장 큰 규모의 데이터 셋
  • HuggingFace 허브에서 다운로드 가능
  • AI2 ImpACT 라이센스(Artifact의 Risk에 따라 Low/Medium/High로 구분)

원문

출처 / GeekNews

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

AI2 Dolma: 언어 모델 사전 학습을 위한 3조 토큰 오픈 코퍼스 (AI2 Dolma: 3 Trillion Token Open Corpus for Language Model Pretraining)

소개

  • AI2의 앨런 인스티튜트에서는 대규모 NLP 시스템 연구를 촉진하기 위해 OLMo라는 오픈 언어 모델을 만들고 있습니다. 이 프로젝트의 주요 목표 중 하나는 OLMo를 투명하고 개방적인 방식으로 구축하는 것입니다.
  • 오늘, 앨런 인스티튜트는 이 프로젝트에서 첫 번째 데이터 아티팩트인 Dolma를 출시합니다. Dolma는 웹 콘텐츠, 학술 출판물, 코드, 책, 백과사전 자료의 다양한 혼합에서 3조 토큰의 데이터셋입니다.

주요 내용

1. 프로젝트 목표

  • OLMo를 어떤 데이터셋으로 학습시킬 것인가? 이것은 프로젝트를 시작할 때 우리가 스스로에게 물었던 첫 번째 질문이었습니다.
  • 우리는 이상적인 데이터셋이 여러 기준을 충족해야 한다고 결정했습니다: 개방성, 대표성, 크기, 재현성, 위험 완화.

2. 데이터셋 디자인 원칙

  • 언어 모델 사전 학습을 위한 코퍼스를 구성할 때 선택할 수 있는 옵션의 수는 어마어마합니다.
  • Dolma를 만들 때 우리는 결정을 내리기 위해 네 가지 원칙을 사용했습니다: 기존의 관행을 따르다, 평가 스위트를 신뢰하다, 핵심 연구 방향을 돕다, 위험 완화를 위한 피해 기반 접근법을 취하다.

3. Dolma는 어떻게 만들었나요?

  • Dolma를 만들기 위해서는 여러 출처에서 획득한 원시 데이터를 정제된 일반 텍스트 문서로 변환해야 합니다.
  • 사전 학습 코퍼스 생성은 두 가지 유형의 연산의 조합을 필요로 합니다; 여러 변환은 파이프라인에서 차례로 실행됩니다.

4. Dolma는 비공개 데이터셋과 어떻게 비교되나요?

  • 다음 표는 사전 학습 데이터를 사용할 수 없게 하는 언어 모델의 고수준 요약을 제공합니다.
  • 이 표의 목적은 두 가지입니다. 첫째, 대규모 언어 모델 뒤의 데이터셋 구축에 대한 투명성 부족을 요약하는 것입니다. 둘째, 대표적인 데이터셋을 따르는 공통 관행을 목표로 할 때 이 데이터셋 생성 과정에서 우리가 알고 있었던 (또는 모르고 있었던) 것을 설명하는 것입니다.

5. Dolma는 다른 오픈 데이터셋과 어떻게 비교되나요?

  • 다음 표는 언어 모델 개발을 지원하기 위해 생성되고 출시된 다른 오픈 데이터셋의 고수준 요약을 제공합니다.
  • Dolma는 두 가지 주요 측면에서 다른 데이터셋과 구별됩니다. 첫째, 그것은 다른 오픈 데이터셋보다 훨씬 큽니다. 둘째, 그것은 AI2의 영향 라이선스 아래 출시되었습니다.

6. Dolma 출시

  • Dolma는 AI2의 ImpACT 라이선스 아래 중간 위험 아티팩트로 출시됩니다.
  • 이 라이선스에 따라 연구자들은 Dolma에 접근하기 위한 의도된 사용 사례를 밝혀야 합니다.
  • 우리는 Dolma에 관심 있는 모든 연구자들에게 우리의 라이선스 요약과 이 ImpACT 라이선스에 대한 기본서를 참조하도록 권장합니다.

더 읽어보기

AI2 Blog

https://ai2blog.medium.com/

HuggingFace Hub

Datasheets for Datasets, Gebru et al, 2018

https://www.researchgate.net/publication/328160565_Datasheets_for_Datasets

OLMo project page

https://allenai.org/research/publications/olmo

원문