이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
AI2 Dolma: 언어 모델 사전 학습을 위한 3조 토큰 오픈 코퍼스 (AI2 Dolma: 3 Trillion Token Open Corpus for Language Model Pretraining)
소개
AI2의 앨런 인스티튜트에서는 대규모 NLP 시스템 연구를 촉진하기 위해 OLMo라는 오픈 언어 모델을 만들고 있습니다. 이 프로젝트의 주요 목표 중 하나는 OLMo를 투명하고 개방적인 방식으로 구축하는 것입니다.
오늘, 앨런 인스티튜트는 이 프로젝트에서 첫 번째 데이터 아티팩트인 Dolma를 출시합니다. Dolma는 웹 콘텐츠, 학술 출판물, 코드, 책, 백과사전 자료의 다양한 혼합에서 3조 토큰의 데이터셋입니다.
주요 내용
1. 프로젝트 목표
OLMo를 어떤 데이터셋으로 학습시킬 것인가? 이것은 프로젝트를 시작할 때 우리가 스스로에게 물었던 첫 번째 질문이었습니다.
우리는 이상적인 데이터셋이 여러 기준을 충족해야 한다고 결정했습니다: 개방성, 대표성, 크기, 재현성, 위험 완화.
2. 데이터셋 디자인 원칙
언어 모델 사전 학습을 위한 코퍼스를 구성할 때 선택할 수 있는 옵션의 수는 어마어마합니다.
Dolma를 만들 때 우리는 결정을 내리기 위해 네 가지 원칙을 사용했습니다: 기존의 관행을 따르다, 평가 스위트를 신뢰하다, 핵심 연구 방향을 돕다, 위험 완화를 위한 피해 기반 접근법을 취하다.
3. Dolma는 어떻게 만들었나요?
Dolma를 만들기 위해서는 여러 출처에서 획득한 원시 데이터를 정제된 일반 텍스트 문서로 변환해야 합니다.
사전 학습 코퍼스 생성은 두 가지 유형의 연산의 조합을 필요로 합니다; 여러 변환은 파이프라인에서 차례로 실행됩니다.
4. Dolma는 비공개 데이터셋과 어떻게 비교되나요?
다음 표는 사전 학습 데이터를 사용할 수 없게 하는 언어 모델의 고수준 요약을 제공합니다.
이 표의 목적은 두 가지입니다. 첫째, 대규모 언어 모델 뒤의 데이터셋 구축에 대한 투명성 부족을 요약하는 것입니다. 둘째, 대표적인 데이터셋을 따르는 공통 관행을 목표로 할 때 이 데이터셋 생성 과정에서 우리가 알고 있었던 (또는 모르고 있었던) 것을 설명하는 것입니다.
5. Dolma는 다른 오픈 데이터셋과 어떻게 비교되나요?
다음 표는 언어 모델 개발을 지원하기 위해 생성되고 출시된 다른 오픈 데이터셋의 고수준 요약을 제공합니다.
Dolma는 두 가지 주요 측면에서 다른 데이터셋과 구별됩니다. 첫째, 그것은 다른 오픈 데이터셋보다 훨씬 큽니다. 둘째, 그것은 AI2의 영향 라이선스 아래 출시되었습니다.
6. Dolma 출시
Dolma는 AI2의 ImpACT 라이선스 아래 중간 위험 아티팩트로 출시됩니다.
이 라이선스에 따라 연구자들은 Dolma에 접근하기 위한 의도된 사용 사례를 밝혀야 합니다.
우리는 Dolma에 관심 있는 모든 연구자들에게 우리의 라이선스 요약과 이 ImpACT 라이선스에 대한 기본서를 참조하도록 권장합니다.