[GN] AI2 Dolma: 언어모델을 위한 3T 토큰 오픈 코퍼스

9bow · 8월 25, 2023, 2:31오전

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

Allen Institute for AI 가 만드는 데이터셋
웹 콘텐츠, 학술 간행물, 코드, 서적 및 백과사전 자료의 믹스
3조(Trillion)개로 현재까지 공개된 것중 가장 큰 규모의 데이터 셋
HuggingFace 허브에서 다운로드 가능
AI2 ImpACT 라이센스(Artifact의 Risk에 따라 Low/Medium/High로 구분)

원문

출처 / GeekNews

[TLDR] 오늘의 AI 뉴스, 2023-08-21: OpenAI 콘텐츠 조정

, 토큰 3조개짜리 데이터셋

, 새로운 환경에서의 3D 감지

읽을거리&정보공유

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. 더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! [TLDR-AI 뉴스 레터 썸네일] 주요 뉴스 & 신규 출시 소식 / Headlines & Launches 토큰 3조개 규모의 오픈 토큰 데이터셋 출시 / 3 trillion open token dataset released (4 minute read) 오픈 데이터셋은 많지만 프론티어 모델을 학습시키기에 충분한 규모의 데이터셋은 거의 없습니다. 앨런 인공지능 연구소의 돌마(Dolma) 데이터셋은 연구자들이 대규모로 데이터 효과를 연구할 수 있도록 하는 것을 목표로 합니다. There are many open datasets, but few of sufficient scale to train a fro…

9bow · 8월 25, 2023, 2:36오전

이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!

AI2 Dolma: 언어 모델 사전 학습을 위한 3조 토큰 오픈 코퍼스 (AI2 Dolma: 3 Trillion Token Open Corpus for Language Model Pretraining)

소개

AI2의 앨런 인스티튜트에서는 대규모 NLP 시스템 연구를 촉진하기 위해 OLMo라는 오픈 언어 모델을 만들고 있습니다. 이 프로젝트의 주요 목표 중 하나는 OLMo를 투명하고 개방적인 방식으로 구축하는 것입니다.
오늘, 앨런 인스티튜트는 이 프로젝트에서 첫 번째 데이터 아티팩트인 Dolma를 출시합니다. Dolma는 웹 콘텐츠, 학술 출판물, 코드, 책, 백과사전 자료의 다양한 혼합에서 3조 토큰의 데이터셋입니다.

주요 내용

1. 프로젝트 목표

OLMo를 어떤 데이터셋으로 학습시킬 것인가? 이것은 프로젝트를 시작할 때 우리가 스스로에게 물었던 첫 번째 질문이었습니다.
우리는 이상적인 데이터셋이 여러 기준을 충족해야 한다고 결정했습니다: 개방성, 대표성, 크기, 재현성, 위험 완화.

2. 데이터셋 디자인 원칙

언어 모델 사전 학습을 위한 코퍼스를 구성할 때 선택할 수 있는 옵션의 수는 어마어마합니다.
Dolma를 만들 때 우리는 결정을 내리기 위해 네 가지 원칙을 사용했습니다: 기존의 관행을 따르다, 평가 스위트를 신뢰하다, 핵심 연구 방향을 돕다, 위험 완화를 위한 피해 기반 접근법을 취하다.

3. Dolma는 어떻게 만들었나요?

Dolma를 만들기 위해서는 여러 출처에서 획득한 원시 데이터를 정제된 일반 텍스트 문서로 변환해야 합니다.
사전 학습 코퍼스 생성은 두 가지 유형의 연산의 조합을 필요로 합니다; 여러 변환은 파이프라인에서 차례로 실행됩니다.

4. Dolma는 비공개 데이터셋과 어떻게 비교되나요?

다음 표는 사전 학습 데이터를 사용할 수 없게 하는 언어 모델의 고수준 요약을 제공합니다.
이 표의 목적은 두 가지입니다. 첫째, 대규모 언어 모델 뒤의 데이터셋 구축에 대한 투명성 부족을 요약하는 것입니다. 둘째, 대표적인 데이터셋을 따르는 공통 관행을 목표로 할 때 이 데이터셋 생성 과정에서 우리가 알고 있었던 (또는 모르고 있었던) 것을 설명하는 것입니다.

5. Dolma는 다른 오픈 데이터셋과 어떻게 비교되나요?

다음 표는 언어 모델 개발을 지원하기 위해 생성되고 출시된 다른 오픈 데이터셋의 고수준 요약을 제공합니다.
Dolma는 두 가지 주요 측면에서 다른 데이터셋과 구별됩니다. 첫째, 그것은 다른 오픈 데이터셋보다 훨씬 큽니다. 둘째, 그것은 AI2의 영향 라이선스 아래 출시되었습니다.

6. Dolma 출시

Dolma는 AI2의 ImpACT 라이선스 아래 중간 위험 아티팩트로 출시됩니다.
이 라이선스에 따라 연구자들은 Dolma에 접근하기 위한 의도된 사용 사례를 밝혀야 합니다.
우리는 Dolma에 관심 있는 모든 연구자들에게 우리의 라이선스 요약과 이 ImpACT 라이선스에 대한 기본서를 참조하도록 권장합니다.

더 읽어보기

AI2 Blog

https://ai2blog.medium.com/

HuggingFace Hub

Datasheets for Datasets, Gebru et al, 2018

https://www.researchgate.net/publication/328160565_Datasheets_for_Datasets

OLMo project page

https://allenai.org/research/publications/olmo