Apple의 DCLM(DataComp-LM) 소개
DCLM-7B는 Apple이 공개한 7B 규모의 크기를 갖는 대규모 언어 모델(LLM, Large Language Model)입니다. 주로 영어 데이터를 기반으로 학습되었으며, PyTorch와 OpenLM을 사용하여 최적화되었습니다. 이 모델은 다양한 언어 처리 작업에서 뛰어난 성능을 보여주며, 특히 데이터 컴프레션 기술을 활용해 성능을 극대화했습니다.
DCLM-7B는 Llama2, DeepSeek, Mistral-0.3 등 다른 7-8B 규모의 모델들과 비교하여 높은 성능을 자랑합니다. 기준 데이터셋인 DCLM-BASELINE은 데이터 큐레이션 전략의 효과를 입증하며 모델 성능을 크게 향상시킵니다. DCLM-BASELINE은 MMLU 벤치마크에서 64% 5-shot 정확도를 달성하여 공개 데이터 LLM 중 최첨단 성능을 설정합니다. 이 성능은 훨씬 더 많은 계산을 사용하는 Mistral-7B-v0.3 및 Llama 3 8B와 같은 모델과 비교할 수 있습니다. DCLM-BASELINE은 이러한 결과를 40% 적은 계산으로 달성하여, 고품질 데이터셋이 LLM 학습에서 얼마나 중요한지를 보여줍니다.
Apple이 이번에 공개한 모델은 2k와 8k의 2종류의 컨텍스트 길이(Context Length)를 갖습니다. 자세한 모델 정보는 다음과 같습니다:
Size | Training Tokens | Layers | Hidden Size | Attention Heads | Context Length |
---|---|---|---|---|---|
7B | 2.5T | 32 | 4096 | 32 | 2048 |
7B | 2.6T | 32 | 4096 | 32 | 8192 |
위 그림은 DataComp-LM(DCLM) 학습 과정(workflow)에 대한 개요입니다. (A) 먼저 적절한 규모(scale)를 선택 후, 이러한 규모를 학습 토큰 및 모델 크기에 반영합니다. (B) 이후, 데이터 풀을 필터링하거나(Filtering Track), 자체 데이터를 혼합하여(Mixing Track) 데이터셋을 만듭니다. (C) 이렇게 선별된 데이터셋을 사용하여 표준화된 학습 코드와 규모별 하이퍼파라매터로 모델을 학습한 뒤, (D) 53개의 세부작업(Downstream Task)에 맞춰 평가하여 데이터셋의 품질을 판단합니다.
DCLM 모델 및 학습 상세
DataComp-LM은 학습 데이터셋을 개선하여 더 나은 모델을 더 낮은 비용으로 학습할 수 있습니다. DataComp-LM을 사용하여 더 고품질의 데이터셋인 DCLM-BASEINE을 만든 뒤, 이를 사용하여 연산(Computing)과 성능(Performance) 간의 균형점(trade-offs)를 찾습니다. DCLM-BASELINE으로 학습 시 비공개 모델(X표) 및 공개 모델(O표) 모두에 비해 더 나은 성능을 보입니다.
모델 개요
-
파라미터 수: 7B
-
학습 데이터: 2.5T의 토큰
-
모델 구조: 디코더 전용 트랜스포머
-
사용 언어: (대부분) 영어
학습 개요
학습과 관련 상세 정보는 논문의 3.4 섹션 및 부록 F를 참고해주세요. 학습 데이터는 3.8T 규모의 DCLM-BASELINE에 StarCoder 및 ProofPile2 데이터를 합쳐서 4.1T 토큰 규모의 데이터셋을 만들어 수학 및 코딩 작업을 포함하여 광범위하게 사용할 수 있도록 하였습니다. 컨텍스트 길이 8k 모델은 동일한 데이터셋에 대해 Dataset Decomposition 기법을 적용하여 컨텍스트 길이를 확장하였습니다:
-
옵티마이저: AdamW
-
학습률(LR): (최대 기준) 2e-3
-
Weight Decay: 0.05
-
배치 크기: 2048 시퀀스
-
시퀀스 길이: 2048 및 8192 토큰
-
총 훈련 토큰: 2.5T 및 2.6T 토큰
-
하드웨어: H100 GPU에서 학습
사용 시 주의사항
제한 사항 및 편향 (Limitations and Biases)
DCLM-7B 모델은 강력한 성능을 보이지만, 다음과 같은 제한 사항이 있습니다:
- 모델은 웹 크롤링 데이터에서 비롯된 편향을 포함할 수 있습니다.
- 특정 정렬 또는 안전 미세 조정을 거치지 않았기 때문에 출력 사용 시 주의가 필요합니다.
- 평가에 포함되지 않은 작업에 대한 성능은 다를 수 있습니다.
- 모델의 지식은 훈련 데이터의 컷오프 날짜로 제한됩니다.
윤리적 고려 사항 (Ethical Considerations)
DCLM-7B 모델은 잠재적으로 해로운 또는 편향된 콘텐츠를 생성할 수 있으며, 민감한 애플리케이션이나 개인에 대한 결정을 내리는 데 사용해서는 안 됩니다. 적절한 안전 장치와 인간의 감독이 필요합니다.
라이선스
DCLM 모델 코드는 MIT 라이선스 하에 공개되어있습니다. 모델 가중치는 Apple Sample Code License로 공개되어 있습니다.
DataComp-LM 논문
DataComp-LM 모델 저장소
https://github.com/mlfoundations/dclm
DataComp-LM 모델 가중치
DCLM(DataComp-LM) 7B w/ 2k Context Length
DCLM(DataComp-LM) 7B w/ 8k Context Length
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~