9bow
(박정환)
1
GeekNews의 xguru 님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. 
소개

- 완전한 개방형 언어 모델을 만들기 위한 프로젝트
- 3주전 공개한 RedPajama-Data-1T 데이터셋을 기반으로 3B(완료), 7B(프리뷰) 파라미터의 RedPajama-INCITE 모델들을 공개
- Base 모델
- Instruction-Tuned 모델
- Chat 모델
- 3B 모델은 동급에서 가장 강력. 크기가 작아서 빠르고 5년전 출시된 RTX 2070 같은 장비에서도 실행 가능
- 명령어 튜닝 버전의 7B 모델은 HELM 벤치마크에서 LLaMA 7B 보다 3점 더 높음
- 7B 모델(훈련 80% 완료)은 이미 Pythia 7B 모델을 뛰어넘음
- 몇주내로 7B 훈련이 완료되면, LLaMA 7B를 넘어설 것
- 3B 모델은 8000억개의 토큰으로 안정화 되었고, 7B 모델은 1조개의 토큰으로 훈련완료중이며 개선중
원문
참고 링크