[GN] RedPajama 3B, 7B 모델 공개

GeekNewsxguru 님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

redpajama

  • 완전한 개방형 언어 모델을 만들기 위한 프로젝트
  • 3주전 공개한 RedPajama-Data-1T 데이터셋을 기반으로 3B(완료), 7B(프리뷰) 파라미터의 RedPajama-INCITE 모델들을 공개
    • Base 모델
    • Instruction-Tuned 모델
    • Chat 모델
  • 3B 모델은 동급에서 가장 강력. 크기가 작아서 빠르고 5년전 출시된 RTX 2070 같은 장비에서도 실행 가능
  • 명령어 튜닝 버전의 7B 모델은 HELM 벤치마크에서 LLaMA 7B 보다 3점 더 높음
  • 7B 모델(훈련 80% 완료)은 이미 Pythia 7B 모델을 뛰어넘음
  • 몇주내로 7B 훈련이 완료되면, LLaMA 7B를 넘어설 것
  • 3B 모델은 8000억개의 토큰으로 안정화 되었고, 7B 모델은 1조개의 토큰으로 훈련완료중이며 개선중

원문

출처 / GeekNews

참고 링크