Salesforce, 8k의 긴 시퀀스로 학습된 7B LLM XGen 공개

전통의 CRM 업체인 SFDC(Salesforce.com)도 열심히 모델들을 공개하고 있네요. :clap:

BLIP, BLIP-2, InstructBLIP 등과 같은 Vision-Language:framed_picture::speaking_head: 모델들을 모은 LAVIS에 이어,
이번에는 LLM쪽에서 새로운 7B짜리 모델 3종을 공개했습니다.

image


아래 Salesforce에서 공개한 블로그 목차와 요약 부분을 가져왔습니다.
목차를 클릭하시면 원문 블로그로 이동합니다. :smiley:


XGen을 사용한 긴 시퀀스 모델링: 8K 입력 시퀀스 길이로 학습한 7B LLM (Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length)

목차

  1. 요약 / TLDR
  2. 8K 시퀀스 길이의 XGen-7B가 필요한 이유 / Why XGen-7B with 8K Sequence Length
  3. 사전 학습 데이터 / Pre-training Data
  4. 학습 상세 정보 / Training Details
  5. 표준 벤치마크 결과 / Results on Standard Benchmarks
  6. 긴 시퀀스 생성 결과 / Results on Long Sequence Generation Tasks
  7. 잠재적 위험에 대한 참고 사항 / Note on Potential Risks

요약 / TLDR

우리는 1.5T 토큰의 데이터를 사용하여 8K 시퀀스 길이를 갖는, XGen-7B라는 이름의 7B짜리 LLM들을 학습했습니다. 또한, 공개된 명령어 데이터로 파인튜닝도 하였습니다. 주요 내용은 다음과 같습니다:

We trained a series of 7B LLMs named XGen-7B with standard dense attention on up to 8K sequence length for up to 1.5T tokens. We also fine tune the models on public-domain instructional data. The main take-aways are:

  • 표준 NLP 벤치마크에서 XGen은 모델 크기가 비슷한 최신 오픈 소스 LLM(예: MPT, Falcon, LLaMA, Redpajama, OpenLLaMA)과 비교했을 때 비슷하거나 더 나은 결과를 보입니다.
  • 긴 시퀀스 모델링 벤치마크에 대한 평가 결과, 2K 및 4K 시퀀스 모델에 비해 8K 시퀀스 모델의 이점을 확인할 수 있었습니다.
  • XGen-7B는 텍스트(예: MMLU, QA) 및 코드(HumanEval) 작업 모두에서 동등하게 강력한 결과를 달성했습니다.
  • Google Cloud의 TPU-v4에서 1T 토큰 학습 시 $150,000의 학습 비용이 소모되었습니다.
  • On standard NLP benchmarks, XGen achieves comparable or better results when compared with state-of-the-art open-source LLMs (e.g. MPT, Falcon, LLaMA, Redpajama, OpenLLaMA) of similar model size.
  • Our targeted evaluation on long sequence modeling benchmarks show benefits of our 8K-seq models over 2K- and 4K-seq models.
  • XGen-7B archives equally strong results both in text (e.g., MMLU, QA) and code (HumanEval) tasks.
  • Training cost of $150K on 1T tokens under Google Cloud pricing for TPU-v4.

코드 저장소 / Codebase: https://github.com/salesforce/xGen
모델 저장소 / Model Checkpoint: https://huggingface.co/Salesforce/xgen-7b-8k-base



:heavy_plus_sign: 사전 학습 시 사용한 Wikipedia 데이터에는 22종의 언어가 포함되어 있다고 하는데, 아쉽게도 한국어는 없네요. :cry:

We then chose the top 20% Wikipedia-like documents. For Wikipedia, we cover 22 languages: bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk, ja, zh, more than LLaMA (20 languages) and MPT (English only).