Salesforce, 8k의 긴 시퀀스로 학습된 7B LLM XGen 공개

9bow · 6월 30, 2023, 4:47오전

전통의 CRM 업체인 SFDC(Salesforce.com)도 열심히 모델들을 공개하고 있네요.

BLIP, BLIP-2, InstructBLIP 등과 같은 Vision-Language 모델들을 모은 LAVIS에 이어,
이번에는 LLM쪽에서 새로운 7B짜리 모델 3종을 공개했습니다.

아래 Salesforce에서 공개한 블로그 목차와 요약 부분을 가져왔습니다.
목차를 클릭하시면 원문 블로그로 이동합니다.

XGen을 사용한 긴 시퀀스 모델링: 8K 입력 시퀀스 길이로 학습한 7B LLM (Long Sequence Modeling with XGen: A 7B LLM Trained on 8K Input Sequence Length)

요약 / TLDR

우리는 1.5T 토큰의 데이터를 사용하여 8K 시퀀스 길이를 갖는, XGen-7B라는 이름의 7B짜리 LLM들을 학습했습니다. 또한, 공개된 명령어 데이터로 파인튜닝도 하였습니다. 주요 내용은 다음과 같습니다:

We trained a series of 7B LLMs named XGen-7B with standard dense attention on up to 8K sequence length for up to 1.5T tokens. We also fine tune the models on public-domain instructional data. The main take-aways are:

표준 NLP 벤치마크에서 XGen은 모델 크기가 비슷한 최신 오픈 소스 LLM(예: MPT, Falcon, LLaMA, Redpajama, OpenLLaMA)과 비교했을 때 비슷하거나 더 나은 결과를 보입니다.
긴 시퀀스 모델링 벤치마크에 대한 평가 결과, 2K 및 4K 시퀀스 모델에 비해 8K 시퀀스 모델의 이점을 확인할 수 있었습니다.
XGen-7B는 텍스트(예: MMLU, QA) 및 코드(HumanEval) 작업 모두에서 동등하게 강력한 결과를 달성했습니다.
Google Cloud의 TPU-v4에서 1T 토큰 학습 시 $150,000의 학습 비용이 소모되었습니다.

On standard NLP benchmarks, XGen achieves comparable or better results when compared with state-of-the-art open-source LLMs (e.g. MPT, Falcon, LLaMA, Redpajama, OpenLLaMA) of similar model size.

Our targeted evaluation on long sequence modeling benchmarks show benefits of our 8K-seq models over 2K- and 4K-seq models.

XGen-7B archives equally strong results both in text (e.g., MMLU, QA) and code (HumanEval) tasks.

Training cost of $150K on 1T tokens under Google Cloud pricing for TPU-v4.

코드 저장소 / Codebase: https://github.com/salesforce/xGen
모델 저장소 / Model Checkpoint: https://huggingface.co/Salesforce/xgen-7b-8k-base

사전 학습 시 사용한 Wikipedia 데이터에는 22종의 언어가 포함되어 있다고 하는데, 아쉽게도 한국어는 없네요.

We then chose the top 20% Wikipedia-like documents. For Wikipedia, we cover 22 languages: bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk, ja, zh, more than LLaMA (20 languages) and MPT (English only).

[TLDR] 오늘의 AI 뉴스, 2023-06-29: 오픈AI 런던 사무소

, 오픈 플라밍고 v2

, 세일즈포스, 7억 LLM XGen 출시

읽을거리&정보공유

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. 더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! [TLDR-AI 뉴스 레터 썸네일] 주요 뉴스 & 신규 출시 소식 / Headlines & Launches 오픈 플라밍고 v2 출시 / Open Flamingo v2 released (5 minute read) 플라밍고는 이미지와 텍스트에 대해 작동할 수 있는 딥마인드의 모델입니다. 시각적 질문에 답할 수 있으며 강력한 언어 모델링 성능을 갖추고 있습니다. 이 작업은 이러한 모델을 복제하는 작업입니다. 또한 라이선스 사용 제한이 덜한 MPT와 RedPajama 기본 모델을 사용합니다. 이 복제본은 오리지널 플라밍고보다 약 80% 더 강력합니다. 데모, 코드 및 가중치를 사용할 수 있습니다. Flami…