[GN] MosaicML, MPT-7B-8K 모델 공개

9bow · 7월 21, 2023, 4:18오전

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

8k 컨텍스트 길이를 지원하는 7B 파라미터 오픈소스 LLM
MPT-7B에 추가로 500B 토큰 데이터를 이용해 256개의 NVidia H100 으로 3일간 트레이닝
3개의 모델을 공개 : MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
상업적 용도로 사용 가능
ALiBi(Attention with Linear Biases Enables Input Length Extrapolation) 로 8k 입력 지원
FlashAttention 과 FasterTrasformer 로 빠른 훈련과 추론

원문

https://www.mosaicml.com/blog/long-context-mpt-7b-8k

출처 / GeekNews

[TLDR] 오늘의 AI 뉴스, 2023-07-19: 라마 2

, AI가 만든 TV 쇼

, 트랜스포머 경쟁자 RetentiveNet

읽을거리&정보공유

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. 더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! [TLDR-AI 뉴스 레터 썸네일] 주요 뉴스 & 신규 출시 소식 / Headlines & Launches 라마 2 / Llama 2 (6 minute read) 메타:meta_logo:의 매우 인기 있는 라마 모델의 상업적 라이선스 버전이 출시되었습니다. 2T 토큰으로 학습되었으며 최대 70억 개의 매개변수를 가진 모델이 포함되어 있습니다. 블로그에 링크된 논문에는 커뮤니티에서 추측했지만 확인되지 않았던 풍부한 세부 사항과 인상적인 정보가 포함되어 있으며, 그 중 가장 중요한 내용은 보상 모델을 올바르게 학습하는 절대적인 기본 특성에 관한 것입니다. 보상 모델을 올바르게 학습하는 것은 생각보다 어렵습니…

더 읽어보기

[GN] FlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진 Attention 읽을거리&정보공유

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. 소개 [image] GPT-4(32k), MPT(65k), Calude(100k) 등 더 긴 컨텍스트를 가진 언어모델이 출현 트랜스포머의 컨텍스트 길이를 확장하는 것은 런타임&메모리 요구사항이 4제곱으로 증가하기 때문에 어려움 작년에 출시한 FlashAttention은 메모리 사용량을 줄이고 어텐션 속도를 증가시켜서 다양한 곳에서 이용됨 출시 당시에 이미 2~4배 빨랐지만, 아직 개선할 여지가 있음. 최적화된 행렬 곱 연산(GEMM)에 비해 여전히 빠르지 않고, 이론상 최대 FLOPs/s 의 25~40%에 불과(A100 GPU에서 최대 124 TFLOPs/s) FlashAttention-2는 이전 버전보다 2배 빠르고, A100 GPU에서 최대 230 TFLOP/s 의 성능을 제공 GPT 형태의 언어모델 훈련에서는 최대 225 TFLOPS까지…