[GN] 오픈소스 언어 모델의 현재

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • LLaMA 2 출시후 더 뜨거워짐
    • 거의 모든 오픈소스 모델 그룹들이 새로운 베이스 모델로 자신의 모델을 업데이트
      • WizardLM, Airoboros, Hermes 등
    • 현재 가장 강력한 모델은 StabilityAI의 Stable Beluga 2
      • Llama2 70B 모델을 Orca 스타일 데이터셋으로 파인 튜닝
      • ChatGPT 와 비교 가능
  • Long 모델들
    • LLaMA 7B 16K, LLaMA 13B 16K, LLaMA 7B 32K
  • 작지만 강력한 모델들
    • 7B 만큼 강력한 3B 파라미터 모델들
    • 아직 한계에 도달하지 않았고, 더 나아가야 할 것이 많음
    • SlimPajama, SwiGLU, ALiBI, Variable Sequence Length, Maximal update parameterization (muP)
  • 오픈모델이 MMLU 에서 ChatGPT를 이기다 : llama-2-70b-guanaco-qlora
  • Multi-Turn 채팅 : llama2-13b-orca-8k-3319
  • 중국 모델들이 싸우는중 : CodeGeex2
  • 오픈 모델이 ChatGPT 수준에 도달했나?
    • 아직, 하지만 곧 도달할 수도

원문

https://twitter.com/Yampeleg/status/1685539560975933441

출처 / GeekNews

위 트윗에 언급된 모델들을 정리해봤습니다.


Model 제목 모델 설명 URL
New WizardLM model An updated version of the WizardLM model. Link
New Airoboros model An updated version of the Airoboros model. Link
New Hermes model An updated version of the Hermes model. Link
Stable Beluga 2 A powerful model comparable to ChatGPT in most measurable metrics. Link
LLaMA 7B 16K A longer version of the base model with extended context window length. Link
LLaMA 13B 16K Another longer version of the base model with extended context window length. Link
LLaMA 7B 32K A longer version of the base model with even more extended context window length. Link
BTLM-8K-Base A 3B-parameter model as powerful as a 7B model, with various training tricks. Link
Open model A model that defeated ChatGPT at MMLU. Link
Multi-Turn Chat model A model trained for multi-turn long chats according to Orca's methods. Link
CodeGeex2 A powerful programming model with a size of 6B parameters and high HumanEval score. Link

New WizardLM model

  • WizardLM 모델의 업데이트 버전

New Airoboros model

  • Airoboros 모델의 업데이트 버전

New Hermes model

  • Hermes 모델의 업데이트 버전

Stable Beluga 2

  • 대부분의 측정 가능한 지표에서 ChatGPT와 비교할 수 있는 강력한 모델

LLaMA 7B 16K

  • 확장된 컨텍스트 창 길이를 가진 기본 모델의 긴 버전

LLaMA 13B 16K

  • 더 긴 컨텍스트 창 길이를 가진 기본 모델의 또 다른 긴 버전

LLaMA 7B 32K

  • 더욱 확장된 컨텍스트 창 길이를 가진 기본 모델의 긴 버전

BTLM-8K-Base

  • 7B 모델만큼 강력한 3B 파라미터 모델로, 다양한 훈련 트릭이 있습니다.

Open model

  • MMLU에서 ChatGPT를 이긴 모델

Multi-Turn Chat model

  • Orca의 방법에 따라 훈련된 다중 턴 긴 채팅을 위한 모델

CodeGeex2

  • 6B 파라미터의 작은 크기와 높은 HumanEval 점수를 가진 강력한 프로그래밍 모델