Persimmon 8B: Adept가 공개한 새로운 LLM 모델 (Persimmon 8B: Adept's New LLM Model)

개요

  • Adept는 인공 지능 분야에서 주요 연구 및 개발을 하는 회사로, 최근에는 생성형 AI 모델에 중점을 둔 연구를 진행하고 있습니다.
  • 이번에 Adept에서는 새로운 생성형 AI 모델인 "Persimmon 8B"를 발표했으며, 이 LLM 모델에 대한 소개와 그 특징을 살펴봅니다.

Persimmon 8B 모델

  • Adept는 Persimmon 8B라는 80억개의 매개변수를 갖는 새로운 LLM을 Apache 라이선스로 공개하였습니다.
  • 이 모델은 다양한 언어 작업에 사용될 수 있으며, 특히 자연어 처리 분야에서 뛰어난 성능을 보여줍니다.
    • Persimmons-8B 모델의 주요 수치들은 아래와 같습니다:
      image
      • 컨텍스트 크기: 16K (=16,384)
      • 학습 토큰: 737B

모델의 주요 특징

  • 다른 오픈소스 모델에 비해 더 긴 컨텍스트 크기 (16k)

    • 16K의 컨텍스트 크기로 학습하여, LLaMA2, GPT3, MPT 등에 비해 약 4배 가량 더 큰 컨텍스트 크기를 가집니다.
  • 다른 용도(예. 멀티모덜 등)로의 사용을 위해 7만개(70k)의 사용하지 않은 임베딩을 포함하고 있습니다.

  • 10억개 미만의 매개변수를 갖는 오픈소스 언어 모델들 중 가장 뛰어난 성능을 보입니다.
    image

  • 다양한 학습 데이터셋을 사용하여 학습되었으며, 이를 통해 다양한 언어 작업에 뛰어난 성능을 보여줍니다.

    • LLaMA2 보다 0.37배만큼 적은 데이터로 학습하였으나 성능은 비슷합니다.
  • Python과 함께 C++로 구현된 추론 코드를 배포하고 있어 빠른 속도와 유연성을 갖습니다.

  • 모델은 사용자의 질문에 대한 답변 생성, 문장 완성, 텍스트 생성 등 다양한 작업을 수행할 수 있습니다.

더 읽어보기

Adept 홈페이지

  • Adept의 다양한 연구 및 개발 프로젝트에 대한 자세한 정보를 얻을 수 있습니다.

Persimmon-8B 모델 가중치

GitHub 저장소

  • 추론 코드 및 사용법을 소개하고 있습니다.

FasterTransformer 저장소

  • NVIDIA의 FasterTransformer 저장소입니다.

다른 언어모델

  • Meta AI의 LLaMA 2 모델
  • MosaicML의 MPT-7B 모델

원문