[GN] Yi - 차세대 오픈소스 2개 언어(bilingual) LLM

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:

Yi - 차세대 오픈소스 2개 언어 LLM

Yi - 차세대 오픈소스 2개 언어 LLM

소개

Yi Chatbot 데모

  • 개발자들에 의해 처음부터 훈련된 차세대 오픈소스 대규모 언어 모델
  • 이중 언어 모델로 목표를 두고 3T 다국어 코퍼스로 훈련되어, 언어 이해, 상식 추론, 독해 능력 등에서 강력한 성능을 보여줌
  • 6B와 34B 사전 훈련된 언어 모델을 기반으로 하며, 챗봇 모델, 200K 긴 컨텍스트 모델, 깊이 업스케일 모델, 비전-언어 모델로 확장
  • Yi-34B-Chat 모델은
    • AlpacaEval 리더보드에서 GPT-4 Turbo에 이어 2위를 차지하며 다른 LLM들을 능가
    • 영어와 중국어 모두에서 기존의 오픈소스 모델들을 능가하며 다양한 벤치마크에서 1위를 차지
  • Llama와 동일한 모델 아키텍처를 채택하고 있지만 Llama의 파생 모델이 아님. Llama의 가중치를 사용하지 않음
  • 다양한 크기로 제공되며, 특정 요구 사항에 맞게 모델을 미세 조정할 수 있음
    • 채팅 모델
      • Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
      • Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
    • 베이스 모델
      • Yi-34B, Yi-34B-200K
      • Yi-9B
      • Yi-6B, Yi-6B-200K

Yi 모델 빠른 시작 (Quickstart)

모델 가중치

Chat models

Model Download
Yi-34B-Chat :hugs: Hugging Face:robot: ModelScope
Yi-34B-Chat-4bits :hugs: Hugging Face:robot: ModelScope
Yi-34B-Chat-8bits :hugs: Hugging Face:robot: ModelScope
Yi-6B-Chat :hugs: Hugging Face:robot: ModelScope
Yi-6B-Chat-4bits :hugs: Hugging Face:robot: ModelScope
Yi-6B-Chat-8bits :hugs: Hugging Face:robot: ModelScope
  • 4-bit series models are quantized by AWQ.
  • 8-bit series models are quantized by GPTQ
  • All quantized models have a low barrier to use since they can be deployed on consumer-grade GPUs (e.g., 3090, 4090).

Base models

Model Download
Yi-34B :hugs: Hugging Face:robot: ModelScope
Yi-34B-200K :hugs: Hugging Face:robot: ModelScope
Yi-9B :hugs: Hugging Face
Yi-6B :hugs: Hugging Face:robot: ModelScope
Yi-6B-200K :hugs: Hugging Face:robot: ModelScope
  • 200k is roughly equivalent to 400,000 Chinese characters.
  • If you want to use the previous version of the Yi-34B-200K (released on Nov 5, 2023), run git checkout 069cd341d60f4ce4b07ec394e82b79e94f656cf to download the weight.

성능 벤치마크

Chat 모델 성능 비교

Base 모델 성능 비교

라이선스

이 저장소의 소스 코드는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. Yi 시리즈 모델은 학술 연구용으로 완전히 개방되어 있으며 상업적 사용은 무료이며, 신청 시 자동으로 허가가 부여됩니다. 모든 사용은 Yi 시리즈 모델 커뮤니티 라이선스 계약 2.1을 준수해야 합니다. 무료 상업적 사용의 경우 이메일을 보내 공식 상업적 허가를 받기만 하면 됩니다.

The source code in this repo is licensed under the Apache 2.0 license. The Yi series models are fully open for academic research and free for commercial use, with automatic permission granted upon application. All usage must adhere to the Yi Series Models Community License Agreement 2.1. For free commercial use, you only need to send an email to get official commercial permission.

Hacker News 의견

  • Yi-34B-Chat 모델은 GPT-4 Turbo에 이어 AlpacaEval 리더보드에서 2위를 차지하며 GPT-4, Mixtral, Claude 등 다른 LLM들을 능가함.
  • Yi-34B 모델은 오픈 소스 모델 중에서 영어와 중국어 벤치마크에서 1위를 차지함. 이는 Hugging Face Open LLM Leaderboard (사전 훈련된 모델)와 C-Eval을 기준으로 함.
  • 저장소의 소스 코드는 Apache 2.0 라이선스를 따르지만, 가중치는 그렇지 않음.
  • Yi 모델은 특정 테스트 프롬프트에서 실패함. 여러 번 시도했지만, Yi는 매번 다른 답 중 하나를 승자로 선택함.
  • "01.ai"라는 이름은 영화 '매트릭스'에서 인류와 전쟁을 벌이고 인간을 노예로 만든 첫 번째 AI 국가의 이름과 같아서 길조가 아님을 암시함.
  • Yi 모델의 성능은 데이터 엔지니어링 노력으로 인한 데이터 품질에 기인함.
  • Yi 34B Chat 모델은 NYT Connections 벤치마크에서 좋은 성적을 내지 못하고 LMSYS Elo 기반 리더보드에서 22위를 기록함. 중국어에서는 더 나은 성능을 보임.
  • 이러한 모델들의 성능이 향상되는 것을 보며, 2-3년 내에 모바일 우선 LLM이 텍스트 음성 변환과 타이핑 예측을 개선하고 배터리 소모도 크게 줄일 것이라는 희망을 갖게 됨.
  • Yi-9B라는 새로운 모델도 있음.

더 읽어보기

기술 문서

GitHub 저장소

출처 / GeekNews