[GN⁺] Mistral 7B, MistalAI이 제한없이 사용할 수 있도록 공개한 LLM

9bow · 10월 1, 2023, 12:35오후

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

현재까지 가장 강력한 언어 모델
7.3B 파라미터 모델로, 모든 벤치마크에서 Llama 2 13B를, 많은 벤치마크에서는 Llama 1 34B를 능가
더 빠른 추론을 위한 Grouped-query attention (GQA)과 더 작은 비용으로 더 긴 시퀀스를 처리하기 위한 Sliding Window Attention (SWA)를 사용
Apache 2.0 라이선스로, 제한 없이 사용 가능
어떤 클라우드(AWS/GCP/Azure)에서도 vLLM 추론 서버와 skypilot를 사용하여 배포할 수 있으며, HuggingFace에서도 사용할 수 있음
쉽게 미세 조정할 수 있으며, 채팅용으로 미세 조정된 모델은 Llama 2 13B 채팅을 능가

Hacker News 의견

Mistral, Meta와 DeciLM과 달리 이 클래스의 모델에 Apache 라이선스를 부여한 첫 회사입니다.
이 모델은 MacBook Air M1에서 잘 작동하며 GPT3.5와 비교할 수 있습니다.
JSON과 같은 구조화된 데이터를 처리하기 위한 "함수 호출 API"의 사용 가능성에 대한 질문이 있습니다.
모델 훈련에 사용된 데이터셋에 대한 우려와 벤치마크 유출이 결과를 부풀릴 가능성이 제기되었습니다.
모델의 발표는 Twitter의 토렌트 트래커 URI를 통해 이루어졌습니다.
LLMs를 위한 코딩 보조 도구 테스트에서 Mistral이 CodeLlama와 GPT4만큼 잘 수행하지 못했습니다.
모델은 llama.cpp에 의해 지원되기 때문에 macOS의 FreeChat에서 작동합니다.
프로젝트가 왜 7B 모델과 같은 큰 버킷 내에서 특정 파라미터 크기로 표준화하는 것처럼 보이는지에 대한 질문이 있습니다.
모델의 훈련에 대한 세부 정보, 그것이 기반한 데이터와 어디에서 훈련되었는지에 대한 요청이 있습니다.
훈련 세트에서 벤치마크 오염에 대한 테스트를 요청하는 것이 있습니다.

원문

출처 / GeekNews

[TLDR] 오늘의 AI 뉴스, 2023-09-28: 메타의 AI 챗봇

, 미스트랄의 첫 번째 모델

, 언어 모델과 함께 결과 순위 매기기

읽을거리&정보공유

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터 의 승인을 받아 AI 소식을 DeepL로 번역 하여 전합니다. 더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! [TLDR-AI 뉴스 레터 썸네일] 주요 뉴스 & 신규 출시 소식 / Headlines & Launches 미스트랄, 첫 번째 모델 출시 / Mistral releases first model (4 minute read) 대규모 시드 라운드와 팀, ML 스택, 데이터 파이프라인을 구축한 후, 미스트랄 팀은 매우 우수한 성능의 7B(매개변수 70억개) 모델을 출시했습니다. 처음에는 마그넷 링크(토렌트)를 통해 최소한의 GitHub 리포지토리 및 허용 라이선스와 함께 출시되었습니다. mistral-ai After a huge seed round and building a team, ML stack,…

9bow · 10월 1, 2023, 12:48오후

이 글은 OpenAI의 GPT-4로 자동 요약하여, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!

소개

Mistral AI 팀은 지금까지 가장 강력한 언어 모델인 Mistral 7B를 출시하게 되어 자랑스럽게 생각합니다.
이 모델은 Apache 2.0 라이선스 하에 출시되었으며, 제한 없이 사용할 수 있습니다.

주요 내용

Mistral 7B 간략 소개: Mistral 7B는 7.3B 파라미터 모델로, 다양한 벤치마크에서 Llama 2 13B와 Llama 1 34B를 능가합니다. 특히 코드 작업에서는 CodeLlama 7B의 성능에 근접하면서도 영어 작업에서도 뛰어난 성능을 보입니다.
- 모델 가중치를 다운로드 받아서 어디에든 사용할 수 있습니다.
- Mistral AI 팀의 구현을 참고하세요
- vLLM inference server and skypilot을 사용하여 클라우드에 배포할 수 있습니다.
- HuggingFace에서 사용해보세요.
성능 상세: Mistral 7B는 Llama 2 모델 가족과 비교되었으며, 공정한 비교를 위해 모든 모델 평가를 재실행하였습니다. Mistral 7B는 모든 지표에서 Llama 2 13B를 크게 능가하며, Llama 34B와 동등한 성능을 보입니다.

image1920×625 60.7 KB

image4462×620 184 KB
주의사항: 우리의 평가와 LLaMA2 논문의 평가 사이에는 중요한 차이점이 있습니다. 예를 들어, MBPP에 대해 우리는 수동으로 검증된 하위 집합을 사용하고 있습니다.
Sliding Window Attention: Mistral 7B는 슬라이딩 윈도우 주의 (SWA) 메커니즘을 사용하며, 이는 각 레이어가 이전의 4,096 히든 상태에 주의를 기울이는 방식입니다.

image256×296 15 KB
Fine-tuning Mistral 7B for chat: Mistral 7B의 일반화 능력을 보여주기 위해, 우리는 HuggingFace에서 공개적으로 사용 가능한 지시 데이터셋에서 미세 조정을 수행하였습니다.

Fine-tuning Mistral 7B for chat1936×1354 207 KB

더 읽어보기

Sliding Window Attention(SWA) 메커니즘에 대한 설명 논문 2편

FlashAttention

Mistral 7B에서 사용된 어텐션 메커니즘에 대한 추가 정보를 제공합니다.

https://github.com/Dao-AILab/flash-attention

xFormers

xFormers에 대한 설명을 제공합니다.

MT-Bench

Mistral 7B의 성능을 평가하기 위해 사용된 벤치마크에 대한 자세한 정보를 제공합니다.

[GN⁺] Mistral 7B, MistalAI이 제한없이 사용할 수 있도록 공개한 LLM

소개

Hacker News 의견

원문

출처 / GeekNews

소개

주요 내용

더 읽어보기

Sliding Window Attention(SWA) 메커니즘에 대한 설명 논문 2편

FlashAttention

xFormers

MT-Bench

원문

Mistral AI의 블로그 글

Mistral 7B 가중치 다운로드

Mistral 7B 모델 코드 등

Mistral 7B LLM 문서 / 빠른 시작

HuggingFace에서 보기