Mistral NeMo 소개
- NVIDIA와 협력하여 개발된 120억 파라미터 모델인 Mistral NeMo를 출시
- 최대 128k 토큰의 큰 컨텍스트 윈도우 제공
- 추론, 세계 지식, 코딩 정확도가 동급 최고 수준
- 표준 아키텍처를 사용하여 Mistral 7B를 사용하는 시스템에 쉽게 적용 가능
- 연구자와 기업의 채택을 촉진하기 위해 Apache 2.0 라이선스 하에 사전 훈련된 기본 및 명령 조정 체크포인트 공개
- 양자화 인식으로 훈련되어 성능 손실 없이 FP8 추론 가능
다국어 모델
- 글로벌 다국어 애플리케이션을 위해 설계됨
- 함수 호출에 대해 훈련되었으며, 큰 컨텍스트 윈도우를 가짐
- 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어에서 특히 강력함
- 모든 언어 사용자에게 최첨단 AI 모델 제공을 목표로 함
Tekken, 더 효율적인 토크나이저
- Tiktoken 기반의 새로운 토크나이저 Tekken 사용
- 100개 이상의 언어에서 자연어 텍스트와 소스 코드를 SentencePiece 토크나이저보다 더 효율적으로 압축
- 소스 코드, 중국어, 이탈리아어, 프랑스어, 독일어, 스페인어, 러시아어에서 약 30% 더 효율적
- 한국어와 아랍어에서 각각 2배, 3배 더 효율적
- Llama 3 토크나이저와 비교하여 약 85%의 언어에서 더 뛰어난 압축 성능
인스트럭션 파인 튜닝
- Mistral NeMo는 고급 미세 조정 및 정렬 단계를 거침
- Mistral 7B와 비교하여 정확한 명령을 따르고, 추론하고, 다중 턴 대화를 처리하고, 코드를 생성하는 데 훨씬 뛰어남
링크
- 기본 및 명령 모델의 가중치는 HuggingFace에서 호스팅됨
- mistral-inference로 Mistral NeMo를 사용해보고, mistral-finetune으로 조정 가능
- NVIDIA NIM 추론 마이크로서비스로 패키징되어 ai.nvidia.com에서 사용 가능
라이선스
Mistral의 NeMo 모델은 Apache 2.0 라이선스로 공개되었습니다.
Mistal의 NeMo 소개 글
Mistral의 NeMo 모델 - Base
Mistral의 NeMo 모델 - Instruct
NVIDIA의 Mistral AI Model 소개 글
출처 / GeekNews
알려드립니다
이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.
출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다!
아래
쪽에 좋아요
를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~