[GN⁺] Mistral NeMo 모델 출시 (다국어 지원 / 오픈모델 / 12B)

읽을거리&정보공유

9bow (박정환) 7월 20, 2024, 5:15오전 1

Mistral NeMo 소개

NVIDIA와 협력하여 개발된 120억 파라미터 모델인 Mistral NeMo를 출시
최대 128k 토큰의 큰 컨텍스트 윈도우 제공
추론, 세계 지식, 코딩 정확도가 동급 최고 수준
표준 아키텍처를 사용하여 Mistral 7B를 사용하는 시스템에 쉽게 적용 가능
연구자와 기업의 채택을 촉진하기 위해 Apache 2.0 라이선스 하에 사전 훈련된 기본 및 명령 조정 체크포인트 공개
양자화 인식으로 훈련되어 성능 손실 없이 FP8 추론 가능

다국어 모델

글로벌 다국어 애플리케이션을 위해 설계됨
함수 호출에 대해 훈련되었으며, 큰 컨텍스트 윈도우를 가짐
영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어에서 특히 강력함
모든 언어 사용자에게 최첨단 AI 모델 제공을 목표로 함

Tekken, 더 효율적인 토크나이저

Tiktoken 기반의 새로운 토크나이저 Tekken 사용
100개 이상의 언어에서 자연어 텍스트와 소스 코드를 SentencePiece 토크나이저보다 더 효율적으로 압축
소스 코드, 중국어, 이탈리아어, 프랑스어, 독일어, 스페인어, 러시아어에서 약 30% 더 효율적
한국어와 아랍어에서 각각 2배, 3배 더 효율적
Llama 3 토크나이저와 비교하여 약 85%의 언어에서 더 뛰어난 압축 성능

인스트럭션 파인 튜닝

Mistral NeMo는 고급 미세 조정 및 정렬 단계를 거침
Mistral 7B와 비교하여 정확한 명령을 따르고, 추론하고, 다중 턴 대화를 처리하고, 코드를 생성하는 데 훨씬 뛰어남

링크

기본 및 명령 모델의 가중치는 HuggingFace에서 호스팅됨
mistral-inference로 Mistral NeMo를 사용해보고, mistral-finetune으로 조정 가능
NVIDIA NIM 추론 마이크로서비스로 패키징되어 ai.nvidia.com에서 사용 가능

라이선스

Mistral의 NeMo 모델은 Apache 2.0 라이선스로 공개되었습니다.

Mistal의 NeMo 소개 글

Mistral의 NeMo 모델 - Base

Mistral의 NeMo 모델 - Instruct

NVIDIA의 Mistral AI Model 소개 글

출처 / GeekNews

알려드립니다

이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.

출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다!

아래쪽에 좋아요를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~