Meta에서 Introducing speech-to-text, text-to-speech, and more for 1,100+ languages 이라는 제목의 블로그 글을 통해 MMS(Massively Multilingual Speech) 프로젝트(겸 모델 이름 같습니다)을 소개하였습니다.
무려 라이선스도 저작자만 표시하면 비영리로 사용할 수 있는 CC-BY-NC 4.0으로 공개하였네요
The MMS code and model weights are released under the CC-BY-NC 4.0 license.
아래는 지원하는 언어들을 세계지도에서 찍어본 것인데, 엄청납니다
MMS 프로젝트 소개
MMS(Massively Multilingual Speech; 대규모 다국어 음성) 프로젝트는 1,100개 이상의 언어를 지원하는 단일 다국어 음성 인식 모델, 4,000개 이상의 언어를 식별할 수 있는 언어 식별 모델, 1,400개 이상의 언어를 지원하는 사전 학습 모델, 1,100개 이상의 언어를 위한 텍스트 음성 변환 모델을 구축하여 음성 기술을 약 100개 언어에서 1,000개 이상으로 확장합니다. 사람들이 원하는 언어로 더 쉽게 정보에 액세스하고 기기를 사용할 수 있도록 하는 것이 목표입니다.
The Massively Multilingual Speech (MMS) project expands speech technology from about 100 languages to over 1,000 by building a single multilingual speech recognition model supporting over 1,100 languages (more than 10 times as many as before), language identification models able to identify over 4,000 languages (40 times more than before), pretrained models supporting over 1,400 languages, and text-to-speech models for over 1,100 languages. Our goal is to make it easier for people to access information and to use devices in their preferred language.
더 자세한 내용은 블로그 글에서 확인하실 수 있습니다.
소개 영상
블로그 글에 포함된 소개 영상입니다.
공개 모델 목록
Pretrained models (사전학습 모델)
Example commands to finetune the pretrained models can be found here.
Finetuned models
ASR (Automatic Speech Recognition; 받아쓰기) 모델
Model | Languages | Dataset | Model | Supported languages |
---|---|---|---|---|
MMS-1B:FL102 | 102 | FLEURS | download | download |
MMS-1B:L1107 | 1107 | MMS-lab | download | download |
MMS-1B-all | 1162 | MMS-lab + FLEURS + CV + VP + MLS | download | download |
TTS (Text-to-Speech; 음성 말하기) 모델
- Download the list of iso codes of 1107 languages.
- Find the iso code of the target language and download the checkpoint. Each folder contains 3 files:
G_100000.pth
,config.json
,vocab.txt
. TheG_100000.pth
is the generator trained for 100K updates,config.json
is the training config,vocab.txt
is the vocabulary for the TTS model.
# Examples:
wget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)
wget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)
LID (Language IDentification; 언어 식별) 모델
# Languages | Dataset | Model | Dictionary | Supported languages |
---|---|---|---|---|
126 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
256 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
512 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
1024 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
2048 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
4017 | FLEURS + VL + MMS-lab-U + MMS-unlab | download | download | download |
더 읽어보기
언어별 지원하는 모델 목록(표)
한국어(kor
)는 ASR / TTS / LID 모두 지원합니다. 전체 목록은 아래 링크에서 보실 수 있습니다.
https://dl.fbaipublicfiles.com/mms/misc/language_coverage_mms.html
GitHub 저장소
지원하는 모델 및 예제 코드 등을 확인하실 수 있습니다.
논문
킵해두고 먼훗날 언젠가 나중에