Meta, 1100개 이상의 언어에 대한 음성-텍스트, 텍스트-음성 변환 모델 MMS(Massively Multilingual Speech) 공개

9bow · 5월 23, 2023, 6:23오전

Meta에서 Introducing speech-to-text, text-to-speech, and more for 1,100+ languages 이라는 제목의 블로그 글을 통해 MMS(Massively Multilingual Speech) 프로젝트(겸 모델 이름 같습니다)을 소개하였습니다.

무려 라이선스도 저작자만 표시하면 비영리로 사용할 수 있는 CC-BY-NC 4.0으로 공개하였네요

The MMS code and model weights are released under the CC-BY-NC 4.0 license.

아래는 지원하는 언어들을 세계지도에서 찍어본 것인데, 엄청납니다

MMS 프로젝트 소개

MMS(Massively Multilingual Speech; 대규모 다국어 음성) 프로젝트는 1,100개 이상의 언어를 지원하는 단일 다국어 음성 인식 모델, 4,000개 이상의 언어를 식별할 수 있는 언어 식별 모델, 1,400개 이상의 언어를 지원하는 사전 학습 모델, 1,100개 이상의 언어를 위한 텍스트 음성 변환 모델을 구축하여 음성 기술을 약 100개 언어에서 1,000개 이상으로 확장합니다. 사람들이 원하는 언어로 더 쉽게 정보에 액세스하고 기기를 사용할 수 있도록 하는 것이 목표입니다.

The Massively Multilingual Speech (MMS) project expands speech technology from about 100 languages to over 1,000 by building a single multilingual speech recognition model supporting over 1,100 languages (more than 10 times as many as before), language identification models able to identify over 4,000 languages (40 times more than before), pretrained models supporting over 1,400 languages, and text-to-speech models for over 1,100 languages. Our goal is to make it easier for people to access information and to use devices in their preferred language.

더 자세한 내용은 블로그 글에서 확인하실 수 있습니다.

소개 영상

블로그 글에 포함된 소개 영상입니다.

https://scontent-gmp1-1.xx.fbcdn.net/v/t39.25447-2/348851534_1003778610612309_9160688479864559753_n.mp4?_nc_cat=107&vs=c1f97146bff22ed3&_nc_vs=HBksFQAYJEdFNE55eFJWeUlScjdwQURBSWtZVnhTalRTRi1ibWRqQUFBRhUAAsgBABUAGCRHRVVic3hSNlVpM3NOUUlDQUcwcVNDU0F1M0pMYnJGcUFBQUYVAgLIAQBLB4gScHJvZ3Jlc3NpdmVfcmVjaXBlATENc3Vic2FtcGxlX2ZwcwAQdm1hZl9lbmFibGVfbnN1YgAgbWVhc3VyZV9vcmlnaW5hbF9yZXNvbHV0aW9uX3NzaW0AKGNvbXB1dGVfc3NpbV9vbmx5X2F0X29yaWdpbmFsX3Jlc29sdXRpb24AHXVzZV9sYW5jem9zX2Zvcl92cW1fdXBzY2FsaW5nABFkaXNhYmxlX3Bvc3RfcHZxcwAVACUAHIwXQAAAAAAAAAAREQAAACagy7nR7a3KFhUCKAJDMxgLdnRzX3ByZXZpZXccF0BWhU%2FfO2RaGCdkYXNoX3IyX2F2Y19nZW4xYXZjX2xjX3E4MF9mcmFnXzJfdmlkZW8SABgYdmlkZW9zLnZ0cy5jYWxsYmFjay5wcm9kOBJWSURFT19WSUVXX1JFUVVFU1QbCogVb2VtX3RhcmdldF9lbmNvZGVfdGFnBm9lcF9oZBNvZW1fcmVxdWVzdF90aW1lX21zATAMb2VtX2NmZ19ydWxlB3VubXV0ZWQTb2VtX3JvaV9yZWFjaF9jb3VudAIxNRFvZW1faXNfZXhwZXJpbWVudAAMb2VtX3ZpZGVvX2lkEDE0MzQ5Njg3OTczMTY3MzgSb2VtX3ZpZGVvX2Fzc2V0X2lkDzY0MjgxMDAxNzE4OTgxNBVvZW1fdmlkZW9fcmVzb3VyY2VfaWQQNjM1NTk2NTAxNzc5NzMyOBxvZW1fc291cmNlX3ZpZGVvX2VuY29kaW5nX2lkEDE5MjQ5NDIzMTc4ODI3MDgOdnRzX3JlcXVlc3RfaWQAJQIcACW%2BARsHiAFzAzk0OAJjZAoyMDIzLTA1LTE4A3JjYgEwA2FwcAnrj5nsmIHsg4ECY3QIVU5MSVNURUQTb3JpZ2luYWxfZHVyYXRpb25fcwY5MC4xMTICdHMVcHJvZ3Jlc3NpdmVfZW5jb2RpbmdzAA%3D%3D&ccb=1-7&_nc_sid=025453&efg=eyJ2ZW5jb2RlX3RhZyI6Im9lcF9oZCJ9&_nc_ohc=4ZX_Av6jaloAX8z6dV6&_nc_ht=scontent-gmp1-1.xx&oh=00_AfAcc5Eehfw8W1h16nlYHyi8AsK1iLbFbLTWpQBq45jeEA&oe=647A9B10&_nc_rid=459127152109480

공개 모델 목록

Pretrained models (사전학습 모델)

Model	Link
MMS-300M	download
MMS-1B	download

Example commands to finetune the pretrained models can be found here.

Finetuned models

ASR (Automatic Speech Recognition; 받아쓰기) 모델

Model	Languages	Dataset	Model	Supported languages
MMS-1B:FL102	102	FLEURS	download	download
MMS-1B:L1107	1107	MMS-lab	download	download
MMS-1B-all	1162	MMS-lab + FLEURS + CV + VP + MLS	download	download

TTS (Text-to-Speech; 음성 말하기) 모델

Download the list of iso codes of 1107 languages.
Find the iso code of the target language and download the checkpoint. Each folder contains 3 files: G_100000.pth, config.json, vocab.txt. The G_100000.pth is the generator trained for 100K updates, config.json is the training config, vocab.txt is the vocabulary for the TTS model.

# Examples:
wget https://dl.fbaipublicfiles.com/mms/tts/eng.tar.gz # English (eng)
wget https://dl.fbaipublicfiles.com/mms/tts/azj-script_latin.tar.gz # North Azerbaijani (azj-script_latin)

LID (Language IDentification; 언어 식별) 모델

# Languages	Dataset	Model	Dictionary	Supported languages
126	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
256	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
512	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
1024	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
2048	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download
4017	FLEURS + VL + MMS-lab-U + MMS-unlab	download	download	download

더 읽어보기

언어별 지원하는 모델 목록(표)

한국어(kor)는 ASR / TTS / LID 모두 지원합니다. 전체 목록은 아래 링크에서 보실 수 있습니다.

GitHub 저장소

지원하는 모델 및 예제 코드 등을 확인하실 수 있습니다.

논문

~~킵해두고 먼훗날 언젠가 나중에~~

Scaling Speech Technology to 1,000+ Languages.pdf (1.4 MB)