MetaVoice: 인간 수준의 음성 지원을 위한 오픈소스 TTS 모델 (w/ 1.2B 모델 공개, 상업적 이용 가능)

MetaVoice 소개

MetaVoice는 Apache-2.0 라이선스로 공개된 인간 수준의 음성 지원을 위한 AI입니다. 인간 수준의 음성 지능은 어려운 목표이지만, 기계와 상호작용하는 방식을 혁신할 수 있는 잠재력을 가진 기술입니다. 이 기술을 활용하면 사람의 대화와 구별할 수 없을 정도로 자연어를 이해하고 이에 반응할 수 있는 기계를 만들 수 있습니다. 이는 고객 서비스부터 교육, 의료에 이르기까지 다양한 분야에 큰 영향을 미칠 수 있습니다.

MetaVoice-1B는 10만 시간의 음성으로 학습된 1.2B 크기의 TTS(Text-to-Speech) 모델입니다. 다음과 같은 우선순위에 따라 구현되었습니다:

  • 환각이 없는, 영어의 감정적인 리듬(rhythm)과 어조(tone) 구현

  • 미세 조정을 통한 (언어간) 음성 복제 지원

    • 1분 가량의 학습 데이터만으로도 인도어를 발화 성공
  • 30초 가량의 기준 음성을 활용한, 미국 및 영국인 목소리에 대한 제로-샷 복제

  • 긴 형식의 합성 (지원 예정)

MetaVoice 홈페이지

GitHub 저장소

MetaVoice-1B 가중치 (Hugging Face)