Fish Speech, 한국어를 비롯한 8개 언어를 지원하는 오픈소스 다국어 TTS 모델

Fish Speech 소개

Fish Speech는 Fish Audio에서 공개한 텍스트-음성 변환(TTS) 모델로, 한국어를 비롯하여 영어, 중국어, 독일어, 일본어, 프랑스어, 스페인어, 아랍어 등의 언어를 지원합니다.

약 70만 시간의 음성 데이터를 바탕으로 훈련되었으며, 그 중 30만 시간은 영어와 중국어 데이터로 구성되어 있습니다. 이 모델은 대규모 음성 데이터와 심층 신경망을 결합하여 정확하고 자연스러운 음성 출력을 제공합니다.

Fish Speech 모델은 다국어 TTS 모델 중에서도 높은 성능을 자랑합니다. 비슷한 모델로는 OpenAI의 Whisper와 Google의 Tacotron이 있지만, 이번에 공개한 Fish Speech v1.4는 더 많은 언어를 지원하고 대규모의 학습 데이터를 통해 다양한 환경에서의 음성 합성 능력을 강화했습니다. 또한, 한국어 음성 데이터도 2만 시간 이상 포함되어 있어, 한국 사용자들에게 적합한 음성 합성을 제공합니다.

Fish Speech 모델의 주요한 특징은 다음과 같습니다:

  • 다양한 언어 지원: 한국어를 비롯하여 영어와 중국어를 포함한 8개 언어 지원.

  • 대규모 데이터: 총 70만 시간의 음성 데이터로 훈련.

  • 정확성: 다국어 환경에서도 자연스럽고 정확한 음성 합성 가능.

  • 한국어 지원: 한국어 음성 데이터 2만 시간 이상 포함.

사용 방법

Fish Speech는 Hugging Face의 모델 허브에서 제공되며, 이를 사용하려면 Hugging Face의 transformers 라이브러리를 설치한 후 아래와 같은 간단한 코드를 통해 실행할 수 있습니다.

from transformers import pipeline

tts = pipeline("text-to-speech", model="fishaudio/fish-speech-1.4")
speech = tts("안녕하세요, 이 모델은 Fish Speech V1.4입니다.")

이 코드로 텍스트를 음성으로 변환할 수 있으며, 한국어뿐만 아니라 다양한 언어의 음성 합성도 가능합니다.

라이선스

Fish Speech 모델은 BY-CC-NC-SA-4.0 라이선스 하에 배포되고 있으며, 상업적 이용에는 제한이 있습니다.

:framed_picture: Fish Speech 온라인 데모

:books: Fish Speech 공식 문서

:github: Fish Speech 모델 저장소

:hugs: Fish Speech 모델 가중치




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요