Fish Speech, 한국어를 비롯한 8개 언어를 지원하는 오픈소스 다국어 TTS 모델

9bow · 9월 18, 2024, 9:28오후

Fish Speech 소개

Fish Speech는 Fish Audio에서 공개한 텍스트-음성 변환(TTS) 모델로, 한국어를 비롯하여 영어, 중국어, 독일어, 일본어, 프랑스어, 스페인어, 아랍어 등의 언어를 지원합니다.

약 70만 시간의 음성 데이터를 바탕으로 훈련되었으며, 그 중 30만 시간은 영어와 중국어 데이터로 구성되어 있습니다. 이 모델은 대규모 음성 데이터와 심층 신경망을 결합하여 정확하고 자연스러운 음성 출력을 제공합니다.

Fish Speech 모델은 다국어 TTS 모델 중에서도 높은 성능을 자랑합니다. 비슷한 모델로는 OpenAI의 Whisper와 Google의 Tacotron이 있지만, 이번에 공개한 Fish Speech v1.4는 더 많은 언어를 지원하고 대규모의 학습 데이터를 통해 다양한 환경에서의 음성 합성 능력을 강화했습니다. 또한, 한국어 음성 데이터도 2만 시간 이상 포함되어 있어, 한국 사용자들에게 적합한 음성 합성을 제공합니다.

Fish Speech 모델의 주요한 특징은 다음과 같습니다:

다양한 언어 지원: 한국어를 비롯하여 영어와 중국어를 포함한 8개 언어 지원.
대규모 데이터: 총 70만 시간의 음성 데이터로 훈련.
정확성: 다국어 환경에서도 자연스럽고 정확한 음성 합성 가능.
한국어 지원: 한국어 음성 데이터 2만 시간 이상 포함.

사용 방법

Fish Speech는 Hugging Face의 모델 허브에서 제공되며, 이를 사용하려면 Hugging Face의 transformers 라이브러리를 설치한 후 아래와 같은 간단한 코드를 통해 실행할 수 있습니다.

from transformers import pipeline

tts = pipeline("text-to-speech", model="fishaudio/fish-speech-1.4")
speech = tts("안녕하세요, 이 모델은 Fish Speech V1.4입니다.")

이 코드로 텍스트를 음성으로 변환할 수 있으며, 한국어뿐만 아니라 다양한 언어의 음성 합성도 가능합니다.

라이선스

Fish Speech 모델은 BY-CC-NC-SA-4.0 라이선스 하에 배포되고 있으며, 상업적 이용에는 제한이 있습니다.

Fish Speech 온라인 데모

Fish Speech 공식 문서

Fish Speech 모델 저장소

https://github.com/fishaudio/fish-speech

Fish Speech 모델 가중치

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

luckymanjun · 1월 4, 2025, 1:45오후

구동하면 아래와 같이 오류가 나오는데 구동 방법이 다른가요?

Traceback (most recent call last):
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/configuration_auto.py", line 1038, in from_pretrained
config_class = CONFIG_MAPPING[config_dict["model_type"]]
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/configuration_auto.py", line 740, in getitem
raise KeyError(key)
KeyError: 'dual_ar'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "/Users/jun/Desktop/source/voice_clone/fish_speech.py", line 5, in
model = AutoModelForSeq2SeqLM.from_pretrained("fishaudio/fish-speech-1.5", trust_remote_code=True)
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
config, kwargs = AutoConfig.from_pretrained(
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/configuration_auto.py", line 1040, in from_pretrained
raise ValueError(
ValueError: The checkpoint you are trying to load has model type dual_ar but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date.

9bow · 1월 5, 2025, 9:49오후

직접 설치해서 사용해보지는 않았는데, Fish-Speech-1.4 모델을 사용하신게 맞으실까요? 사용하시는 모델의 model_type 설정과 실제 모델 체크포인트가 달라 발생한 에러 같아 보입니다. 모델을 바꿔보시거나 설정을 한 번 확인해보시면 좋을 것 같습니다.

ValueError: The checkpoint you are trying to load has model type dual_ar but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date.

(+ 더불어 질문은 묻고 답하기 게시판을 이용해주시기를 부탁드립니다 )