Fish Speech 모델은 다국어 TTS 모델 중에서도 높은 성능을 자랑합니다. 비슷한 모델로는 OpenAI의 Whisper와 Google의 Tacotron이 있지만, 이번에 공개한 Fish Speech v1.4는 더 많은 언어를 지원하고 대규모의 학습 데이터를 통해 다양한 환경에서의 음성 합성 능력을 강화했습니다. 또한, 한국어 음성 데이터도 2만 시간 이상 포함되어 있어, 한국 사용자들에게 적합한 음성 합성을 제공합니다.
Fish Speech 모델의 주요한 특징은 다음과 같습니다:
다양한 언어 지원: 한국어를 비롯하여 영어와 중국어를 포함한 8개 언어 지원.
대규모 데이터: 총 70만 시간의 음성 데이터로 훈련.
정확성: 다국어 환경에서도 자연스럽고 정확한 음성 합성 가능.
한국어 지원: 한국어 음성 데이터 2만 시간 이상 포함.
사용 방법
Fish Speech는 Hugging Face의 모델 허브에서 제공되며, 이를 사용하려면 Hugging Face의 transformers 라이브러리를 설치한 후 아래와 같은 간단한 코드를 통해 실행할 수 있습니다.
from transformers import pipeline
tts = pipeline("text-to-speech", model="fishaudio/fish-speech-1.4")
speech = tts("안녕하세요, 이 모델은 Fish Speech V1.4입니다.")
이 코드로 텍스트를 음성으로 변환할 수 있으며, 한국어뿐만 아니라 다양한 언어의 음성 합성도 가능합니다.
Traceback (most recent call last):
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/configuration_auto.py", line 1038, in from_pretrained
config_class = CONFIG_MAPPING[config_dict["model_type"]]
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/configuration_auto.py", line 740, in getitem
raise KeyError(key)
KeyError: 'dual_ar'
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "/Users/jun/Desktop/source/voice_clone/fish_speech.py", line 5, in
model = AutoModelForSeq2SeqLM.from_pretrained("fishaudio/fish-speech-1.5", trust_remote_code=True)
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/auto_factory.py", line 526, in from_pretrained
config, kwargs = AutoConfig.from_pretrained(
File "/Users/jun/Desktop/source/voice_clone/venv/lib/python3.10/site-packages/transformers/models/auto/configuration_auto.py", line 1040, in from_pretrained
raise ValueError(
ValueError: The checkpoint you are trying to load has model type dual_ar but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date.
직접 설치해서 사용해보지는 않았는데, Fish-Speech-1.4 모델을 사용하신게 맞으실까요? 사용하시는 모델의 model_type 설정과 실제 모델 체크포인트가 달라 발생한 에러 같아 보입니다. 모델을 바꿔보시거나 설정을 한 번 확인해보시면 좋을 것 같습니다.
ValueError: The checkpoint you are trying to load has model type dual_ar but Transformers does not recognize this architecture. This could be because of an issue with the checkpoint, or because your version of Transformers is out of date.