Chatterbox: Resemble AI가 공개한 상용 품질의 오픈소스 TTS 모델

Chatterbox 소개

Resemble AI가 공개한 Chatterbox는 최초의 프로덕션급 오픈소스 TTS(Text-to-Speech) 모델로, 감정 강조 조절, 음성 변환, 워터마킹 등 상용 서비스 수준의 기능을 갖추고 있습니다. MIT 라이선스로 자유롭게 사용할 수 있으며, 특히 ElevenLabs와 같은 상용 모델과 비교해도 우수한 성능을 보인다고 합니다.

Chatterbox는 Resemble AI가 개발한 최첨단 오픈소스 TTS 모델로, 감정 표현 조절, 음성 변환, 워터마킹 등 다양한 기능을 제공합니다. MIT 라이선스로 공개되어 자유롭게 사용할 수 있으며, Chatterbox으로 생성한 예시 음성은 Chatterbox 데모 페이지에서 들어보거나, 원하는 음성을 Hugging Face의 Gradio 앱을 통해 직접 생성하여 들어볼 수 있습니다. 특히, 감정 강조 조절 기능은 오픈소스 TTS 모델 중 최초로 도입된 기능으로, 다양한 감정 표현이 필요한 콘텐츠 제작에 유용합니다.

Chatterbox는 상용 TTS 모델인 ElevenLabs와 비교하여도 우수한 성능을 보입니다. 특히, 감정 강조 조절 기능은 오픈소스 TTS 모델 중 최초로 도입된 기능으로, 다양한 감정 표현이 필요한 콘텐츠 제작에 유용합니다. 또한, Resemble AI의 PerTH 워터마킹 기술을 적용하여 생성된 음성에 대한 추적이 가능하며, 이는 상용 모델에서도 보기 드문 기능입니다.

Chatterbox의 주요 특징

  • 제로샷 TTS: 새로운 음성 스타일에 대한 빠른 적응이 가능합니다.
  • 0.5B Llama 백본: Llama 기반의 언어 모델을 활용하여 자연스러운 음성 생성을 지원합니다.
  • 감정 강조 조절: exaggeration 파라미터를 통해 감정 표현의 강도를 조절할 수 있습니다.
  • 정렬 기반 추론: 안정적인 음성 출력을 위한 alignment-informed inference를 제공합니다.
  • 대규모 학습 데이터: 50만 시간의 정제된 음성 데이터로 학습되어 다양한 음성 스타일을 지원합니다.
  • PerTH 워터마킹: 생성된 음성에 대한 추적이 가능하여, 저작권 보호 및 악용 방지에 효과적입니다.
  • 음성 변환 지원: 기존 음성을 다른 스타일로 변환하는 기능을 제공합니다.

사용 방법

Chatterbox는 Python 패키지로 제공되며, pip를 사용하여 간단하게 설치하고 사용할 수 있습니다:

# pip를 사용한 설치
pip install chatterbox-tts

간단한 사용 예시는 다음과 같습니다:

import torchaudio as ta
from chatterbox.tts import ChatterboxTTS

model = ChatterboxTTS.from_pretrained(device="cuda")

text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
wav = model.generate(text)
ta.save("test-1.wav", wav, model.sr)

음성 변환 기능은 다음과 같이 사용할 수 있습니다:

AUDIO_PROMPT_PATH = "YOUR_FILE.wav"
wav = model.generate(text, audio_prompt_path=AUDIO_PROMPT_PATH)
ta.save("test-2.wav", wav, model.sr)

모델 매개변수 조정 시에는 다음과 같이 진행해주세요:

  • 일반적인 사용: exaggeration=0.5, cfg=0.5 설정이 대부분의 경우에 적합합니다.
  • 감정 표현 강조: 감정 표현을 강조하고 싶을 경우, exaggeration 값을 0.7 이상으로 높이고, cfg 값을 0.3 정도로 낮추는 것이 효과적입니다.

라이선스

Chatterbox 프로젝트는 MIT License로 공개 및 배포되고 있습니다. 상업적 이용에 제한이 없으며, 자유롭게 수정 및 배포가 가능합니다.

:house: Chatterbox으로 생성한 예시 음성 듣기

:framed_picture: Chatterbox 데모

:github: Chatterbox GitHub 저장소




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: