OpenVoice: 짧은 오디오 샘플로 음성 복제가 가능한 TTS

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • OpenVoice는 단지 짧은 오디오 샘플을 이용하여 다양한 언어와 스타일로 음성을 복제할 수 있는 첨단 기술을 제공합니다. 이 기술은 TTS(Text-to-Speech) 분야에서 유연한 음성 스타일 제어와 언어간 제로-샷 음성 복제를 가능하게 하여, 다양한 상업적 및 창의적 응용에 영향을 미칠 것으로 보입니다.
  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

OpenVoice: Versatile Instant Voice Cloning

개요

OpenVoice는 혁신적인 즉각적 음성 복제(IVC, Instant Voice Cloning)가 가능한 텍스트-음성 변환(TTS, Text-to-Speech) 기술입니다. 단지 짧은 오디오 샘플을 통해 참조 발화자의 음성을 복제할 수 있습니다. 이는 미디어 콘텐츠 제작, 맞춤형 챗봇, 인공지능 모델과의 상호작용과 같은 다양한 실제 응용 분야에서 생성된 음성을 맞춤화할 수 있는 중요한 발전입니다.

주요 도전 과제

OpenVoice는 아래와 같은 음성 복제 분야의 주요 과제를 해결합니다:

  1. 유연한 음성 스타일 제어(Flexible Voice Style Control): 참조 발화자의 음색을 복제하면서도 감정, 억양, 리듬, 일시 중지, 억양과 같은 음성 스타일을 조작할 수 있습니다.
  2. 언어 간 제로-샷 음성 복제(Zero-Shot Cross-Lingual Voice Cloning): 학습 데이터에 포함되지 않은 언어로도 음성을 복제할 수 있습니다. 이전 방법들은 다국어 훈련 데이터가 필요했지만 OpenVoice는 이러한 데이터 없이도 새로운 언어로 음성을 복제할 수 있습니다.
  3. 효율적이고 빠른 성능(Efficient and Fast Performance): 대규모 상업적 사용에 필수적인 높은 계산 효율성과 속도를 제공합니다.

기술 접근 및 모델 구조

OpenVoice의 접근 방식은 음성 복제 작업을 더 간단한 하위 작업으로 분리하는 것을 포함합니다:

  • 기본 화자 TTS 모델(Base Speaker TTS Model): 이 모델은 스타일 매개변수와 언어를 제어합니다. VITS나 InstructTTS와 같은 단일 발화자 또는 다중 발화자 모델일 수 있으며, Microsoft TTS와 같은 상용 모델도 사용할 수 있습니다. 학습 시에는 30,000개의 영어(미국 및 영국 억양), 중국어, 일본어 문장을 감정 분류 레이블과 함께 사용하였습니다.

  • 음색 변환기(Tone Color Converter): 이 구성 요소는 인코더-디코더 구조로, 참조 발화자의 음색과 일치하도록 음색을 수정하면서 다른 스타일과 음성 속성을 보존합니다. 음색 변환기는 20,000명의 개인으로부터 300,000개의 오디오 샘플로 구성된 데이터셋으로 학습하였습니다.

평가 및 성능

OpenVoice의 평가는 음성 복제의 주관적인 특성 때문에 정량적 점수보다는 질적 성능에 중점을 두었습니다. 주요 성과는 다음과 같습니다:

  • 정확한 음색 복제(Accurate Tone Color Cloning): 다양한 목소리 분포를 포함하는 유명 인사 및 게임 캐릭터에서 테스트되었습니다.

  • 음성 스타일에 대한 유연한 제어(Flexible Control on Voice Styles): 참조 음색으로 변환하는 동안 다양한 말하기 스타일을 보존합니다.

  • 쉬운 언어간 음성 복제(Cross-Lingual Voice Cloning with Ease): 학습 데이터에 없는 언어로도 음성을 복제할 수 있는 능력을 보여줍니다.

  • 빠른 추론 속도 및 저렴한 비용(Fast Inference with Low Cost): 단일 GPU에서 12배의 실시간 성능을 달성할 수 있는 최적화된 버전을 제공합니다.

  • IPA의 중요성(Importance of IPA): 국제 음성 기호(IPA, International Phonetic Alphabet)를 사용하는 것이 언어간 음성 복제 성능에 중요했습니다.

OpenVoice는 음성 복제 기술에서 중요한 진전을 나타냅니다. 기존 방법의 한계를 극복하고, 음성 스타일 제어의 유연성을 제공하며, 제로-샷 크로스-링구얼 복제를 가능하게 하고, 상업적 응용에 적합한 빠르고 효율적인 성능을 달성했습니다.

더 읽어보기

OpenVoice 프로젝트 홈페이지

https://research.myshell.ai/open-voice

GitHub 저장소

OpenVoice 논문

예시: 정확한 음색 복제(Accurate Tone Color Cloning)

https://research.myshell.ai/open-voice/accurate-tone-color-cloning

예시: 유연한 음성 스타일 제어(Flexible Voice Style Control)

https://research.myshell.ai/open-voice/flexible-voice-style-control

예시: 언어간 제로샷 음성 복제(Zero-shot Cross-lingual Voice Cloning)

https://research.myshell.ai/open-voice/zero-shot-cross-lingual-voice-cloning




:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck: