PyTorchKR
- OpenVoice는 단지 짧은 오디오 샘플을 이용하여 다양한 언어와 스타일로 음성을 복제할 수 있는 첨단 기술을 제공합니다. 이 기술은 TTS(Text-to-Speech) 분야에서 유연한 음성 스타일 제어와 언어간 제로-샷 음성 복제를 가능하게 하여, 다양한 상업적 및 창의적 응용에 영향을 미칠 것으로 보입니다.
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
OpenVoice: Versatile Instant Voice Cloning
개요
OpenVoice는 혁신적인 즉각적 음성 복제(IVC, Instant Voice Cloning)가 가능한 텍스트-음성 변환(TTS, Text-to-Speech) 기술입니다. 단지 짧은 오디오 샘플을 통해 참조 발화자의 음성을 복제할 수 있습니다. 이는 미디어 콘텐츠 제작, 맞춤형 챗봇, 인공지능 모델과의 상호작용과 같은 다양한 실제 응용 분야에서 생성된 음성을 맞춤화할 수 있는 중요한 발전입니다.
주요 도전 과제
OpenVoice는 아래와 같은 음성 복제 분야의 주요 과제를 해결합니다:
- 유연한 음성 스타일 제어(Flexible Voice Style Control): 참조 발화자의 음색을 복제하면서도 감정, 억양, 리듬, 일시 중지, 억양과 같은 음성 스타일을 조작할 수 있습니다.
- 언어 간 제로-샷 음성 복제(Zero-Shot Cross-Lingual Voice Cloning): 학습 데이터에 포함되지 않은 언어로도 음성을 복제할 수 있습니다. 이전 방법들은 다국어 훈련 데이터가 필요했지만 OpenVoice는 이러한 데이터 없이도 새로운 언어로 음성을 복제할 수 있습니다.
- 효율적이고 빠른 성능(Efficient and Fast Performance): 대규모 상업적 사용에 필수적인 높은 계산 효율성과 속도를 제공합니다.
기술 접근 및 모델 구조
OpenVoice의 접근 방식은 음성 복제 작업을 더 간단한 하위 작업으로 분리하는 것을 포함합니다:
-
기본 화자 TTS 모델(Base Speaker TTS Model): 이 모델은 스타일 매개변수와 언어를 제어합니다. VITS나 InstructTTS와 같은 단일 발화자 또는 다중 발화자 모델일 수 있으며, Microsoft TTS와 같은 상용 모델도 사용할 수 있습니다. 학습 시에는 30,000개의 영어(미국 및 영국 억양), 중국어, 일본어 문장을 감정 분류 레이블과 함께 사용하였습니다.
-
음색 변환기(Tone Color Converter): 이 구성 요소는 인코더-디코더 구조로, 참조 발화자의 음색과 일치하도록 음색을 수정하면서 다른 스타일과 음성 속성을 보존합니다. 음색 변환기는 20,000명의 개인으로부터 300,000개의 오디오 샘플로 구성된 데이터셋으로 학습하였습니다.
평가 및 성능
OpenVoice의 평가는 음성 복제의 주관적인 특성 때문에 정량적 점수보다는 질적 성능에 중점을 두었습니다. 주요 성과는 다음과 같습니다:
-
정확한 음색 복제(Accurate Tone Color Cloning): 다양한 목소리 분포를 포함하는 유명 인사 및 게임 캐릭터에서 테스트되었습니다.
-
음성 스타일에 대한 유연한 제어(Flexible Control on Voice Styles): 참조 음색으로 변환하는 동안 다양한 말하기 스타일을 보존합니다.
-
쉬운 언어간 음성 복제(Cross-Lingual Voice Cloning with Ease): 학습 데이터에 없는 언어로도 음성을 복제할 수 있는 능력을 보여줍니다.
-
빠른 추론 속도 및 저렴한 비용(Fast Inference with Low Cost): 단일 GPU에서 12배의 실시간 성능을 달성할 수 있는 최적화된 버전을 제공합니다.
-
IPA의 중요성(Importance of IPA): 국제 음성 기호(IPA, International Phonetic Alphabet)를 사용하는 것이 언어간 음성 복제 성능에 중요했습니다.
OpenVoice는 음성 복제 기술에서 중요한 진전을 나타냅니다. 기존 방법의 한계를 극복하고, 음성 스타일 제어의 유연성을 제공하며, 제로-샷 크로스-링구얼 복제를 가능하게 하고, 상업적 응용에 적합한 빠르고 효율적인 성능을 달성했습니다.
더 읽어보기
OpenVoice 프로젝트 홈페이지
https://research.myshell.ai/open-voice
GitHub 저장소
OpenVoice 논문
예시: 정확한 음색 복제(Accurate Tone Color Cloning)
https://research.myshell.ai/open-voice/accurate-tone-color-cloning
예시: 유연한 음성 스타일 제어(Flexible Voice Style Control)
https://research.myshell.ai/open-voice/flexible-voice-style-control
예시: 언어간 제로샷 음성 복제(Zero-shot Cross-lingual Voice Cloning)
https://research.myshell.ai/open-voice/zero-shot-cross-lingual-voice-cloning
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~