OuteTTS 소개
OuteTTS-0.1-350M 모델은 외부 어댑터나 복잡한 아키텍처 없이 순수 언어 모델링 접근 방식을 통해 고품질 텍스트-음성 변환(TTS)을 구현합니다. 이 모델은 350M 규모의 소규모 모델로, LLaMa 기반의 구조를 채택하고 있으며, 최소한의 매개변수로도 효과적인 음성 생성을 가능하게 합니다.
기존의 TTS 시스템은 음성 합성을 위해 복잡한 신경망 아키텍처와 전용 모델을 필요로 했습니다. 그러나 OuteTTS는 이러한 전통적 접근 방식을 탈피하여 대규모 언어 모델(LLM)을 통한 단순한 프롬프트 설계와 오디오 토큰 활용만으로도 뛰어난 음성 품질을 달성할 수 있음을 증명합니다.
OuteTTS는 LLaMa 아키텍처를 기반으로 하며, Oute3-350M-DEV라는 기초 모델을 활용합니다. 이 기초 모델은 약 300억 개의 DCLM-baseline-1.0 토큰으로 사전 학습되어 있으며, 이를 바탕으로 순수 언어 모델 기반의 TTS 가능성을 탐구하게 되었습니다.
OuteTTS-0.1-350M 아키텍처
OuteTTS는 LLaMa 언어 모델 아키텍처를 기반으로 하며, 이를 음성 합성에 특화된 방식으로 확장하였습니다. 전체 아키텍처는 다음의 3단계로 오디오 처리를 수행합니다:
-
오디오 토큰화(Audio tokenization): WavTokenizer를 통해 초당 75개의 오디오 토큰을 생성하여, 입력된 텍스트를 적절한 오디오 표현으로 변환합니다.
-
CTC 강제 정렬(Connectionist Temporal Classification): 단어와 오디오 토큰의 매핑을 정확하게 수행하기 위해 사용됩니다. 이 과정을 통해 텍스트와 오디오가 정밀하게 맞춰지며, 명확한 음성 출력을 보장합니다.
-
프롬프트 구조: 다음의 구조에 따라 프롬프트를 설계하여 음성 출력을 생성합니다:
[전체 전사] [단어] [길이 토큰] [오디오 토큰]
OuteTTS-0.1-350M이 제공하는 기능은 다음과 같습니다:
- 언어 모델 기반 TTS: 외부 모듈 없이 순수 언어 모델링을 통한 TTS 구현.
- 음성 복제: 특정 화자의 음성을 참조하여 음성을 복제하는 기능.
- LLaMa 아키텍처 채택: 대규모 언어 모델 기반의 구조를 음성 합성에 적용.
- 호환성:
llama.cpp
및GGUF
형식과의 호환성 제공.
OuteTTS 모델 소개 블로그
https://www.outeai.com/blog/outetts-0.1-350m
OuteTTS GitHub 저장소
https://github.com/edwko/OuteTTS
OuteTTS 모델 다운로드
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~