아래 내용은 빙 코파일러트를 통하여 요약하고 파파고로 번역한 내용입니다.
[아래]
BASE TTS는 현재까지 가장 큰 TTS 모델로, 10만 시간의 공개 도메인 음성 데이터 으로 훈련되었습니다. 원시 텍스트를 이산 코드("음성 코드(speechcodes)")로 변환하는 10억 개의 파라미터 자동 회귀 변환기(autoregressive Transformer)와 이러한 음성 코드를 증분, 스트리밍 가능한 방식으로 파형으로 변환하는 컨볼루션 기반 디코더(convolution-based decode)를 배포합니다.
연구원들은 음성 신호의 음소 및 운율 정보만을 캡처하기 위해 WavLM SSL 모델 위에 구축된 새로운 이산 음성 표현(novel discrete speech representations)을 소개했습니다. 그들의 음성 코드는 바이트 쌍 인코딩(byte-pair encoding)으로 스피커 ID 분리 및 압축을 특징으로 하는 새로운 음성 토큰화 기술을 사용하여 구축되었습니다.
증가하는 데이터 볼륨에 대해 훈련될 때 널리 보고된 대규모 언어 모델의 "신흥 능력(emergent abilities)"을 반영하여, 그들은 10K+ 시간 및 500M+ 매개 변수로 구축된 BASE TTS 변형이 텍스트적으로 복잡한 문장에서 자연스러운 운율을 보여주기 시작한다는 것을 보여줍니다.
자세한 정보
- BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data (arxiv.org)
- [2402.08093] BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data (arxiv.org)
- base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data.pdf (amazon.science)
[끝]
마침내 TTS의 끝판왕이 나왔네요. 훈련된 Data set의 크기라던지 모델의 Parameter 크기를 보면 아주 자연스러운 음성 출력이 가능할 것으로 보입니다. 다만 한국어가 지원되는지는 아직 확인되지 않고 있습니다.
아마존은 Alexa같은 TTS 서비스를 제공하고 있고 이 분야에서 자신들만의 독보적인 입지를 유지하기 위하여 이런 독자적인 초거대 TTS 모델을 발표한 것 같습니다.
음성처리 관련 전문 용어의 파파고 번역은 그런데 맘에 안듭니다. 뭔가 어색하고 뭔가 불편한 번역입니다.