TTS Model의 끝판왕인 BASE TTS가 아마존에서 발표되었습니다.

아래 내용은 빙 코파일러트를 통하여 요약하고 파파고로 번역한 내용입니다.

[아래]

BASE TTS는 현재까지 가장 큰 TTS 모델로, 10만 시간의 공개 도메인 음성 데이터 으로 훈련되었습니다. 원시 텍스트를 이산 코드("음성 코드(speechcodes)")로 변환하는 10억 개의 파라미터 자동 회귀 변환기(autoregressive Transformer)와 이러한 음성 코드를 증분, 스트리밍 가능한 방식으로 파형으로 변환하는 컨볼루션 기반 디코더(convolution-based decode)를 배포합니다.

연구원들은 음성 신호의 음소 및 운율 정보만을 캡처하기 위해 WavLM SSL 모델 위에 구축된 새로운 이산 음성 표현(novel discrete speech representations)을 소개했습니다. 그들의 음성 코드는 바이트 쌍 인코딩(byte-pair encoding)으로 스피커 ID 분리 및 압축을 특징으로 하는 새로운 음성 토큰화 기술을 사용하여 구축되었습니다.

증가하는 데이터 볼륨에 대해 훈련될 때 널리 보고된 대규모 언어 모델의 "신흥 능력(emergent abilities)"을 반영하여, 그들은 10K+ 시간 및 500M+ 매개 변수로 구축된 BASE TTS 변형이 텍스트적으로 복잡한 문장에서 자연스러운 운율을 보여주기 시작한다는 것을 보여줍니다.

자세한 정보
  1. BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data (arxiv.org)
  2. [2402.08093] BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data (arxiv.org)
  3. base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data.pdf (amazon.science)

출처: BASE TTS: Lessons from building a billion-parameter text-to-speech model on 100K hours of data - Amazon Science


[끝]
마침내 TTS의 끝판왕이 나왔네요. 훈련된 Data set의 크기라던지 모델의 Parameter 크기를 보면 아주 자연스러운 음성 출력이 가능할 것으로 보입니다. 다만 한국어가 지원되는지는 아직 확인되지 않고 있습니다.

아마존은 Alexa같은 TTS 서비스를 제공하고 있고 이 분야에서 자신들만의 독보적인 입지를 유지하기 위하여 이런 독자적인 초거대 TTS 모델을 발표한 것 같습니다.

음성처리 관련 전문 용어의 파파고 번역은 그런데 맘에 안듭니다. 뭔가 어색하고 뭔가 불편한 번역입니다.

1개의 좋아요

좋은 정보 감사합니다! LLM 이후로 다들 커지는 것 같아서 부담스럽기도 하지만... TTS쪽도 이제 뭔가 좋은 것들이 나오려나보네요. :star_struck:

번역기는 저는 DeepL을 주력으로 쓰고 있는데, 작년 말부터 성능이 급격히 안 좋아지고 있어서 어떤걸 써야 하나 고민 중입니다.

UpStage에서 Solar 모델을 활용해서 제공하는 번역 기능이 성능이 좋다는 얘기를 들어서 조만간 한 번 시도해보려고 하는데요, 사용해보고 후기 남기도록 하겠습니다!