Sonic: 상태-공간 모델(SSM) 기반 실시간 대화 AI를 위한 저지연 음성 모델

9bow · 6월 4, 2024, 9:17오전

Sonic: 실시간 대화 AI를 위한 저지연 음성 모델

소개

실시간으로 텍스트나 오디오, 비디오와 같은 다양한 모달리티를 처리할 수 있는 모델을 개발하는 Cartesia.AI에서 새로운 저지연(low-latency) 음성 생성 모델인 Sonic을 공개했습니다. 이 모델은 높은 품질의 음성을 빠르게 생성할 수 있으며, 다양한 애플리케이션에서 활용될 수 있습니다. 특히, 실시간 대화 AI를 구현하는 데 유용합니다.

Cartesia는 효율적인 실시간 지능을 개발한 Sonic은 '상태 공간 모델(SSM, State-Space Model)'을 기반으로 하며, 고해상도 오디오 및 비디오 생성을 저지연으로 처리할 수 있습니다. Sonic은 135ms의 모델 지연 시간으로 고품질 음성을 생성하며, 다양한 목소리를 지원하는 웹 플레이그라운드와 저지연 API와 함께 제공됩니다.

이러한 SSM 기반의 오디오 생성 모델은 기존의 Transformer 기반 오디오 생성 모델과 비교했을 때, 학습 속도, 추론 속도, 처리량, 지연 시간 등에서 모두 향상된 성능을 보입니다. 특히, 다국어 Librispeech 데이터셋에서 학습된 모델은 검증 퍼플렉시티가 20% 낮았으며, 다운스트림 평가에서는 단어 오류율이 2배 낮고 품질 점수가 1점 더 높습니다(5점 만점, NISQA 평가 기준). 추론에서는 더 낮은 지연 시간(첫 번째 오디오 도달 시간 1.5배 단축), 더 빠른 추론 속도(실시간 계수 2배 단축), 더 높은 처리량(4배 가량)을 달성합니다.

주요 기능

고품질 음성 생성: 135ms의 낮은 지연 시간으로 고품질 음성을 생성합니다.
다양한 목소리 지원: 웹 플레이그라운드에서 다양한 목소리를 제공하며, API를 통해 빠른 클로닝과 음성 디자인 기능을 지원합니다.
저비용 고효율: 상태 공간 모델 기반의 최적화된 추론 스택을 통해 낮은 비용으로 높은 품질의 모델을 제공합니다.

사용 방법

Sonic은 웹 플레이그라운드에서 사용해볼 수 있습니다. 다양한 목소리 라이브러리를 제공하며, 속도와 감정을 조절할 수 있는 음성 디자인 기능도 지원합니다.

그 외, API 신청 양식을 통해 API를 발급받으면 실시간 대화 AI 애플리케이션을 개발할 수도 있습니다.

Sonic 공식 블로그

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~