Amphion 소개
Amphion은 오디오, 음악, 음성 생성을 위한 포괄적인 오픈소스 도구모음(toolkit)입니다. 연구의 재현성을 높이고 초보 연구자들도 쉽게 접근할 수 있도록 설계된 이 툴킷은 음성 생성의 기본적인 변환 작업을 지원할 뿐만 아니라 다양한 모델의 시각화를 제공합니다. 특히 초보자들이 모델 구조를 이해하는 데 도움이 되며, TTS(텍스트 음성 변환, Text-to-Speech), SVC(노래 음성 변환, Singing-Voice Conversion), TTA(텍스트 오디오 변환, Text-to-Audio) 등 다양한 오디오 생성 작업을 지원하여 다방면으로 활용 가능합니다.
Amphion의 목표는 모든 입력을 오디오로 변환하는 과정을 연구하는 플랫폼을 제공하는 것입니다. 이를 위해 TTS(Text-to-Speech), SVC(Singing Voice Conversion), TTA(Text-to-Audio) 등 다양한 작업을 지원하며, 음질 향상을 위한 여러 vocoder와 평가 지표도 포함하고 있습니다. 또한, 실사용 환경에서 대규모 데이터셋을 구축하는 데 유용한 기능들을 제공합니다.
Amphion은 주로 오디오와 음성 생성에서 사용되지만, 기존의 유명한 TTS 툴킷과는 몇 가지 차별화된 기능을 제공합니다. 예를 들어, FastSpeech2, VITS, NaturalSpeech2 등 다양한 아키텍처를 지원하는 점에서 다른 TTS 툴킷보다 유연성이 높습니다. 특히 노래 음성 변환(SVC) 및 텍스트 오디오 변환(TTA) 작업을 지원하는 점에서 오디오 생성에 중점을 둔 연구자들에게 적합합니다.
주요 기능
TTS(Text-to-Speech, 텍스트 음성 변환)
Amphion은 여러 아키텍처를 지원하여 TTS 성능을 극대화합니다. FastSpeech2와 같은 비자기회귀(Non-autoregressive) 모델부터 VITS와 같은 VAE 기반의 TTS 아키텍처까지 폭넓은 선택지를 제공합니다. 또한, 음성 생성에서 제로샷 TTS를 지원하는 VALL-E 등 최신 모델도 포함되어 있어 다양한 응용이 가능합니다.
SVC(Singing Voice Conversion, 노래 음성 변환)
SVC에서는 다양한 사전 학습 모델과 함께 WeNet, Whisper 등을 통해 다양한 변환 기능을 제공합니다. 특히 SLT 2024에 발표된 논문에서 SVC의 다중 콘텐츠 기반 기능이 검증되었습니다.
TTA(Text-to-Audio, 텍스트 오디오 변환)
텍스트에서 오디오로 변환하는 작업을 위해 AudioLDM과 유사한 모델을 채택하여 고품질 오디오 생성이 가능합니다.
Vocoder
Amphion은 GAN 기반, 플로우 기반, 오토 리그레시브 기반의 다양한 vocoder를 포함합니다. 대표적으로 MelGAN, HiFi-GAN, WaveGlow, WaveNet 등을 지원하여 음질 향상에 큰 도움을 줍니다.
평가 및 시각화
F0, 에너지 모델링, 음성 유사성 평가 등 다양한 평가 지표를 제공하며, SingVisio와 같은 시각화 도구로 모델 내부의 처리 과정을 이해하기 쉽게 설명합니다.
라이선스
Amphion 프로젝트는 MIT 라이선스 하에 공개되어 있으며, 연구 및 상업적 용도로 자유롭게 사용할 수 있습니다.
Amphion 프로젝트 홈페이지
https://openhlt.github.io/amphion/
Amphion 논문
Amphion GitHub 저장소
Amphion 모델 다운로드
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~