- 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
- 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
AudioSR: 스케일에서 다재다능한 오디오 슈퍼-레졸루션 (AudioSR: Versatile Audio Super-resolution at Scale)
개요
AudioSR은 낮은 해상도 오디오의 고주파수 구성분을 예측하여 오디오 품질을 향상시키는 방법입니다. 이전 방법들은 처리할 수 있는 오디오 유형(예: 음악, 연설)과 특정 대역폭 설정에 한계가 있었습니다. AudioSR은 음향 효과, 음악, 연설 등 다양한 오디오 유형에 강력한 오디오 슈퍼-레졸루션을 수행할 수 있으며, 모든 입력 오디오 신호를 AudioSR의 대역폭 범위 내에서 업샘플링 할 수 있는 것이 특징입니다. (Any -> 48kHz)
접근 방법
모델 구조 - 고해상도 파형 추정
AudioSR의 아키텍처는 낮은 해상도 오디오를 다시 샘플링한 후, 잠재 디퓨전 모델(LDM; Latent Diffusion Model)을 사용하여 고해상도의 멜-스펙트로그램을 추정합니다. LDM의 학습은 사전 훈련된 변형 자동 인코더(VAE)에 의해 학습된 잠재 공간 내에서 수행됩니다. 또한, 훈련 목표, 노이즈 일정, 조절 메커니즘을 개선하였습니다.
Neural Vocoder
멜-스펙트로그램은 직접 청취할 수 없기 때문에, HiFiGAN 기반의 신경 보코더를 사용하여 멜-스펙트로그램을 파형으로 변환합니다. 이 보코더는 다양한 오디오 데이터를 사용하여 최적화하였습니다.
전처리 및 후처리
입력 저해상도 오디오의 특성에는 후처리가 적용됩니다. 모델 훈련과 평가 간의 불일치를 최소화하기 위해 평가 중 입력 오디오에 대한 전처리를 수행합니다. 이때 체비셰프 필터를 사용하여 저역 필터링 작업을 수행합니다.
실험 및 결과
객관적 평가와 주관적 평가를 위해 다양한 데이터셋(VCTK, AudioStock, ESC-50 등)을 사용했습니다. 주관적 평가를 위해 AudioLDM, MusicGen, Fastspeech2 등의 출력 품질을 향상시키는 데 AudioSR이 얼마나 효과적인지를 평가했습니다. 주관적 평가에서 AudioSR은 AudioLDM, MusicGen, FastSpeech2 출력의 지각 품질을 현저히 향상시켰습니다
더 읽어보기
AudioSR 프로젝트 홈페이지
https://audioldm.github.io/audiosr/