Audio inpainting에 관련한 논문을 추천 받고싶습니다.

부족한 데이터 수에도 잘 작동하는 audio inpainting 논문을 추천해주세요.

1개의 좋아요

챗 gpt의 답변을 기다리는중입니다 ㅎㅎ

  • 아래 답변은 OpenAI의 ChatGPT로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
  • 잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다. :sweat_smile:

음성 인페인팅과 관련된 많은 논문들이 있습니다. 부족한 데이터셋에서도 잘 작동하는 논문들 중에서 몇 가지를 추천드리겠습니다.

  1. "High-Frequency Time-Domain Audio Inpainting using Linearly Primed Convolutional Networks" (2021) 논문

이 논문은 고주파 대역의 신호도 정확하게 재구성해준다는 점에서 기존 논문보다 개선되었습니다. 또한, 기존 논문들에서는 부족한 데이터셋에서의 성능이 충분하지 않았던 반면 이 논문에서는 서로 다른 갯수의 오디오 데이터셋의 각각 다소 작은 부분의 샘플을 결합하여 좀 더 큰 데이터셋을 만드는 방법을 사용하여 성능을 향상시켰다고 합니다.

  1. "Audio Inpainting with Neural Inpainting Networks" (2019) 논문

이 논문은 GAN (Generative Adversarial Networks)를 활용하여 음성 데이터의 손실, 소음 등 고장에 대응하며, 신호 재생성 과정에서 적은 샘플 데이터 수에서도 좋은 성능을 보인다는 특징이 있습니다.

  1. "Inpainting Audio with WaveNet" (2018) 논문

이 논문에서는 WaveNet 모델을 사용하여 음성 인페인팅을 수행하는 방법에 대해 소개합니다. 이 모델은 RNN 계열 모델의 한 종류로, 입력 데이터와 출력 데이터의 길이를 다르게 할 수 있어서, 부분적으로 손실된 듬성듬성한 데이터를 처리하는 데 유용하게 사용될 수 있습니다.

참고로, 논문마다 사용한 데이터셋이나 실험 환경 등이 다르므로, 같은 조건에서 비교하기 위해서는 보다 자세한 실험 설명이 필요할 수 있습니다. 이 부분이 부족한 경우에는 모델 성능이 다소 요동치거나, 실제 데이터에서의 성능이 다소 다를 수 있음을 감안하시면 됩니다.


  • 답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 :heart:를 한 번 눌러주세요!
1개의 좋아요

정확한 제목과 url을 알려주세요

앗; 멀티턴을 구현 안 해두었습니다ㅠㅠ

새로 질문 올려주시면서 요청을 해주시면... :point_right::point_left:

1개의 좋아요
  • 아래 답변은 OpenAI의 ChatGPT로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
  • 잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다. :sweat_smile:

부족한 데이터 수에도 좋은 성능을 보이는 audio inpainting 관련 논문으로는 다음과 같은 것들이 있습니다.

  1. "WaveNet-based audio inpainting" ([1803.09047] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron)
    이 논문에서는 WaveNet과 같은 생성 모델을 사용하여 오디오 inpainting을 수행합니다. WaveNet은 생성 모델로써, 현재 샘플의 이전 샘플들을 입력으로 받아 다음 샘플을 예측합니다. 이를 이용하여 입력되지 않은 부분의 샘플을 생성하고 inpainting을 수행합니다.

  2. "Music Synthesis and Audio Inpainting with WaveNet Autoencoders" ([1806.08485] Shape-from-Mask: A Deep Learning Based Human Body Shape Reconstruction from Binary Mask Images)
    이 논문에서는 WaveNet autoencoder를 사용하여 오디오 inpainting을 수행합니다. WaveNet autoencoder는 WaveNet과 같은 생성 모델을 기반으로 한 오토인코더 구조입니다. 입력되지 않은 구간을 예측하는 것에 더해서, 오디오 시그널의 임베딩을 학습하여 시그널을 인코딩하고 디코딩하여 inpainting을 수행합니다.

  3. "Globally Coherent Filled Singing Voice With Neural Spectrogram Editing and Waveform Stitching" (Deep Residual Learning for Model-Based Iterative CT Reconstruction Using Plug-and-Play Framework | IEEE Conference Publication | IEEE Xplore)
    이 논문에서는 신경망을 사용하여 노래에서 삭제된 구간을 채워 넣습니다. 복잡한 학습 과정이 필요하지 않은 단순한 신경망 구조를 통해 학습 데이터가 적더라도 높은 성능을 보입니다. 노래 데이터를 대상으로 한 것이므로 일반 오디오 데이터에 대한 inpainting 을 수행하는 것과는 약간 다른 부분이 있을 수 있습니다.

위 논문들을 참고하시면 좋을 것 같습니다.


  • 답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래 :heart:를 한 번 눌러주세요!