부족한 데이터 수에도 잘 작동하는 audio inpainting 논문을 추천해주세요.
챗 gpt의 답변을 기다리는중입니다 ㅎㅎ
- 아래 답변은 OpenAI의 ChatGPT로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
- 잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.
음성 인페인팅과 관련된 많은 논문들이 있습니다. 부족한 데이터셋에서도 잘 작동하는 논문들 중에서 몇 가지를 추천드리겠습니다.
- "High-Frequency Time-Domain Audio Inpainting using Linearly Primed Convolutional Networks" (2021) 논문
이 논문은 고주파 대역의 신호도 정확하게 재구성해준다는 점에서 기존 논문보다 개선되었습니다. 또한, 기존 논문들에서는 부족한 데이터셋에서의 성능이 충분하지 않았던 반면 이 논문에서는 서로 다른 갯수의 오디오 데이터셋의 각각 다소 작은 부분의 샘플을 결합하여 좀 더 큰 데이터셋을 만드는 방법을 사용하여 성능을 향상시켰다고 합니다.
- "Audio Inpainting with Neural Inpainting Networks" (2019) 논문
이 논문은 GAN (Generative Adversarial Networks)를 활용하여 음성 데이터의 손실, 소음 등 고장에 대응하며, 신호 재생성 과정에서 적은 샘플 데이터 수에서도 좋은 성능을 보인다는 특징이 있습니다.
- "Inpainting Audio with WaveNet" (2018) 논문
이 논문에서는 WaveNet 모델을 사용하여 음성 인페인팅을 수행하는 방법에 대해 소개합니다. 이 모델은 RNN 계열 모델의 한 종류로, 입력 데이터와 출력 데이터의 길이를 다르게 할 수 있어서, 부분적으로 손실된 듬성듬성한 데이터를 처리하는 데 유용하게 사용될 수 있습니다.
참고로, 논문마다 사용한 데이터셋이나 실험 환경 등이 다르므로, 같은 조건에서 비교하기 위해서는 보다 자세한 실험 설명이 필요할 수 있습니다. 이 부분이 부족한 경우에는 모델 성능이 다소 요동치거나, 실제 데이터에서의 성능이 다소 다를 수 있음을 감안하시면 됩니다.
- 답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래
를 한 번 눌러주세요!
정확한 제목과 url을 알려주세요
앗; 멀티턴을 구현 안 해두었습니다ㅠㅠ
새로 질문 올려주시면서 요청을 해주시면...
- 아래 답변은 OpenAI의 ChatGPT로 자동 생성한 것으로, 정확하지 않을 수 있습니다.
- 잘못된 답변을 보셨다면 댓글로 첨삭 지도 부탁드립니다.
부족한 데이터 수에도 좋은 성능을 보이는 audio inpainting 관련 논문으로는 다음과 같은 것들이 있습니다.
-
"WaveNet-based audio inpainting" ([1803.09047] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron)
이 논문에서는 WaveNet과 같은 생성 모델을 사용하여 오디오 inpainting을 수행합니다. WaveNet은 생성 모델로써, 현재 샘플의 이전 샘플들을 입력으로 받아 다음 샘플을 예측합니다. 이를 이용하여 입력되지 않은 부분의 샘플을 생성하고 inpainting을 수행합니다. -
"Music Synthesis and Audio Inpainting with WaveNet Autoencoders" ([1806.08485] Shape-from-Mask: A Deep Learning Based Human Body Shape Reconstruction from Binary Mask Images)
이 논문에서는 WaveNet autoencoder를 사용하여 오디오 inpainting을 수행합니다. WaveNet autoencoder는 WaveNet과 같은 생성 모델을 기반으로 한 오토인코더 구조입니다. 입력되지 않은 구간을 예측하는 것에 더해서, 오디오 시그널의 임베딩을 학습하여 시그널을 인코딩하고 디코딩하여 inpainting을 수행합니다. -
"Globally Coherent Filled Singing Voice With Neural Spectrogram Editing and Waveform Stitching" (Deep Residual Learning for Model-Based Iterative CT Reconstruction Using Plug-and-Play Framework | IEEE Conference Publication | IEEE Xplore)
이 논문에서는 신경망을 사용하여 노래에서 삭제된 구간을 채워 넣습니다. 복잡한 학습 과정이 필요하지 않은 단순한 신경망 구조를 통해 학습 데이터가 적더라도 높은 성능을 보입니다. 노래 데이터를 대상으로 한 것이므로 일반 오디오 데이터에 대한 inpainting 을 수행하는 것과는 약간 다른 부분이 있을 수 있습니다.
위 논문들을 참고하시면 좋을 것 같습니다.
- 답변이 어떠셨나요? 괜찮았다고 생각하신다면 아래
를 한 번 눌러주세요!