[GeekNews] Riffusion - 음악을 생성하도록 파인튜닝된 Stable Diffusion

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하려고 합니다. ^^

[소개 글]

Riffusion - 음악을 생성하도록 파인튜닝된 Stable Diffusion

  • SD 1.5를 그대로 사용하며, img2txt를 이용해서 Spectrogram 이미지를 생성하도록 모델을 미세 조정
  • 만들어진 이미지는 재생가능한 오디오 클립으로 변환 가능
  • img2img 를 이용해서 사운드를 수정 가능
  • 짧은 오디오 클립을 무한하게 루핑이 가능하도록 Interpolation
  • 사용하기 편하도록 웹앱으로 만들어 코드도 공개(Next.js + React + Three.js + Tailwind)

Spectrogram : Waveform + Spectrum

  • 주파수, 진폭(강도), 시간을 이용해서 소리의 스펙트럼을 시각화 하여 표현한 것
  • STFT(Short-Time Fourier Transform)을 이용해서 오디오에서 계산 가능

[원문]

[출처]

1개의 좋아요