YuE(乐): 한국어를 지원하는, 가사를 기반으로 노래🎶를 생성(Lyrics to Song)하는 오픈소스 모델 (feat. HKUST)

YuE 소개

YuE(乐)는 가사(Lyrics) 기반으로 전체 곡을 생성(Lyrics to Song)하는 오픈소스 음악 생성 모델입니다. 기존의 텍스트 기반 음악 생성 모델들은 대체로 짧은 길이의 비보컬 음악을 만드는 데 집중했으나, YuE는 최대 5분 길이의 음악을 생성할 수 있으며, 보컬과 반주가 조화를 이루는 완전한 곡을 제작할 수 있습니다.

YuE는 긴 음악 컨텍스트를 처리하여 곡의 전체적인 일관성을 유지하면서 보컬과 반주의 조화로운 구성을 생성하는 것을 목표로 합니다. 이 과정에서 가사의 의미를 반영한 멜로디를 생성하고, 다양한 음악 장르 및 언어를 지원하는 것이 특징입니다.

특히, 기존의 음악 생성 모델들은 짧은 길이의 비보컬 음악을 생성하는 데 초점을 맞췄지만, YuE는 오픈소스임에도 불구하고 가사 기반으로 완전한 곡을 제작할 수 있다는 점에서 큰 차별점을 가집니다.

특징 기존 AI 음악 모델 YuE
생성 가능 길이 수 초 ~ 수십 초 최대 5분
보컬 포함 여부 주로 반주만 :white_check_mark: 보컬 + 반주 생성
가사 기반 생성 :x: 지원 부족 :white_check_mark: 가사 반영 멜로디 생성
장르 및 언어 다양성 일부 장르 및 언어 제한 :white_check_mark: 다양한 장르 및 언어 지원
오픈소스 여부 일부 폐쇄형 :white_check_mark: 완전 공개

YuE의 주요 기능

  • :musical_note: 가사 기반 전체 곡 생성(Lyrics2Song): 가사의 의미를 반영하여 멜로디 및 곡 구조를 생성하여 보컬과 반주가 조화롭게 배치된 음악 생성

  • :musical_note: 다양한 장르 및 언어 지원: 재즈, 팝, 록 등 다양한 음악 장르의 곡들을 생성할 수 있으며, 영어 / 중국어를 비롯한 한국어 & 일본어 등 다국어 가사 지원

  • :musical_note: 이중 토큰(Dual-Token) 기법: 보컬과 반주를 각각 별도로 모델링하면서 동기화 유지

  • :musical_note: 3단계 학습 과정: 확장성, 음악적 일관성, 가사 반영 능력을 높이기 위한 체계적 학습 프로세스

YuE의 동작 방식

YuE는 다음과 같은 기술적 접근 방식을 활용했습니다.

  • 향상된 오디오 토크나이저를 사용하여 학습 비용 절감 및 수렴 속도 향상
  • 이중 토큰(Dual-Token) 기법을 도입해 보컬과 반주를 동기화하면서도 기존 LLaMA 아키텍처를 유지
  • 가사 기반 Chain-of-Thoughts 생성 방식을 적용하여 곡 전반에 걸쳐 가사에 맞는 음악 생성
  • 3단계 학습 과정을 통해 모델의 확장성, 음악성, 가사 제어 능력을 향상

YuE는 LLaMA 기반의 2단계 언어 모델을 사용하여 음악을 생성합니다.

  • :one: 텍스트 및 오디오 토큰화: 입력된 가사는 텍스트 토큰화 진행 후 기존 음악 샘플을 오디오 토큰화하여 학습

  • :two: 1단계 언어 모델 (Stage-1 Language Model): 가사와 음악 토큰을 기반으로 기본적인 음악 시퀀스를 생성하고, 보컬 및 반주가 포함된 음악 구조 예측

  • :three: 2단계 언어 모델 (Stage-2 Language Model): 1단계 모델에서 생성된 시퀀스를 정교하게 조정하여 음악적 완성도를 높이고 보컬과 반주를 조화롭게 믹싱

  • :four: 디토크나이제이션 및 업샘플링: 토큰화된 데이터를 실제 음악 신호로 변환하여 최종 음원 생성

생성 예시 :musical_score:

다음은 YuE 홈페이지에 공개된 다수의 샘플 중 일부입니다. 더 많은 생성 예시는 YuE 홈페이지를 참고해주세요.

Intro: The YuE Model Song

프롬프트: 유에(乐)는 중국어로 “음악”과 “행복”을 뜻합니다. 유로 시작하는 단어를 발음하기 어려운 분들은 “예”로 발음하면 됩니다.

Prompt: YuE (乐) means "music" and "happiness" in Chinese. For those who find words starting with Yu difficult to pronounce, it can be pronounced as "yeah."

English + Japanese + Korean Code Switching Kpop: 完璧な関係

라이선스

YuE는 Apache 2.0 라이선스로 공개되었습니다. 누구나 자유롭게 사용할 수 있으며, 상업적 활용도 가능합니다.

단, 생성된 음악을 사용할 경우 "YuE by HKUST/M-A-P" 크레딧을 표기해야 합니다.

:house: YuE 홈페이지

:scroll: YuE 논문 (공개 예정)

공개 예정 / TBD

:github: YuE GitHub 저장소

https://github.com/multimodal-art-projection/YuE

:hugs: YuE 모델 가중치 내려받기

S1-Model COT ICL
English Link Link
Chinese Link Link
Japanese & Korean Link Link
S2-Model Link
Upsampler Link




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요