YuE 소개
YuE(乐)는 가사(Lyrics) 기반으로 전체 곡을 생성(Lyrics to Song)하는 오픈소스 음악 생성 모델입니다. 기존의 텍스트 기반 음악 생성 모델들은 대체로 짧은 길이의 비보컬 음악을 만드는 데 집중했으나, YuE는 최대 5분 길이의 음악을 생성할 수 있으며, 보컬과 반주가 조화를 이루는 완전한 곡을 제작할 수 있습니다.
YuE는 긴 음악 컨텍스트를 처리하여 곡의 전체적인 일관성을 유지하면서 보컬과 반주의 조화로운 구성을 생성하는 것을 목표로 합니다. 이 과정에서 가사의 의미를 반영한 멜로디를 생성하고, 다양한 음악 장르 및 언어를 지원하는 것이 특징입니다.
특히, 기존의 음악 생성 모델들은 짧은 길이의 비보컬 음악을 생성하는 데 초점을 맞췄지만, YuE는 오픈소스임에도 불구하고 가사 기반으로 완전한 곡을 제작할 수 있다는 점에서 큰 차별점을 가집니다.
특징 | 기존 AI 음악 모델 | YuE |
---|---|---|
생성 가능 길이 | 수 초 ~ 수십 초 | 최대 5분 |
보컬 포함 여부 | 주로 반주만 | ![]() |
가사 기반 생성 | ![]() |
![]() |
장르 및 언어 다양성 | 일부 장르 및 언어 제한 | ![]() |
오픈소스 여부 | 일부 폐쇄형 | ![]() |
YuE의 주요 기능
-
가사 기반 전체 곡 생성(Lyrics2Song): 가사의 의미를 반영하여 멜로디 및 곡 구조를 생성하여 보컬과 반주가 조화롭게 배치된 음악 생성
-
다양한 장르 및 언어 지원: 재즈, 팝, 록 등 다양한 음악 장르의 곡들을 생성할 수 있으며, 영어 / 중국어를 비롯한 한국어 & 일본어 등 다국어 가사 지원
-
이중 토큰(Dual-Token) 기법: 보컬과 반주를 각각 별도로 모델링하면서 동기화 유지
-
3단계 학습 과정: 확장성, 음악적 일관성, 가사 반영 능력을 높이기 위한 체계적 학습 프로세스
YuE의 동작 방식
YuE는 다음과 같은 기술적 접근 방식을 활용했습니다.
- 향상된 오디오 토크나이저를 사용하여 학습 비용 절감 및 수렴 속도 향상
- 이중 토큰(Dual-Token) 기법을 도입해 보컬과 반주를 동기화하면서도 기존 LLaMA 아키텍처를 유지
- 가사 기반 Chain-of-Thoughts 생성 방식을 적용하여 곡 전반에 걸쳐 가사에 맞는 음악 생성
- 3단계 학습 과정을 통해 모델의 확장성, 음악성, 가사 제어 능력을 향상
YuE는 LLaMA 기반의 2단계 언어 모델을 사용하여 음악을 생성합니다.
-
텍스트 및 오디오 토큰화: 입력된 가사는 텍스트 토큰화 진행 후 기존 음악 샘플을 오디오 토큰화하여 학습
-
1단계 언어 모델 (Stage-1 Language Model): 가사와 음악 토큰을 기반으로 기본적인 음악 시퀀스를 생성하고, 보컬 및 반주가 포함된 음악 구조 예측
-
2단계 언어 모델 (Stage-2 Language Model): 1단계 모델에서 생성된 시퀀스를 정교하게 조정하여 음악적 완성도를 높이고 보컬과 반주를 조화롭게 믹싱
-
디토크나이제이션 및 업샘플링: 토큰화된 데이터를 실제 음악 신호로 변환하여 최종 음원 생성
생성 예시 
다음은 YuE 홈페이지에 공개된 다수의 샘플 중 일부입니다. 더 많은 생성 예시는 YuE 홈페이지를 참고해주세요.
Intro: The YuE Model Song
프롬프트: 유에(乐)는 중국어로 “음악”과 “행복”을 뜻합니다. 유로 시작하는 단어를 발음하기 어려운 분들은 “예”로 발음하면 됩니다.
Prompt: YuE (乐) means "music" and "happiness" in Chinese. For those who find words starting with Yu difficult to pronounce, it can be pronounced as "yeah."
English + Japanese + Korean Code Switching Kpop: 完璧な関係
라이선스
YuE는 Apache 2.0 라이선스로 공개되었습니다. 누구나 자유롭게 사용할 수 있으며, 상업적 활용도 가능합니다.
단, 생성된 음악을 사용할 경우 "YuE by HKUST/M-A-P" 크레딧을 표기해야 합니다.
YuE 홈페이지
YuE 논문 (공개 예정)
공개 예정 / TBD
YuE GitHub 저장소
https://github.com/multimodal-art-projection/YuE
YuE 모델 가중치 내려받기
S1-Model | COT | ICL |
---|---|---|
English | Link | Link |
Chinese | Link | Link |
Japanese & Korean | Link | Link |
S2-Model | Link | |
Upsampler | Link |
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~