HunyuanCustom: 사용자 맞춤형 멀티모달 비디오 생성 모델 (feat. Tencent)

9bow · 5월 17, 2025, 9:30오전

HunyuanCustom 소개

비디오 생성 기술이 날이 갈수록 발전하고 있지만, 여전히 해결되지 않은 문제들이 존재합니다. 특히, ‘특정 인물의 일관된 등장’이나 ’사용자가 원하는 다양한 입력 조건(텍스트, 이미지, 오디오, 비디오 등)’에 맞춘 영상 생성은 까다로운 문제인데요. 최근 공개된 HunyuanCustom은 이런 문제들을 해결하기 위해 나온 멀티모달 기반의 커스터마이징 비디오 생성 모델입니다. 특히, 텍스트와 이미지를 융합하고, 오디오나 영상 기반의 제어도 가능하다는 점에서 매우 인상적입니다.

HunyuanCustom은 ‘텍스트+이미지+오디오+비디오’와 같은 다양한 조건을 바탕으로, 사용자가 원하는 인물을 중심으로 커스터마이징된 비디오를 생성할 수 있도록 설계된 모델입니다. 기존 비디오 생성 모델들이 주로 텍스트나 이미지 한 가지 입력 방식에만 의존해왔던 것과 달리, 이 모델은 LLaVA 기반 이미지-텍스트 융합 모듈과 시간 기반 ID 보강 기법을 통해 ‘인물 일관성’을 강력히 유지하면서 다양한 입력 조건을 수용합니다.

뿐만 아니라, 오디오-텍스트 매핑을 위한 AudioNet 모듈이나, 영상 조건 삽입을 위한 patchify 기반 피처 정렬 모듈 등 멀티모달 조건 주입 설계도 매우 디테일하게 되어 있습니다. 이처럼 여러 조건을 개별적으로 또는 복합적으로 활용할 수 있다는 점에서 커스터마이징 유연성도 뛰어납니다.

HunyuanCustom은 단일 인물뿐만 아니라 다수의 인물을 포함한 비디오 커스터마이징에서도 높은 성능을 보여줍니다. 특히, 기존의 open-source 및 closed-source 영상 생성 모델들과 비교했을 때 다음과 같은 우위를 보입니다:

ID 일관성 (같은 인물이 장면 전체에서 일관되게 표현됨)
텍스트-비디오 정합성 (텍스트에서 설명한 장면이 실제 영상에서도 정확히 재현됨)
현실감 있는 비주얼 품질

기존 텍스트-투-비디오 모델들이 다소 추상적이거나 이미지 중심의 결과를 보였던 것과 비교해보면, 이 모델은 실용적인 비디오 편집과 콘텐츠 생성에 훨씬 가까운 결과를 제공합니다.

HunyuanCustom의 주요 특징

멀티모달 입력 지원: 텍스트, 이미지, 오디오, 비디오 등 다양한 조건을 조합하여 입력 가능
텍스트-이미지 융합 모듈: LLaVA 기반으로 이미지와 텍스트의 의미를 자연스럽게 결합
ID 강화 모듈: 이미지 ID 정보를 시간 축을 따라 보강하여 인물 일관성 유지
AudioNet: 오디오 입력을 통해 인물 애니메이션 가능 (예: 노래 부르기, 말하기 등)
비디오 기반 객체 치환: 특정 비디오 내 인물을 지정 이미지로 교체 가능
단일/다중 인물 커스터마이징 지원

HunyuanCustom의 동작 개요

아키텍처는 크게 두 축으로 나뉘어 구성됩니다:

텍스트-이미지 조건 기반 생성

텍스트와 이미지를 융합하여 인물 정보를 정밀하게 반영
시간 축을 따라 이미지 ID를 강화해 전체 영상에 걸쳐 동일한 인물이 표현됨

오디오/비디오 기반 주입

오디오 입력은 AudioNet을 통해 공간적 cross-attention으로 처리
비디오는 patchify 기법을 통해 주요 피처를 정렬하여 기존 영상에 조건을 삽입함

HunyuanCustom 홈페이지

HunyuanCustom 논문

HunyuanCustom GitHub 저장소

https://github.com/Tencent/HunyuanCustom

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~