HunyuanWorld-Voyager: 단일 이미지에서 3D 영상을 생성하는 World Model

HunyuanWorld-Voyager World Model 소개

텐센트 혼원 연구팀에서 공개한 HunyuanWorld-Voyager는 단일 이미지를 기반으로 사용자 지정 카메라 경로를 따라 3D 일관성을 유지하는 영상(비디오)을 생성하는 새로운 확산 모델 프레임워크입니다. 이 기술은 단순히 2D 영상을 생성하는 것을 넘어, RGB 영상과 깊이(depth) 영상을 동시에 만들어 효율적인 3D 재구성이 가능하다는 점에서 주목받고 있습니다.

Voyager의 가장 큰 특징은 **세계 일관성(world-consistency)**입니다. 단일 장면에서 여러 뷰와 프레임이 생성되더라도 공간적/시간적 불일치 없이 자연스럽게 연결되며, 마치 실제 카메라가 공간을 탐색하는 듯한 시퀀스를 만들어낼 수 있습니다. 특히 사용자 정의 카메라 트래젝토리를 지원해 단순히 “움직이는 영상”이 아니라, 사용자가 원하는 방식으로 장면을 탐험할 수 있는 인터랙티브한 3D 생성 환경을 제공합니다.

HunyuanWorld-Voyager 모델이 주목받는 이유는, 기존의 영상 생성 모델들이 종종 시점 변화에서 일관성을 잃거나 객체의 구조를 왜곡시키는 문제를 해결했기 때문입니다. HunyuanWorld-Voyager는 RGB와 깊이 정보의 동시 생성을 통해 3D 재구성까지 고려한 설계로, 향후 VR/AR 콘텐츠 제작, 3D 게임 개발, 가상 탐사 시뮬레이션 같은 분야에 폭넓게 응용될 가능성이 큽니다.

Method WorldScore Average Camera Control Object Control Content Alignment 3D Consistency Photometric Consistency Style Consistency Subjective Quality
WonderJourney :yellow_circle:63.75 :yellow_circle:84.6 37.1 35.54 80.6 79.03 62.82 :green_circle:66.56
WonderWorld :green_circle:72.69 :red_circle:92.98 51.76 :red_circle:71.25 :red_circle:86.87 85.56 70.57 49.81
EasyAnimate 52.85 26.72 54.5 50.76 67.29 47.35 :yellow_circle:73.05 50.31
Allegro 55.31 24.84 :yellow_circle:57.47 :yellow_circle:51.48 70.5 69.89 65.6 47.41
Gen-3 60.71 29.47 :green_circle:62.92 50.49 68.31 :green_circle:87.09 62.82 :yellow_circle:63.85
CogVideoX-I2V 62.15 38.27 40.07 36.73 :green_circle:86.21 :red_circle:88.12 :green_circle:83.22 62.44
Voyager :red_circle:77.62 :green_circle:85.95 :red_circle:66.92 :green_circle:68.92 :yellow_circle:81.56 :yellow_circle:85.99 :red_circle:84.89 :red_circle:71.09
(WorldScore 벤치마크에 대한 정량적 비교. :red_circle:은 1위, :green_circle:은 2위, :yellow_circle:은 3위)

현재 영상 및 3D 생성 분야에는 다양한 경쟁 모델들이 존재합니다. 대표적으로 WonderJourney, WonderWorld, EasyAnimate, Gen-3, CogVideoX-I2V 같은 모델들과 비교할 수 있습니다. Voyager는 ‘WorldScore Benchmark’라는 평가 지표에서 77.62점을 기록해 가장 높은 점수를 달성했으며, 특히 카메라 제어(Camera Control), 객체 제어(Object Control), 스타일 일관성(Style Consistency), 주관적 품질 면에서 경쟁 모델을 압도하는 성능을 보였습니다.

예를 들어, WonderWorld는 카메라 제어와 3D 일관성에서 좋은 성능을 보였지만, 콘텐츠 정합성과 주관적 품질은 Voyager보다 낮았습니다. 반대로 CogVideoX-I2V는 포토메트릭(광학적) 일관성과 스타일 일관성에서 강점을 보였지만, 전반적인 WorldScore에서는 Voyager가 앞섰습니다.

즉, Voyager는 특정 영역에 치우치지 않고 전반적으로 균형 잡힌 성능을 제공하며, 특히 장거리 세계 탐험(long-range exploration)과 다중 시점 일관성에서 차별화된 강점을 갖고 있습니다.

HunyuanWorld-Voyager의 아키텍처

Voyager는 두 가지 핵심 구성 요소로 이루어져 있습니다.

  1. 세계 일관성 비디오 확산(World-Consistent Video Diffusion) RGB와 깊이 영상을 동시에 생성하여, 장면 전체의 전역적 일관성을 유지합니다. 이는 단순히 “영상 합성”이 아니라, 실제 3D 세계를 구축하는 기반이 됩니다.
  2. 장거리 세계 탐험(Long-Range World Exploration) 포인트 클라우드 캐싱과 자동 회귀(auto-regressive) 기반 추론을 통해 장면을 점진적으로 확장할 수 있습니다. 이 과정에서 불필요한 포인트를 제거(point culling)하고, 맥락 기반 일관성을 유지하면서 부드러운 비디오 샘플링을 수행합니다.

HunyuanWorld-Voyager의 데이터 엔진

Voyager 모델 학습을 위해 연구팀은 자동 카메라 포즈 추정과 메트릭 깊이 예측을 결합한 데이터 엔진을 개발했습니다. 이를 통해 수작업 3D 어노테이션 없이도 대규모 훈련 데이터셋을 구축할 수 있었으며, 실제 촬영 영상과 Unreal Engine 기반 합성 데이터를 합쳐 100,000개 이상의 비디오 클립을 수집했습니다. 이 데이터 엔진 역시 오픈소스로 공개되어 있어, 연구자들이 자체 데이터셋을 구축하거나 모델을 확장하는 데 활용할 수 있습니다.

HunyuanWorld-Voyager 설치 및 사용법

Voyager는 Linux 환경에서 CUDA 지원 GPU를 필요로 하며, **최소 60GB 메모리(540p 기준)**가 필요합니다. 권장 환경은 80GB GPU 메모리입니다.

설치 과정

# Conda 환경 생성
conda create -n voyager python==3.11.9
conda activate voyager

# PyTorch 및 의존성 설치
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=12.4 -c pytorch -c nvidia

# 추가 패키지 설치
pip install -r requirements.txt
pip install transformers==4.39.3
pip install flash-attn
pip install xfuser==0.4.2

모델 다운로드

huggingface-cli download tencent/HunyuanWorld-Voyager --local-dir ./ckpts

추론 실행

python3 sample_image2video.py \
    --model HYVideo-T/2 \
    --input-path "examples/case1" \
    --prompt "An old-fashioned European village with thatched roofs on the houses." \
    --i2v-stability \
    --infer-steps 50 \
    --flow-reverse \
    --flow-shift 7.0 \
    --seed 0 \
    --embedded-cfg-scale 6.0 \
    --use-cpu-offload \
    --save-path ./results

또한 **멀티 GPU 병렬 추론(xDiT)**을 지원해, 8 GPU 환경에서 6.69배의 속도 향상을 제공합니다. 이를 통해 대규모 비디오 생성도 가능해집니다.

라이선스

HunyuanWorld-Voyager 프로젝트는 Apache License 2.0으로 공개 및 배포되고 있습니다. 상업적 사용에 제약이 없으나, 라이선스 조건(저작권 고지 및 변경 사항 명시 등)을 따라야 합니다.

:house: HunyuanWorld-Voyager 공식 홈페이지

:scroll: HunyuanWorld-Voyager 원문

:github: HunyuanWorld-Voyager 프로젝트 GitHub 저장소




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: