MagicVideo-V2, ByteDance가 공개한 고품질 비디오 생성 기법

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번에 소개하는 ByteDance의 MagicVideo-V2 모델은 다단계에 걸친 파이프라인을 통해 고해상도, 고품질의 영상을 생성하는 모델입니다. 아래 MagicVideo-V2 모델 예시 영상들만 보셔도 생성 모델의 눈부신 발전 속도를 확인하실 수 있으실 것입니다. :+1:
  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

MagicVideo-V2: 다단계 고품질 비디오 생성 (MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation)

MagicVideo-V2 소개

MagicVideo-V2로 생성한 이미지 예시

MagicVideo-V2는 텍스트 설명으로부터 고품질의 비디오를 생성하는 기술로, 여러 모듈을 포괄적인 파이프라인으로 통합하여, Text-to-Video 생성 분야를 크게 발전시킬 것으로 보입니다. 이러한 텍스트로부터 비디오를 생성하는 기술은, 최근 엔터테인먼트, 광고, 교육 등의 분야에서 증가하고 있는 비디오 생성 수요를 충족시킬 수 있을 것으로 보입니다.

특히, 기존의 Runway, Pika 1.0, Morph, Moon Valley, Stable Video Diffusion 모델 등에서는 고해상도와 미적으로 만족스러운 비디오를 생성하는 데 어려움을 겪었으나, ByteDance에서 이번에 공개한 MagicVideo-V2를 통해 큰 개선을 이룰 수 있을 것으로 보입니다.

MagicVideo-V2로 생성한 예시 영상

"A beautiful woman, with a pink and platinum-colored ombre mohawk, facing the camera, wearing a composition of bubble wrap, cyberpunk jacket."

"A girl is writing something on a book. Oil painting style."

"A lone traveller walks in a misty forest."

"A monkey making latte art."

MagicVideo-V2 구조

MagicVideo-V2는 텍스트 설명을 바탕으로 고품질의 비디오를 생성하는 다단계 종단간 비디오 생성 파이프라인으로, 크게 다음의 네 가지 주요 모듈로 구성되어 있습니다​​:

텍스트-이미지 모듈 (Text-to-Image, T2I Module):

  • 사용자의 텍스트 프롬프트를 입력으로 사용하여 1024×1024 이미지를 생성합니다.
  • 이 참조 이미지는 비디오 콘텐츠와 미학적 스타일을 기술하는 데 도움이 됩니다.
  • MagicVideo-V2는 다양한 T2I 모델과 호환되며, 특히 내부에서 개발된 확산 기반의 T2I 모델을 사용하여 높은 미학적 이미지를 출력합니다​​.

이미지-비디오 모듈 (Image-to-Video, I2V Module):

  • 고품질 StableDiffusion 1.5 모델을 기반으로 하며, 인간 피드백을 활용하여 시각적 품질과 콘텐츠 일관성을 향상시킵니다.
  • 이 모듈은 참조 이미지 임베딩 모듈을 통해 참조 이미지를 활용하며, 외관 인코더를 사용하여 참조 이미지의 임베딩을 추출하고 교차 어텐션(cross-attention) 메커니즘을 통해 I2V 모듈에 주입합니다​​.

비디오-비디오 모듈 (Video-to-Video, V2V Module):

  • I2V 모듈과 유사한 디자인을 가지며, 같은 백본과 공간적 레이어를 공유합니다.
  • 동작 모듈은 별도로 비디오 초고해상도를 위해 고해상도 비디오 하위 집합을 사용하여 미세 조정됩니다.
  • 이미지 외관 인코더와 ControlNet 모듈도 사용되며, 이를 통해 높은 해상도에서 생성되는 비디오 프레임의 구조적 오류와 실패율을 줄이고, 더 높은 해상도에서 생성되는 세부 사항을 향상시킬 수 있습니다​​.

비디오 프레임 보간 모듈 (Video Frame Interpolation, VFI Module):

  • 내부적으로 훈련된 GAN 기반 VFI 모델을 사용합니다.
  • EDSC(Enhanced Deformable Separable Convolution) 헤드와 VQ-GAN 기반 아키텍처를 사용하여 안정성과 매끄러움을 더욱 향상시킵니다.
  • 또한, 가벼운 보간 모델을 사전 훈련하여 사용하여 안정성과 매끄러움을 추가로 개선합니다​​.

MagicVideo-V2 특장점

MagicVideo-V2는 사용자의 질적 평가에서 기존 시스템보다 높은 비디오 품질과 더 매끄러운 애니메이션으로 더 높은 선호도를 나타내었습니다:

  1. 고해상도 및 미학적 품질: 놀라운 충실도와 매끄러움으로 비디오를 생성하면서 높은 미학적 품질을 유지합니다.
  2. 다단계 파이프라인: 텍스트에서 이미지 모델, 비디오 모션 생성기, 참조 이미지 임베딩 모듈, 프레임 보간 모듈을 포함합니다.
  3. 향상된 비디오 품질: 1048×1048 해상도로 비디오를 출력하며, 내용과 시간적 매끄러움이 향상되었습니다.

MagicVideo-V2는 새로운 기준을 설정했지만, 비디오 생성 속도를 높이고, 해석할 수 있는 텍스트 설명의 범위를 넓히며, 생성된 콘텐츠의 맥락적 관련성을 개선하는 것에 초점을 맞춘 미래의 개선이 가능합니다.

더 읽어보기

MagicVideo-V2 홈페이지

https://magicvideov2.github.io/

MagicVideo-V2 논문

MagicVideo-V2와 비교한 생성 모델: Gen-2

MagicVideo-V2와 비교한 생성 모델: MoonValley

https://https://moonvalley.ai/

MagicVideo-V2와 비교한 생성 모델: Morph

MagicVideo-V2와 비교한 생성 모델: Pika 1.0

MagicVideo-V2와 비교한 생성 모델: Stable Video Diffusion


:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck:

1개의 좋아요