CogVideoX 및 CogVideo: 오픈소스 텍스트-비디오 생성 모델

CogVideoX 및 CogVideo: 오픈소스 텍스트-비디오 생성 모델

CogVideo & CogVideoX 소개

CogVideo 및 CogVideoX는 대규모 텍스트-비디오 생성 모델입니다. CogVideoX는 QingYing에서 유래한 오픈 소스 버전으로, 다양한 모델과 개선된 비디오 생성 품질을 제공합니다. 이 모델은 텍스트 입력을 기반으로 비디오를 생성하며, 다양한 크기와 성능의 모델로 확장 가능합니다.

CogVideo는 ICLR '23에서 최초로 공개한 텍스트-비디오 생성 모델로, 고프레임 비디오 생성이 가능합니다. CogVideoX는 텍스트 입력을 통해 동영상을 생성할 수 있는 고성능 모델입니다. 2024년 8월에 오픈소스로 공개된 이 프로젝트는 두 가지 주요 모델, CogVideoX-2B와 CogVideoX-5B를 제공합니다. 이 모델들은 다양한 GPU 환경에서 실행 가능하도록 최적화되어 있으며, 특히 2B 모델은 GTX 1080TI와 같은 구형 GPU에서도 실행할 수 있도록 설계되었습니다. 이러한 접근성은 비디오 생성 기술의 문턱을 낮추고, 연구자들과 개발자들이 쉽게 접근할 수 있게 만듭니다.

CogVideoX는 Huggingface, ModelScope, 그리고 WiseModel 등의 플랫폼에서도 사용 가능하며, 사용자는 웹 데모 및 CLI를 통해 간단히 테스트할 수 있습니다. 최신 연구 성과와 고급 인프라 지원 덕분에 CogVideoX는 현존하는 비디오 생성 모델 중에서도 뛰어난 품질과 성능을 자랑합니다.

CogVideoX-2B와 CogVideoX-5B 모델은 각기 다른 성능과 메모리 요구사항을 가지고 있습니다. 2B 모델은 저렴한 하드웨어에서의 사용을 목표로 설계되어 비교적 낮은 VRAM을 요구하며, 5B 모델은 더 높은 품질의 비디오를 생성할 수 있는 대규모 모델입니다.

CogVideoX의 주요 기능

  1. 오픈소스 라이브러리: 사용자가 직접 비디오 생성 실험을 할 수 있도록 코드와 모델이 모두 공개되어 있습니다.
  2. 다양한 인퍼런스 환경 지원: 단일 GPU뿐 아니라 다중 GPU 환경에서도 최적화된 인퍼런스를 지원합니다.
  3. 낮은 VRAM 요구사항: 최신 GPU뿐만 아니라 비교적 저사양의 GPU에서도 모델을 실행할 수 있도록 다양한 최적화 옵션을 제공합니다.
  4. 직관적 인터페이스: Huggingface Space, ModelScope, 그리고 WiseModel 등에서의 사용이 가능하며, CLI 및 웹 데모를 통해 쉽게 테스트할 수 있습니다.
  5. 다양한 도구 지원: 비디오 생성 외에도 고해상도 비디오 렌더링을 위한 VEnhancer 등의 툴도 함께 제공됩니다.

CogVideoX-2B 및 CogVideoX-5B 모델 정보

  • CogVideoX-2B는 비용 효율적인 실행과 호환성에 초점을 맞춘 엔트리 레벨 모델로, 저사양 GPU에서도 동작이 가능하여 2차 개발에 유리합니다.
  • CogVideoX-5B는 더 나은 시각적 효과와 고품질 비디오 생성을 위한 대규모 모델로, 고사양 GPU 환경에서의 사용을 권장합니다.
  • 두 모델 모두 다양한 최적화 기능을 제공하며, 최신 AI 비디오 생성 기술을 활용하고자 하는 연구자와 개발자에게 강력한 도구가 될 것입니다.
항목 CogVideoX-2B CogVideoX-5B
모델 설명 엔트리 레벨 모델, 호환성 및 비용 효율성을 강조하며 저비용 실행 가능 대규모 모델로 더 높은 비디오 품질과 시각적 효과 제공
인퍼런스 정밀도 FP16(추천), BF16, FP32, FP8, INT8 (INT4 미지원) BF16(추천), FP16, FP32, FP8, INT8 (INT4 미지원)
단일 GPU VRAM 소모량 SAT FP16: 18GB,
diffusers FP16: 최소 4GB,
INT8: 최소 3.6GB
SAT BF16: 26GB,
diffusers BF16: 최소 5GB,
INT8: 최소 4.4GB
다중 GPU 인퍼런스 VRAM 소모량 FP16: 10GB (diffusers 사용 시) BF16: 15GB (diffusers 사용 시)
인퍼런스 속도 (50 스텝 기준) A100 GPU: 약 90초 이하,
H100 GPU: 약 45초
A100 GPU: 약 180초 이하,
H100 GPU: 약 90초
파인튜닝 정밀도 FP16 BF16
파인튜닝 VRAM 소모량 (GPU 당) 47GB (LORA bs=1), 61GB (LORA bs=2), 62GB (SFT bs=1) 63GB (LORA bs=1), 80GB (LORA bs=2), 75GB (SFT bs=1)
프롬프트 언어 영어 영어
프롬프트 길이 제한 226 토큰 226 토큰
비디오 길이 6초 6초
프레임 속도 초당 8 프레임 초당 8 프레임
비디오 해상도 720 x 480, 다른 해상도 미지원 720 x 480, 다른 해상도 미지원
위치 인코딩 3d_sincos_pos_embed 3d_rope_pos_embed
다운로드 페이지 (Diffusers) :hugs: HuggingFace, :robot: ModelScope, :purple_circle: WiseModel :hugs: HuggingFace, :robot: ModelScope, :purple_circle: WiseModel
다운로드 페이지 (SAT) SAT SAT

라이선스

CogVideo 및 CogVideoX 코드가 포함된 GitHub 저장소는 Apache 2.0 라이선스로 공개 및 배포되었습니다.

CogVideoX-2B 모델(Transforer 모듈과 VAE 모듈)은 Apache 2.0 라이선스로 공개 및 배포되었습니다.

CogVideoX-5B 모델(Transformers 모듈)은 CogVideoX LICENSE로 공개 및 배포되었습니다.

:scroll: CogVideoX 논문

:github: CogVideoX GitHub 저장소

:framed_picture: CogVideoX로 생성한 영상 예시 (:github:GitHub)

:framed_picture: CogVideoX-5B 모델 데모 (:hugs:HuggingFace)

:scroll: CogVideo 논문 (ICLR'23)

:github: CogVideo GitHub 저장소 (CogVideo Branch)

:framed_picture: CogVideo 데모

https://models.aminer.cn/cogvideo/




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요

작년에 T2V 과제에 참여해서 자주 봤던 CogVideo였는데 X도 나왔나보네요 ㄷㄷ