CogVideoX 및 CogVideo: 오픈소스 텍스트-비디오 생성 모델

9bow · 9월 1, 2024, 11:53오전

CogVideo & CogVideoX 소개

CogVideo 및 CogVideoX는 대규모 텍스트-비디오 생성 모델입니다. CogVideoX는 QingYing에서 유래한 오픈 소스 버전으로, 다양한 모델과 개선된 비디오 생성 품질을 제공합니다. 이 모델은 텍스트 입력을 기반으로 비디오를 생성하며, 다양한 크기와 성능의 모델로 확장 가능합니다.

CogVideo는 ICLR '23에서 최초로 공개한 텍스트-비디오 생성 모델로, 고프레임 비디오 생성이 가능합니다. CogVideoX는 텍스트 입력을 통해 동영상을 생성할 수 있는 고성능 모델입니다. 2024년 8월에 오픈소스로 공개된 이 프로젝트는 두 가지 주요 모델, CogVideoX-2B와 CogVideoX-5B를 제공합니다. 이 모델들은 다양한 GPU 환경에서 실행 가능하도록 최적화되어 있으며, 특히 2B 모델은 GTX 1080TI와 같은 구형 GPU에서도 실행할 수 있도록 설계되었습니다. 이러한 접근성은 비디오 생성 기술의 문턱을 낮추고, 연구자들과 개발자들이 쉽게 접근할 수 있게 만듭니다.

CogVideoX는 Huggingface, ModelScope, 그리고 WiseModel 등의 플랫폼에서도 사용 가능하며, 사용자는 웹 데모 및 CLI를 통해 간단히 테스트할 수 있습니다. 최신 연구 성과와 고급 인프라 지원 덕분에 CogVideoX는 현존하는 비디오 생성 모델 중에서도 뛰어난 품질과 성능을 자랑합니다.

CogVideoX-2B와 CogVideoX-5B 모델은 각기 다른 성능과 메모리 요구사항을 가지고 있습니다. 2B 모델은 저렴한 하드웨어에서의 사용을 목표로 설계되어 비교적 낮은 VRAM을 요구하며, 5B 모델은 더 높은 품질의 비디오를 생성할 수 있는 대규모 모델입니다.

CogVideoX의 주요 기능

오픈소스 라이브러리: 사용자가 직접 비디오 생성 실험을 할 수 있도록 코드와 모델이 모두 공개되어 있습니다.
다양한 인퍼런스 환경 지원: 단일 GPU뿐 아니라 다중 GPU 환경에서도 최적화된 인퍼런스를 지원합니다.
낮은 VRAM 요구사항: 최신 GPU뿐만 아니라 비교적 저사양의 GPU에서도 모델을 실행할 수 있도록 다양한 최적화 옵션을 제공합니다.
직관적 인터페이스: Huggingface Space, ModelScope, 그리고 WiseModel 등에서의 사용이 가능하며, CLI 및 웹 데모를 통해 쉽게 테스트할 수 있습니다.
다양한 도구 지원: 비디오 생성 외에도 고해상도 비디오 렌더링을 위한 VEnhancer 등의 툴도 함께 제공됩니다.

CogVideoX-2B 및 CogVideoX-5B 모델 정보

CogVideoX-2B는 비용 효율적인 실행과 호환성에 초점을 맞춘 엔트리 레벨 모델로, 저사양 GPU에서도 동작이 가능하여 2차 개발에 유리합니다.
CogVideoX-5B는 더 나은 시각적 효과와 고품질 비디오 생성을 위한 대규모 모델로, 고사양 GPU 환경에서의 사용을 권장합니다.
두 모델 모두 다양한 최적화 기능을 제공하며, 최신 AI 비디오 생성 기술을 활용하고자 하는 연구자와 개발자에게 강력한 도구가 될 것입니다.

항목	CogVideoX-2B	CogVideoX-5B
모델 설명	엔트리 레벨 모델, 호환성 및 비용 효율성을 강조하며 저비용 실행 가능	대규모 모델로 더 높은 비디오 품질과 시각적 효과 제공
인퍼런스 정밀도	FP16(추천), BF16, FP32, FP8, INT8 (INT4 미지원)	BF16(추천), FP16, FP32, FP8, INT8 (INT4 미지원)
단일 GPU VRAM 소모량	SAT FP16: 18GB, diffusers FP16: 최소 4GB, INT8: 최소 3.6GB	SAT BF16: 26GB, diffusers BF16: 최소 5GB, INT8: 최소 4.4GB
다중 GPU 인퍼런스 VRAM 소모량	FP16: 10GB (diffusers 사용 시)	BF16: 15GB (diffusers 사용 시)
인퍼런스 속도 (50 스텝 기준)	A100 GPU: 약 90초 이하, H100 GPU: 약 45초	A100 GPU: 약 180초 이하, H100 GPU: 약 90초
파인튜닝 정밀도	FP16	BF16
파인튜닝 VRAM 소모량 (GPU 당)	47GB (LORA bs=1), 61GB (LORA bs=2), 62GB (SFT bs=1)	63GB (LORA bs=1), 80GB (LORA bs=2), 75GB (SFT bs=1)
프롬프트 언어	영어	영어
프롬프트 길이 제한	226 토큰	226 토큰
비디오 길이	6초	6초
프레임 속도	초당 8 프레임	초당 8 프레임
비디오 해상도	720 x 480, 다른 해상도 미지원	720 x 480, 다른 해상도 미지원
위치 인코딩	3d_sincos_pos_embed	3d_rope_pos_embed
다운로드 페이지 (Diffusers)	HuggingFace, ModelScope, WiseModel	HuggingFace, ModelScope, WiseModel
다운로드 페이지 (SAT)	SAT	SAT

라이선스

CogVideo 및 CogVideoX 코드가 포함된 GitHub 저장소는 Apache 2.0 라이선스로 공개 및 배포되었습니다.

CogVideoX-2B 모델(Transforer 모듈과 VAE 모듈)은 Apache 2.0 라이선스로 공개 및 배포되었습니다.

CogVideoX-5B 모델(Transformers 모듈)은 CogVideoX LICENSE로 공개 및 배포되었습니다.

CogVideoX 논문

CogVideoX GitHub 저장소

https://github.com/THUDM/CogVideo

CogVideoX로 생성한 영상 예시 (GitHub)

https://github.com/THUDM/CogVideo?tab=readme-ov-file#gallery

CogVideoX-5B 모델 데모 (HuggingFace)

CogVideo 논문 (ICLR'23)

CogVideo GitHub 저장소 (CogVideo Branch)

CogVideo 데모

https://models.aminer.cn/cogvideo/

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

dudtheheaven · 9월 4, 2024, 1:17오전

작년에 T2V 과제에 참여해서 자주 봤던 CogVideo였는데 X도 나왔나보네요 ㄷㄷ