CogVideo & CogVideoX 소개
CogVideo 및 CogVideoX는 대규모 텍스트-비디오 생성 모델입니다. CogVideoX는 QingYing에서 유래한 오픈 소스 버전으로, 다양한 모델과 개선된 비디오 생성 품질을 제공합니다. 이 모델은 텍스트 입력을 기반으로 비디오를 생성하며, 다양한 크기와 성능의 모델로 확장 가능합니다.
CogVideo는 ICLR '23에서 최초로 공개한 텍스트-비디오 생성 모델로, 고프레임 비디오 생성이 가능합니다. CogVideoX는 텍스트 입력을 통해 동영상을 생성할 수 있는 고성능 모델입니다. 2024년 8월에 오픈소스로 공개된 이 프로젝트는 두 가지 주요 모델, CogVideoX-2B와 CogVideoX-5B를 제공합니다. 이 모델들은 다양한 GPU 환경에서 실행 가능하도록 최적화되어 있으며, 특히 2B 모델은 GTX 1080TI와 같은 구형 GPU에서도 실행할 수 있도록 설계되었습니다. 이러한 접근성은 비디오 생성 기술의 문턱을 낮추고, 연구자들과 개발자들이 쉽게 접근할 수 있게 만듭니다.
CogVideoX는 Huggingface, ModelScope, 그리고 WiseModel 등의 플랫폼에서도 사용 가능하며, 사용자는 웹 데모 및 CLI를 통해 간단히 테스트할 수 있습니다. 최신 연구 성과와 고급 인프라 지원 덕분에 CogVideoX는 현존하는 비디오 생성 모델 중에서도 뛰어난 품질과 성능을 자랑합니다.
CogVideoX-2B와 CogVideoX-5B 모델은 각기 다른 성능과 메모리 요구사항을 가지고 있습니다. 2B 모델은 저렴한 하드웨어에서의 사용을 목표로 설계되어 비교적 낮은 VRAM을 요구하며, 5B 모델은 더 높은 품질의 비디오를 생성할 수 있는 대규모 모델입니다.
CogVideoX의 주요 기능
- 오픈소스 라이브러리: 사용자가 직접 비디오 생성 실험을 할 수 있도록 코드와 모델이 모두 공개되어 있습니다.
- 다양한 인퍼런스 환경 지원: 단일 GPU뿐 아니라 다중 GPU 환경에서도 최적화된 인퍼런스를 지원합니다.
- 낮은 VRAM 요구사항: 최신 GPU뿐만 아니라 비교적 저사양의 GPU에서도 모델을 실행할 수 있도록 다양한 최적화 옵션을 제공합니다.
- 직관적 인터페이스: Huggingface Space, ModelScope, 그리고 WiseModel 등에서의 사용이 가능하며, CLI 및 웹 데모를 통해 쉽게 테스트할 수 있습니다.
- 다양한 도구 지원: 비디오 생성 외에도 고해상도 비디오 렌더링을 위한 VEnhancer 등의 툴도 함께 제공됩니다.
CogVideoX-2B 및 CogVideoX-5B 모델 정보
- CogVideoX-2B는 비용 효율적인 실행과 호환성에 초점을 맞춘 엔트리 레벨 모델로, 저사양 GPU에서도 동작이 가능하여 2차 개발에 유리합니다.
- CogVideoX-5B는 더 나은 시각적 효과와 고품질 비디오 생성을 위한 대규모 모델로, 고사양 GPU 환경에서의 사용을 권장합니다.
- 두 모델 모두 다양한 최적화 기능을 제공하며, 최신 AI 비디오 생성 기술을 활용하고자 하는 연구자와 개발자에게 강력한 도구가 될 것입니다.
항목 | CogVideoX-2B | CogVideoX-5B |
---|---|---|
모델 설명 | 엔트리 레벨 모델, 호환성 및 비용 효율성을 강조하며 저비용 실행 가능 | 대규모 모델로 더 높은 비디오 품질과 시각적 효과 제공 |
인퍼런스 정밀도 | FP16(추천), BF16, FP32, FP8, INT8 (INT4 미지원) | BF16(추천), FP16, FP32, FP8, INT8 (INT4 미지원) |
단일 GPU VRAM 소모량 | SAT FP16: 18GB, diffusers FP16: 최소 4GB, INT8: 최소 3.6GB |
SAT BF16: 26GB, diffusers BF16: 최소 5GB, INT8: 최소 4.4GB |
다중 GPU 인퍼런스 VRAM 소모량 | FP16: 10GB (diffusers 사용 시) | BF16: 15GB (diffusers 사용 시) |
인퍼런스 속도 (50 스텝 기준) | A100 GPU: 약 90초 이하, H100 GPU: 약 45초 |
A100 GPU: 약 180초 이하, H100 GPU: 약 90초 |
파인튜닝 정밀도 | FP16 | BF16 |
파인튜닝 VRAM 소모량 (GPU 당) | 47GB (LORA bs=1), 61GB (LORA bs=2), 62GB (SFT bs=1) | 63GB (LORA bs=1), 80GB (LORA bs=2), 75GB (SFT bs=1) |
프롬프트 언어 | 영어 | 영어 |
프롬프트 길이 제한 | 226 토큰 | 226 토큰 |
비디오 길이 | 6초 | 6초 |
프레임 속도 | 초당 8 프레임 | 초당 8 프레임 |
비디오 해상도 | 720 x 480, 다른 해상도 미지원 | 720 x 480, 다른 해상도 미지원 |
위치 인코딩 | 3d_sincos_pos_embed | 3d_rope_pos_embed |
다운로드 페이지 (Diffusers) | HuggingFace, ModelScope, WiseModel | HuggingFace, ModelScope, WiseModel |
다운로드 페이지 (SAT) | SAT | SAT |
라이선스
CogVideo 및 CogVideoX 코드가 포함된 GitHub 저장소는 Apache 2.0 라이선스로 공개 및 배포되었습니다.
CogVideoX-2B 모델(Transforer 모듈과 VAE 모듈)은 Apache 2.0 라이선스로 공개 및 배포되었습니다.
CogVideoX-5B 모델(Transformers 모듈)은 CogVideoX LICENSE로 공개 및 배포되었습니다.
CogVideoX 논문
CogVideoX GitHub 저장소
CogVideoX로 생성한 영상 예시 (GitHub)
CogVideoX-5B 모델 데모 (HuggingFace)
CogVideo 논문 (ICLR'23)
CogVideo GitHub 저장소 (CogVideo Branch)
CogVideo 데모
https://models.aminer.cn/cogvideo/
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~