FastVideo: 대규모 비디오 디퓨전 모델을 위한 경량 프레임워크

9bow · 12월 18, 2024, 1:44오후

FastVideo 소개

FastVideo는 대규모 비디오 디퓨전 모델((Diffusion Model)의 학습과 추론을 가속화하는 경량화 프레임워크입니다. FastMochi와 FastHunyuan이라는 두 가지 핵심 모델을 통해 기존 대비 최대 8배 빠른 추론 속도를 제공합니다. 이 프레임워크는 Phased Consistency Model(PCM) 기반의 증류 방법론(distillation recipes)을 도입하여 효율성을 극대화했습니다.

또한, Scalable Training 기능을 활용해 64개의 GPU에 걸쳐 거의 선형적으로 확장할 수 있으며, 메모리 효율적인 학습을 위해 LoRA 및 사전 학습된 텍스트 임베딩 등을 지원합니다. 특히, H100 GPU에서 작동하도록 최적화되어 고성능 하드웨어를 활용하는 개발자들에게 강력한 도구가 될 것입니다.

FastVideo의 주요 특징 및 기능

고속 추론: FastMochi와 FastHunyuan 모델 기반, 비디오 확산 모델의 추론 속도 향상 (8배 이상)
증류 및 미세 조정: Phased Consistency Model을 활용한 증류와 LoRA를 이용한 메모리 효율적인 미세 조정(Memory efficient finetuning) 지원
확장성 높은 학습: FSDP(Full Sharded Data Parallel), 시퀀스 병렬 처리 및 선택적 활성화 체크포인팅을 통해 64개의 GPU로 확장 가능
개발 중인 기능:
- Distribution Matching 증류 방법 추가 예정
- CogvideoX 모델 지원 예정
- 모델 로드 및 저장 속도 최적화

현재 지원하는 2가지 모델의 모델별 기능은 다음과 같습니다:

기능	FastHunyuan	FastMochi
추론 속도	기존 대비 8배 향상	기존 대비 8배 향상
모델 증류	PCM 기반 증류	PCM 기반 증류
메모리 효율 학습 지원
이미지 및 비디오 혼합 학습

라이선스

FastVideo 프로젝트는 MIT License로 공개되어 있으며, 상업적 사용에 제한이 없습니다.

FastVideo GitHub 저장소

https://github.com/hao-ai-lab/FastVideo

지원 모델

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~