Mochi-1, Genmo가 공개한 오픈소스 비디오 생성 모델

9bow · 11월 28, 2024, 1:45오후

Mochi-1 소개

인공지능 비디오 생성 기술을 연구하는 Genmo에서 오픈소스 비디오 생성 모델인 Mochi 1를 출시하였으며, 연구용 미리보기 버전 또한 함께 공개했습니다. Mochi 1은 고화질 모션 품질과 텍스트 프롬프트에 대한 강력한 적응력을 갖춘 최신 오픈소스 비디오 생성 모델입니다. 이 모델은 뛰어난 모션 품질과 텍스트 프롬프트 준수 능력을 자랑하며, 오픈소스 비디오 생성 기술의 새로운 표준을 제시하고 있습니다. Genmo는 이 모델을 통해 비디오 생성 기술에서 폐쇄형 시스템과 오픈소스 시스템 간의 격차를 줄이는 데 성공했습니다. 현재 Mochi 1의 480p 기본 모델이 공개되었으며, 연말에는 720p 해상도를 지원하는 HD 버전도 출시될 예정입니다.

Genmo는 Mochi 1의 성능을 체험할 수 있는 무료 플레이그라운드를 제공하고 있으며, 모델의 가중치와 아키텍처는 HuggingFace 및 GitHub 저장소에서 확인할 수 있습니다. 이 모델은 단순히 뛰어난 품질을 제공하는 것을 넘어, 오픈소스 커뮤니티와의 협력을 통해 AI 기술의 발전을 가속화하는 데 초점을 맞추고 있습니다.

Mochi 1은 텍스트-비디오 생성 모델로서 폐쇄형 모델과 경쟁 가능한 품질을 제공합니다. 특히, 다음과 같은 면에서 기존 모델들과 차별화됩니다:

• Prompt Adherence: 텍스트 프롬프트에 대한 충실도가 뛰어나 사용자가 원하는 비디오를 정확히 생성할 수 있습니다.

• Motion Quality: 30fps로 부드럽고 현실적인 모션을 생성하며, 인간의 동작뿐 아니라 물리적 현상(예: 유체 역학, 털과 머리카락의 움직임)까지 자연스럽게 표현합니다.

이 외에도 Stable Diffusion 및 DreamFusion과 유사한 구조를 사용하지만, 비디오 생성에 최적화된 Asymmetric Diffusion Transformer를 통해 더욱 효율적인 성능을 제공합니다.

Mochi-1 모델 구조 및 주요 특장점

모델 구조

100억 개의 파라미터를 갖춘 Asymmetric Diffusion Transformer(AsymmDiT) 기반
RoPE(Position Embedding) 확장을 통해 3차원 공간에서의 토큰 로컬라이징 가능
텍스트와 비주얼 데이터를 효율적으로 처리하는 멀티모달 아키텍처

주요 특장점

비디오를 96배 압축하는 비디오 VAE를 채택하여 8x8의 공간 및 6x 시간 축소로 효율적인 처리가 가능합니다.
단일 T5-XXL 언어 모델을 사용하여 텍스트 프롬프트를 간결하게 처리할 수 있도록 프롬프트 인코딩을 도입하였습니다.
480p 해상도로 최대 5.4초 길이의 비디오 생성 가능하며, HD 버전에서는 더 높은 해상도와 품질을 기대할 수 있습니다.

라이선스

Mochi 1 모델 코드는 Apache 2.0 라이선스로 공개 및 배포되고 있습니다.

Genmo의 Mochi 1 모델 소개 블로그

Mochi 1 GitHub 저장소

Mochi 1 모델 가중치

Mochi 1 모델 사용해보기 (Playground)

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~