VASA-1, 한 장의 이미지와 음성으로 실감나는 대화형 얼굴 생성 프레임워크 (feat. Microsoft)

9bow · 4월 19, 2024, 10:35오후

PyTorchKR

Microsoft Research Asia 팀이 개발한 VASA-1 모델은 단일 정적 이미지와 음성 클립만으로 사실적이고 생동감 넘치는 대화형 얼굴 영상을 실시간으로 생성할 수 있습니다. VASA-1은 입 모양과 음성의 동기화뿐만 아니라 다양한 얼굴 표정과 자연스러운 머리 움직임을 통해 인간의 대화 행동을 모방합니다.

위 이미지 및 아래의 모든 얼굴 이미지는 모나리자를 제외하고는 모두 StyleGAN2 또는 DALL-E-3에서 생성한 실존하지 않는 가상의 얼굴입니다. 또한, VASA-1은 가상의 캐릭터를 위한 것으로, 현실 세계의 인간을 모방하는 목적으로 만들고 있지 않습니다. VASA-1은 연구용 데모이며 제품 또는 API 출시 계획은 없습니다.

VASA-1, 한 장의 이미지와 음성으로 실감나는 대화형 얼굴 생성 프레임워크 (feat. Microsoft)

소개

VASA는 하나의 정적 이미지와 음성 클립을 사용하여 실감 나는 대화형 얼굴을 생성하는 프레임워크입니다. 이 모델은 표현력 있는 얼굴 동작과 머리 움직임을 포착하여 진정성과 생동감을 더해주는 핵심 혁신을 포함하고 있습니다. 이러한 기능은 특히 온라인 실시간 상호 작용을 필요로 하는 환경에서 큰 장점을 가집니다.

VASA-1은 얼굴 잠재 공간에서 작동하는 홀리스틱 얼굴 동역학 및 머리 움직임 생성 모델을 사용합니다. 이 잠재 공간은 비디오를 사용하여 발전되었으며, 각각의 얼굴 특성을 분리하여 표현할 수 있도록 설계되었습니다. 사용자는 간단한 입력을 통해 이 기술을 활용할 수 있습니다.

주요 특징

정확한 입-음성 동기화: VASA-1은 음성에 맞추어 정확하게 입 모양을 생성합니다.
표현력 있는 얼굴 뉘앙스와 자연스러운 머리 움직임: 다양한 표정과 머리 움직임을 통해 비디오에 생동감을 부여합니다.
실시간 비디오 생성: 최대 40FPS의 속도로 512x512 비디오를 실시간으로 생성할 수 있으며, 시작 지연 시간이 거의 없습니다.

실시간 효율성

VASA-1 모델은 오프라인 배치 처리 모드에서 512x512 크기의 비디오 프레임을 초당 45프레임(FPS)으로 생성할 수 있습니다. 또한, NVIDIA RTX 4090 GPU를 탑재한 데스크탑 PC에서 평가한 결과, 온라인 스트리밍 모드에서는 최대 40FPS를 지원하며, 시작 지연 시간은 단 170밀리초에 불과합니다. 이러한 빠른 처리 속도와 낮은 지연 시간은 실시간 상호 작용을 위한 환경에서 매우 중요한 요소로 작용합니다. 이 기술은 가상 현실 회의, 원격 교육, 인터랙티브 엔터테인먼트 등 다양한 실시간 애플리케이션에 효과적으로 활용될 수 있습니다.

생성 예시

더 읽어보기

VASA-1 블로그 글

VASA-1 논문

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~