[GN⁺] Animate Anyone: 캐릭터 애니메이션을 위한 이미지-to-비디오 합성 기술

9bow · 12월 3, 2023, 1:16오전

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

소개

캐릭터 애니메이션을 위한 일관되고 제어 가능한 이미지-비디오 합성 기법

캐릭터 애니메이션은 정지 이미지로부터 동작 신호를 통해 캐릭터 비디오를 생성하는 것을 목표로 함.
디퓨전 모델은 강력한 생성 능력 덕분에 시각적 생성 연구에서 주류를 이루고 있으나, 이미지-비디오 분야, 특히 캐릭터 애니메이션에서는 세부 정보를 시간적으로 일관되게 유지하는 것이 큰 도전임.
본 논문에서는 디퓨전 모델의 장점을 활용하여 캐릭터 애니메이션을 위한 새로운 프레임워크를 제안하고, 참조 이미지의 복잡한 외형 특성을 유지하기 위해 ReferenceNet을 설계하여 공간적 주의를 통해 세부 특성을 통합함.

방법론

제안된 방법의 개요는 Pose Guider를 사용하여 포즈 시퀀스를 초기 인코딩하고, 다중 프레임 노이즈와 융합한 후, 비디오 생성을 위해 Denoising UNet이 비노이즈 과정을 수행함.
Denoising UNet의 계산 블록은 공간적 주의, 교차 주의, 시간적 주의로 구성되며, 참조 이미지의 통합은 두 가지 측면을 포함함.
첫째, ReferenceNet을 통해 추출된 세부 특성이 공간적 주의에 사용되고, 둘째, CLIP 이미지 인코더를 통해 추출된 의미적 특성이 교차 주의에 사용됨.
시간적 어텐션은 시간 차원에서 작동하며, 최종적으로 VAE 디코더가 결과를 비디오 클립으로 디코딩함.

다양한 캐릭터 애니메이션

인간, 애니메/만화, 휴머노이드 캐릭터를 포함한 다양한 캐릭터를 애니메이션할 수 있음.
패션 비디오 합성은 패션 사진을 실제적인 애니메이션 비디오로 전환하는 것을 목표로 하며, UBC 패션 비디오 데이터셋에서 동일한 훈련 데이터를 사용하여 실험을 수행함.
인간 댄스 생성은 실제 댄스 시나리오에서 이미지를 애니메이션하는 것을 중점으로 하며, TikTok 데이터셋에서 동일한 훈련 데이터를 사용하여 실험을 수행함.

GN⁺의 의견

이 연구는 캐릭터 애니메이션 분야에서 중요한 진전을 나타내며, 디퓨전 모델을 활용하여 이미지로부터 비디오를 생성하는 새로운 방법을 제시함.
참조 이미지의 세부적인 특성을 유지하면서도 캐릭터의 움직임을 정교하게 제어할 수 있는 기술은 애니메이션과 시각 효과 산업에 큰 영향을 미칠 수 있음.
이 글은 캐릭터 애니메이션을 위한 혁신적인 접근 방식과 그것이 어떻게 다양한 캐릭터와 시나리오에 적용될 수 있는지에 대한 흥미로운 정보를 제공함.

Hacker News 의견

인공지능이 설득력 있는 인간의 움직임을 생성하는 것을 처음 본다는 감탄
- 실제 움직임의 골격은 모션 캡처에서 비롯되었을 가능성이 높음
- 비디오 게임에 중요한 움직임 골격을 생성하는 현재 기술 수준에 대한 궁금증
- Corridor Crew의 Rock, Paper, Scissors를 AI 캐릭터 애니메이션의 이전 최고 수준으로 언급
- 애니메이션 제작의 진입 장벽이 매우 낮아질 것으로 예상
- AI 여자친구에 대한 소름 돋는 요소가 증가함
몇 년 안에 이 기술이 전통적으로 매력적인 젊은 여성 캐릭터 외에도 일반화될 수 있음에 놀라움
Github에 연구 결과를 게시하지만 코드를 공개하지 않는 행위에 대한 의문 제기
- 이러한 추세가 이상하다고 생각함
좋아하는 만화를 애니메이션으로 만들어 볼 수 있는 도구나 도구 체인에 대한 기대
- 공식 발매를 기다리지 않고 시즌 1이나 OVA를 소화시켜 시즌 2를 볼 수 있기를 희망
몇 년 내에 모든 비디오가 실시간으로 생성되는 YouTube와 같은 사이트가 생길 것이라는 상상
- 전자 제품 수리부터 과학 학습까지 모든 것이 사용자의 학습 수준과 관심사에 맞춰져 있을 것으로 기대
테스트 이미지 선택이 부적절하다는 비판
- 다양하고 표준화된 데이터셋을 사용해야 한다는 주장
- 이미지 처리 강의에서 성적인 이미지 사용에 대한 비판 인용
샘플이 선별된 것 같고 시스템이 데이터셋에 과적합되어 다른 것에는 일반화되지 않을 것이라는 의심
- 실패 사례가 없는 것은 경계해야 할 신호
- 현재 형태로도 유용할 수 있으며, 더 일반적인 시스템을 만들기 위해서는 적절한 훈련 데이터 수집이 주로 필요함
이 기술이 3D 모델링 및 VR과 결합될 때의 상상
- VR 포르노, 동적 AI 캐릭터가 있는 비디오 게임, 영화와 교육에 부활한 사망한 배우와 역사적 인물
- 미래의 요양원에 대한 두려움이 줄어듦
이 분야의 모든 것이 성적인 경향이 있는 이유에 대한 의문
- 문제가 될 수 있지만, 사람들이 의도를 솔직하게 드러낼 때 환영하는 태도도 있음

더 읽어보기

Animate Anyone 프로젝트 홈페이지

논문

https://arxiv.org/pdf/2311.17117.pdf

영상

GitHub 저장소

https://github.com/HumanAIGC/AnimateAnyone

[GN⁺] Animate Anyone: 캐릭터 애니메이션을 위한 이미지-to-비디오 합성 기술

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

소개

캐릭터 애니메이션을 위한 일관되고 제어 가능한 이미지-비디오 합성 기법

방법론

다양한 캐릭터 애니메이션

GN⁺의 의견

Hacker News 의견

더 읽어보기

Animate Anyone 프로젝트 홈페이지

논문

영상

GitHub 저장소

출처 / GeekNews