[GN⁺] Animate Anyone: 캐릭터 애니메이션을 위한 이미지-to-비디오 합성 기술

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

소개

캐릭터 애니메이션을 위한 일관되고 제어 가능한 이미지-비디오 합성 기법

  • 캐릭터 애니메이션은 정지 이미지로부터 동작 신호를 통해 캐릭터 비디오를 생성하는 것을 목표로 함.
  • 디퓨전 모델은 강력한 생성 능력 덕분에 시각적 생성 연구에서 주류를 이루고 있으나, 이미지-비디오 분야, 특히 캐릭터 애니메이션에서는 세부 정보를 시간적으로 일관되게 유지하는 것이 큰 도전임.
  • 본 논문에서는 디퓨전 모델의 장점을 활용하여 캐릭터 애니메이션을 위한 새로운 프레임워크를 제안하고, 참조 이미지의 복잡한 외형 특성을 유지하기 위해 ReferenceNet을 설계하여 공간적 주의를 통해 세부 특성을 통합함.

방법론

  • 제안된 방법의 개요는 Pose Guider를 사용하여 포즈 시퀀스를 초기 인코딩하고, 다중 프레임 노이즈와 융합한 후, 비디오 생성을 위해 Denoising UNet이 비노이즈 과정을 수행함.
  • Denoising UNet의 계산 블록은 공간적 주의, 교차 주의, 시간적 주의로 구성되며, 참조 이미지의 통합은 두 가지 측면을 포함함.
  • 첫째, ReferenceNet을 통해 추출된 세부 특성이 공간적 주의에 사용되고, 둘째, CLIP 이미지 인코더를 통해 추출된 의미적 특성이 교차 주의에 사용됨.
  • 시간적 어텐션은 시간 차원에서 작동하며, 최종적으로 VAE 디코더가 결과를 비디오 클립으로 디코딩함.

다양한 캐릭터 애니메이션

  • 인간, 애니메/만화, 휴머노이드 캐릭터를 포함한 다양한 캐릭터를 애니메이션할 수 있음.
  • 패션 비디오 합성은 패션 사진을 실제적인 애니메이션 비디오로 전환하는 것을 목표로 하며, UBC 패션 비디오 데이터셋에서 동일한 훈련 데이터를 사용하여 실험을 수행함.
  • 인간 댄스 생성은 실제 댄스 시나리오에서 이미지를 애니메이션하는 것을 중점으로 하며, TikTok 데이터셋에서 동일한 훈련 데이터를 사용하여 실험을 수행함.

GN⁺의 의견

  • 이 연구는 캐릭터 애니메이션 분야에서 중요한 진전을 나타내며, 디퓨전 모델을 활용하여 이미지로부터 비디오를 생성하는 새로운 방법을 제시함.
  • 참조 이미지의 세부적인 특성을 유지하면서도 캐릭터의 움직임을 정교하게 제어할 수 있는 기술은 애니메이션과 시각 효과 산업에 큰 영향을 미칠 수 있음.
  • 이 글은 캐릭터 애니메이션을 위한 혁신적인 접근 방식과 그것이 어떻게 다양한 캐릭터와 시나리오에 적용될 수 있는지에 대한 흥미로운 정보를 제공함.

Hacker News 의견

  • 인공지능이 설득력 있는 인간의 움직임을 생성하는 것을 처음 본다는 감탄
    • 실제 움직임의 골격은 모션 캡처에서 비롯되었을 가능성이 높음
    • 비디오 게임에 중요한 움직임 골격을 생성하는 현재 기술 수준에 대한 궁금증
    • Corridor Crew의 Rock, Paper, Scissors를 AI 캐릭터 애니메이션의 이전 최고 수준으로 언급
    • 애니메이션 제작의 진입 장벽이 매우 낮아질 것으로 예상
    • AI 여자친구에 대한 소름 돋는 요소가 증가함
  • 몇 년 안에 이 기술이 전통적으로 매력적인 젊은 여성 캐릭터 외에도 일반화될 수 있음에 놀라움
  • Github에 연구 결과를 게시하지만 코드를 공개하지 않는 행위에 대한 의문 제기
    • 이러한 추세가 이상하다고 생각함
  • 좋아하는 만화를 애니메이션으로 만들어 볼 수 있는 도구나 도구 체인에 대한 기대
    • 공식 발매를 기다리지 않고 시즌 1이나 OVA를 소화시켜 시즌 2를 볼 수 있기를 희망
  • 몇 년 내에 모든 비디오가 실시간으로 생성되는 YouTube와 같은 사이트가 생길 것이라는 상상
    • 전자 제품 수리부터 과학 학습까지 모든 것이 사용자의 학습 수준과 관심사에 맞춰져 있을 것으로 기대
  • 테스트 이미지 선택이 부적절하다는 비판
    • 다양하고 표준화된 데이터셋을 사용해야 한다는 주장
    • 이미지 처리 강의에서 성적인 이미지 사용에 대한 비판 인용
  • 샘플이 선별된 것 같고 시스템이 데이터셋에 과적합되어 다른 것에는 일반화되지 않을 것이라는 의심
    • 실패 사례가 없는 것은 경계해야 할 신호
    • 현재 형태로도 유용할 수 있으며, 더 일반적인 시스템을 만들기 위해서는 적절한 훈련 데이터 수집이 주로 필요함
  • 이 기술이 3D 모델링 및 VR과 결합될 때의 상상
    • VR 포르노, 동적 AI 캐릭터가 있는 비디오 게임, 영화와 교육에 부활한 사망한 배우와 역사적 인물
    • 미래의 요양원에 대한 두려움이 줄어듦
  • 이 분야의 모든 것이 성적인 경향이 있는 이유에 대한 의문
    • 문제가 될 수 있지만, 사람들이 의도를 솔직하게 드러낼 때 환영하는 태도도 있음

더 읽어보기

Animate Anyone 프로젝트 홈페이지

논문

https://arxiv.org/pdf/2311.17117.pdf

영상

GitHub 저장소

출처 / GeekNews