PyTorchKR
- TV에서 나오는 대화의 오디오를 사용하여 대화를 나누는 사람들의 아바타를 만들 수 있는 프로젝트입니다.
- 말하는 사람의 표정과 몸짓, 손동작 등을 포함하여 자연스럽게 움직이는 아바타를 생성하는 것이 목표로,
애니메이션 제작이나 다양한 디지털 콘텐츠에서 유용하게 사용할 수 있을 것으로 기대합니다. - 아래 내용은 GPT 모델로 자동 요약한 것으로, 자세한 내용은 원문을 참고해주세요!
- 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
Audio2PhotoReal 프로젝트 소개
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations
Audio2PhotoReal은 대화 중인 사람들의 음성을 기반으로 사실적인 3D 아바타를 생성하는 기술입니다. 이 프로젝트는 음성 데이터만을 사용하여 사람의 얼굴, 몸, 손동작 등을 포함한 전체적인 몸짓을 현실감 있게 재현합니다. 이를 통해, 예를 들어, 대화하는 사람들의 표정이나 몸짓을 3D 아바타로 만들 수 있습니다.
주요 특징
-
사실적 아바타 생성: 음성 데이터로부터 얼굴, 몸, 손의 동작을 포함한 사실적인 아바타를 생성합니다. 이는 대화의 다이내믹을 반영하는 것이 중요한 부분입니다.
-
모델 구조:
-
얼굴 동작 모델: 미리 훈련된 입술 움직임 예측 모델을 사용하여 음성 데이터로부터 얼굴 동작을 생성합니다.
-
가이드 포즈 예측기: 오디오 신호를 입력받아 초당 1프레임의 가이드 포즈(기본 자세)를 예측합니다.
-
몸 동작 모델: 가이드 포즈와 오디오 데이터를 사용하여 초당 30프레임의 고주파수 몸 동작을 생성합니다.
- 벡터 양자화와 확산 방법의 결합:
-
벡터 양자화 (VQ): 데이터를 간소화된 형태로 표현하는 방법으로, 이 경우에는 기본 자세를 간단한 형태로 나타냅니다.
-
확산 방법: 이 방법은 더 자연스러운 움직임을 만들기 위해 세부적인 동작을 점차 추가합니다.
- 응용 분야:
- 대화 장면의 애니메이션 생성, TV 클립 등 다양한 오디오 소스에 적용 가능합니다.
- 중요성 및 장점
-
다양하고 표현력 있는 동작: 이 프로젝트는 포인팅, 손목 튕기기, 어깨 움추림 등 다양한 제스처를 생성할 수 있습니다.
-
사실주의의 중요성: 사실적인 아바타는 제스처의 미묘한 차이를 더 잘 평가할 수 있게 해줍니다.
방법론 설명
- 사실적인 재구성을 가능하게 하는 새롭고 풍부한 다자간 대화 데이터셋을 수집합니다. 사용한 데이터셋에 대한 정보는 GitHub 저장소에서 확인할 수 있습니다.
- 모션 모델은 얼굴 모션 모델, 가이드 포즈 예측기, 신체 모션 모델의 세 부분으로 구성됩니다.
- 사전학습된 입술 회귀기(lip regressor)의 오디오와 출력이 주어지면 조건부 확산 모델을 훈련하여 얼굴 모션을 출력합니다.
- 몸의 움직임의 경우, 오디오를 입력으로 받아 VQ가 적용된 가이드 포즈를 1fps로 자동 회귀적으로 출력합니다.
- 그런 다음 오디오와 가이드 포즈를 모두 확산 모델에 전달하여 인-필 고주파(in-fill high-frequency) 몸의 움직임을 30fps로 구성합니다.
- 생성된 얼굴과 몸 동작을 모두 훈련된 아바타 렌더러에 전달하여 사실적인 아바타를 생성합니다.
- 짜잔! 최종 결과물입니다.
결과 데모 영상
더 읽어보기
프로젝트 홈페이지
Audio2PhotoReal 논문
직접 실행 가능한 데모 (Google Colab)
모델 및 데모를 포함한 Audio2PhotoReal GitHub 저장소
렌더링을 위한 CABody GitHub 저장소
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~