PhotoMaker: ID 임베딩 스택을 통한 사실적인 사람 사진 생성/커스터마이징 (feat. 텐센트)

9bow · 1월 18, 2024, 3:01오전

PyTorchKR

이번에 소개하는 PhotoMaker는 텐센트에서 공개한 사진 생성 방법으로, 입력된 사진으로부터 얼굴 모습 등을 특정하여 새로운 사진 생성에 사용하는 방법입니다. 주요 기여는 입력 사진들로부터 ID 임베딩을 생성할 때 다수의 ID들을 하나의 스택(stack)으로 통합하여 인코딩하는 것입니다. 텍스트로부터 이미지를 생성하는 분야의 발전 과정을 함께 살펴보시죠!
이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

PhotoMaker 소개

PhotoMaker는 텍스트-이미지 생성 분야, 특히 사실적인 인간 사진 생성을 발전시키기 위해 개발되었습니다. PhotoMaker는 기존의 텍스트-이미지 생성 방법들이 효율성, 신원 충실도, 그리고 유연한 텍스트 제어 사이의 균형을 맞추는 데 어려움을 겪고 있는 문제를 해결합니다. 신원 보존과 맞춤화에 중점을 둔 더 효율적이고 다양한 시스템에 대한 수요가 증가하고 있습니다. PhotoMaker는 스택된 ID 임베딩 기법을 도입함으로써 다수의 입력 ID 이미지를 통합된 ID 표현으로 인코딩하여, 동일하거나 다른 ID의 특성을 포괄적으로 담을 수 있게 합니다.

주요 특징

ID 보존: 이전 방법들에 비해 입력된 사진들로부터 신원을 더 잘 추출하고 보존합니다.
속도 및 품질: 생성 속도와 품질에서 상당한 개선을 제공합니다.
일반화: 더 강력한 일반화 능력을 보여줍니다.
응용 사례: 나이/성별 변경, ID 혼합, 스타일화, 역사적 인물을 현대 배경으로 끌어오기 등 다양합니다.

동작 방식

스택된 ID 임베딩: 동일한 사람의 여러 입력 ID 이미지를 하나의 스택된 ID 임베딩으로 인코딩하는 독특한 접근 방식을 도입하였습니다. 이러한 ID 임베딩 스택은 사진에 포함된 정보를 보존하고 동일하거나 다른 ID의 특성을 모두 포착할 수 있습니다.
과정:
1. 텍스트 및 이미지 임베딩: 텍스트 및 이미지 인코더에서 임베딩을 얻습니다.
2. 융합 임베딩: 각 이미지 임베딩과 클래스 임베딩(예: 남자, 여자)을 병합합니다.
3. 스택된 ID 임베딩: 모든 융합 임베딩을 연결하여 통합된 ID 표현을 형성합니다.
4. 확산 모델 통합: 스택된 ID 임베딩을 확산 모델에 입력으로 제공하여 ID 콘텐츠를 적응적으로 병합합니다.

데모

더 읽어보기

PhotoMaker 프로젝트 홈페이지

PhotoMaker GitHub 저장소

https://github.com/TencentARC/PhotoMaker

논문: PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Hugging Face 데모: 스타일 적용

Hugging Face 데모: 사진 생성

데모 노트북

사진 생성: PhotoMaker/photomaker_demo.ipynb at main · TencentARC/PhotoMaker · GitHub
스타일 적용: PhotoMaker/photomaker_style_demo.ipynb at main · TencentARC/PhotoMaker · GitHub

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~