MGIE: Apple이 공개한 자연어 명령 기반 이미지 변경 모델 (MLLM-Guided Image Editing)

PyTorchKR​:fire::kr: :thinking::speech_balloon:


MGIE: 대규모 멀티모달 모델을 활용한 이미지 편집 모델 (MLLM-Guided Image Editing)

소개

멀티모달 대규모 언어 모델을 활용한 이미지 편집(MGIE) 모델은 사용자가 자연어 지침을 사용하여 이미지를 조작할 수 있도록 지원하여 개발자와 콘텐츠 제작자 모두에게 흥미로운 가능성을 열어줍니다.

기존의 이미지 편집 소프트웨어는 수동 도구와 메뉴에 의존하기 때문에 기술적인 전문 지식이나 예술적 감각 등이 필요한 경우가 많습니다. 이는 창의적인 아이디어는 있지만 구체적인 기술이 부족한 많은 사용자에게 장벽이 될 수 있습니다. 또한 수동 편집은 특히 복잡한 편집의 경우 시간이 오래 걸리고 지루할 수 있습니다.

MGIE는 다중 모드 대규모 언어 모델(MLLM)의 힘을 활용하는 혁신적인 접근 방식을 도입했습니다. 이러한 AI 모델은 자연어와 시각적 정보를 모두 이해할 수 있어 사용자가 원하는 편집 내용을 언어로 설명할 수 있습니다. 예를 들어, "하늘을 더 생생하게 만들어줘" 또는 "모서리에 푹신한 고양이 추가"라고 말하기만 하면 해당 내용들이 반영됩니다.

MGIE 모델 소개

MGIE 모델 개요

MGIE의 핵심은 명령어 기반 이미지 편집 프로세스를 안내하기 위해 멀티모달 대규모 언어 모델(MLLM, Multimodal LLM)을 사용한다는데 있습니다. 제안된 MGIE 시스템은 대규모 멀티모달 모델의 모달리티(modality) 간 이해 기능을 활용하여 사람의 간단한 명령어에서 보다 표현력이 풍부하고 상세한 지침을 생성할 수 있습니다. 이 접근 방식은 사용자의 의도를 보다 정확하게 해석하고 편집 모델에 명시적인 지침을 제공하여 보다 정확하고 관련성 높은 이미지 조작을 가능하게 합니다.

MLLM-Guided Image Editing(MGIE)은 주어진 지시에 따라 입력 이미지를 목표 이미지로 편집하는 방법을 제안합니다. 크게 Concise Expressive Instruction 단계와 Image Editing via Latent Imagination 단계로 나누어져 있습니다.

Concise Expressive Instruction 단계

Concise Expressive Instruction 단계에서는 MLLM(멀티모달 대규모 언어 모델)이 사용자의 지시(프롬프트)를 받아 이를 구체적이고 간결한 표현 지시로 변환하는 과정입니다. 사용자로부터 받은 지시는 종종 간결하거나 모호할 수 있으며, 이를 효과적으로 이미지 편집 명령으로 변환하는 것이 중요합니다. 이 단계의 목표는 사용자의 의도를 정확하게 파악하고, 이를 명확하게 표현된 지시로 요약하는 것입니다. 이 과정에서 MLLM은 다음과 같은 절차를 따릅니다:

  1. 프롬프트 처리: 사용자의 지시(예: "이 이미지를 밝게 만들어주세요")를 입력으로 받습니다.
  2. 상세 설명 파생: MLLM은 입력된 지시와 이미지를 기반으로 상세한 편집 명령의 설명을 생성합니다. 이때 "이 이미지가 [지시]하면 어떻게 될까요?"와 같은 프롬프트 형식을 사용하여 이미지와 관련된 반응을 유도합니다.
  3. 요약: 생성된 상세 설명은 종종 길고 중복된 설명을 포함할 수 있습니다. 이를 간결하게 만들기 위해 사전 훈련된 요약기를 사용하여 중요한 정보만을 추출하고, MLLM은 이를 간결한 표현 지시로 학습합니다.
  4. 표현 지시 생성: 요약 과정을 통해 얻은 간결한 표현 지시는 이미지 편집의 구체적인 아이디어를 제공합니다. 예를 들어, "사막"을 "모래 언덕"과 "작은 관목"으로 연결하여 사용자의 의도와 이미지 사이의 이해 격차를 줄입니다.

Image Editing via Latent Imagination 단계

Image Editing via Latent Imagination 단계에서는 앞서 생성된 간결한 표현 지시를 바탕으로 실제 이미지 편집을 수행하는 과정입니다. 이 단계는 MLLM이 생성한 시각적 상상력을 활용하여 이미지에 구체적인 변화를 적용합니다. 이 과정은 다음 단계들로 동작합니다:

  1. 시각적 토큰 생성: MLLM은 표현 지시 뒤에 특별한 시각적 토큰([IMG])을 추가하여, 이를 통해 이미지 편집의 잠재적 상상력을 나타냅니다. 이 시각적 토큰은 언어 모델링 헤드를 통해 생성되며, 언어와 시각 모달리티 간의 연결을 구축합니다.
  2. 시각적 지침 변환: 편집 헤드는 시각적 토큰을 실제 시각적 지침으로 변환합니다. 이는 시퀀스-투-시퀀스 모델을 사용하여, 시각적 토큰을 의미 있는 잠재적으로 매핑하며, 편집 의도에 대한 인스턴스별 시각적 상상력을 제공합니다.
  3. 확산 모델을 통한 이미지 편집: 잠재적 확산 모델은 변형된 자동 인코더(VAE)와 노이즈 감소 확산 과정을 사용하여 목표 이미지를 생성합니다. 이 과정에서 생성된 시각적 지침은 확산 모델에 주입되어, 이미지와 지시에 따라 조건부 이미지 편집을 수행합니다.

이 두 단계를 통해, MGIE는 사용자의 지시를 정확하게 이해하고, 이를 바탕으로 실제 이미지에 세밀하고 의도한 편집을 적용할 수 있습니다. 이 과정에서 이미지와 프롬프트는 각각 편집의 목표와 방향을 제공하며, MLLM의 시각적 상상력과 확산 모델의 기술을 통해 구현됩니다.

성능 평가

MGIE와 비교 모델들 소개: InsPix2pix, LGIE

MGIE(Multimodal Large Language Model-Guided Image Editing)의 성능을 기존 모델들과 비교하기 위해, 다양한 데이터셋과 평가 지표를 사용하여 실험을 수행했습니다. 주요 비교 대상은 InsPix2Pix와 LGIE(비슷한 LLM-가이드 이미지 편집 모델)입니다. 이들과 MGIE의 성능을 비교한 결과는 다음과 같습니다:

성능 평가 결과

  • EVRGIER 데이터셋에서 Photoshop 스타일의 수정 작업을 수행할 때, MGIE는 표현 지시를 통해 구체적인 목표를 드러내어, 편집 결과가 의도에 더 가까워지도록 했습니다. 예를 들어, EVR에서 LGIE는 82.0의 CVS 점수를, GIER에서 MGIE는 59.2의 SSIM 점수를 달성하여 기존 모델들보다 더 높은 성능을 보였습니다.

  • MA5k 데이터셋에서는 전체 사진의 대비, 밝기, 또는 채도를 변경하는 작업에 초점을 맞췄습니다. InsPix2Pix는 관련 훈련 트리플이 부족하여 이러한 작업을 수행하기 어려웠습니다. 반면, MGIE는 이미지에 접근할 수 있어, 어떤 영역을 밝게 하거나 어떤 객체를 더 뚜렷하게 해야 하는지와 같은 명확한 지시를 도출할 수 있었습니다. 이를 통해 MGIE는 66.3의 SSIM 점수와 0.3의 사진 거리 점수에서 상당한 성능 향상을 이끌어냈습니다.

  • MagicBrush 데이터셋에서 MGIE는 정확한 시각적 상상력을 통해 지정된 목표를 수정하는 데 있어 최고의 성능을 달성했습니다. 예를 들어, 82.2의 DINO 시각적 유사성과 30.4의 CTS 글로벌 캡션 정렬에서 가장 높은 점수를 기록했습니다.

각 데이터셋에 대한 모델의 파인튜닝을 통해, 모든 모델이 Photoshop 스타일 편집 작업에 적응하여 성능이 향상되었습니다. MGIE는 도메인 관련 가이드 학습을 통해 가장 큰 성능 향상을 보였으며, 이는 확산 모델이 파인튜닝된 MLLM으로부터 구체적인 편집 장면을 시연할 수 있게 도와주었습니다.

MGIE와 InsPix2Pix, LGIE 모델들간의 정성 비교#1

MGIE와 InsPix2Pix, LGIE 모델들간의 정성 비교 #2

더 읽어보기

프로젝트 홈페이지

https://mllm-ie.github.io/

MGIE 논문

MGIE GitHub 저장소




:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck: