GPT-4V에서 특출난 시각적 근거(VG) 기능을 위한 표식-집합(SoM) 프롬프트 (Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V)

9bow · 10월 26, 2023, 12:30오전

이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!

GPT-4V에서 특출난 시각적 근거(VG) 구현을 위한 표식-집합(SoM) 프롬프트

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

해결하고자 하는 문제

GPT-4V와 같은 대형 멀티모달 모델(LMM; Large Multimodal Model)은 시각-언어 이해 능력은 강하지만, 상대적으로 세분화된 시각적 근거(visual grounding) 능력이 약하다는 문제가 있습니다. 예를 들어, GPT-4V에서 이미지 내의 강아지 좌표 시퀀스를 생성하거나 신호등이 몇 개인지를 찾는 것과 같은 작업에서 어려움을 겪습니다.
이러한 문제를 해결하기 위해서는 시각 콘텐츠에 대한 풍부한 의미 이해(semantic understanding)와 함께 정확한 공간 지각(spatial perception)이 필요한데, 기존의 프롬프트 기법만으로는 이러한 문제를 해결하기에 한계가 있습니다.

기존의 접근 방법

기존의 시각적 프롬프팅 방법은 주로 2가지 유형으로 분류할 수 있습니다.
- 첫번째는 점, 상자, 선과 같은 시각적 프롬프트를 잠재 특징(latent features)으로 인코딩하여 비전 모델에 프롬프트하는 방식입니다. 하지만 이 방식은 단일 객체에 대한 프롬프트에 국한됩니다.
- 두번째는 원, 하이라이트, 화살표와 같은 시각적 표식(mark)을 입력 이미지에 덧씌우는 방식입니다. 그러나 이렇게 덧씌워진 표식을 언어 모델이 쉽게 해석하거나 말하기 어렵습니다.

논문이 제안하는 방법

이 논문에서는 이를 해결하기 위한 방법으로 입력 이미지를 의미적 영역들로 분할하고, 각 영역에 시각적 표식을 덧씌우는 방식인 시각적인 표식-집합(SoM; Set-of-Mark) 프롬프트를 제안합니다.
- 이 방법은 먼저 입력 이미지를 대화형 분할 모델(interactive segmentation model)을 사용하여 이미지를 의미있는 영역으로 분할합니다.
- 그런 다음, 각 영역에 숫자, 상자, 마스크와 같이 해석 가능하고 말할 수 있는 표식을 덧씌웁니다.
- 이렇게 하면 입력 이미지와 함께 공간 레이아웃 정보가 제공되어 GPT-4V와 같은 대형 멀티모달 모델(LMM)이 시각적 근거(VG; visual grounding) 능력을 발휘하는데 도움이 됩니다.

SoM 프롬프트의 세부 구성

SoM 프롬프트의 핵심 구성 요소는 다음과 같습니다:

이미지 나누기(Image Partition)

입력 이미지는 강한 성능, 개방형 어휘(open vocabulary), 풍부한 세분화(rich granularity)를 제공하는 MaskDINO, SEEM, SAM, Semantic-SAM과 같은 모델들을 사용하여 의미 영역으로 나눕니다.
- MarkDINO는 마스크 예측 분기를 추가하여 DINO(DETR with Improved Denoising Anchor Boxes)를 확장한 통합 객체 감지 및 분할 프레임워크입니다. 모든 이미지 분할 작업들을 지원하며, DINO의 쿼리 임베딩을 활용하여 표식 집합을 예측합니다.
- SEEM(Segment Everything Everywhere All at Once) 은 이미지의 다양한 객체와 요소를 분할하기 위해 설계된 즉각적이고 인터랙티브한 모델입니다. 새로운 디코딩 메커니즘을 도입하여 모든 유형의 세그먼트 작업에 대해 다양한 프롬프트를 표시할 수 있으며, 대규모 언어 모델과 유사한 범용 세그먼트 인터페이스를 제공하는 것을 목표로 합니다.
- Semantic-SAM은 모든 물체 또는 부품을 원하는 세분화로 분할하고 인식하도록 설계된 범용 이미지 분할 모델입니다. 이 모델은 의미를 인식하고 여러 세분성을 처리할 수 있어 풍부한 의미 정보와 다양한 세분화 기능을 제공합니다.
- SAM(Segment Anything Model) 은 광범위한 세분화 작업을 처리하도록 설계된 다목적 이미지 세분화 모델입니다. 이 모델은 이미지 분할을 위한 대규모 데이터 세트가 포함된 SA(Segment Anything) 프로젝트의 일부입니다.
이렇게 하면 영역을 나타내는 바이너리 표식 집합(set of binary masks)이 생성됩니다.

표식 생성 (Mark Generation)

숫자, 알파벳, 마스크, 상자 등 해석 가능한 고유 표식(unique interpretable marks)을 각 마스크의 적절한 위치에 덧씌웁니다.
이 때 각 표시는 원본 이미지 내의 콘텐츠와의 잠재적인 충돌을 고려하여 선택하고, 표식 할당 알고리즘(mark allocation algorithm)을 사용하여 표식간 중복을 피할 수 있는 최적의 위치를 찾습니다.

프롬프팅 (Prompting)

표시 이미지는 GPT-4V에서 2가지 방식으로 사용됩니다.
표식에 대한 참조가 없는 일반 텍스트 프롬프트(plain text prompts)
표식의 ID를 언급하는 인터리브 프롬프트(interleaved prompts)
LMM은 명시적인 프롬프팅 없이도, 자체적으로 시각적으로 이해할 수 있습니다.

출력 해석 (Output Interpretation)

각 표식은 이미지 영역에서 1:1로 매핑되므로, 표식을 언급하는 GPT-4V의 텍스트 출력으로 해당 이미지 세그먼트를 추적할 수 있습니다.
이렇게 추적한 영역의 마스크와 텍스트를 페어링하여 다양한 비전 작업을 지원할 수 있게 됩니다.

결론

표식-집합 프롬프팅(SoM prompting)은 의미론적 개념의 공간적 근거가 필요한 개방형 어휘 세분화, 참조 세분화, 구문 근거, 비디오 객체 세분화 같은 작업에서 사용할 수 있습니다. 정량적 분석과 정성적 결과 모두 GPT-4V의 시각적 근거 기능을 발휘하는데 있어 SoM 프롬프팅이 효과적임을 입증하였습니다.
실험 결과, 제안된 방법은 GPT-4V가 여러 작업에서 정교한 전문가 모델 및 기타 오픈소스 LMM 모델보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 예를 들어, 제로 샷 설정에서 RefCOCOg의 최첨단 참조 세그멘테이션 모델을 능가합니다.

GPT-4V에서 특출난 시각적 근거(VG) 기능을 위한 표식-집합(SoM) 프롬프트 (Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V)

GPT-4V에서 특출난 시각적 근거(VG) 구현을 위한 표식-집합(SoM) 프롬프트

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

해결하고자 하는 문제

기존의 접근 방법

논문이 제안하는 방법

SoM 프롬프트의 세부 구성

이미지 나누기(Image Partition)

표식 생성 (Mark Generation)

프롬프팅 (Prompting)

출력 해석 (Output Interpretation)

결론

더 읽어보기

SoM 프롬프트 논문

프로젝트 홈페이지

GitHub 저장소

(비공식) SoM 구현체

MaskDINO 모델

MaskDINO 논문

MaskDINO 저장소

SEEM

SEEM 논문

Semantic-SAM

Semantic-SAM 논문

SAM

SAM 논문

SAM 홈페이지

GPT-4V에서 특출난 시각적 근거(VG) 기능을 위한 표식-집합(SoM) 프롬프트 (Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V)

GPT-4V에서 특출난 시각적 근거(VG) 구현을 위한 표식-집합(SoM) 프롬프트

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

해결하고자 하는 문제

기존의 접근 방법

논문이 제안하는 방법

SoM 프롬프트의 세부 구성

이미지 나누기(Image Partition)

표식 생성 (Mark Generation)

프롬프팅 (Prompting)

출력 해석 (Output Interpretation)

결론

더 읽어보기

SoM 프롬프트 논문

프로젝트 홈페이지

GitHub 저장소

(비공식) SoM 구현체

MaskDINO 모델

MaskDINO 논문

MaskDINO 저장소

SEEM

SEEM 논문

Semantic-SAM

Semantic-SAM 논문

SAM

SAM 논문

SAM 홈페이지

GPT-4V에서 특출난 시각적 근거(VG) 기능을 위한 표식-집합(SoM) 프롬프트 (Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V)

GPT-4V에서 특출난 시각적 근거(VG) 구현을 위한 표식-집합(SoM) 프롬프트