- 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요!
- 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
GPT-4V에서 특출난 시각적 근거(VG) 구현을 위한 표식-집합(SoM) 프롬프트
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
해결하고자 하는 문제
-
GPT-4V와 같은 대형 멀티모달 모델(LMM; Large Multimodal Model)은 시각-언어 이해 능력은 강하지만, 상대적으로 세분화된 시각적 근거(visual grounding) 능력이 약하다는 문제가 있습니다. 예를 들어, GPT-4V에서 이미지 내의 강아지 좌표 시퀀스를 생성하거나 신호등이 몇 개인지를 찾는 것과 같은 작업에서 어려움을 겪습니다.
-
이러한 문제를 해결하기 위해서는 시각 콘텐츠에 대한 풍부한 의미 이해(semantic understanding)와 함께 정확한 공간 지각(spatial perception)이 필요한데, 기존의 프롬프트 기법만으로는 이러한 문제를 해결하기에 한계가 있습니다.
기존의 접근 방법
-
기존의 시각적 프롬프팅 방법은 주로 2가지 유형으로 분류할 수 있습니다.
-
첫번째는 점, 상자, 선과 같은 시각적 프롬프트를 잠재 특징(latent features)으로 인코딩하여 비전 모델에 프롬프트하는 방식입니다. 하지만 이 방식은 단일 객체에 대한 프롬프트에 국한됩니다.
-
두번째는 원, 하이라이트, 화살표와 같은 시각적 표식(mark)을 입력 이미지에 덧씌우는 방식입니다. 그러나 이렇게 덧씌워진 표식을 언어 모델이 쉽게 해석하거나 말하기 어렵습니다.
-
논문이 제안하는 방법
-
이 논문에서는 이를 해결하기 위한 방법으로 입력 이미지를 의미적 영역들로 분할하고, 각 영역에 시각적 표식을 덧씌우는 방식인 시각적인 표식-집합(SoM; Set-of-Mark) 프롬프트를 제안합니다.
-
이 방법은 먼저 입력 이미지를 대화형 분할 모델(interactive segmentation model)을 사용하여 이미지를 의미있는 영역으로 분할합니다.
-
그런 다음, 각 영역에 숫자, 상자, 마스크와 같이 해석 가능하고 말할 수 있는 표식을 덧씌웁니다.
-
이렇게 하면 입력 이미지와 함께 공간 레이아웃 정보가 제공되어 GPT-4V와 같은 대형 멀티모달 모델(LMM)이 시각적 근거(VG; visual grounding) 능력을 발휘하는데 도움이 됩니다.
-
SoM 프롬프트의 세부 구성
SoM 프롬프트의 핵심 구성 요소는 다음과 같습니다:
이미지 나누기(Image Partition)
-
입력 이미지는 강한 성능, 개방형 어휘(open vocabulary), 풍부한 세분화(rich granularity)를 제공하는 MaskDINO, SEEM, SAM, Semantic-SAM과 같은 모델들을 사용하여 의미 영역으로 나눕니다.
-
MarkDINO는 마스크 예측 분기를 추가하여 DINO(DETR with Improved Denoising Anchor Boxes)를 확장한 통합 객체 감지 및 분할 프레임워크입니다. 모든 이미지 분할 작업들을 지원하며, DINO의 쿼리 임베딩을 활용하여 표식 집합을 예측합니다.
-
SEEM(Segment Everything Everywhere All at Once) 은 이미지의 다양한 객체와 요소를 분할하기 위해 설계된 즉각적이고 인터랙티브한 모델입니다. 새로운 디코딩 메커니즘을 도입하여 모든 유형의 세그먼트 작업에 대해 다양한 프롬프트를 표시할 수 있으며, 대규모 언어 모델과 유사한 범용 세그먼트 인터페이스를 제공하는 것을 목표로 합니다.
-
Semantic-SAM은 모든 물체 또는 부품을 원하는 세분화로 분할하고 인식하도록 설계된 범용 이미지 분할 모델입니다. 이 모델은 의미를 인식하고 여러 세분성을 처리할 수 있어 풍부한 의미 정보와 다양한 세분화 기능을 제공합니다.
-
SAM(Segment Anything Model) 은 광범위한 세분화 작업을 처리하도록 설계된 다목적 이미지 세분화 모델입니다. 이 모델은 이미지 분할을 위한 대규모 데이터 세트가 포함된 SA(Segment Anything) 프로젝트의 일부입니다.
-
-
이렇게 하면 영역을 나타내는 바이너리 표식 집합(set of binary masks)이 생성됩니다.
표식 생성 (Mark Generation)
-
숫자, 알파벳, 마스크, 상자 등 해석 가능한 고유 표식(unique interpretable marks)을 각 마스크의 적절한 위치에 덧씌웁니다.
-
이 때 각 표시는 원본 이미지 내의 콘텐츠와의 잠재적인 충돌을 고려하여 선택하고, 표식 할당 알고리즘(mark allocation algorithm)을 사용하여 표식간 중복을 피할 수 있는 최적의 위치를 찾습니다.
프롬프팅 (Prompting)
-
표시 이미지는 GPT-4V에서 2가지 방식으로 사용됩니다.
-
표식에 대한 참조가 없는 일반 텍스트 프롬프트(plain text prompts)
-
표식의 ID를 언급하는 인터리브 프롬프트(interleaved prompts)
-
LMM은 명시적인 프롬프팅 없이도, 자체적으로 시각적으로 이해할 수 있습니다.
출력 해석 (Output Interpretation)
-
각 표식은 이미지 영역에서 1:1로 매핑되므로, 표식을 언급하는 GPT-4V의 텍스트 출력으로 해당 이미지 세그먼트를 추적할 수 있습니다.
-
이렇게 추적한 영역의 마스크와 텍스트를 페어링하여 다양한 비전 작업을 지원할 수 있게 됩니다.
결론
-
표식-집합 프롬프팅(SoM prompting)은 의미론적 개념의 공간적 근거가 필요한 개방형 어휘 세분화, 참조 세분화, 구문 근거, 비디오 객체 세분화 같은 작업에서 사용할 수 있습니다. 정량적 분석과 정성적 결과 모두 GPT-4V의 시각적 근거 기능을 발휘하는데 있어 SoM 프롬프팅이 효과적임을 입증하였습니다.
-
실험 결과, 제안된 방법은 GPT-4V가 여러 작업에서 정교한 전문가 모델 및 기타 오픈소스 LMM 모델보다 뛰어난 성능을 발휘하는 것으로 나타났습니다. 예를 들어, 제로 샷 설정에서 RefCOCOg의 최첨단 참조 세그멘테이션 모델을 능가합니다.