CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)

CAPTURE 소개

CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)

CAPTURECAPtion evaluation by exTracting and coUpling coRE information의 약자로, 이름 그대로 이미지로부터 생성된 캡션이 얼마나 객체, 속성, 관계 등의 시각적 요소들을 잘 설명하고 있는지를 평가하기 위한 평가 지표입니다. 이미지 캡션 생성은 시각적 이해의 기본 작업 중 하나로 오랜 기간 연구되어 왔습니다. 그러나 기존 연구들은 주로 짧은 캡션 생성에 초점을 맞추고 있었고, 이러한 캡션의 성능을 평가하는 지표도 신뢰성이 떨어졌습니다. CAPTURE는 이를 개선하기 위해 캡션에서 객체, 속성, 관계 등의 시각적 요소를 추출한 뒤, 이들을 매칭하는 방식으로 평가하는 방식을 채택하였습니다.

CAPTURE는 또한 멀티모달 LLM(MLLM, Multimodal LLM, 또는 LVLM, Large Vision-Language Model)의 세부 캡션 생성 능력을 개선하기 위해 고품질의 데이터를 생성하는 5단계 데이터 생성 파이프라인을 설계하였습니다. 이 파이프라인은 특정 M-LLM과 오픈 소스 도구만을 사용하여 인적 또는 GPT-4V 주석 없이도 높은 품질의 데이터를 생성할 수 있습니다.

세부 이미지 캡션 벤치마크

CAPTUREDetailCaps-4870라는 세부 이미지 캡션 벤치마크를 제공합니다. 이 벤치마크는 4,870개의 이미지와 그에 대한 고품질의 참조 캡션으로 구성되어 있으며, GPT-4V 및 Gemini-1.5-Pro에 의해 주석이 달렸습니다. 아래 표는 DetailCaps-4870 벤치마크와 기존 이미지 캡션 벤치마크 간의 비교를 보여줍니다:

Benchmark Data Source Annotator Image Count Reference Count Avg Length Unique 2-gram
COCOtest COCO Human 5,000 25,010 10.59 61,448
Nocapsval Openimages Human 4,500 45,000 11.49 116,969
DetailCaps-100 COCO, SAM, LAION, CC, SBU GPT-4V, Human 100 100 175.96 10,858
DetailCaps-4870 COCO, SAM, LAION, CC, SBU, Coyo, Flickr GPT-4V, GPT4O, Gemini-1.5-Pro 4,870 14,610 122.06 533,201

이 데이터셋은 Huggingface에서 다운로드 가능합니다.

세부 이미지 캡션 평가 지표: CAPTURE

CAPTURE는 세부 이미지 캡션의 정확성을 평가하기 위한 새로운 지표로, 전문적인 판단과 높은 일치율을 보입니다. CAPTURE는 다른 평가 지표들과 비교하여 가장 높은 일관성을 보여줍니다.

아래 표는 DetailCaps-100과 DetailCaps-4870 벤치마크에서 CAPTURE와 다른 평가 지표 간의 평균 일치 점수를 보여줍니다:

Caption Metric PCC (\rho) \uparrow 1-R^2 \downarrow Kendall's \tau \uparrow Sample \tau \uparrow
BLEU 0.2608 54.75 0.1866 0.2462
ROUGE-L 0.2951 134.12 0.2149 0.3383
CIDEr 0.1148 2.6e^7 0.1165 0.0991
METEOR 0.4022 290.38 0.2927 0.4062
SPICE 0.4386 155.95 0.3244 0.4718
CLIPScore 0.3558 21.46 0.2479 0.3841
CAPTURE 0.5091 8.29 0.3861 0.6018

CAPTURE를 사용하여 최신 오픈 소스 LVLM의 세부 캡션 성능을 평가한 결과는 다음과 같습니다:

Model Language Model Caption Data Resolution CAPTURE Score
CogVLM Vicuna-7B Human Annt. 490^2 60.06
ShareCaptioner-7B Vicuna-7B GPT-4V Annt. 448^2 59.80
LLaVA-1.5-7B Vicuna-7B Synthesized 336^2 51.05
LLaVA-1.5-13B Vicuna-13B Synthesized 336^2 51.20
LLaVA-NEXT-7B Vicuna-7B GPT-4V Annt. 336^2 58.61
LLaVA-NEXT-13B Vicuna-13B GPT-4V Annt. 336^2 59.01
LLaVA-NEXT-34B Hermes-2-Yi-34B GPT-4V Annt. 336^2 59.20
Mini-Gemini-HD-7B Vicuna-7B GPT-4V Annt. 336^2 57.95
Mini-Gemini-HD-13B Vicuna-13B GPT-4V Annt. 336^2 58.66
Intern-XComposerV2 Vicuna-7B GPT-4V Annt. 490^2 59.86
InternVL-V1.2-PLUS-40B Hermes-2-Yi-34B GPT-4V Annt. 448^2 60.69
InternVL-V1.5-26B InternLM-20B GPT-4V Annt. 448^2 63.42

세부 이미지 캡션 데이터 생성

CAPTURE는 LVLM의 세부 이미지 캡션 생성 능력을 개선하기 위한 데이터 생성 파이프라인을 제공합니다. 이 파이프라인은 오픈 소스 비전 및 언어 도구를 사용하여 고품질의 데이터를 생성합니다.

아래 표는 다양한 LVLM 백본과 함께 제안된 데이터 생성 파이프라인의 성능을 보여줍니다:

Caption DetailCaps-100 DetailCaps-4870 Average
LLaVA-1.5-7B self 51.23 51.05 51.14
LLaVA-1.5-7B syn 57.11 56.25 56.68
LLaVA-1.5-13B self 51.76 51.20 51.48
LLaVA-1.5-13B syn 57.36 57.05 57.20
LLaVA-NEXT-7B self 61.48 58.61 60.73
LLaVA-NEXT-7B syn 62.24 60.39 61.31
Mini-Gemini-7B-HD self 59.51 57.95 58.73
Mini-Gemini-7B-HD syn 60.44 59.07 59.75

라이선스

이 프로젝트는 Apache 2.0 라이선스로 공개 및 배포되고 있습니다. 상업적 사용에 대한 제한이 없으며, 자유롭게 수정 및 재배포가 가능합니다.

:scroll: CAPTURE 논문

:github: CAPTURE 저장소




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:
굵은 텍스트

1개의 좋아요