CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)

9bow · 9월 5, 2024, 9:46오후

CAPTURE 소개

CAPTURE는 CAPtion evaluation by exTracting and coUpling coRE information의 약자로, 이름 그대로 이미지로부터 생성된 캡션이 얼마나 객체, 속성, 관계 등의 시각적 요소들을 잘 설명하고 있는지를 평가하기 위한 평가 지표입니다. 이미지 캡션 생성은 시각적 이해의 기본 작업 중 하나로 오랜 기간 연구되어 왔습니다. 그러나 기존 연구들은 주로 짧은 캡션 생성에 초점을 맞추고 있었고, 이러한 캡션의 성능을 평가하는 지표도 신뢰성이 떨어졌습니다. CAPTURE는 이를 개선하기 위해 캡션에서 객체, 속성, 관계 등의 시각적 요소를 추출한 뒤, 이들을 매칭하는 방식으로 평가하는 방식을 채택하였습니다.

CAPTURE는 또한 멀티모달 LLM(MLLM, Multimodal LLM, 또는 LVLM, Large Vision-Language Model)의 세부 캡션 생성 능력을 개선하기 위해 고품질의 데이터를 생성하는 5단계 데이터 생성 파이프라인을 설계하였습니다. 이 파이프라인은 특정 M-LLM과 오픈 소스 도구만을 사용하여 인적 또는 GPT-4V 주석 없이도 높은 품질의 데이터를 생성할 수 있습니다.

세부 이미지 캡션 벤치마크

CAPTURE는 DetailCaps-4870라는 세부 이미지 캡션 벤치마크를 제공합니다. 이 벤치마크는 4,870개의 이미지와 그에 대한 고품질의 참조 캡션으로 구성되어 있으며, GPT-4V 및 Gemini-1.5-Pro에 의해 주석이 달렸습니다. 아래 표는 DetailCaps-4870 벤치마크와 기존 이미지 캡션 벤치마크 간의 비교를 보여줍니다:

Benchmark	Data Source	Annotator	Image Count	Reference Count	Avg Length	Unique 2-gram
COCOtest	COCO	Human	5,000	25,010	10.59	61,448
Nocapsval	Openimages	Human	4,500	45,000	11.49	116,969
DetailCaps-100	COCO, SAM, LAION, CC, SBU	GPT-4V, Human	100	100	175.96	10,858
DetailCaps-4870	COCO, SAM, LAION, CC, SBU, Coyo, Flickr	GPT-4V, GPT4O, Gemini-1.5-Pro	4,870	14,610	122.06	533,201

이 데이터셋은 Huggingface에서 다운로드 가능합니다.

세부 이미지 캡션 평가 지표: CAPTURE

CAPTURE는 세부 이미지 캡션의 정확성을 평가하기 위한 새로운 지표로, 전문적인 판단과 높은 일치율을 보입니다. CAPTURE는 다른 평가 지표들과 비교하여 가장 높은 일관성을 보여줍니다.

아래 표는 DetailCaps-100과 DetailCaps-4870 벤치마크에서 CAPTURE와 다른 평가 지표 간의 평균 일치 점수를 보여줍니다:

Caption Metric	PCC (\rho) \uparrow	1-R^2 \downarrow	Kendall's \tau \uparrow	Sample \tau \uparrow
BLEU	0.2608	54.75	0.1866	0.2462
ROUGE-L	0.2951	134.12	0.2149	0.3383
CIDEr	0.1148	2.6e^7	0.1165	0.0991
METEOR	0.4022	290.38	0.2927	0.4062
SPICE	0.4386	155.95	0.3244	0.4718
CLIPScore	0.3558	21.46	0.2479	0.3841
CAPTURE	0.5091	8.29	0.3861	0.6018

CAPTURE를 사용하여 최신 오픈 소스 LVLM의 세부 캡션 성능을 평가한 결과는 다음과 같습니다:

Model	Language Model	Caption Data	Resolution	CAPTURE Score
CogVLM	Vicuna-7B	Human Annt.	490^2	60.06
ShareCaptioner-7B	Vicuna-7B	GPT-4V Annt.	448^2	59.80
LLaVA-1.5-7B	Vicuna-7B	Synthesized	336^2	51.05
LLaVA-1.5-13B	Vicuna-13B	Synthesized	336^2	51.20
LLaVA-NEXT-7B	Vicuna-7B	GPT-4V Annt.	336^2	58.61
LLaVA-NEXT-13B	Vicuna-13B	GPT-4V Annt.	336^2	59.01
LLaVA-NEXT-34B	Hermes-2-Yi-34B	GPT-4V Annt.	336^2	59.20
Mini-Gemini-HD-7B	Vicuna-7B	GPT-4V Annt.	336^2	57.95
Mini-Gemini-HD-13B	Vicuna-13B	GPT-4V Annt.	336^2	58.66
Intern-XComposerV2	Vicuna-7B	GPT-4V Annt.	490^2	59.86
InternVL-V1.2-PLUS-40B	Hermes-2-Yi-34B	GPT-4V Annt.	448^2	60.69
InternVL-V1.5-26B	InternLM-20B	GPT-4V Annt.	448^2	63.42

세부 이미지 캡션 데이터 생성

CAPTURE는 LVLM의 세부 이미지 캡션 생성 능력을 개선하기 위한 데이터 생성 파이프라인을 제공합니다. 이 파이프라인은 오픈 소스 비전 및 언어 도구를 사용하여 고품질의 데이터를 생성합니다.

아래 표는 다양한 LVLM 백본과 함께 제안된 데이터 생성 파이프라인의 성능을 보여줍니다:

Caption	DetailCaps-100	DetailCaps-4870	Average
LLaVA-1.5-7B self	51.23	51.05	51.14
LLaVA-1.5-7B syn	57.11	56.25	56.68
LLaVA-1.5-13B self	51.76	51.20	51.48
LLaVA-1.5-13B syn	57.36	57.05	57.20
LLaVA-NEXT-7B self	61.48	58.61	60.73
LLaVA-NEXT-7B syn	62.24	60.39	61.31
Mini-Gemini-7B-HD self	59.51	57.95	58.73
Mini-Gemini-7B-HD syn	60.44	59.07	59.75

라이선스

이 프로젝트는 Apache 2.0 라이선스로 공개 및 배포되고 있습니다. 상업적 사용에 대한 제한이 없으며, 자유롭게 수정 및 재배포가 가능합니다.

CAPTURE 논문

https://github.com/foundation-multimodal-models/CAPTURE

CAPTURE 저장소

https://github.com/foundation-multimodal-models/CAPTURE

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~
굵은 텍스트