CAPTURE 소개
CAPTURE는 CAPtion evaluation by exTracting and coUpling coRE information의 약자로, 이름 그대로 이미지로부터 생성된 캡션이 얼마나 객체, 속성, 관계 등의 시각적 요소들을 잘 설명하고 있는지를 평가하기 위한 평가 지표입니다. 이미지 캡션 생성은 시각적 이해의 기본 작업 중 하나로 오랜 기간 연구되어 왔습니다. 그러나 기존 연구들은 주로 짧은 캡션 생성에 초점을 맞추고 있었고, 이러한 캡션의 성능을 평가하는 지표도 신뢰성이 떨어졌습니다. CAPTURE는 이를 개선하기 위해 캡션에서 객체, 속성, 관계 등의 시각적 요소를 추출한 뒤, 이들을 매칭하는 방식으로 평가하는 방식을 채택하였습니다.
CAPTURE는 또한 멀티모달 LLM(MLLM, Multimodal LLM, 또는 LVLM, Large Vision-Language Model)의 세부 캡션 생성 능력을 개선하기 위해 고품질의 데이터를 생성하는 5단계 데이터 생성 파이프라인을 설계하였습니다. 이 파이프라인은 특정 M-LLM과 오픈 소스 도구만을 사용하여 인적 또는 GPT-4V 주석 없이도 높은 품질의 데이터를 생성할 수 있습니다.
세부 이미지 캡션 벤치마크
CAPTURE는 DetailCaps-4870라는 세부 이미지 캡션 벤치마크를 제공합니다. 이 벤치마크는 4,870개의 이미지와 그에 대한 고품질의 참조 캡션으로 구성되어 있으며, GPT-4V 및 Gemini-1.5-Pro에 의해 주석이 달렸습니다. 아래 표는 DetailCaps-4870 벤치마크와 기존 이미지 캡션 벤치마크 간의 비교를 보여줍니다:
Benchmark | Data Source | Annotator | Image Count | Reference Count | Avg Length | Unique 2-gram |
---|---|---|---|---|---|---|
COCOtest | COCO | Human | 5,000 | 25,010 | 10.59 | 61,448 |
Nocapsval | Openimages | Human | 4,500 | 45,000 | 11.49 | 116,969 |
DetailCaps-100 | COCO, SAM, LAION, CC, SBU | GPT-4V, Human | 100 | 100 | 175.96 | 10,858 |
DetailCaps-4870 | COCO, SAM, LAION, CC, SBU, Coyo, Flickr | GPT-4V, GPT4O, Gemini-1.5-Pro | 4,870 | 14,610 | 122.06 | 533,201 |
이 데이터셋은 Huggingface에서 다운로드 가능합니다.
세부 이미지 캡션 평가 지표: CAPTURE
CAPTURE는 세부 이미지 캡션의 정확성을 평가하기 위한 새로운 지표로, 전문적인 판단과 높은 일치율을 보입니다. CAPTURE는 다른 평가 지표들과 비교하여 가장 높은 일관성을 보여줍니다.
아래 표는 DetailCaps-100과 DetailCaps-4870 벤치마크에서 CAPTURE와 다른 평가 지표 간의 평균 일치 점수를 보여줍니다:
Caption Metric | PCC (\rho) \uparrow | 1-R^2 \downarrow | Kendall's \tau \uparrow | Sample \tau \uparrow |
---|---|---|---|---|
BLEU | 0.2608 | 54.75 | 0.1866 | 0.2462 |
ROUGE-L | 0.2951 | 134.12 | 0.2149 | 0.3383 |
CIDEr | 0.1148 | 2.6e^7 | 0.1165 | 0.0991 |
METEOR | 0.4022 | 290.38 | 0.2927 | 0.4062 |
SPICE | 0.4386 | 155.95 | 0.3244 | 0.4718 |
CLIPScore | 0.3558 | 21.46 | 0.2479 | 0.3841 |
CAPTURE | 0.5091 | 8.29 | 0.3861 | 0.6018 |
CAPTURE를 사용하여 최신 오픈 소스 LVLM의 세부 캡션 성능을 평가한 결과는 다음과 같습니다:
Model | Language Model | Caption Data | Resolution | CAPTURE Score |
---|---|---|---|---|
CogVLM | Vicuna-7B | Human Annt. | 490^2 | 60.06 |
ShareCaptioner-7B | Vicuna-7B | GPT-4V Annt. | 448^2 | 59.80 |
LLaVA-1.5-7B | Vicuna-7B | Synthesized | 336^2 | 51.05 |
LLaVA-1.5-13B | Vicuna-13B | Synthesized | 336^2 | 51.20 |
LLaVA-NEXT-7B | Vicuna-7B | GPT-4V Annt. | 336^2 | 58.61 |
LLaVA-NEXT-13B | Vicuna-13B | GPT-4V Annt. | 336^2 | 59.01 |
LLaVA-NEXT-34B | Hermes-2-Yi-34B | GPT-4V Annt. | 336^2 | 59.20 |
Mini-Gemini-HD-7B | Vicuna-7B | GPT-4V Annt. | 336^2 | 57.95 |
Mini-Gemini-HD-13B | Vicuna-13B | GPT-4V Annt. | 336^2 | 58.66 |
Intern-XComposerV2 | Vicuna-7B | GPT-4V Annt. | 490^2 | 59.86 |
InternVL-V1.2-PLUS-40B | Hermes-2-Yi-34B | GPT-4V Annt. | 448^2 | 60.69 |
InternVL-V1.5-26B | InternLM-20B | GPT-4V Annt. | 448^2 | 63.42 |
세부 이미지 캡션 데이터 생성
CAPTURE는 LVLM의 세부 이미지 캡션 생성 능력을 개선하기 위한 데이터 생성 파이프라인을 제공합니다. 이 파이프라인은 오픈 소스 비전 및 언어 도구를 사용하여 고품질의 데이터를 생성합니다.
아래 표는 다양한 LVLM 백본과 함께 제안된 데이터 생성 파이프라인의 성능을 보여줍니다:
Caption | DetailCaps-100 | DetailCaps-4870 | Average |
---|---|---|---|
LLaVA-1.5-7B self | 51.23 | 51.05 | 51.14 |
LLaVA-1.5-7B syn | 57.11 | 56.25 | 56.68 |
LLaVA-1.5-13B self | 51.76 | 51.20 | 51.48 |
LLaVA-1.5-13B syn | 57.36 | 57.05 | 57.20 |
LLaVA-NEXT-7B self | 61.48 | 58.61 | 60.73 |
LLaVA-NEXT-7B syn | 62.24 | 60.39 | 61.31 |
Mini-Gemini-7B-HD self | 59.51 | 57.95 | 58.73 |
Mini-Gemini-7B-HD syn | 60.44 | 59.07 | 59.75 |
라이선스
이 프로젝트는 Apache 2.0 라이선스로 공개 및 배포되고 있습니다. 상업적 사용에 대한 제한이 없으며, 자유롭게 수정 및 재배포가 가능합니다.
CAPTURE 논문
CAPTURE 저장소
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~
굵은 텍스트