OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V 공개

OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V-Dataset 공개

OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V-Dataset 공개

소개

Llama3-V 프로젝트 관련 이슈로 본의 아니게 화제가 되었던 OpenBMB에서 시각적 질의-응답(VQA, Visual Question-Answering) 데이터셋인 RLAIF-V을 공개하였습니다.


RLAIF-V를 적용하여 뛰어난 신뢰성과 경쟁력 있는 일반 성능을 갖춘 LLaVA 1.5의 가장 신뢰할 수 있는 변형인 RLAIF-V 7B와 가장 신뢰할 수 있는 Multimodal-LLM인 RLAIF-V 12B 성능 비교

RLAIF-V 데이터셋은 다양한 시각적 콘텐츠에 대한 질문과 응답을 포함하는 대규모 데이터셋입니다. 이 데이터셋은 OmniLMM-12B 모델을 사용하여 수집되었으며, VQA(Visual Question Answering) 과제에 적합합니다. 이 데이터셋은 총 83,132개의 선호도 쌍으로 구성된 고품질 피드백을 제공하며, MSCOCO, ShareGPT-4V, MovieNet, Google Landmark v2, VQA v2, OKVQA, TextVQA 등 다양한 데이터셋에서 수집된 지침이 포함되어 있습니다. 또한 RLHF-V에 도입된 이미지 설명 프롬프트를 긴 형식의 이미지 캡션 지침으로 채택했습니다.

우수한 일반화 성능에 대한 실험 결과

다른 VQA 데이터셋들과 비교해봤을 때, 상대적으로 더 다양한 이미지 소스와 상세한 질문 응답 데이터를 포함하고 있어 보다 다양한 상황에서 AI 모델의 성능을 평가할 수 있을 것으로 기대됩니다. 예를 들어, COCO 데이터셋은 주로 일상적인 이미지에 집중하는 반면, RLAIF-V는 더 다양한 주제와 환경을 다룹니다.

사용 방법

RLAIF-V 데이터셋은 Hugging Face Datasets 라이브러리를 통해 쉽게 사용할 수 있습니다. Python 환경에서 datasets 라이브러리를 설치한 후, 다음 명령어를 사용하여 데이터셋을 로드할 수 있습니다:

from datasets import load_dataset

dataset = load_dataset("openbmb/RLAIF-V-Dataset")

이렇게 불러온 데이터셋은 AI 모델 훈련 및 평가에 바로 활용할 수 있습니다.

라이선스

이 프로젝트는 CC BY-NC 4.0 라이선스로 공개 및 배포되고 있습니다. 상업적 용도로는 사용이 제한됩니다.

RLAIF-V 데이터셋 더 알아보기

논문

:hugs: Hugging Face

:github: GitHub




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: