PLLaVA, Vision-Language 모델인 LLaVA를 Video로 확장하는 프로젝트

9bow · 5월 2, 2024, 3:14오후

PLLaVA, Vision-Language 모델인 LLaVA를 Video로 확장하는 프로젝트

소개

최근 들어 비디오와 관련된 시각-언어 학습이 많은 관심을 받고 있습니다. 특히, PLLaVA (Pooling LLaVA) 프로젝트는 기존 이미지-언어 모델을 비디오 데이터에 적용하는 새로운 접근 방식을 제시하여 효율적이고 자원을 적게 사용하는 방법을 탐구했습니다. 이러한 연구는 비디오 콘텐츠에 대한 더 나은 이해와 처리를 가능하게 하여, 비디오 질문 응답 및 캡셔닝 작업에서 최고의 성능을 달성했습니다.

PLLaVA는 기존의 이미지-언어 사전 학습 모델을 비디오 데이터로 확장하여 비디오 관련 작업의 성능을 획기적으로 향상시키는 프로젝트입니다. 본 연구에서는 간단한 풀링 전략을 사용하여 시간적 차원을 평활화함으로써, 비디오 프레임에서 지배적인 토큰들의 영향을 줄이고, 이를 통해 성능을 개선하였습니다. 이러한 접근 방식은 비디오 데이터를 처리할 때 컴퓨터 비전과 자연어 처리의 경계를 허물고, 더욱 정교한 비디오 내용 이해를 가능하게 합니다.

PLLaVA는 기존의 GPT4V (IG-VLM)와 같은 모델과 비교할 때 더 높은 정확도와 성능을 보여줍니다. 특히, 비디오 질문 응답 및 캡셔닝 작업에서의 성능 향상은 이 모델이 얼마나 효과적인지를 입증합니다. 기존 모델들이 비디오 프레임을 처리할 때 겪었던 성능 정체나 설명의 짧은 길이 문제를 PLLaVA는 효과적으로 극복하였습니다.

주요 특징

PLLaVA는 다음과 같은 주요 특징을 갖습니다:

효율적인 리소스 사용: 비디오 관련 작업을 위한 사전 학습 과정에서 요구되는 계산 및 데이터 자원을 크게 줄였습니다.
새로운 풀링 전략: 시간적 차원을 평활화하여 비디오 프레임의 지배적 특성을 완화하는 새로운 풀링 기법을 도입하였습니다.
최고의 성능: 여러 비디오 질문 응답 및 캡셔닝 데이터셋에서 최고의 성능을 달성하였으며, 특히 Video ChatGPT 벤치마크에서는 평균 3.48의 점수로 새로운 기준을 설정했습니다.

사용 방법

PLLaVA 모델을 사용하기 위해서는 먼저 필요한 환경을 설정하고 사전 학습된 가중치를 다운로드해야 합니다. 이 모델은 Python 3.10 환경에서 transformers 및 accelerate 라이브러리를 사용하여 구축되었으며, 분산 학습을 위한 설정도 지원합니다. 설치 후, GitHub 리포지토리의 지침에 따라 모델을 실행, 훈련 및 평가할 수 있습니다. 예를 들어, 다음과 같은 스크립트를 사용하여 모델을 실행할 수 있습니다:

model_dir="model directory"
weights_dir="weights directory"
bash scripts/demo.sh ${model_dir} ${weights_dir}

사례 비교

더 읽어보기

PLLaVA 프로젝트 홈페이지

PLLaVA 논문

PLLaVA GitHub 저장소

https://github.com/magic-research/PLLaVA?tab=readme-ov-file#️-pllava

PLLaVA 모델 공개 @ Hugging Face

PLLaVA-7B: ermu2001/pllava-7b · Hugging Face
PLLaVA-13B: ermu2001/pllava-13b · Hugging Face
PLLaVA-34B: ermu2001/pllava-34b · Hugging Face

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~