Imp, 3B 규모의 소규모 멀티모달 언어 모델 (feat. Phi-2 + SigLIP + LLaVA)



소규모 언어 모델(SLM, SLLM)에 대한 관심에 이어, 소규모 멀티모달 언어 모델(MSML, Multimodal Small Language Model)에 대해서도 연구와 공개가 이어지고 있습니다. 오늘 소개해드릴 프로젝트는 Hangzhou Dianzi 대학교의 MIL(Media Intelligence Laboratory)에서 공개한 소규모 멀티모달 언어 모델인 Imp:imp:입니다.

Imp는 3B 규모의 (상대적으로) 작은 크기의 모델로, Microsoft의 소규모 언어 모델(SLM)인 Phi-2(2.7B) 모델을 기반으로 Google의 SigLIP(0.4B) 모델을 Visual Encoder를 추가하였습니다. 여기에 LLaVA의 학습 데이터를 사용하여 학습되었습니다. 이 프로젝트는 Apache 2.0 라이선스로 공개되어 다양한 목적으로 사용이 가능합니다. :clap:

주요 특징 또는 하이라이트

  • 작지만 강력한 모델: Imp는 단 3B 파라미터로 구성되어 있음에도 불구하고, 멀티모달 작업에서 뛰어난 성능을 보여줍니다.

  • 강력한 기반 모델: Microsoft의 Phi-2(2.7B)Google의 SigLIP(0.4B)을 기반으로 하여, 강력한 시각적 인코더와 언어 모델을 통합합니다.

  • 멀티모달 벤치마크에서의 우수한 성능: 유사한 크기의 모델들과 비교하여 뛰어난 성능을 나타내며, LLaVA-7B 모델과 비교해도 손색없는 결과를 보입니다.

성능 벤치마크 결과

Models VQAv2 GQA VizWiz SQA(IMG) TextVQA POPE MME(P) MMB MM-Vet
LLaVA-v1.5-lora (7B) 79.10 63.00 47.80 68.40 58.20 86.40 1476.9 66.10 30.2
TinyGPT-V (3B) - 33.60 24.80 - - - - - -
LLaVA-Phi (3B) 71.40 - 35.90 68.40 48.60 85.00 1335.1 59.80 28.9
MobileVLM (3B) - 59.00 - 61.00 47.50 84.90 1288.9 59.60 -
MC-LLaVA (3B) 64.24 49.60 24.88 - 38.59 80.59 - - -
Imp-v1 (3B, ours) 79.45 58.55 50.09 69.96 59.38 88.02 1434.0 66.49 33.1

사용 환경 설정

Imp 모델을 사용하기 전에, 다음 단계를 따라 환경을 설정해야 합니다:

  1. GitHub에서 저장소 복제: Imp 프로젝트의 GitHub 저장소를 클론하여 로컬 시스템에 복사합니다.
  git clone https://github.com/MILVLG/imp.git
  cd imp
  1. 필요 패키지 설치: Anaconda를 사용하여 새 환경을 만들고 필요한 패키지를 설치합니다.
   conda create -n imp python=3.10 -y
   conda activate imp
   pip install -r requirements.txt
   pip install flash-attn==2.4.2 --no-build-isolation
  1. 사전 학습된 기본 모델 다운로드: Phi-2와 SigLIP 모델을 로컬 디렉토리에 다운로드합니다. 특정 버전의 모델을 사용해야 하므로, 다음 스크립트를 실행하여 모델을 다운로드합니다.
  python scripts/download_models.py

더 읽어보기

GitHub 저장소

Hugging Face

Demo 사용해보기 (Imp Chat)

https://xmbot.net/imp/

Microsoft의 Phi-2 모델

Google의 SigLIP 모델




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있으니 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 힘이 됩니다~ :star_struck: