PaliGemma, Gemma 기반의 소규모 Multimodal-LLM

PaliGemma, Gemma 기반의 소규모 Multimodal-LLM

PaliGemma, Gemma 기반의 소규모 Multimodal-LLM

소개

Google이 PaliGemma라는 상대적으로 작은 크기의 시각-언어 모델(VLM, Vision-Language Model)을 공개했습니다. PaliGemma는 PaLI-3에서 영감을 받아 SigLIP Vision ModelGemma 언어 모델을 기반으로 만들어진 소규모의 비전-언어(Vision-Lanuage) 모델입니다.

PaliGemma는 이미지와 텍스트를 동시에 입력받아 이미지에 대한 상세하고 맥락 있는 답변을 제공할 수 있습니다. 이를 통해 이미지 캡션 생성, 객체 탐지, 이미지 내 텍스트 읽기 등 다양한 작업을 수행할 수 있습니다. PaliGemma 모델은 일반 용도 프리트레인 모델과 연구 지향 세트로 나뉘며, 대부분의 모델은 유용한 결과를 얻기 위해 튜닝이 필요합니다. 유일한 예외는 paligemma-3b-mix 변형입니다. 이 모델을 활용하면 이미지와 텍스트를 동시에 이해하고 분석할 수 있어 많은 이점을 제공합니다.

PaliGemma는 PaLI-3와 유사하지만 더 경량화된 모델로, 다양한 비전-언어 작업에 맞게 튜닝이 가능합니다. 다른 비전-언어 모델과 비교할 때, PaliGemma는 이미지와 텍스트를 동시에 이해하는 다중 모달 이해 기능을 갖추고 있어 경쟁력이 높습니다.

주요 특징

  • 다중 모달 이해: 이미지와 텍스트를 동시에 이해할 수 있습니다.

  • 다양한 작업에 대한 튜닝 가능성: 다양한 비전-언어 작업에 맞게 튜닝할 수 있습니다.

  • 즉시 사용 가능한 탐색 기능: 다양한 작업에 맞춰 튜닝된 체크포인트를 제공하여 즉시 연구에 활용할 수 있습니다.

사용 방법

PaliGemma는 다양한 환경에서 사용할 수 있으며, JAX와 Flax를 사용한 튜닝 예제도 제공합니다. 예를 들어, Colab에서 PaliGemma를 활용한 튜닝 작업을 실행할 수 있습니다. 튜닝을 통해 원하는 작업에 맞춰 모델을 최적화하고, 그 결과를 테스트하여 최종 사용 전에 검토할 수 있습니다.

PaliGemma 모델 정보

모델 정보

Google이 이번에 공개한 PaliGemma 모델은 2종류입니다:

  • PaliGemma: 다양한 작업에 맞게 미세 조정할 수 있는 범용 사전 학습 모델입니다.
  • PaliGemma-FT: 특정 연구 데이터 세트에 맞게 미세 조정된 연구 지향 모델.

모델 구조

  • 모델 아키텍처: Transformer 디코더를 주로 사용한 언어 모델(Language Model)과 Vision Transformer 이미지 인코더를 사용한 시각 인코더(Visual Encoder)로 구성되어 있으며, 총 3B억 개의 파라미터를 가지고 있습니다.

  • 입력 및 출력: 입력은 이미지와 텍스트 문자열이며, 출력은 캡션, 질문에 대한 답변, 객체 바운딩 박스 좌표, 또는 분할 코드워드입니다.

모델 데이터

평가 정보

평가 정보 - Single task (fine-tune on single task) #1
평가 정보 - Single task (fine-tune on single task) #2
평가 정보 - Single task (fine-tune on single task) #3

라이선스

이 프로젝트는 Creative Commons Attribution 4.0 License로 공개 및 배포되고 있으며, 코드 샘플은 Apache 2.0 License로 제공됩니다.

더 읽어보기

PaliGemma 정보

PaliGemma 모델 카드




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: