Google, 다양한 작업을 지원하는 시각-언어 모델 PaliGemma 2 Mix 공개

PaliGemma 2 mix 모델 소개

Google은 작년 12월 공개한 PaliGemma 2 모델을 개선한 새로운 모델인 PaliGemma 2 Mix를 출시했습니다. PaliGemma 2 Mix 모델은 Gemma 패밀리에 속하는 시각-언어 모델 중 하나로, 다양한 시각-언어(task mixture) 작업을 지원하는 멀티태스킹 모델입니다. 특히, 3B, 10B, 28B 파라미터 크기의 사전학습(Pre-trained)된 체크포인트를 제공합니다.

PaliGemma 2 Mix 모델은 하나의 모델로 이미지 분할(image segmentation), 짧은 영상 캡션 생성(short video captioning), 과학적 질문 응답(scientific question answering), 그리고 텍스트 관련 작업 등과 같은 다양한 시각-언어 작업에서 높은 성능을 발휘할 수 있도록 쉽게 파인튜닝(Fine-tuning)할 수도 있습니다.

PaliGeamma 2 Mix는 주어진 프롬프트(Prompt)에 따라 지정된 작업을 수행하며, 지원하는 작업에 대해서는 공식 문서를 참고해주세요.

PaliGemma 2 mix 모델의 주요 특징

다양한 작업 지원

PaliGemma 2 Mix는 하나의 모델로 여러 작업을 처리할 수 있습니다:

  • 이미지 캡셔닝 (Short & Long Captioning)
  • 광학 문자 인식 (OCR)
  • 이미지 기반 질문 답변 (Image Question Answering)
  • 객체 감지 및 분할 (Object Detection & Segmentation)

개발자 친화적 크기 및 해상도

모델은 아래와 같이 다양한 크기와 해상도로 제공됩니다:

  • 모델 크기: 3B, 10B, 28B 파라미터
  • 해상도 옵션: 224px, 448px

호환성 높은 프레임워크 지원

아래의 프레임워크에서 PaliGemma 2 Mix를 사용할 수 있습니다:

PaliGemma 2 mix 모델 사용 예시

객체 감지 (Object Detection)

다중 객체 감지 (Multiple Object Detection)

광학 문자 인식 (OCR)

이미지 분할 (Segmentation)

이미지 기반 질문 답변 (Question Answering)

  • 입력 프롬프트: answer en where is the cow standing?\n

  • 입력 이미지:

  • 출력 텍스트: beach

이미지 캡셔닝 (Captioning)

  • 입력 프롬프트: caption en\n

  • 입력 이미지:

  • 출력 텍스트: a cow standing on a beach next to a sign that says warning dangerous rip current.

:scroll: Google의 PaliGemma 2 Mix 공개 블로그

:framed_picture: PaliGemma 2 Mix 데모

:books: PaliGemma 모델 공식 문서

:hugs: PaliGemma 2 Mix 모델 다운로드

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: