PaliGemma 2 mix 모델 소개
Google은 작년 12월 공개한 PaliGemma 2 모델을 개선한 새로운 모델인 PaliGemma 2 Mix를 출시했습니다. PaliGemma 2 Mix 모델은 Gemma 패밀리에 속하는 시각-언어 모델 중 하나로, 다양한 시각-언어(task mixture) 작업을 지원하는 멀티태스킹 모델입니다. 특히, 3B, 10B, 28B 파라미터 크기의 사전학습(Pre-trained)된 체크포인트를 제공합니다.
PaliGemma 2 Mix 모델은 하나의 모델로 이미지 분할(image segmentation), 짧은 영상 캡션 생성(short video captioning), 과학적 질문 응답(scientific question answering), 그리고 텍스트 관련 작업 등과 같은 다양한 시각-언어 작업에서 높은 성능을 발휘할 수 있도록 쉽게 파인튜닝(Fine-tuning)할 수도 있습니다.
PaliGeamma 2 Mix는 주어진 프롬프트(Prompt)에 따라 지정된 작업을 수행하며, 지원하는 작업에 대해서는 공식 문서를 참고해주세요.
PaliGemma 2 mix 모델의 주요 특징
다양한 작업 지원
PaliGemma 2 Mix는 하나의 모델로 여러 작업을 처리할 수 있습니다:
- 이미지 캡셔닝 (Short & Long Captioning)
- 광학 문자 인식 (OCR)
- 이미지 기반 질문 답변 (Image Question Answering)
- 객체 감지 및 분할 (Object Detection & Segmentation)
개발자 친화적 크기 및 해상도
모델은 아래와 같이 다양한 크기와 해상도로 제공됩니다:
- 모델 크기: 3B, 10B, 28B 파라미터
- 해상도 옵션: 224px, 448px
호환성 높은 프레임워크 지원
아래의 프레임워크에서 PaliGemma 2 Mix를 사용할 수 있습니다:
- Hugging Face Transformers
- Keras
- PyTorch
- JAX
- Gemma.cpp
PaliGemma 2 mix 모델 사용 예시
객체 감지 (Object Detection)
-
입력 프롬프트:
detect android\n
-
입력 이미지:
-
출력 이미지:
다중 객체 감지 (Multiple Object Detection)
-
입력 프롬프트:
detect chair ; table\n
-
입력 이미지:
-
출력 이미지:
-
입력 프롬프트:
detect food ; plate ; bowl\n
-
입력 이미지:
-
출력 이미지:
광학 문자 인식 (OCR)
-
입력 프롬프트:
ocr\n
-
입력 이미지:
-
출력 이미지:
-
입력 프롬프트:
ocr\n
-
입력 이미지:
-
출력 텍스트:
WARNING
DANGEROUS
RIP CURRENT
이미지 분할 (Segmentation)
-
입력 프롬프트:
segment cat\n
-
입력 이미지:
-
출력 이미지:
이미지 기반 질문 답변 (Question Answering)
-
입력 프롬프트:
answer en where is the cow standing?\n
-
입력 이미지:
-
출력 텍스트:
beach
이미지 캡셔닝 (Captioning)
-
입력 프롬프트:
caption en\n
-
입력 이미지:
-
출력 텍스트:
a cow standing on a beach next to a sign that says warning dangerous rip current.
Google의 PaliGemma 2 Mix 공개 블로그
PaliGemma 2 Mix 데모
PaliGemma 모델 공식 문서
PaliGemma 2 Mix 모델 다운로드
더 읽어보기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~