Google, 다양한 작업을 지원하는 시각-언어 모델 PaliGemma 2 Mix 공개

9bow · 2월 23, 2025, 4:56오전

PaliGemma 2 mix 모델 소개

Google은 작년 12월 공개한 PaliGemma 2 모델을 개선한 새로운 모델인 PaliGemma 2 Mix를 출시했습니다. PaliGemma 2 Mix 모델은 Gemma 패밀리에 속하는 시각-언어 모델 중 하나로, 다양한 시각-언어(task mixture) 작업을 지원하는 멀티태스킹 모델입니다. 특히, 3B, 10B, 28B 파라미터 크기의 사전학습(Pre-trained)된 체크포인트를 제공합니다.

PaliGemma 2 Mix 모델은 하나의 모델로 이미지 분할(image segmentation), 짧은 영상 캡션 생성(short video captioning), 과학적 질문 응답(scientific question answering), 그리고 텍스트 관련 작업 등과 같은 다양한 시각-언어 작업에서 높은 성능을 발휘할 수 있도록 쉽게 파인튜닝(Fine-tuning)할 수도 있습니다.

PaliGeamma 2 Mix는 주어진 프롬프트(Prompt)에 따라 지정된 작업을 수행하며, 지원하는 작업에 대해서는 공식 문서를 참고해주세요.

PaliGemma 2 mix 모델의 주요 특징

다양한 작업 지원

PaliGemma 2 Mix는 하나의 모델로 여러 작업을 처리할 수 있습니다:

이미지 캡셔닝 (Short & Long Captioning)
광학 문자 인식 (OCR)
이미지 기반 질문 답변 (Image Question Answering)
객체 감지 및 분할 (Object Detection & Segmentation)

개발자 친화적 크기 및 해상도

모델은 아래와 같이 다양한 크기와 해상도로 제공됩니다:

모델 크기: 3B, 10B, 28B 파라미터
해상도 옵션: 224px, 448px

호환성 높은 프레임워크 지원

아래의 프레임워크에서 PaliGemma 2 Mix를 사용할 수 있습니다:

PaliGemma 2 mix 모델 사용 예시

객체 감지 (Object Detection)

입력 프롬프트: detect android\n
입력 이미지:

image400×400 25.9 KB
출력 이미지:

image400×400 31 KB

다중 객체 감지 (Multiple Object Detection)

입력 프롬프트: detect chair ; table\n
입력 이미지:

image400×400 49.6 KB
출력 이미지:

image400×400 54 KB
입력 프롬프트: detect food ; plate ; bowl\n
입력 이미지:

image600×350 78.6 KB
출력 이미지:

image600×350 92.1 KB

광학 문자 인식 (OCR)

입력 프롬프트: ocr\n
입력 이미지:

image400×400 38.1 KB
출력 이미지:

image399×276 29.1 KB
입력 프롬프트: ocr\n
입력 이미지:

image400×400 49.8 KB
출력 텍스트:
- WARNING
- DANGEROUS
- RIP CURRENT

이미지 분할 (Segmentation)

입력 프롬프트: segment cat\n
입력 이미지:

image400×400 42.5 KB
출력 이미지:

image400×400 34 KB

이미지 기반 질문 답변 (Question Answering)

입력 프롬프트: answer en where is the cow standing?\n
입력 이미지:

image400×400 49.8 KB
출력 텍스트: beach

이미지 캡셔닝 (Captioning)

입력 프롬프트: caption en\n
입력 이미지:

image400×400 49.8 KB
출력 텍스트: a cow standing on a beach next to a sign that says warning dangerous rip current.

Google의 PaliGemma 2 Mix 공개 블로그

PaliGemma 2 Mix 데모

PaliGemma 모델 공식 문서

PaliGemma 2 Mix 모델 다운로드

더 읽어보기

PaliGemma 2 논문: [2412.03555] PaliGemma 2: A Family of Versatile VLMs for Transfer
PaliGemma, Gemma 기반의 소규모 Multimodal-LLM

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~