Pixtral 12B, Mistral 사용자 커뮤니티가 공개한 멀티모달 모델(feat. Nemo 12B)

Pixtral 12B 모델 소개

미스트랄(Mistral)의 사용자 커뮤니티에서 텍스트와 이미지를 동시에 처리할 수 있는 첫 번째 멀티모달 모델, Pixtral 12B를 출시했습니다. 이 모델은 12B 규모의 크기로, 약 24GB의 용량입니다. 모델의 공개 및 배포는 mistral-community Hugging Face 및 magnet 주소(torrent)를 통해 진행하고 있습니다.

Pixtral 12B는 Mistral의 기존 텍스트 모델인 Nemo 12B를 기반으로 개발되었습니다. 이 모델은 이미지를 입력받아 이미지에 대한 질문에 답할 수 있습니다. Pixtral 12B는 이미지 캡셔닝 및 사진 속 객체 수 계산 등 다양한 작업을 수행할 수 있을 것으로 기대됩니다. 이미지 제공 시에는 다른 모델이나 OpenAI 등과 같이, 이미지의 URL이나 Pillow 라이브러리를 사용한 이미지 객체, 또는 Base64 인코딩된 이미지 문자열을 제공할 수 있습니다.

Pixtral 12B 모델은 텍스트와 이미지를 함께 입력받아, 입력된 이미지를 분석하거나 설명할 수 있습니다. 예를 들어, 모델에 특정 동물의 이미지를 주고 해당 동물이 특정 장소에 살 수 있는지 묻는 질문을 할 수 있습니다.

다만, 미스트랄 사용자 커뮤니티에서는 Pixtral 12B가 학습에 사용한 이미지 데이터를 공개되지는 않았습니다. 대부분의 생성 AI 모델들은 웹 사이트를 비롯한 공공 데이터를 사용해 학습되지만, 이 데이터가 저작권이 있을 수 있다는 문제로 논란이 되고 있습니다. 일부 AI 모델 제공업체들은 “공정 사용” 권리를 주장하며 공공 데이터를 수집하지만, 저작권자들은 이에 반발하며 법적 조치를 취하고 있습니다.

:warning: 주의사항

이 모델은 MistralAI가 공식적으로 공개 및 배포한 모델이 아닙니다.

모델 사용 방법

Pixtral 12B 모델을 사용하기 위해서는 Hugging Face Hub에서 모델 체크포인트를 다운로드하고, 필요한 패키지를 설치하여 사용할 수 있습니다.

사용 방법:

  • pip install --upgrade mistral_common 명령어를 통해 필수 패키지를 설치합니다.

  • 모델 체크포인트를 다운로드하려면 huggingface_hub 패키지를 사용하여 다운로드 가능합니다.

    # 아래 코드를 실행하기 전, `pip install huggingface-hub`로 huggingface-hub를 미리 설치해야 합니다.
    
    from huggingface_hub import snapshot_download
    
    snapshot_download(repo_id="mistral-community/pixtral-12b-240910", local_dir="(모델 저장 위치)")
    
  • 토큰화 및 이미지와 텍스트 입력을 처리할 수 있는 코드 예시가 제공됩니다.

또는, 다음 magnet 주소를 사용하여 모델을 받을 수도 있습니다:

magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=udp%3A%2F%http://2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%http://2Ftracker.ipv6tracker.org%3A80%2Fannounce

Pixtral 12B 모델에 이미지를 제공하는 예시 코드

PIL.Image 객체 사용 예시

from mistral_common.protocol.instruct.messages import (
    UserMessage,
    TextChunk,
    ImageURLChunk,
    ImageChunk,
)
from PIL import Image
from mistral_common.protocol.instruct.request import ChatCompletionRequest
from mistral_common.tokens.tokenizers.mistral import MistralTokenizer

tokenizer = MistralTokenizer.from_model("pixtral")

image = Image.new('RGB', (64, 64))

# tokenize images and text
tokenized = tokenizer.encode_chat_completion(
    ChatCompletionRequest(
        messages=[
            UserMessage(
                content=[
                    TextChunk(text="Describe this image"),
                    ImageChunk(image=image),
                ]
            )
        ],
        model="pixtral",
    )
)
tokens, text, images = tokenized.tokens, tokenized.text, tokenized.images

# Count the number of tokens
print("# tokens", len(tokens))
print("# images", len(images))

Image URL 사용 예시

url_dog = "https://picsum.photos/id/237/200/300"
url_mountain = "https://picsum.photos/seed/picsum/200/300"

# tokenize image urls and text
tokenized = tokenizer.encode_chat_completion(
    ChatCompletionRequest(
        messages=[
            UserMessage(
                content=[
                    TextChunk(text="Can this animal"),
                    ImageURLChunk(image_url=url_dog),
                    TextChunk(text="live here?"),
                    ImageURLChunk(image_url=url_mountain),
                ]
            )
        ],
        model="pixtral",
    )
)
tokens, text, images = tokenized.tokens, tokenized.text, tokenized.images

# Count the number of tokens
print("# tokens", len(tokens))
print("# images", len(images))

Base64 인코딩된 이미지 사용 예시

tokenized = tokenizer.encode_chat_completion(
    ChatCompletionRequest(
        messages=[
            UserMessage(
                content=[
                    TextChunk(text="What is this?"),
                    ImageURLChunk(image_url=""),
                ]
            )
        ],
        model="pixtral",
    )
)
tokens, text, images = tokenized.tokens, tokenized.text, tokenized.images

# Count the number of tokens
print("# tokens", len(tokens))
print("# images", len(images))

:hugs: Pixtral 12B 모델 저장소

:twitter: MistralAI의 Pixtral 12B magnet 주소 공지

https://x.com/MistralAI/status/1833758285167722836




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: