Fuyu-8B: AI 에이전트를 위한 멀티모달 아키텍처 (Fuyu-8B: A Multimodal Architecture for AI Agents)

  • 이 글은 GPT-4를 사용하여 자동 생성한 설명으로, 잘못된 내용이 있을 수 있습니다. :smile:
  • 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

개요

Adept에서는 Fuyu-8B라는 멀티모달 모델의 출시를 발표했습니다. 이 모델은 HuggingFace에서 사용 가능하며, 그 특징은 간단한 아키텍처와 학습 절차를 가지고 있어 이해하고 확장하기 쉽습니다.

주요 내용

모델 출시

Fuyu-8B는 디지털 에이전트를 위해 처음부터 설계되었으며, 다양한 이미지 해상도를 지원하고 그래프와 다이어그램에 대한 질문에 답하며 화면 이미지에서 세밀한 위치 지정을 할 수 있습니다. 이 모델은 100 밀리초 미만의 시간 안에 큰 이미지에 대한 응답을 얻을 수 있습니다. 무엇보다, Fuyu-8B 모델은 CC-BY-NC의 오픈 라이선스로 공개되었습니다.

모델 아키텍처


Fuyu 모델 아키텍처 다이어그램

Fuyu는 구조적으로 Persimmon-8B와 비슷합니다. 특별한 이미지 인코더가 없는 바닐라 디코더 전용 트랜스포머 구조로, 이미지 패치는 임베딩 룩업을 거치지 않고 트랜스포머의 첫 번째 레이어에 직접 입력됩니다. 이러한 단순화를 덕분에 별도의 이미지 인코더를 갖는 모델들과는 다르게, 임의의 해상도를 갖는 이미지를 입력으로 받을 수 있습니다. 학습 시에도 임의의 크기의 이미지를 사용할 수 있으므로 별도의 고해상도 및 저해상도에 따른 별도의 학습 단계가 필요하지 않습니다.

성능 평가

Fuyu-8B의 기본 아키텍처 변경 사항을 검증하기 위해 가장 일반적으로 사용되는 이미지 이해 데이터셋 네 개를 선택했습니다.

다음은 PALM-e, PALI-X, QWEN-VL, LLaVA 1.5 모델들과의 비교 결과입니다.

이미지 이해 사례

더 읽어보기

:hugs:HuggingFace의 Fuyu-8B 모델 저장소

Adept 블로그의 Persimmon-8B 모델 소개 글

PALM-e 모델 논문

https://arxiv.org/pdf/2303.03378.pdf

PALI-X 모델 논문

https://arxiv.org/pdf/2305.18565.pdf

QWEN-VL 모델 논문

https://arxiv.org/pdf/2308.12966.pdf

LLaVA 1.5 모델 논문

Flamingo 모델 소개

원문