- 이 글은 GPT-4를 사용하여 자동 생성한 설명으로, 잘못된 내용이 있을 수 있습니다.
- 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다!
개요
Adept에서는 Fuyu-8B
라는 멀티모달 모델의 출시를 발표했습니다. 이 모델은 HuggingFace에서 사용 가능하며, 그 특징은 간단한 아키텍처와 학습 절차를 가지고 있어 이해하고 확장하기 쉽습니다.
주요 내용
모델 출시
Fuyu-8B
는 디지털 에이전트를 위해 처음부터 설계되었으며, 다양한 이미지 해상도를 지원하고 그래프와 다이어그램에 대한 질문에 답하며 화면 이미지에서 세밀한 위치 지정을 할 수 있습니다. 이 모델은 100 밀리초 미만의 시간 안에 큰 이미지에 대한 응답을 얻을 수 있습니다. 무엇보다, Fuyu-8B
모델은 CC-BY-NC의 오픈 라이선스로 공개되었습니다.
모델 아키텍처
Fuyu 모델 아키텍처 다이어그램
Fuyu
는 구조적으로 Persimmon-8B와 비슷합니다. 특별한 이미지 인코더가 없는 바닐라 디코더 전용 트랜스포머 구조로, 이미지 패치는 임베딩 룩업을 거치지 않고 트랜스포머의 첫 번째 레이어에 직접 입력됩니다. 이러한 단순화를 덕분에 별도의 이미지 인코더를 갖는 모델들과는 다르게, 임의의 해상도를 갖는 이미지를 입력으로 받을 수 있습니다. 학습 시에도 임의의 크기의 이미지를 사용할 수 있으므로 별도의 고해상도 및 저해상도에 따른 별도의 학습 단계가 필요하지 않습니다.
성능 평가
Fuyu-8B
의 기본 아키텍처 변경 사항을 검증하기 위해 가장 일반적으로 사용되는 이미지 이해 데이터셋 네 개를 선택했습니다.
다음은 PALM-e, PALI-X, QWEN-VL, LLaVA 1.5 모델들과의 비교 결과입니다.
이미지 이해 사례
더 읽어보기
HuggingFace의 Fuyu-8B 모델 저장소
Adept 블로그의 Persimmon-8B 모델 소개 글
PALM-e 모델 논문
https://arxiv.org/pdf/2303.03378.pdf
PALI-X 모델 논문
https://arxiv.org/pdf/2305.18565.pdf
QWEN-VL 모델 논문
https://arxiv.org/pdf/2308.12966.pdf