MM-LLMs: 멀티모달 대규모 언어 모델의 최근 발전에 대한 연구 (Recent Advances in MultiModal Large Language Models)

9bow · 2월 8, 2024, 3:31오전

PyTorchKR

[2024/01/29 ~ 02/04] 이번 주의 주요 ML 논문 (Top ML Papers of the Week) 에 소개된 MM-LLM 논문을 살펴보았습니다. (CLIP으로 시작하여) BLIP 시리즈에 이어 LLaVA 시리즈와 GPT-4V(ision) 등, 무려 26개의 멀티모달(Multimodal) 모델들에 대한 연구들을 한 눈에 살펴보실 수 있는 논문이라고 생각하여 가져와보았습니다. 함께 살펴보시죠.
이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

소개

MM-LLM 논문은 멀티모달 대규모 언어 모델(MM-LLMs, MultiModal Large Language Models) 분야에서의 최근 연구들을 정리하며, 다양한 모달리티(Modaility: 텍스트, 이미지, 오디오 등)를 통합하여 언어 모델의 기능을 확장하는 방법에 초점을 맞추고 있습니다. 또한, 대규모 멀티모달 모델들의 일반적인 설계 방식과 모델 구조(아키텍처), 학습 파이프라인을 대략적으로 살펴보고 주요 벤치마크에서의 MM-LLM들의 성능을 살펴보고 있습니다.

MM-LLM들은 주로 LLM을 기반으로 다양한 모달리티 작업이 가능하도록 합니다. LLM이 제공하는 강력한 언어 생성 기능을 포함하여 제로샷(Zero-shot) 전이 능력이나 상황을 통한 학습(ICL, In-Context Learning)과 같은 기능들을 간직한 채, 서로 다른 모달리티들을 인식하고 효과적으로 함께 추론(collaborative inference)할 수 있도록 하는 것이 주요 과제입니다. 이를 위해 서로 다른 모달리티들을 조율하는 사전 학습(MM PT, Pre-Training)과 사람의 의도에 맞게 모델을 조절하는 지시 튜닝(MM IT, Instruction Tuning) 과정을 주로 살펴보도록 하겠습니다.

Multimodal LLM의 발전 과정

2023년, OpenAI의 GPT-4V(ision)과 Google의 Gemini 시리즈가 공개되며 MM-LLM에 대한 연구가 본격적으로 관심을 받기 시작했습니다. 주요한 발전 단계들은 다음과 같습니다.

Visual Language (VL) 모델의 발전: 예를 들어 Flamingo는 시각적 데이터와 텍스트를 처리하여 자유 형식의 텍스트를 출력하는 VL 모델 시리즈를 대표합니다.
자원 효율적인 프레임워크의 도입: BLIP-2는 가벼운 Q-Former를 포함하는 자원 효율적인 프레임워크를 도입하여 모달리티 간 격차를 해소하고 동결된 LLM을 활용합니다.
IT 기술의 MM 도메인으로의 전환: LLaVA는 데이터 부족 문제를 해결하기 위해 새로운 오픈 소스 MM 지시문 따르기 데이터셋을 소개하며, 이를 통해 MM 지시문 따르기 벤치마크를 제공합니다.
모듈화된 학습 프레임워크: mPLUG-Owl은 시각적 컨텍스트를 통합하는 새로운 모듈화된 훈련 프레임워크를 제시합니다.
다양한 모달리티로의 확장: X-LLM은 오디오를 포함한 다양한 모달리티로 확장되며, Q-Former의 언어 전이성을 활용하여 중국어 등 다양한 언어 컨텍스트에 성공적으로 적용됩니다.
채팅 중심의 MM-LLM: VideoChat은 비디오 이해 대화를 위한 효율적인 채팅 중심 MM-LLM을 선도하며, 이 분야의 향후 연구 기준을 제시합니다.
다양한 모달리티의 지시문 따르기: PandaGPT는 텍스트, 이미지/비디오, 오디오, 열 이미지, 깊이, 관성 측정 장치 등 6가지 다른 모달리티에 걸쳐 지시문을 이해하고 실행할 수 있는 능력을 갖춘 선구적인 범용 모델입니다.

이러한 발전 단계들의 다음과 같은 경향성을 가지고 있습니다.

다양한 모달리티를 이해하는 것에서 특정 모달리티로의 생성 및 어느 모달리티로든 변환 가능한 모델로의 진화: 예를 들어, MiniGPT-4에서 MiniGPT-5, 그리고 NExT-GPT로 발전하며, 모델의 학습 파이프라인이 지속적으로 정제되어 인간의 의도와 더 잘 일치하고 모델의 대화 상호 작용 능력을 향상시키고 있습니다.
다양한 모달리티를 수용하도록 확장: BLIP-2에서 X-LLM 및 InstructBLIP에서 X-InstructBLIP으로 발전하며, 더 높은 품질의 학습 데이터셋을 포함하고, 모델 아키텍처를 더 효율적으로 만드는 방향으로 진화하고 있습니다.
보다 효율적인 모델 아키텍처 채택: VILA와 같은 모델을 보면, 복잡한 Q-Former 및 P-Former 입력 프로젝터 모듈에서 더 간단하지만 효과적인 선형 프로젝터로의 전환을 살펴볼 수 있습니다.

이 글에서는 논문이 다루고 있는 전체 내용 중, 모델 구조(Section 2, Model Architecture)와 학습 파이프라인(Section 3, Training Pipeline)을 주로 살펴보도록 하겠습니다.

대규모 멀티모달 모델들의 주요 구조

대규모 멀티모달 모델(MM-LLM)들은 5가지 주요 구성 요소로 이루어져 있습니다. 각각은 모달리티 인코더(Modality Encoder)와 입력 프로젝터(Input Projector), LLM 백본(LLM Backbone), 출력 프로젝터(Output Projector), 모달리티 생성기(Modality Generator)입니다. 이러한 구성 요소들을 통해 모델은 텍스트, 이미지, 오디오 등 여러 모달리티에 걸쳐 정보를 처리하고 생성할 수 있습니다.

모달리티 인코더 (Modality Encoder)

Modality Encoder는 다양한 모달리티의 입력을 인코딩하여 해당 특성을 추출하는 구성 요소입니다. 입력으로는 이미지나 비디오, 오디오, 3D 데이터 등과 같은 다양한 형태의 입력을 처리하며, 주로 각 데이터에 맞춰 미리 학습된(pre-trained) 인코더를 사용하게 됩니다. 주요 모달리티별로 많이 사용하는 인코더들은 다음과 같습니다:

모달리티 (Modality)	인코더 이름 (Encoder Name)	설명 (Description)
시각 (Visual)	NFNet-F6	정규화가 없는 ResNet의 변형으로, 적응형 그라디언트 클리핑 기술을 사용하여 확장된 데이터셋에서의 학습을 가능하게 합니다.
시각 (Visual)	ViT (Vision Transformer)	이미지를 패치로 나누고, 이를 평탄화한 후 여러 Transformer 블록을 통해 인코딩합니다.
시각 (Visual)	CLIP ViT	텍스트와 이미지 사이의 연결을 구축하고, 대량의 텍스트-이미지 쌍을 사용하여 ViT를 대조 학습을 통해 최적화합니다.
시각 (Visual)	Eva-CLIP ViT	CLIP의 학습 및 최적화 과정을 안정화하며, 멀티모달 기본 모델의 학습을 확장하고 가속화합니다.
오디오 (Audio)	C-Former	CIF 정렬 메커니즘을 사용하여 시퀀스 전사를 수행하고 Transformer를 사용하여 오디오 특성을 추출합니다.
오디오 (Audio)	HuBERT	자기 감독 학습 프레임워크로, 마스크된 이산 은닉 유닛의 예측을 통해 오디오 특성을 학습합니다.
오디오 (Audio)	BEATs	양방향 인코더 표현을 오디오 트랜스포머에서 학습하도록 설계된 반복 오디오 사전 학습 프레임워크입니다.
3D 포인트 클라우드 (3D Point Cloud)	ULIP-2	PointBERT 백본을 사용하여 3D 포인트 클라우드 데이터를 인코딩합니다.
다양한 모달리티 (Various Modalities)	ImageBind	이미지, 비디오, 텍스트, 오디오, 열지도 등 여섯 가지 모달리티를 처리할 수 있는 통합 인코더로, 다양한 이질적인 모달 인코더들을 관리합니다.

입력 프로젝터 (Input Projector)

입력 프로젝터(Input Projector, \Theta_{X \to T})는 이전의 모달리티 인코더로부터 추출된 특성(Feature)을 다른 공간에 정렬(align) 또는 투영(projection)하는 역할을 합니다. 즉, 서로 다른 모달리티들로부터 추출된 특징(F_X)을 LLM에 입력으로 제공하는 텍스트 특징 공간(T)에 정렬하는 것입니다. (이 때, X 는 모달리티의 종류, F_X 는 모달리티 X 로부터 인코더를 통해 추출된 특징 Feature 입니다.)

Input Projector는 간단하게는 선형 변환(Linear Projector)나 MLP(Multi-Layer Perceptron)으로 구현할 수도 있으며, Cross-Attention이나 Q-Former, P-Former 등과 같이 더 복잡한 방식으로도 구현할 수 있습니다:

Cross-attention은 학습 가능한 벡터 집합을 쿼리(Query)로 사용하고 인코딩된 특성(F_X)을 키(Key)로 사용하여 특성 시퀀스를 고정 길이로 압축합니다. 이 압축된 표현은 직접 LLM에 입력되거나 (모달리티 X, 텍스트)의 크로스 어텐션 융합(Cross-Attention fusion)에 추가적으로 사용됩니다.
Q-Former은 F_X 에서 관련 특성을 추출하고, 선택된 특성을 프롬프트(P_X)로 사용합니다.
P-Former은 Q-Former에 의해 생성된 프롬프트에 대한 정렬 제약(Alignment Constraint)을 부과하는 '참조 프롬프트(Reference Prompts)'를 생성합니다.

LLM 백본(LLM Backbone)

LLM 백본(Backbone) 은 대규모 멀티모달 모델들의 핵심적인 구성 요소로서, 다양한 모달리티에서 얻은 표현을 처리하는 역할을 합니다. 이 구성 요소는 의미 이해(semantic understanding), 추론(reasoning), 그리고 입력에 대한 결정(decision-making regarding inputs)을 내리는 과정에 참여합니다. 이러한 과정에서 LLM Backbone은 다음 두 가지 주요 출력을 생성합니다:

직접적인 텍스트 출력 t: 입력된 다양한 모달리티의 데이터를 바탕으로 생성된 텍스트 결과입니다.
신호 토큰 S_X: 다른 모달리티(X) 생성 시 사용할 수 있는 신호 토큰으로, 멀티모달 콘텐츠를 생성할지 여부와 생성할 콘텐츠의 종류를 지정하는 데 사용됩니다.

t, S_X = LLM(P_X, F_T)

즉, 이러한 신호 토큰은 생성기(generator)에게 멀티모달 콘텐츠 생성 여부와 생성할 콘텐츠의 내용을 지시하는 역할을 합니다. 다른 모달리티의 정렬된 표현(P_X)은 LLM Backbone에 대한 소프트 프롬프트 튜닝(Soft Prompt Tuning)으로 간주될 수 있습니다. 또한, 일부 연구에서는 Parameter-Efficient Fine-Tuning (PEFT) 방법론을 도입하여, 추가적으로 학습 가능한 파라미터의 수를 전체 LLM 파라미터 수의 0.1% 미만으로 유지하는 등 매우 적은 수의 추가 파라미터만을 사용합니다. 주로 사용되는 PEFT 방법으로는 Prefix-tuning, Adapter, LoRA 등이 있습니다.

MM-LLMs에서 사용되는 일반적인 LLM 백본 모델로는 Flan-T5, ChatGLM, UL2, Qwen, Chinchilla, OPT, PaLM, LLaMA, LLaMA-2, Vicuna 등이 있습니다. 이 모델들은 제로-샷 일반화(Zero-Shot Generalization), Few-shot ICL(In-Context Learning), Chain-of-Thought (CoT), 지시문 따르기(Instruction Following) 등의 주목할 만한 특성을 MM-LLM들에 상속할 수 있습니다.

출력 프로젝터 (Output Projector)

입력 프로젝터가 입력 모달리티로부터 추출된 F_X 를 LLM Backbone의 입력으로 사용하도록 T 에 투영하는 역할을 했다면, 출력 프로젝터는 그 반대의 역할을 합니다. 즉, 이후에 있을 모달리티 생성기(Modality Generator, MG_X)가 LLM Backbone의 출력으로 생성된 신호 토큰 S_X 을 사용하여 모달리티 X 로 표현할 수 있도록, 해당 특성 H_X 로 투영하는 역할을 합니다.

즉, 모달리티 X to 텍스트의 데이터셋을 기반으로, t 는 먼저 LLM에 입력되어 해당하는 S_X 를 생성하고, 이후 H_X 로 매핑되는 과정입니다. 출력 프로젝터의 결과인 특성 H_X 의 정렬을 위해 H_X 와 모달리티 생성기 MG_X 의 조건부 텍스트 표현을 최대한 가깝게 하는 것을 목표로 학습합니다. 출력 프로젝터는 작은 트랜스포머(Tiny Transformer) 또는 MLP(Multi-Layer Perceptron)으로 주로 구현하며, 최적화 시에는 오디오나 다른 시각 모달리티를 사용하지 않고, 캡션 텍스트(Captioning Text)만을 사용합니다.

모달리티 생성기 (Modality Generator)

모달리티 생성기(Modality Generator, MG_X)는 다양한 모달리티로 출력을 생성하는 역할을 합니다. 일반적으로, 기존의 작업들은 이미지 합성, 비디오 합성, 오디오 합성 등 다양한 모달리티의 콘텐츠 생성을 위해 준비된 Latent Diffusion Models (LDM) 을 사용합니다. 주로 사용하는 LDM으로는 이미지 합성에 사용하는 Stable Diffusion, 비디오 합성에 사용하는 Zeroscope, 오디오 합성에 사용하는 AudioLDM-2 등이 있습니다.

이전 단계인 출력 프로젝터(Output Projector)에서 매핑된 특성 H_X 은 denoising 과정에서 조건부 입력으로 사용되어 멀티모달(MM) 콘텐츠를 생성합니다. 학습 중에는 GT(ground truth) 콘텐츠가 먼저 사전 학습된 VAE에 의해 잠재 특성 z_0 으로 변환되고, 이후 z_0 에 노이즈 \epsilon 가 추가되어 노이즈가 섞인 잠재 특성(Latent Feature) z_t 를 얻습니다. 사전 학습된 U-net \epsilon_X 은 조건부 LDM 손실 L_{X-gen} 을 계산하는데 사용됩니다.

이 과정을 통해 Modality Generator는 주어진 조건에 따라 멀티모달 콘텐츠를 효과적으로 생성할 수 있게 됩니다.

학습 파이프라인 (Training Pipeline)

대규모 멀티모달 모델들의 학습 파이프라인은 사전학습(PT, Pre-Training) 단계와 지시문 튜닝(IT, Instruction Tuning) 단계로 나누어 볼 수 있습니다.

멀티모달 사전 학습 단계 (MM PT, MultiModal Pre-Training)

사전 학습 단계에서는 주로 X-텍스트 데이터셋을 활용하여, 다양한 모달리티 간의 정렬을 달성하기 위해 입력(Input) 및 출력(Output) 프로젝터를 학습합니다. 이 과정은 사전 정의된 목표를 최적화함으로써 수행되며, 때때로 LLM 백본에 PEFT(Parameter-Efficient Fine-Tuning)가 적용됩니다. X-텍스트 데이터셋은 이미지-텍스트, 비디오-텍스트, 오디오-텍스트를 포함하며, 이미지-텍스트의 경우 두 가지 유형이 있습니다: 이미지-텍스트 쌍()과 중첩된 이미지-텍스트 코퍼스()입니다.

이 사전 학습 단계는 MM-LLMs가 다양한 모달리티의 데이터를 이해하고, 그 사이의 연관성을 학습하여, 향후 다양한 멀티모달 태스크에서의 성능을 향상시키는 데 중요한 역할을 합니다.

멀티모달 지시문 튜닝 단계 (MM IT, MultiModal Instruction-Tuning)

지시문 튜닝 단계에서는 지시문 형식의 데이터셋을 사용하여 사전 학습된 대규모 멀티모달 모델을 미세 조정(파인튜닝, Fune-tuning)하게 됩니다. 이 과정을 통해 대규모 멀티모달 모델들은 새로운 지시사항을 준수하며, 학습 시 본 적 없는 태스크를 일반화할 수 있습니다. 따라서, 이는 제로-샷 성능을 향상시키는 데 중요한 역할을 합니다.

이 단계의 핵심은 MM-LLM가 다양한 지시사항에 따라 유연하게 작동할 수 있도록 만드는 것입니다. 지시문 튜닝(Instruction Tuning) 기법은 특히 자연어 처리(NLP) 분야에서의 성공을 촉진한 간단하지만 강력한 개념입니다. MM-LLM을 미세 조정하는 과정은 주로 두 가지 접근 방식으로 구성됩니다:

Supervised Fine-Tuning (SFT): 이 접근 방식에서는 PT 단계에서 사용된 데이터의 일부를 지시문을 인식할 수 있는 형식으로 변환하여 사용합니다. 예를 들어, 시각적 질문-응답(QA) 태스크를 수행하기 위해 다양한 템플릿을 적용할 수 있으며, 이를 통해 사전 훈련된 MM-LLMs를 동일한 최적화 목표를 사용하여 미세 조정합니다.
Human Feedback from Reinforcement Learning (RLHF): 이 방법은 MM-LLMs의 응답에 대한 인간의 피드백(수동 또는 자동으로 라벨링된 자연어 피드백)을 기반으로 모델을 추가로 미세 조정합니다. 이 과정은 비차별화 가능한 NLF를 효과적으로 통합하기 위해 강화 학습 알고리즘을 사용하며, 모델이 주어진 NLF에 따라 해당 응답을 생성하도록 학습합니다.

주요 멀티모달 모델들의 개요 및 성능 비교

다음은 논문에서 살펴본 26개의 주요한 멀티모달 모델(MM-LLM)들의 비교한 표입니다. I → O 컬럼은 입력과 출력 모달리티를 나타낸 것으로, I는 이미지, V는 비디오, A는 오디오를 뜻하며, 3D와 T는 각각 포인트 클라우드와 텍스트를 뜻합니다. 모달리티 인코더(Modality Encoder) 컬럼의 -L과 -G는 각각 Large와 Giant를 뜻하며, /14와 @224는 각각 패치 크기와 이미지 해상도를 나타냅니다. LLM 백본(LLM Backbone)의 #.PT 및 #.IT 컬럼들은 학습 파이프라인에서 MM PT 및 MM IT의 데이터셋 크기를 나타내며, 값에 † 표시가 있는 경우 공개할 수 없는 데이터가 포함되었음을 뜻합니다.

Model	I→O	Modality Encoder	Input Projector	LLM Backbone	Output Projector	Modality Generator	#.PT	#.IT
Flamingo	I+V+T→T	I/V: NFNet-F6	Cross-attention	Chinchilla-1.4B/7B/70B (Frozen)	–	–	–	–
BLIP-2	I+T→T	I: CLIP/Eva-CLIP ViT@224	Q-Former w/ Linear Projector	Flan-T5/OPT (Frozen)	–	–	129M	–
LLaVA	I+T→T	I: CLIP ViT-L/14	Linear Projector	Vicuna-7B/13B (PT: Frozen; IT: PEFT)	–	–	–	–
MiniGPT-4	I+T→T	I: Eva-CLIP ViT-G/14	Q-Former w/ Linear Projector	Vicuna-13B (PT: Frozen; IT: PEFT)	–	–	–	–
mPLUG-Owl	I+T→T	I: CLIP ViT-L/14	Cross-attention	LLaMA-7B(PT: Frozen; IT: PEFT)	–	–	–	–
X-LLM	I+V+A+T→T	I/V: ViT-G; A: C-Former	Q-Former w/ Linear Projector	ChatGLM-6B (Frozen)	–	–	–	–
VideoChat	V+T→T	I: ViT-G	Q-Former w/ Linear Projector	Vicuna (Frozen)	–	–	–	–
InstructBLIP	I+V+T→T	I/V: ViT-G/14@224	Q-Former w/ Linear Projector	Flan-T5/Vicuna (Frozen)	–	–	129M	1.2M
PandaGPT	I+T→T	I: ImageBind	Linear Projector	Vicuna-13B (PEFT)	–	–	–	–
PaLI-X	I+T→T	I: ViT	Linear Projector	UL2-32B (PEFT)	–	–	–	–
Video-LLaMA	I+V+A+T→T	I/V: EVA-CLIP ViT-G/14; A: ImageBind	Q-Former w/ Linear Projector	Vicuna/LLaMA (Frozen)	–	–	–	–
Video-ChatGPT	V+T→T	I: CLIP ViT-L/14	Linear Projector	Vicuna-v1.1 (Initialized with LLaVA, Frozen)	–	–	–	–
Shikra	I+T→T	I: CLIP ViT-L/14@224	Linear Projector	Vicuna-7B/13B (PEFT)	–	–	600K	5.5M
DLP	I+T→T	I: CLIP/Eva-CLIP ViT	Q-Former+P-Former w/ Linear Projector	OPT/Flan-T5 (Frozen)	–	–	–	–
BuboGPT	I+A+T→T	I: CLIP/Eva-CLIP ViT; A: ImageBind	Q-Former w/ Linear Projector	Vicuna (Frozen)	–	–	–	–
ChatSpot	I+T→T	I: CLIP ViT-L/14	Linear Projector	Vicuna-7B/LLaMA (PT: Frozen; IT: PEFT)	–	–	–	–
Qwen-VL-(Chat)	I+T→T	I: ViT@448 initialized from OpenClip’s ViT-bigG	Cross-attention	Qwen-7B (PT: Frozen; IT: PEFT)	–	–	1.4B†	50M†
NExT-GPT	I+V+A+T→I+V+A+T	I/V/A: ImageBind	Linear Projector	Vicuna-7B (PEFT)	Tiny Transformer	I: Stable Diffusion; V: Zeroscope; A: AudioLDM	–	–
MiniGPT-5	I+T→I+T	I: Eva-CLIP ViT-G/14	Q-Former w/ Linear Projector	Vicuna-7B (PEFT)	Tiny Transformer w/ MLP	I: StableDiffusion-2	–	–
LLaVA-1.5	I+T→T	I: CLIP ViT-L@336	MLP	Vicuna-v1.5-7B/13B (PT: Frozen; IT: PEFT)	–	–	0.6M	0.7M
MiniGPT-v2	I+T→T	I: Eva-CLIP ViT@448	Linear Projector	LLaMA-2-Chat-7B (PEFT)	–	–	–	–
CogVLM	I+T→T	I: Eva-2-CLIP ViT	MLP	Vicuna-v1.5-7B (PEFT)	–	–	–	–
DRESS	I+T→T	I:Eva-CLIP ViT-G/14	Linear Projector	Vicuna-v1.5-13B (PEFT)	–	–	–	–
X-InstructBLIP	I+V+A+3D+T→T	I/V: Eva-CLIP ViT-G/14; A: BEATs; 3D: ULIP-2	Q-Former w/ Linear Projector	Vicuna-v1.1-7B/13B (Frozen)	–	–	–	–
CoDi-2	I+V+A+T→I+V+A+T	I/V/A: ImageBind	MLP	LLaMA-2-Chat-7B (PT: Frozen; IT: PEFT)	MLP	I: Stable Diffusion-2.1; V: Zeroscope-v2; A: AudioLDM-2	–	–
VILA	I+T→T	I: ViT@336	Linear Projector	LLaMA-2-7B/13B (PEFT)	–	–	50M	1M

다음은 주요한 MM-LLM 모델들에 대해서 18개의 VL(Vision-Language) 벤치마크를 실행한 결과입니다. 붉은색 글씨는 가장 좋은(highest) 결과를, 파란색 글씨는 두번째로 좋은(second highest) 결과를 표시합니다.

Model	LLM Backbone	OKVQA	IconVQA	VQA𝐯𝟐	GQA	VizWiz	SQA𝐈	VQA𝐓	POPE	MME𝐏	MME𝐂	MMB	MMB𝐂𝐍	SEED𝐈	LLaVA𝐖	MM-Vet	QBench	HM	VSR
Flamingo	Chinchilla-7B	44.7	–	–	–	28.8	–	–	–	–	–	–	–	–	–	–	–	57.0	31.8
BLIP-2	Flan-T5_{XXL} (13B)	45.9	40.6	65.0	44.7	19.6	61.0	42.5	85.3	1293.8	290.0	–	–	46.4	38.1	22.4	–	53.7	50.9
LLaVA	Vicuna-13B	54.4	43.0	–	41.3	–	–	38.9	–	–	–	–	–	–	–	–	–	–	51.2
MiniGPT-4	Vicuna-13B	37.5	37.6	–	30.8	–	–	19.4	–	–	–	–	–	–	–	–	–	–	41.6
InstructBLIP	Vicuna-7B	–	–	–	49.2	34.5	60.5	50.1	–	–	–	36.0	23.7	53.4	60.9	26.2	56.7	–	–
InstructBLIP	Vicuna-13B	–	44.8	–	49.5	33.4	63.1	50.7	78.9	1212.8	291.8	–	–	–	58.2	25.6	–	57.5	52.1
Shikra	Vicuna-13B	47.2	–	77.4*	–	–	–	–	–	–	–	58.8	–	–	–	–	54.7	–	–
IDEFICS-9B	LLaMA-7B	–	–	50.9	38.4	35.5	–	25.9	–	–	–	48.2	25.2	–	–	–	–	–	–
IDEFICS-80B	LLaMA-65B	–	–	60.0	45.2	36.0	–	30.9	–	–	–	54.5	38.1	–	–	–	–	–	–
Qwen-VL	Qwen-7B	–	–	78.8*	59.3*	35.2	67.1	63.8	–	–	–	38.2	7.4	56.3	–	–	59.4	–	–
Qwen-VL-Chat	Qwen-7B	–	–	78.2*	57.5*	38.9	68.2	61.5	–	1487.5	360.7	60.6	56.7	58.2	–	–	–	–	–
LLaVA-1.5	Vicuna-1.5-7B	–	–	78.5*	62.0*	50.0	66.8	58.2	85.9	1510.7	316.1‡	64.3	58.3	58.6	63.4	30.5	58.7	–	–
+ShareGPT4V	Vicuna-1.5-7B	–	–	80.6	–	57.2	68.4	–	–	1567.4	376.4	68.8	62.2	69.7	72.6	37.6	63.4	–	–
LLaVA-1.5	Vicuna-1.5-13B	–	–	80.0*	63.3*	53.6	71.6	61.3	85.9	1531.3	295.4‡	67.7	63.6	61.6	70.7	35.4	62.1	–	–
MiniGPT-v2	LLaMA-2-Chat-7B	56.9	47.7	–	60.3	30.3	–	51.9	–	–	–	–	–	–	–	–	–	58.2	60.6
MiniGPT-v2-Chat	LLaMA-2-Chat-7B	55.9	49.4	–	58.8	42.4	–	52.3	–	–	–	–	–	–	–	–	–	59.5	63.3
VILA-7B	LLaMA-2-7B	–	–	79.9*	62.3*	57.8	68.2	64.4	85.5	1533.0	–	68.9	61.7	61.1	69.7	34.9	–	–	–
VILA-13B	LLaMA-2-13B	–	–	80.8*	63.3*	60.6	73.7	66.6	84.2	1570.1	–	70.3	64.3	62.8	73.0	38.8	–	–	–
+ShareGPT4V	LLaMA-2-13B	–	–	80.6*	63.2*	62.4	73.1	65.3	84.8	1556.5	–	70.8	65.4	61.4	78.4	45.7	–	–	–

향후 과제들 (Future Directions)

5가지 주요한 관점에서의 향후 연구 과제들을 살펴보았습니다:

보다 강력한 모델의 개발 (More Powerful Models)

모달리티 확장: 현재 MM-LLMs는 이미지, 비디오, 오디오, 3D, 텍스트 등을 지원하지만, 웹 페이지, 열지도, 표&그림과 같은 추가 모달리티를 포함시켜 모델의 범용성을 높이는 것이 제안됩니다.
LLMs 다양화: 다양한 유형 및 크기의 LLMs를 포함시켜 특정 요구사항에 가장 적합한 모델을 선택할 수 있는 유연성을 제공하는 것이 중요합니다.
MM IT 데이터셋 품질 개선: 현재 MM IT 데이터셋은 개선 및 확장의 여지가 많으며, 지시사항의 범위를 다양화함으로써 사용자 명령을 이해하고 실행하는 MM-LLMs의 효과를 향상시킬 수 있습니다.
MM 생성 능력 강화: 대부분의 현재 MM-LLMs는 MM 이해에 초점을 맞추고 있지만, 일부 모델은 MM 생성 능력을 포함했음에도 생성된 응답의 품질이 LDMs의 능력에 의해 제한될 수 있습니다. 검색 기반 접근 방식의 통합이 생성 과정을 보완하고 모델의 전체 성능을 향상시킬 수 있는 유망한 방안입니다.

보다 도전적인 벤치마크의 필요성 (More Challenging Benchmarks)

현재 존재하는 벤치마크들은 대규모 멀티모달 모델들의 기능을 충분히 평가하지 못할 수 있습니다. 또한, 많은 데이터셋이 사전 학습(PT) 또는 지시문 튜닝(IT)에서 다양한 정도로 등장했기 때문에 모델이 학습 중에 이러한 데이터들을 이미 학습했을 가능성이 있습니다. 따라서 더 많은 모달리티를 포함하고 통합된 평가 기준을 사용하는 보다 도전적인 대규모 벤치마크의 구축이 필요합니다.

모바일/경량화된 배포 (Mobile/Lightweight Deployment)

자원 제약적인 플랫폼 및 저전력 모바일 및 IoT 기기에 MM-LLMs를 배포하고 최적의 성능을 달성하기 위해서는 경량 구현이 매우 중요합니다. MobileVLM과 같은 접근 방식은 이 분야에서 중요한 진보를 나타냅니다.

구체화된 지능 (Embodied Intelligence)

구체화된 지능은 사람과 같은 인식 및 환경과의 상호작용을 목표로 하며, 실시간 관찰을 활용하여 로봇이 확장된 계획을 자율적으로 수행할 수 있도록 장비합니다. PaLM-E 및 EmbodiedGPT와 같은 작업은 이 분야에서의 전형적인 사례입니다.

지속적인 지시문 튜닝 (Continual IT, Instruction-Tuning)

실제 애플리케이션에서 MM-LLMs는 새로운 멀티모달 태스크에 적응하여 추가 기능을 지원할 것으로 예상됩니다. 현재 MM-LLMs는 정적이며 지속적으로 등장하는 요구사항에 적응할 수 없습니다. 모델을 유연하게 만들어 새로운 데이터를 효율적이고 지속적으로 활용할 수 있는 접근 방식이 필요합니다.

더 읽어보기

MM-LLM 논문

MM-LLM 프로젝트 홈페이지

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~

yug6789 · 2월 16, 2024, 4:37오전

항상 좋은 글 읽고 많은 지식 배워갈 수 있어서 너무 감사드려요~~~

9bow · 2월 18, 2024, 11:48오후

앗, 구정 전부터 감기로 골골대느랴 확인이 늦었습니다.
항상 읽어주시고 좋아요도 눌러주시고 덧글까지 남겨주셔서 감사합니다!

yug6789 · 2월 19, 2024, 12:15오전

아이구 새해부터 불청객이 찾아오셨네요

액땜 하셨으니 올해는 좋은 일만 가득하실 겁니다.

좋은 하루 보네세여

9bow · 2월 19, 2024, 12:31오전

감사합니다! 즐거운 한 주되세요~