PyTorchKR
- [2024/01/29 ~ 02/04] 이번 주의 주요 ML 논문 (Top ML Papers of the Week) 에 소개된 MM-LLM 논문을 살펴보았습니다. (CLIP으로 시작하여) BLIP 시리즈에 이어 LLaVA 시리즈와 GPT-4V(ision) 등, 무려 26개의 멀티모달(Multimodal) 모델들에 대한 연구들을 한 눈에 살펴보실 수 있는 논문이라고 생각하여 가져와보았습니다. 함께 살펴보시죠.
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
소개
MM-LLM 논문은 멀티모달 대규모 언어 모델(MM-LLMs, MultiModal Large Language Models) 분야에서의 최근 연구들을 정리하며, 다양한 모달리티(Modaility: 텍스트, 이미지, 오디오 등)를 통합하여 언어 모델의 기능을 확장하는 방법에 초점을 맞추고 있습니다. 또한, 대규모 멀티모달 모델들의 일반적인 설계 방식과 모델 구조(아키텍처), 학습 파이프라인을 대략적으로 살펴보고 주요 벤치마크에서의 MM-LLM들의 성능을 살펴보고 있습니다.
MM-LLM들은 주로 LLM을 기반으로 다양한 모달리티 작업이 가능하도록 합니다. LLM이 제공하는 강력한 언어 생성 기능을 포함하여 제로샷(Zero-shot) 전이 능력이나 상황을 통한 학습(ICL, In-Context Learning)과 같은 기능들을 간직한 채, 서로 다른 모달리티들을 인식하고 효과적으로 함께 추론(collaborative inference)할 수 있도록 하는 것이 주요 과제입니다. 이를 위해 서로 다른 모달리티들을 조율하는 사전 학습(MM PT, Pre-Training)과 사람의 의도에 맞게 모델을 조절하는 지시 튜닝(MM IT, Instruction Tuning) 과정을 주로 살펴보도록 하겠습니다.
Multimodal LLM의 발전 과정
2023년, OpenAI의 GPT-4V(ision)과 Google의 Gemini 시리즈가 공개되며 MM-LLM에 대한 연구가 본격적으로 관심을 받기 시작했습니다. 주요한 발전 단계들은 다음과 같습니다.
- Visual Language (VL) 모델의 발전: 예를 들어 Flamingo는 시각적 데이터와 텍스트를 처리하여 자유 형식의 텍스트를 출력하는 VL 모델 시리즈를 대표합니다.
- 자원 효율적인 프레임워크의 도입: BLIP-2는 가벼운 Q-Former를 포함하는 자원 효율적인 프레임워크를 도입하여 모달리티 간 격차를 해소하고 동결된 LLM을 활용합니다.
- IT 기술의 MM 도메인으로의 전환: LLaVA는 데이터 부족 문제를 해결하기 위해 새로운 오픈 소스 MM 지시문 따르기 데이터셋을 소개하며, 이를 통해 MM 지시문 따르기 벤치마크를 제공합니다.
- 모듈화된 학습 프레임워크: mPLUG-Owl은 시각적 컨텍스트를 통합하는 새로운 모듈화된 훈련 프레임워크를 제시합니다.
- 다양한 모달리티로의 확장: X-LLM은 오디오를 포함한 다양한 모달리티로 확장되며, Q-Former의 언어 전이성을 활용하여 중국어 등 다양한 언어 컨텍스트에 성공적으로 적용됩니다.
- 채팅 중심의 MM-LLM: VideoChat은 비디오 이해 대화를 위한 효율적인 채팅 중심 MM-LLM을 선도하며, 이 분야의 향후 연구 기준을 제시합니다.
- 다양한 모달리티의 지시문 따르기: PandaGPT는 텍스트, 이미지/비디오, 오디오, 열 이미지, 깊이, 관성 측정 장치 등 6가지 다른 모달리티에 걸쳐 지시문을 이해하고 실행할 수 있는 능력을 갖춘 선구적인 범용 모델입니다.
이러한 발전 단계들의 다음과 같은 경향성을 가지고 있습니다.
- 다양한 모달리티를 이해하는 것에서 특정 모달리티로의 생성 및 어느 모달리티로든 변환 가능한 모델로의 진화: 예를 들어, MiniGPT-4에서 MiniGPT-5, 그리고 NExT-GPT로 발전하며, 모델의 학습 파이프라인이 지속적으로 정제되어 인간의 의도와 더 잘 일치하고 모델의 대화 상호 작용 능력을 향상시키고 있습니다.
- 다양한 모달리티를 수용하도록 확장: BLIP-2에서 X-LLM 및 InstructBLIP에서 X-InstructBLIP으로 발전하며, 더 높은 품질의 학습 데이터셋을 포함하고, 모델 아키텍처를 더 효율적으로 만드는 방향으로 진화하고 있습니다.
- 보다 효율적인 모델 아키텍처 채택: VILA와 같은 모델을 보면, 복잡한 Q-Former 및 P-Former 입력 프로젝터 모듈에서 더 간단하지만 효과적인 선형 프로젝터로의 전환을 살펴볼 수 있습니다.
이 글에서는 논문이 다루고 있는 전체 내용 중, 모델 구조(Section 2, Model Architecture)와 학습 파이프라인(Section 3, Training Pipeline)을 주로 살펴보도록 하겠습니다.
대규모 멀티모달 모델들의 주요 구조
대규모 멀티모달 모델(MM-LLM)들은 5가지 주요 구성 요소로 이루어져 있습니다. 각각은 모달리티 인코더(Modality Encoder)와 입력 프로젝터(Input Projector), LLM 백본(LLM Backbone), 출력 프로젝터(Output Projector), 모달리티 생성기(Modality Generator)입니다. 이러한 구성 요소들을 통해 모델은 텍스트, 이미지, 오디오 등 여러 모달리티에 걸쳐 정보를 처리하고 생성할 수 있습니다.
모달리티 인코더 (Modality Encoder)
Modality Encoder는 다양한 모달리티의 입력을 인코딩하여 해당 특성을 추출하는 구성 요소입니다. 입력으로는 이미지나 비디오, 오디오, 3D 데이터 등과 같은 다양한 형태의 입력을 처리하며, 주로 각 데이터에 맞춰 미리 학습된(pre-trained) 인코더를 사용하게 됩니다. 주요 모달리티별로 많이 사용하는 인코더들은 다음과 같습니다:
모달리티 (Modality) | 인코더 이름 (Encoder Name) | 설명 (Description) |
---|---|---|
시각 (Visual) | NFNet-F6 | 정규화가 없는 ResNet의 변형으로, 적응형 그라디언트 클리핑 기술을 사용하여 확장된 데이터셋에서의 학습을 가능하게 합니다. |
시각 (Visual) | ViT (Vision Transformer) | 이미지를 패치로 나누고, 이를 평탄화한 후 여러 Transformer 블록을 통해 인코딩합니다. |
시각 (Visual) | CLIP ViT | 텍스트와 이미지 사이의 연결을 구축하고, 대량의 텍스트-이미지 쌍을 사용하여 ViT를 대조 학습을 통해 최적화합니다. |
시각 (Visual) | Eva-CLIP ViT | CLIP의 학습 및 최적화 과정을 안정화하며, 멀티모달 기본 모델의 학습을 확장하고 가속화합니다. |
오디오 (Audio) | C-Former | CIF 정렬 메커니즘을 사용하여 시퀀스 전사를 수행하고 Transformer를 사용하여 오디오 특성을 추출합니다. |
오디오 (Audio) | HuBERT | 자기 감독 학습 프레임워크로, 마스크된 이산 은닉 유닛의 예측을 통해 오디오 특성을 학습합니다. |
오디오 (Audio) | BEATs | 양방향 인코더 표현을 오디오 트랜스포머에서 학습하도록 설계된 반복 오디오 사전 학습 프레임워크입니다. |
3D 포인트 클라우드 (3D Point Cloud) | ULIP-2 | PointBERT 백본을 사용하여 3D 포인트 클라우드 데이터를 인코딩합니다. |
다양한 모달리티 (Various Modalities) | ImageBind | 이미지, 비디오, 텍스트, 오디오, 열지도 등 여섯 가지 모달리티를 처리할 수 있는 통합 인코더로, 다양한 이질적인 모달 인코더들을 관리합니다. |
입력 프로젝터 (Input Projector)
입력 프로젝터(Input Projector, \Theta_{X \to T})는 이전의 모달리티 인코더로부터 추출된 특성(Feature)을 다른 공간에 정렬(align) 또는 투영(projection)하는 역할을 합니다. 즉, 서로 다른 모달리티들로부터 추출된 특징(F_X)을 LLM에 입력으로 제공하는 텍스트 특징 공간(T)에 정렬하는 것입니다. (이 때, X 는 모달리티의 종류, F_X 는 모달리티 X 로부터 인코더를 통해 추출된 특징 Feature 입니다.)
Input Projector는 간단하게는 선형 변환(Linear Projector)나 MLP(Multi-Layer Perceptron)으로 구현할 수도 있으며, Cross-Attention이나 Q-Former, P-Former 등과 같이 더 복잡한 방식으로도 구현할 수 있습니다:
- Cross-attention은 학습 가능한 벡터 집합을 쿼리(Query)로 사용하고 인코딩된 특성(F_X)을 키(Key)로 사용하여 특성 시퀀스를 고정 길이로 압축합니다. 이 압축된 표현은 직접 LLM에 입력되거나 (모달리티 X, 텍스트)의 크로스 어텐션 융합(Cross-Attention fusion)에 추가적으로 사용됩니다.
- Q-Former은 F_X 에서 관련 특성을 추출하고, 선택된 특성을 프롬프트(P_X)로 사용합니다.
- P-Former은 Q-Former에 의해 생성된 프롬프트에 대한 정렬 제약(Alignment Constraint)을 부과하는 '참조 프롬프트(Reference Prompts)'를 생성합니다.
LLM 백본(LLM Backbone)
LLM 백본(Backbone) 은 대규모 멀티모달 모델들의 핵심적인 구성 요소로서, 다양한 모달리티에서 얻은 표현을 처리하는 역할을 합니다. 이 구성 요소는 의미 이해(semantic understanding), 추론(reasoning), 그리고 입력에 대한 결정(decision-making regarding inputs)을 내리는 과정에 참여합니다. 이러한 과정에서 LLM Backbone은 다음 두 가지 주요 출력을 생성합니다:
- 직접적인 텍스트 출력 t: 입력된 다양한 모달리티의 데이터를 바탕으로 생성된 텍스트 결과입니다.
- 신호 토큰 S_X: 다른 모달리티(X) 생성 시 사용할 수 있는 신호 토큰으로, 멀티모달 콘텐츠를 생성할지 여부와 생성할 콘텐츠의 종류를 지정하는 데 사용됩니다.
t, S_X = LLM(P_X, F_T)
즉, 이러한 신호 토큰은 생성기(generator)에게 멀티모달 콘텐츠 생성 여부와 생성할 콘텐츠의 내용을 지시하는 역할을 합니다. 다른 모달리티의 정렬된 표현(P_X)은 LLM Backbone에 대한 소프트 프롬프트 튜닝(Soft Prompt Tuning)으로 간주될 수 있습니다. 또한, 일부 연구에서는 Parameter-Efficient Fine-Tuning (PEFT) 방법론을 도입하여, 추가적으로 학습 가능한 파라미터의 수를 전체 LLM 파라미터 수의 0.1% 미만으로 유지하는 등 매우 적은 수의 추가 파라미터만을 사용합니다. 주로 사용되는 PEFT 방법으로는 Prefix-tuning, Adapter, LoRA 등이 있습니다.
MM-LLMs에서 사용되는 일반적인 LLM 백본 모델로는 Flan-T5, ChatGLM, UL2, Qwen, Chinchilla, OPT, PaLM, LLaMA, LLaMA-2, Vicuna 등이 있습니다. 이 모델들은 제로-샷 일반화(Zero-Shot Generalization), Few-shot ICL(In-Context Learning), Chain-of-Thought (CoT), 지시문 따르기(Instruction Following) 등의 주목할 만한 특성을 MM-LLM들에 상속할 수 있습니다.
출력 프로젝터 (Output Projector)
입력 프로젝터가 입력 모달리티로부터 추출된 F_X 를 LLM Backbone의 입력으로 사용하도록 T 에 투영하는 역할을 했다면, 출력 프로젝터는 그 반대의 역할을 합니다. 즉, 이후에 있을 모달리티 생성기(Modality Generator, MG_X)가 LLM Backbone의 출력으로 생성된 신호 토큰 S_X 을 사용하여 모달리티 X 로 표현할 수 있도록, 해당 특성 H_X 로 투영하는 역할을 합니다.
즉, 모달리티 X to 텍스트의 데이터셋을 기반으로, t 는 먼저 LLM에 입력되어 해당하는 S_X 를 생성하고, 이후 H_X 로 매핑되는 과정입니다. 출력 프로젝터의 결과인 특성 H_X 의 정렬을 위해 H_X 와 모달리티 생성기 MG_X 의 조건부 텍스트 표현을 최대한 가깝게 하는 것을 목표로 학습합니다. 출력 프로젝터는 작은 트랜스포머(Tiny Transformer) 또는 MLP(Multi-Layer Perceptron)으로 주로 구현하며, 최적화 시에는 오디오나 다른 시각 모달리티를 사용하지 않고, 캡션 텍스트(Captioning Text)만을 사용합니다.
모달리티 생성기 (Modality Generator)
모달리티 생성기(Modality Generator, MG_X)는 다양한 모달리티로 출력을 생성하는 역할을 합니다. 일반적으로, 기존의 작업들은 이미지 합성, 비디오 합성, 오디오 합성 등 다양한 모달리티의 콘텐츠 생성을 위해 준비된 Latent Diffusion Models (LDM) 을 사용합니다. 주로 사용하는 LDM으로는 이미지 합성에 사용하는 Stable Diffusion, 비디오 합성에 사용하는 Zeroscope, 오디오 합성에 사용하는 AudioLDM-2 등이 있습니다.
이전 단계인 출력 프로젝터(Output Projector)에서 매핑된 특성 H_X 은 denoising 과정에서 조건부 입력으로 사용되어 멀티모달(MM) 콘텐츠를 생성합니다. 학습 중에는 GT(ground truth) 콘텐츠가 먼저 사전 학습된 VAE에 의해 잠재 특성 z_0 으로 변환되고, 이후 z_0 에 노이즈 \epsilon 가 추가되어 노이즈가 섞인 잠재 특성(Latent Feature) z_t 를 얻습니다. 사전 학습된 U-net \epsilon_X 은 조건부 LDM 손실 L_{X-gen} 을 계산하는데 사용됩니다.
이 과정을 통해 Modality Generator는 주어진 조건에 따라 멀티모달 콘텐츠를 효과적으로 생성할 수 있게 됩니다.
학습 파이프라인 (Training Pipeline)
대규모 멀티모달 모델들의 학습 파이프라인은 사전학습(PT, Pre-Training) 단계와 지시문 튜닝(IT, Instruction Tuning) 단계로 나누어 볼 수 있습니다.
멀티모달 사전 학습 단계 (MM PT, MultiModal Pre-Training)
사전 학습 단계에서는 주로 X-텍스트 데이터셋을 활용하여, 다양한 모달리티 간의 정렬을 달성하기 위해 입력(Input) 및 출력(Output) 프로젝터를 학습합니다. 이 과정은 사전 정의된 목표를 최적화함으로써 수행되며, 때때로 LLM 백본에 PEFT(Parameter-Efficient Fine-Tuning)가 적용됩니다. X-텍스트 데이터셋은 이미지-텍스트, 비디오-텍스트, 오디오-텍스트를 포함하며, 이미지-텍스트의 경우 두 가지 유형이 있습니다: 이미지-텍스트 쌍()과 중첩된 이미지-텍스트 코퍼스()입니다.
이 사전 학습 단계는 MM-LLMs가 다양한 모달리티의 데이터를 이해하고, 그 사이의 연관성을 학습하여, 향후 다양한 멀티모달 태스크에서의 성능을 향상시키는 데 중요한 역할을 합니다.
멀티모달 지시문 튜닝 단계 (MM IT, MultiModal Instruction-Tuning)
지시문 튜닝 단계에서는 지시문 형식의 데이터셋을 사용하여 사전 학습된 대규모 멀티모달 모델을 미세 조정(파인튜닝, Fune-tuning)하게 됩니다. 이 과정을 통해 대규모 멀티모달 모델들은 새로운 지시사항을 준수하며, 학습 시 본 적 없는 태스크를 일반화할 수 있습니다. 따라서, 이는 제로-샷 성능을 향상시키는 데 중요한 역할을 합니다.
이 단계의 핵심은 MM-LLM가 다양한 지시사항에 따라 유연하게 작동할 수 있도록 만드는 것입니다. 지시문 튜닝(Instruction Tuning) 기법은 특히 자연어 처리(NLP) 분야에서의 성공을 촉진한 간단하지만 강력한 개념입니다. MM-LLM을 미세 조정하는 과정은 주로 두 가지 접근 방식으로 구성됩니다:
- Supervised Fine-Tuning (SFT): 이 접근 방식에서는 PT 단계에서 사용된 데이터의 일부를 지시문을 인식할 수 있는 형식으로 변환하여 사용합니다. 예를 들어, 시각적 질문-응답(QA) 태스크를 수행하기 위해 다양한 템플릿을 적용할 수 있으며, 이를 통해 사전 훈련된 MM-LLMs를 동일한 최적화 목표를 사용하여 미세 조정합니다.
- Human Feedback from Reinforcement Learning (RLHF): 이 방법은 MM-LLMs의 응답에 대한 인간의 피드백(수동 또는 자동으로 라벨링된 자연어 피드백)을 기반으로 모델을 추가로 미세 조정합니다. 이 과정은 비차별화 가능한 NLF를 효과적으로 통합하기 위해 강화 학습 알고리즘을 사용하며, 모델이 주어진 NLF에 따라 해당 응답을 생성하도록 학습합니다.
주요 멀티모달 모델들의 개요 및 성능 비교
다음은 논문에서 살펴본 26개의 주요한 멀티모달 모델(MM-LLM)들의 비교한 표입니다. I → O 컬럼은 입력과 출력 모달리티를 나타낸 것으로, I는 이미지, V는 비디오, A는 오디오를 뜻하며, 3D와 T는 각각 포인트 클라우드와 텍스트를 뜻합니다. 모달리티 인코더(Modality Encoder) 컬럼의 -L
과 -G
는 각각 Large와 Giant를 뜻하며, /14
와 @224
는 각각 패치 크기와 이미지 해상도를 나타냅니다. LLM 백본(LLM Backbone)의 #.PT
및 #.IT
컬럼들은 학습 파이프라인에서 MM PT 및 MM IT의 데이터셋 크기를 나타내며, 값에 †
표시가 있는 경우 공개할 수 없는 데이터가 포함되었음을 뜻합니다.
Model | I→O | Modality Encoder | Input Projector | LLM Backbone | Output Projector | Modality Generator | #.PT | #.IT |
---|---|---|---|---|---|---|---|---|
Flamingo | I+V+T→T | I/V: NFNet-F6 | Cross-attention | Chinchilla-1.4B/7B/70B (Frozen) | – | – | – | – |
BLIP-2 | I+T→T | I: CLIP/Eva-CLIP ViT@224 | Q-Former w/ Linear Projector | Flan-T5/OPT (Frozen) | – | – | 129M | – |
LLaVA | I+T→T | I: CLIP ViT-L/14 | Linear Projector | Vicuna-7B/13B (PT: Frozen; IT: PEFT) | – | – | – | – |
MiniGPT-4 | I+T→T | I: Eva-CLIP ViT-G/14 | Q-Former w/ Linear Projector | Vicuna-13B (PT: Frozen; IT: PEFT) | – | – | – | – |
mPLUG-Owl | I+T→T | I: CLIP ViT-L/14 | Cross-attention | LLaMA-7B(PT: Frozen; IT: PEFT) | – | – | – | – |
X-LLM | I+V+A+T→T | I/V: ViT-G; A: C-Former | Q-Former w/ Linear Projector | ChatGLM-6B (Frozen) | – | – | – | – |
VideoChat | V+T→T | I: ViT-G | Q-Former w/ Linear Projector | Vicuna (Frozen) | – | – | – | – |
InstructBLIP | I+V+T→T | I/V: ViT-G/14@224 | Q-Former w/ Linear Projector | Flan-T5/Vicuna (Frozen) | – | – | 129M | 1.2M |
PandaGPT | I+T→T | I: ImageBind | Linear Projector | Vicuna-13B (PEFT) | – | – | – | – |
PaLI-X | I+T→T | I: ViT | Linear Projector | UL2-32B (PEFT) | – | – | – | – |
Video-LLaMA | I+V+A+T→T | I/V: EVA-CLIP ViT-G/14; A: ImageBind | Q-Former w/ Linear Projector | Vicuna/LLaMA (Frozen) | – | – | – | – |
Video-ChatGPT | V+T→T | I: CLIP ViT-L/14 | Linear Projector | Vicuna-v1.1 (Initialized with LLaVA, Frozen) | – | – | – | – |
Shikra | I+T→T | I: CLIP ViT-L/14@224 | Linear Projector | Vicuna-7B/13B (PEFT) | – | – | 600K | 5.5M |
DLP | I+T→T | I: CLIP/Eva-CLIP ViT | Q-Former+P-Former w/ Linear Projector | OPT/Flan-T5 (Frozen) | – | – | – | – |
BuboGPT | I+A+T→T | I: CLIP/Eva-CLIP ViT; A: ImageBind | Q-Former w/ Linear Projector | Vicuna (Frozen) | – | – | – | – |
ChatSpot | I+T→T | I: CLIP ViT-L/14 | Linear Projector | Vicuna-7B/LLaMA (PT: Frozen; IT: PEFT) | – | – | – | – |
Qwen-VL-(Chat) | I+T→T | I: ViT@448 initialized from OpenClip’s ViT-bigG | Cross-attention | Qwen-7B (PT: Frozen; IT: PEFT) | – | – | 1.4B† | 50M† |
NExT-GPT | I+V+A+T→I+V+A+T | I/V/A: ImageBind | Linear Projector | Vicuna-7B (PEFT) | Tiny Transformer | I: Stable Diffusion; V: Zeroscope; A: AudioLDM | – | – |
MiniGPT-5 | I+T→I+T | I: Eva-CLIP ViT-G/14 | Q-Former w/ Linear Projector | Vicuna-7B (PEFT) | Tiny Transformer w/ MLP | I: StableDiffusion-2 | – | – |
LLaVA-1.5 | I+T→T | I: CLIP ViT-L@336 | MLP | Vicuna-v1.5-7B/13B (PT: Frozen; IT: PEFT) | – | – | 0.6M | 0.7M |
MiniGPT-v2 | I+T→T | I: Eva-CLIP ViT@448 | Linear Projector | LLaMA-2-Chat-7B (PEFT) | – | – | – | – |
CogVLM | I+T→T | I: Eva-2-CLIP ViT | MLP | Vicuna-v1.5-7B (PEFT) | – | – | – | – |
DRESS | I+T→T | I:Eva-CLIP ViT-G/14 | Linear Projector | Vicuna-v1.5-13B (PEFT) | – | – | – | – |
X-InstructBLIP | I+V+A+3D+T→T | I/V: Eva-CLIP ViT-G/14; A: BEATs; 3D: ULIP-2 | Q-Former w/ Linear Projector | Vicuna-v1.1-7B/13B (Frozen) | – | – | – | – |
CoDi-2 | I+V+A+T→I+V+A+T | I/V/A: ImageBind | MLP | LLaMA-2-Chat-7B (PT: Frozen; IT: PEFT) | MLP | I: Stable Diffusion-2.1; V: Zeroscope-v2; A: AudioLDM-2 | – | – |
VILA | I+T→T | I: ViT@336 | Linear Projector | LLaMA-2-7B/13B (PEFT) | – | – | 50M | 1M |
다음은 주요한 MM-LLM 모델들에 대해서 18개의 VL(Vision-Language) 벤치마크를 실행한 결과입니다. 붉은색 글씨는 가장 좋은(highest) 결과를, 파란색 글씨는 두번째로 좋은(second highest) 결과를 표시합니다.
Model | LLM Backbone | OKVQA | IconVQA | VQA𝐯𝟐 | GQA | VizWiz | SQA𝐈 | VQA𝐓 | POPE | MME𝐏 | MME𝐂 | MMB | MMB𝐂𝐍 | SEED𝐈 | LLaVA𝐖 | MM-Vet | QBench | HM | VSR |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Flamingo | Chinchilla-7B | 44.7 | – | – | – | 28.8 | – | – | – | – | – | – | – | – | – | – | – | 57.0 | 31.8 |
BLIP-2 | Flan-T5_{XXL} (13B) | 45.9 | 40.6 | 65.0 | 44.7 | 19.6 | 61.0 | 42.5 | 85.3 | 1293.8 | 290.0 | – | – | 46.4 | 38.1 | 22.4 | – | 53.7 | 50.9 |
LLaVA | Vicuna-13B | 54.4 | 43.0 | – | 41.3 | – | – | 38.9 | – | – | – | – | – | – | – | – | – | – | 51.2 |
MiniGPT-4 | Vicuna-13B | 37.5 | 37.6 | – | 30.8 | – | – | 19.4 | – | – | – | – | – | – | – | – | – | – | 41.6 |
InstructBLIP | Vicuna-7B | – | – | – | 49.2 | 34.5 | 60.5 | 50.1 | – | – | – | 36.0 | 23.7 | 53.4 | 60.9 | 26.2 | 56.7 | – | – |
InstructBLIP | Vicuna-13B | – | 44.8 | – | 49.5 | 33.4 | 63.1 | 50.7 | 78.9 | 1212.8 | 291.8 | – | – | – | 58.2 | 25.6 | – | 57.5 | 52.1 |
Shikra | Vicuna-13B | 47.2 | – | 77.4* | – | – | – | – | – | – | – | 58.8 | – | – | – | – | 54.7 | – | – |
IDEFICS-9B | LLaMA-7B | – | – | 50.9 | 38.4 | 35.5 | – | 25.9 | – | – | – | 48.2 | 25.2 | – | – | – | – | – | – |
IDEFICS-80B | LLaMA-65B | – | – | 60.0 | 45.2 | 36.0 | – | 30.9 | – | – | – | 54.5 | 38.1 | – | – | – | – | – | – |
Qwen-VL | Qwen-7B | – | – | 78.8* | 59.3* | 35.2 | 67.1 | 63.8 | – | – | – | 38.2 | 7.4 | 56.3 | – | – | 59.4 | – | – |
Qwen-VL-Chat | Qwen-7B | – | – | 78.2* | 57.5* | 38.9 | 68.2 | 61.5 | – | 1487.5 | 360.7 | 60.6 | 56.7 | 58.2 | – | – | – | – | – |
LLaVA-1.5 | Vicuna-1.5-7B | – | – | 78.5* | 62.0* | 50.0 | 66.8 | 58.2 | 85.9 | 1510.7 | 316.1‡ | 64.3 | 58.3 | 58.6 | 63.4 | 30.5 | 58.7 | – | – |
+ShareGPT4V | Vicuna-1.5-7B | – | – | 80.6 | – | 57.2 | 68.4 | – | – | 1567.4 | 376.4 | 68.8 | 62.2 | 69.7 | 72.6 | 37.6 | 63.4 | – | – |
LLaVA-1.5 | Vicuna-1.5-13B | – | – | 80.0* | 63.3* | 53.6 | 71.6 | 61.3 | 85.9 | 1531.3 | 295.4‡ | 67.7 | 63.6 | 61.6 | 70.7 | 35.4 | 62.1 | – | – |
MiniGPT-v2 | LLaMA-2-Chat-7B | 56.9 | 47.7 | – | 60.3 | 30.3 | – | 51.9 | – | – | – | – | – | – | – | – | – | 58.2 | 60.6 |
MiniGPT-v2-Chat | LLaMA-2-Chat-7B | 55.9 | 49.4 | – | 58.8 | 42.4 | – | 52.3 | – | – | – | – | – | – | – | – | – | 59.5 | 63.3 |
VILA-7B | LLaMA-2-7B | – | – | 79.9* | 62.3* | 57.8 | 68.2 | 64.4 | 85.5 | 1533.0 | – | 68.9 | 61.7 | 61.1 | 69.7 | 34.9 | – | – | – |
VILA-13B | LLaMA-2-13B | – | – | 80.8* | 63.3* | 60.6 | 73.7 | 66.6 | 84.2 | 1570.1 | – | 70.3 | 64.3 | 62.8 | 73.0 | 38.8 | – | – | – |
+ShareGPT4V | LLaMA-2-13B | – | – | 80.6* | 63.2* | 62.4 | 73.1 | 65.3 | 84.8 | 1556.5 | – | 70.8 | 65.4 | 61.4 | 78.4 | 45.7 | – | – | – |
향후 과제들 (Future Directions)
5가지 주요한 관점에서의 향후 연구 과제들을 살펴보았습니다:
보다 강력한 모델의 개발 (More Powerful Models)
- 모달리티 확장: 현재 MM-LLMs는 이미지, 비디오, 오디오, 3D, 텍스트 등을 지원하지만, 웹 페이지, 열지도, 표&그림과 같은 추가 모달리티를 포함시켜 모델의 범용성을 높이는 것이 제안됩니다.
- LLMs 다양화: 다양한 유형 및 크기의 LLMs를 포함시켜 특정 요구사항에 가장 적합한 모델을 선택할 수 있는 유연성을 제공하는 것이 중요합니다.
- MM IT 데이터셋 품질 개선: 현재 MM IT 데이터셋은 개선 및 확장의 여지가 많으며, 지시사항의 범위를 다양화함으로써 사용자 명령을 이해하고 실행하는 MM-LLMs의 효과를 향상시킬 수 있습니다.
- MM 생성 능력 강화: 대부분의 현재 MM-LLMs는 MM 이해에 초점을 맞추고 있지만, 일부 모델은 MM 생성 능력을 포함했음에도 생성된 응답의 품질이 LDMs의 능력에 의해 제한될 수 있습니다. 검색 기반 접근 방식의 통합이 생성 과정을 보완하고 모델의 전체 성능을 향상시킬 수 있는 유망한 방안입니다.
보다 도전적인 벤치마크의 필요성 (More Challenging Benchmarks)
현재 존재하는 벤치마크들은 대규모 멀티모달 모델들의 기능을 충분히 평가하지 못할 수 있습니다. 또한, 많은 데이터셋이 사전 학습(PT) 또는 지시문 튜닝(IT)에서 다양한 정도로 등장했기 때문에 모델이 학습 중에 이러한 데이터들을 이미 학습했을 가능성이 있습니다. 따라서 더 많은 모달리티를 포함하고 통합된 평가 기준을 사용하는 보다 도전적인 대규모 벤치마크의 구축이 필요합니다.
모바일/경량화된 배포 (Mobile/Lightweight Deployment)
자원 제약적인 플랫폼 및 저전력 모바일 및 IoT 기기에 MM-LLMs를 배포하고 최적의 성능을 달성하기 위해서는 경량 구현이 매우 중요합니다. MobileVLM과 같은 접근 방식은 이 분야에서 중요한 진보를 나타냅니다.
구체화된 지능 (Embodied Intelligence)
구체화된 지능은 사람과 같은 인식 및 환경과의 상호작용을 목표로 하며, 실시간 관찰을 활용하여 로봇이 확장된 계획을 자율적으로 수행할 수 있도록 장비합니다. PaLM-E 및 EmbodiedGPT와 같은 작업은 이 분야에서의 전형적인 사례입니다.
지속적인 지시문 튜닝 (Continual IT, Instruction-Tuning)
실제 애플리케이션에서 MM-LLMs는 새로운 멀티모달 태스크에 적응하여 추가 기능을 지원할 것으로 예상됩니다. 현재 MM-LLMs는 정적이며 지속적으로 등장하는 요구사항에 적응할 수 없습니다. 모델을 유연하게 만들어 새로운 데이터를 효율적이고 지속적으로 활용할 수 있는 접근 방식이 필요합니다.
더 읽어보기
MM-LLM 논문
MM-LLM 프로젝트 홈페이지
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~