Apple, 멀티모달 LLM 'MM1'에 대한 연구 결과 발표 (모델 공개X)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에만 두번째로 Apple의 소식을 전하게 되었습니다. :astonished: Apple에서 이번에 VLM 및 시각 연역 추론에 대한 연구를 공개한데 이어, 효율적인 대규모 멀티모달 모델을 구축하는데 있어서의 연구 내용을 공개했습니다. 이 논문은 MM1이라 불리는 Apple의 M-LLM (Multimodal LLM)들을 연구하면서 나온 성과이며, 모델 코드나 가중치 등은 공개하지 않았지만 앞으로 Apple:apple:의 행보가 기대되는 논문입니다.

  • 아래 내용을 비롯하여 Multimodal LLM을 학습하시거나 튜닝하실 때 도움이 될만한 내용들이 많으니, 함께 살펴보시죠!

  • Image Encoder Lesson: 이미지 해상도가 가장 큰 영향을 미치며, 모델 크기와 학습 데이터 구성이 그 뒤를 따릅니다. (Image resolution has the highest impact, followed by model size and training data composition.)
  • VL Connector Lesson: 비주얼 토큰의 수와 이미지 해상도가 가장 중요하며, VL 커넥터 유형은 거의 영향을 미치지 않습니다. (Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.)
  • Data Lessons
    • 인터리브 데이터는 퓨-샷과 텍스트 전용 성능에 도움이 되고, 캡션 데이터는 제로-샷 성능을 향상시킵니다. (Interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.)
    • 텍스트 전용 데이터는 퓨-샷 및 텍스트 전용 성능에 도움이 됩니다. (Text-only data helps with few-shot and text-only performance.)
    • 이미지 데이터와 텍스트 데이터를 신중하게 혼합하면 최적의 멀티모달 성능을 얻을 수 있고 강력한 텍스트 성능을 유지할 수 있습니다. (Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.)
    • 합성 데이터는 퓨-샷 학습에 도움이 됩니다. (Synthetic data helps with few-shot learning.)


MM1: 멀티모달 LLM 사전 학습을 통한 방법, 분석 및 인사이트 / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

소개

Apple이 공개한 MM1에 대한 이 연구는 MLLM(Multimodal LLM)의 아키텍처와 데이터 선택을 최적화하여 Few-shot 학습 능력과 멀티모달 추론을 향상시키는데 주목하고 있습니다. 이 연구에서는 이러한 능력들을 향상시키기 위해 가장 효과적인 전략과 데이터 조합을 식별하는 데 초점을 맞추고 있습니다.

지금까지의 멀티모달 모델들은 다양한 아키텍처와 학습 데이터 조합을 탐색하며 이뤄졌지만, 각각의 세부 내용 및 그들의 기여도에 대한 명확한 이해 없이 이루어졌습니다. 예를 들어, 일부 모델은 대규모 이미지-텍스트 쌍 데이터에 크게 의존하는 반면, 다른 모델은 체계적으로 그 영향을 분석하지 않고 다양한 유형의 Vision과 Language를 연결하는 커넥터들을 실험했습니다. 이 연구에서는 이러한 구성 요소를 체계적으로 해부함으로써 고품질의 MLLM을 구축하기 위한 가장 효과적인 전략을 살펴봅니다.

기본 개념

이후의 내용들을 이해하기 위해, 아래의 기본 개념들을 살펴보시면 좋습니다. 이미 알고 계시다면 사뿐히 지나치시거나, 다른 분들을 위해 부족한 내용을 댓글로 달아주시기를 부탁립니다! :heart:

Few-shot 학습

Few-shot 학습은 매우 제한된 양의 데이터로 새로운 태스크를 학습하고 적응하는 기계 학습 모델의 능력을 말합니다. MLLM의 맥락에서, Few-shot 학습 능력은 모델이 몇 가지 예시만 보고 새로운 멀티모달 태스크를 이해하고 수행할 수 있게 합니다. 이러한 few-shot 학습은 큰 양의 레이블이 지정된 데이터를 수집하는 것이 비현실적이거나 불가능한 실제 응용에서 특히 가치가 있습니다. (Few-shot 외에도 Zero-shot이나 One-shot과 같은 용어들을 자주 접하실 수 있는데, 이 때 shot을 example로 바꿔서 읽으시면 이해하시기 편합니다. :wink:)

Image Encoder 및 Vision-Language Connector

이미지 인코더는 시각 콘텐츠의 주요한 내용을 모델이 이해할 수 있는 표현(Embedding Vector)으로 변환합니다. 또한, Vision-Language Connector는 이미지 인코더를 통해 출력된 이미지 표현(Embedding)을 텍스트 데이터와 통합하여 모델이 이해할 수 있도록 만들어주는 역할을 합니다. 멀티모달 LLM은 이러한 이미지 인코더 및 VL-Connector를 통해 이미지 정보를 텍스트와 함께 이해하고 처리할 수 있게 됩니다. 예를 들어, Salesforce의 BLIP 모델들에서 사용하는 Q-Former가 대표적인 VL-Connector의 예입니다.

:pytorch::kr:: 관련 주제가 더 궁금하시다면 아래 글들을 참고해주세요!

MM1 모델 소개


MM1은 대규모 멀티모달 사전 학습을 통해 상황에 맞는 예측을 수행할 수 있습니다. 이를 통해 MM1은 (a) 물체를 세고 사용자 지정 서식을 따르고, (b) 이미지의 일부를 참조하여 OCR을 수행하고, (c) 일상 사물에 대한 상식 및 단어 지식을 보여주고, (d) 기본적인 수학 기능을 수행할 수 있습니다.

MM1 모델들은 Apple의 최신 멀티모달 대규모 언어 모델군(MLLM Series, Multimodal Large Language Model Series)으로, 멀티모달이라는 이름에서 알 수 있듯이 텍스트와 시각 정보를 통합하여 처리합니다. MM1 모델의 주요 목적은 다양한 멀티모달 태스크에서 우수한 Few-shot 학습 능력과 정교한 멀티 이미지 추론을 달성하는 것입니다.

이를 위해 연구팀은 최상의 Few-shot 학습 능력을 달성하기 위한 최적의 구성과 데이터 조합을 발견하고자 했습니다. 저자들은 MLLM 아키텍처의 여러 측면, 즉 이미지 인코더, 비전-언어 커넥터, 및 사전 학습 데이터 선택을 체계적으로 분석하여, 설계에 대한 풍부한 통찰을 제공합니다 예를 들어, 이미지-캡션, 이미지-텍스트 상호작용, 그리고 텍스트 위주의 데이터들 간의 균형잡힌 조합의 중요성을 밝히고, 이를 강조하고 있습니다.

MM1 모델의 주요 특징

  • 대규모 파라미터: MM1 모델은 3B, 7B, 30B 파라미터에 이르는 다양한 크기로 구성되어 있으며, 복잡한 멀티모달 태스크를 처리할 수 있는 뛰어난 학습 능력을 갖추고 있습니다.
  • 멀티모달 통합: 이 모델은 이미지와 텍스트 데이터를 효과적으로 통합하여 처리할 수 있는 설계를 가지고 있으며, 이를 통해 더 정확하고 자연스러운 멀티모달 커뮤니케이션을 가능하게 합니다.
  • Few-shot 학습: MM1은 적은 양의 예시를 통해 새로운 태스크를 빠르게 학습할 수 있는 능력이 특징이며, 이는 멀티모달 분야에서 AI의 실용적 활용을 크게 확장합니다.
  • 멀티 이미지 추론: 다중 이미지 콘텐츠에 대한 추론과 이해 능력을 갖추고 있어, 복잡한 시각적 정보와 텍스트 정보를 결합한 이해와 추론 태스크에서 탁월한 성능을 보입니다.

핵심 구성 요소

  • 이미지 인코더: MM1 모델은 고해상도 이미지를 효율적으로 처리할 수 있는 강력한 이미지 인코더를 사용합니다. 이를 통해, 모델은 이미지의 세부사항을 더 정확하게 인식하고, 이를 텍스트와의 상호작용에 활용할 수 있습니다.
  • 비전-언어 커넥터: 비록 연구에서 비전-언어 커넥터의 설계가 상대적으로 중요도가 낮다고 평가되었지만, MM1은 텍스트와 이미지 데이터 사이의 효율적인 정보 통합을 가능하게 하는 최적화된 커넥터를 구현합니다.
  • 학습 데이터: MM1의 학습 과정에서는 이미지-캡션, 이미지-텍스트 상호작용, 텍스트만 데이터의 균형잡힌 조합을 사용하여 다양한 멀티모달 상황에 대한 이해를 극대화합니다.

성능 및 응용

MM1 모델은 사전 학습 지표와 멀티모달 벤치마크에서 우수한 성능을 보여주었습니다. 이는 멀티모달 AI 분야에서의 새로운 가능성을 열어주며, 이미지 캡션, 시각적 질문 답변, 복잡한 멀티모달 상호작용 태스크 등 다양한 응용 분야에서 활용될 수 있습니다. 또한, MM1의 Few-shot 학습 능력과 멀티 이미지 추론 기능은 AI가 인간의 언어와 시각적 커뮤니케이션을 더욱 잘 이해하고 생성할 수 있게 하는 길을 제시합니다.

주요 연구 내용 (MM1 구축을 위한 레시피 / Recipe for Building MM1)

MM1 모델군의 연구는 최상의 Few-shot 학습 및 시각적 추론 능력을 갖춘 멀티모달 대규모 언어 모델(MLLM)을 개발하는 데 중점을 두고 있습니다. 이를 위해, 연구팀은 1) 아키텍처 구성 요소, 2) 데이터 선택, 그리고 3) 학습 방법론에 대한 광범위한 실험과 분석을 수행했습니다. 아래에서는 MM1 모델의 주요 연구 내용과 그 성능 향상을 위한 접근 방법을 자세히 살펴보겠습니다.

1. 아키텍처 구성 요소


왼쪽: 모델 절제: 사용할 시각 인코더, 풍부한 시각 데이터를 제공하는 방법, 시각적 표현을 LLM에 연결하는 방법. 오른쪽: 데이터 제거: 데이터 유형과 그 혼합물.

이미지 인코더(Image Encoder)

MM1 모델은 고해상도 이미지를 정밀하게 분석하고 처리할 수 있는 선진적인 이미지 인코더를 사용합니다. 연구팀은 이미지의 품질, 즉 해상도와 이미지 내 토큰의 수가 모델이 시각 정보를 해석하고 텍스트 정보와 결합하는 데 있어 매우 중요하다는 것을 발견했습니다. (논문 6p, Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.) 고해상도 이미지 처리를 위해 설계된 이 인코더는 복잡한 이미지의 미세한 디테일까지 포착할 수 있으며, 이를 통해 모델이 보다 정확한 시각적 추론과 텍스트와의 상호작용을 수행할 수 있습니다.

비전-언어 커넥터(VL Connector, Vision-Language Connector)

2가지 이미지 해상도와 이미지 토큰 크기에 따른 VL-Connector비교

비전-언어 커넥터는 텍스트와 이미지 간의 정보를 효율적으로 통합하는 역할을 합니다. 연구에서 이 커넥터의 설계가 모델 성능에 미치는 영향은 상대적으로 작다고 평가되었지만, MM1은 여전히 최적화된 커넥터를 통해 더 깊은 수준의 멀티모달 통합을 달성합니다. (논문 7p, VL Connector Lesson: Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.) 이 커넥터는 이미지와 텍스트 데이터 사이의 연결을 강화하여, 모델이 두 모달리티의 정보를 보다 효과적으로 결합하고 이해할 수 있도록 돕습니다.

2. 사전 학습 데이터(Pre-training Data)

MM1 모델의 성공적인 구현에서 중요한 요소 중 하나는 사전 학습 데이터의 선택과 최적화입니다. 이 과정에서 연구팀은 멀티모달 학습을 위한 사전 학습 데이터의 구성요소를 세밀하게 조정하였으며, 이는 모델이 복잡한 멀티모달 상황을 이해하고 처리하는 데 필수적입니다.

  • Data lesson 1: interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.

  • Data lesson 2: text-only data helps with few-shot and text-only performance.

  • Data lesson 3: Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.

  • Data lesson 4: Synthetic data helps with few-shot learning.

데이터 다양성의 중요성

  • 이미지-캡션 데이터: 모델에게 시각적 객체와 그에 대한 설명을 연결하는 방법을 가르칩니다. 이는 모델이 이미지 내 개체를 인식하고 그에 대해 적절히 설명할 수 있는 능력을 개발하는 데 중요합니다.
  • 이미지-텍스트 상호작용 데이터: 모델이 텍스트와 이미지 간의 더 복잡한 상호작용을 이해할 수 있도록 도와줍니다. 이를 통해 모델은 시각적 정보와 텍스트 정보 사이의 상세한 관계를 파악하고, 이를 바탕으로 보다 정교한 추론을 수행할 수 있습니다.
  • 텍스트 위주의 데이터: 모델의 언어 이해 능력을 강화하며, 멀티모달 컨텍스트에서도 텍스트 정보를 효과적으로 처리할 수 있게 합니다. 이는 모델이 멀티모달 정보를 종합적으로 이해하는 데 필수적인 기반을 제공합니다.

데이터의 질과 양의 균형

연구팀은 단순히 데이터의 양적인 측면뿐만 아니라 질적인 측면에도 주목했습니다. 고품질의 사전 학습 데이터는 모델이 보다 정확하고 세밀한 멀티모달 이해를 개발하는 데 도움을 줍니다. 이를 위해, 다양한 출처에서 수집된 고품질의 이미지와 텍스트 데이터를 포함시키는 것에 중점을 두었습니다.

3. Few-shot 학습 전략

MM1 모델의 Few-shot 학습 능력은 연구팀이 개발한 특별한 학습 전략 덕분에 가능해졌습니다. 이 전략은 모델이 매우 적은 양의 데이터로부터 새로운 태스크를 빠르게 학습하고 적응할 수 있도록 설계되었습니다. 이는 특히 데이터 수집이 어렵거나 비용이 많이 드는 멀티모달 태스크에서 매우 유용합니다. 연구팀은 다양한 데이터 샘플링 기법과 학습 스케줄링 방법을 실험하여, 최소한의 데이터로 최대의 학습 효과를 얻을 수 있는 방법을 찾아냈습니다. (다음 섹션인 '최종 모델 및 학습 레시피'에서 더 자세히 설명합니다.)

발견한 최적의 아키텍처 구성 요소의 조합

  • 이미지 인코더: DFN-5B 및 VeCap-300M에서 학습한 CLIP의 ViT-L/14 모델, 336×336 크기의 이미지.
  • 비전-언어 커넥터: 144개의 이미지 토큰이 포함된 C-Abstractor.
  • 사전 훈련 데이터: 캡션이 있는 이미지(45%), 이미지 텍스트 문서(45%), 텍스트 전용(10%) 데이터의 혼합.
  • 언어 모델: 1.2B 트랜스포머 디코더 전용 언어 모델

최종 모델 구성 및 학습 레시피

MM1 모델과 그에 대한 최종 학습 레시피는 멀티모달 대규모 언어 모델(MLLM)의 성능을 최적화하기 위한 광범위한 연구와 실험의 결과물입니다. 이 섹션에서는 최종 모델 구성, 학습 레시피, 그리고 이를 통해 달성한 주요 성과에 대해 자세히 설명합니다.

최종 모델 구성

위의 다양한 실험을 통해, MM1 모델은 앞에서 살펴본 최적의 아키텍처 구성 요소와 정해졌습니다:

  • Image Encoder: 이미지의 해상도가 중요하기 때문에 378px x 378px 해상도를 갖는 DFN-5B + CLIP의 ViT-H 모델을 사용하였습니다.

  • VL Connector: Visual Token의 수가 중요하기 때문에 144개의 토큰이 있는 VL 커텍터를 사용하였습니다. 실제 구성은 덜 중요해보이기에 C-Abstractor를 사용하였습니다.

  • Data: Zero-shot과 Few-shot 성능을 모두 유지하기 위해 이미지-텍스트 인터리브 문서 45%, 이미지-텍스트 조합(pair) 45%, 텍스트 위주 10%를 신중하게 혼합하여 사용하였습니다.

최적의 Peark-LR
최적의 Peak Learning Rate: 모델 크기의 함수 데이터 포인트는 관련 모델 크기에 대해 최적에 가까운 8-shot 성능을 달성

MM1 모델은 동일한 텍스트 전용 데이터셋으로 학습한 LLM을 기반으로 하여 3B, 7B, 30B 파라미터 크기의 모델들로 확장하였습니다. 기반이 되는 LLM 및 사용한 Visual Encoder는 모두 사전학습이 되어 있으므로, 이를 사용하여 MM1을 초기화하고, 위에서 설명한 혼합 데이터셋을 바탕으로 200k 스텝(약 100B 토큰)에 걸쳐 멀티모달 사전 학습을 수행합니다. 이 때, 모든 MM1 모델들은 378×378 해상도에서 시퀀스당 최대 16개 이미지, 배치 크기 512개의 시퀀스 길이 4096개로 완전히 고정되지 않은 상태로 사전 학습됩니다. 또한, 모든 MM1 모델들은 AXLearn 프레임워크를 사용하여 학습하였습니다.

학습 레시피

MM1 모델의 최종 학습 레시피는 고급 멀티모달 이해와 추론 능력을 달성하기 위한 모델 스케일링, 전문가 혼합(Mixture-of-Experts, MoE)을 통한 스케일링, 그리고 멀티모달 사전 학습 결과 등의 복합적인 전략을 포함하고 있습니다. 이 세 가지 핵심 요소에 대해 자세히 살펴보겠습니다:

Model Scaling

모델 스케일링은 MM1 모델의 성능을 극대화하기 위한 주요 전략 중 하나입니다. 연구팀은 모델의 크기와 복잡성을 증가시키는 것이 멀티모달 이해와 추론 능력을 향상시키는 데 매우 효과적임을 발견했습니다. 이는 모델이 더 많은 파라미터를 가질수록 더 세밀하고 정교한 패턴을 학습할 수 있기 때문입니다. MM1 모델은 최대 30B 파라미터까지 확장 가능하며, 이러한 대규모 스케일링을 통해 복잡한 멀티모달 데이터에서 더욱 정확한 이해와 추론이 가능해집니다.

Scaling via Mixture-of-Experts (MoE)

전문가 혼합(MoE)을 통한 스케일링은 MM1 모델이 효율성과 성능을 동시에 달성할 수 있도록 하는 또 다른 중요한 접근 방식입니다. MoE 아키텍처는 다수의 "전문가" 모듈을 포함하며, 각각은 특정 유형의 데이터나 태스크를 처리하는 데 특화되어 있습니다. 학습 과정에서는 각 데이터 포인트를 가장 잘 처리할 수 있는 "전문가"에게 동적으로 할당함으로써, 모델 전체의 학습 효율성과 처리 능력을 향상시킵니다. MoE를 통한 스케일링은 모델이 대규모 데이터 세트를 보다 효과적으로 학습하고, 다양한 멀티모달 상황에 더욱 유연하게 대응할 수 있게 합니다.

Multimodal Pre-training Results

멀티모달 사전 학습 결과는 MM1 모델의 효과성을 입증하는 중요한 지표입니다. 사전 학습 과정에서 모델은 이미지와 텍스트가 결합된 다양한 데이터를 사용하여 멀티모달 이해와 추론 능력을 개발합니다. 이 과정에서 학습된 MM1 모델은 멀티모달 벤치마크에서 뛰어난 성능을 보여주며, 특히 Few-shot 학습 설정에서 경쟁 모델을 크게 앞서는 결과를 달성했습니다. 이는 모델이 복잡한 시각적 정보와 관련된 텍스트를 정확하게 이해하고, 적은 양의 예시로도 새로운 태스크를 빠르게 학습할 수 있음을 의미합니다.

Supervised Fine-tuning (SFT) 과정

지금까지 살펴본 것과 같이 사전학습을 마친 MM1 모델들을 마지막으로 SFT(Supervised Fine-tuning) 과정을 거쳐 특정 태스크에 최적화합니다. 이 과정은 사전 학습을 통해 얻은 일반적인 멀티모달 이해력을 바탕으로 특정 응용 분야나 태스크에 맞게 미세 조정하는 것으로, 다양한 데이터셋에서 약 1백만 개의 SFT 예시를 수집하여 특정 태스크에 최적화하는 데 중점을 두고 있습니다. 상세한 절차는 아래와 같습니다:

SFT를 위한 데이터 혼합

SFT(Supervised Fine-tuning) 과정에서 사용한 데이터들은 다음과 같은 주요 구성 요소를 혼합하여 구성하였습니다:

  • GPT-4 및 GPT-4V에 의해 생성된 지시-응답 쌍: LLaVAConv 및 LLaVA-Complex를 포함하여 대화 및 복잡한 추론에 사용됩니다. ShareGPT-4V는 상세한 이미지 설명에 활용됩니다.
  • 학문적 지향 비전-언어(VL) 데이터셋: 자연 이미지에 대해 VQAv2, GQA, OKVQA, A-OKVQA, COCO Captions; 텍스트가 풍부한 이미지에 대해 OCRVQA, TextCaps; 문서 및 차트 이해에 대해 DVQA, ChartQA, AI2D, DocVQA, InfoVQA, Synthdog-En이 사용됩니다.
  • 텍스트만 SFT 데이터: ShareGPT와 유사한 내부 데이터셋이 텍스트만 지시 사항을 따르는 능력을 유지하기 위해 사용됩니다.

이러한 다양한 데이터셋은 지시-따름(instruction-following) 형식으로 포맷되며, 모든 데이터셋은 훈련 도중 함께 혼합되어 무작위로 샘플링됩니다.

SFT의 구체적 접근 방식

  • 이미지 인코더 및 LLM 백본 유지: SFT 동안, 이미지 인코더와 LLM 백본은 고정되지 않고 조정 가능하도록 유지됩니다. 이를 통해 전체 모델이 보다 효율적으로 특정 태스크에 맞게 미세 조정될 수 있습니다.
  • 고해상도로의 스케일링: 높은 이미지 해상도는 성능 향상으로 이어집니다. 고해상도 SFT를 지원하기 위해 위치 임베딩 보간과 서브-이미지 분해 방식이 사용됩니다. 예를 들어, 1344x1344 해상도의 고해상도 입력 이미지는 672x672 해상도의 다섯 개 이미지로 구성되며, 이를 독립적인 이미지로 시각 인코더에 피드됩니다.

SFT 결과: 비교 및 분석

  • 상태 최신 기술(SOTA)과의 비교: MM1 모델은 "Chat" 접미사를 사용하여 SFT 후의 모델을 나타내며, 동일한 크기의 다른 모델들을 능가하며 새로운 SOTA를 설정합니다. 특히 VQAv2, TextVQA, ScienceQA, MMBench 및 최근 벤치마크(MMMU와 MathVista)에서 강력한 성능을 보입니다.
  • MoE 모델의 성능: 3B-MoE(64 전문가)와 6B-MoE(32 전문가) 모델은 거의 모든 벤치마크에서 밀집 모델보다 일관되게 더 나은 성능을 보여, MoE의 추가 확장 가능성을 보여줍니다.
  • 이미지 해상도의 영향: 입력 이미지 해상도가 평균 SFT 평가 메트릭의 성능에 미치는 영향을 보여주며, 336픽셀 해상도의 기준 모델 대비 1344x1344 해상도를 지원함으로써 상대적으로 15%의 성능 향상을 달성할 수 있음을 나타냅니다.


이러한 접근 방식과 결과는 MM1 모델이 멀티모달 태스크에 특화된 높은 성능을 달성할 수 있도록 하며, 특히 고해상도 이미지 처리 및 복잡한 추론 태스크에서의 우수한 성능을 보여줍니다. SFT 과정은 모델이 더 세밀하게 태스크에 맞춰진 지식을 학습하고, 다양한 멀티모달 상황에서 효과적으로 작동할 수 있도록 합니다.

Appendix

학습에 사용한 데이터셋과 학습, 평가에 대한 상세한 절차는 논문의 Appendix 부분을 참고해주세요. 다음과 같은 내용들이 포함되어 있습니다:

섹션 제목
A Dataset Details
A.1 Interleaved Image-Text Data
A.2 Text-Only Data
A.3 Visual Instruction Tuning Data
B Training Details
B.1 Pre-training
B.2 Supervised Fine-tuning (SFT)
C Evaluation Details
C.1 Pre-training Evaluation
C.2 SFT Evaluation Benchmarks
C.3 SFT Evaluation Meta-Average
C.4 Additional SFT Ablations
C.5 Implementation Details for Few-shot MM1-30B-Chat
D Qualitative Examples
E Author Contributions and Acknowledgements

더 읽어보기

MM1 논문

AXLearn Framework 저장소

Hugging Face에 공개한 Image Encoder (CLIP + DFN-2B/5B)

CLIP + DFN-5B

CLIP + DFN-2B

최근 Apple이 공개한 다른 연구들에 대한 글

Multimodal LLM에 대한 서베이 논문




이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck:

2개의 좋아요

(논문에 나열된 다양한 실험들을 통해 얻은 주요 교훈(Lesson)들)

1. 이미지 인코더의 중요성

  • 교훈: 이미지 해상도와 인코더 사전 학습 목표가 성능에 큰 영향을 미칩니다.
  • 이유: 이미지 인코더는 시각적 데이터를 모델이 이해할 수 있는 형태로 변환하는 역할을 합니다. 해상도가 높을수록 세부적인 정보를 더 많이 포함할 수 있으며, 이는 특히 이미지 기반 질문에 답하거나 이미지 콘텐츠를 상세히 설명하는 작업에서 중요합니다. 또한, 사전 학습 목표는 인코더가 시각적 데이터에서 어떤 특징을 학습하게 할지 결정하므로, 최종 모델의 성능에 결정적인 영향을 미칩니다.

2. 비전-언어 커넥터의 구조적 유연성

  • 교훈: 비전-언어 커넥터의 유형보다는 이미지 토큰의 수와 해상도가 더 중요합니다.
  • 이유: 커넥터는 이미지와 텍스트 사이의 정보 전달을 담당하는데, 실험 결과 커넥터의 구체적인 아키텍처보다는 처리할 수 있는 이미지 토큰의 양과 이미지의 해상도가 성능에 더 큰 영향을 미쳤습니다. 이는 다양한 아키텍처에서 비슷한 성능을 달성할 수 있음을 의미하며, 설계 시 유연성을 제공합니다.

3. 학습 데이터의 다양성과 균형

  • 교훈: 캡셔닝 데이터, 중첩된 이미지-텍스트 문서, 텍스트 전용 데이터의 균형있는 혼합이 중요합니다.
  • 이유: 다양한 유형의 데이터를 적절히 혼합함으로써, 모델은 다양한 작업과 시나리오에 대해 보다 폭넓은 이해를 개발할 수 있습니다. 캡셔닝 데이터는 모델이 이미지 콘텐츠를 정확히 해석하는 데 도움을 주며, 중첩된 데이터는 복잡한 문맥에서 정보를 연결하는 능력을 향상시킵니다. 텍스트 전용 데이터는 모델이 언어 이해를 깊게 학습하는 데 기여합니다.

4. 사전 학습의 지속적인 개선

  • 교훈: 모델이 더 많은 데이터를 경험할수록, 즉 사전 학습을 충분히 수행할수록 성능이 개선됩니다.
  • 이유: 사전 학습은 모델이 다양한 데이터에서 지식을 추출하고 일반화하는 능력을 개발하는 과정입니다. 더 많은 데이터와 다양한 시나리오에 노출될수록, 모델은 더 많은 패턴을 학습하고, 이는 다양한 다운스트림 작업에서의 성능 향상으로 이어집니다.

5. 고해상도 이미지의 적절한 활용

  • 교훈: 고해상도 이미지 처리는 모델 성능을 향상시키지만, 최적화된 해상도에서 가장 효과적입니다.
  • 이유: 고해상도 이미지는 더 많은 세부 정보를 제공하지만, 너무 높은 해상도는 계산 비용을 증가시키고, 모델이 효율적으로 처리하기 어려운 데이터 양을 생성할 수 있습니다. 따라서, 해상도를 적절히 조정하여 모델이 정보를 효율적으로 학습하고 처리할 수 있도록 하는 것이 중요합니다.
1개의 좋아요

사용한 데이터셋의 종류 및 효과

데이터셋 종류별 영향 및 학습 결과

캡셔닝 데이터(Captioning Data)

캡셔닝 데이터는 이미지와 이와 관련된 짧은 설명(캡션)을 포함하는 데이터셋입니다. 이 유형의 데이터는 AI 모델이 이미지의 내용을 텍스트로 정확하게 표현하고 해석하는 능력을 개발하는 데 도움을 줍니다. 사용된 데이터셋의 예시는 다음과 같습니다:

  • COCO Captions: 이미지에 대한 다양한 캡션을 포함하며, 이미지 내 객체, 행동, 장면 등을 자세히 설명합니다.
  • Flickr30k: 31,000장의 이미지와 각 이미지에 대한 5개의 다른 캡션을 포함하며, 일상 생활의 장면을 포괄합니다.

중첩된 이미지-텍스트 문서(Interleaved Image-Text Documents)

이미지와 텍스트 정보가 서로 밀접하게 연결되어 있는 데이터셋을 의미합니다. 이러한 유형의 데이터셋은 단순히 이미지에 설명을 덧붙이는 것을 넘어서, 이미지와 텍스트 사이의 복잡한 관계를 반영하고 있어, 모델로 하여금 이미지 내용을 설명하는 데 필요한 문맥적 정보를 텍스트에서 추출할 수 있으며, 복잡한 문맥에서 정보를 연결하고 이해하는 능력을 향상시킬 수 있습니다. 사용된 데이터셋의 예시는 다음과 같습니다:

  • Conceptual Captions (CC): 웹에서 크롤링한 이미지와 자동으로 생성된 캡션을 포함하는 데이터셋입니다. 웹에서 발견된 이미지-텍스트 쌍의 다양성을 반영합니다.
  • WebImageText (WIT): Google에서 생성한, 웹에서 추출한 대규모 이미지-텍스트 데이터셋입니다. 다양한 언어와 문화의 콘텐츠를 포함하여 광범위한 문맥적 이해를 지원합니다.
  • Visual Genome: 이미지 내 객체, 속성, 관계, 질문 및 답변을 포함하여, 이미지와 텍스트 사이의 복잡한 관계를 탐색할 수 있는 데이터셋입니다.

텍스트 전용 데이터(Text-Only Data)

텍스트 전용 데이터는 이미지나 다른 시각적 요소 없이 순수한 텍스트 정보만을 포함하는 데이터셋입니다. 이 데이터는 모델이 언어의 복잡성과 다양성을 이해하고, 언어적 상황에서의 추론과 문맥 이해 능력을 강화하는 데 기여합니다.
사용된 데이터셋의 예시는 다음과 같습니다:

  • BooksCorpus: 다양한 장르의 책에서 추출한 대규모 텍스트 데이터셋으로, 광범위한 언어 이해와 문체 습득에 도움을 줍니다.
  • Wikipedia: 다양한 주제에 대한 광범위한 정보를 포함하는 백과사전 스타일의 데이터셋으로, 일반적인 지식과 사실에 대한 이해를 증진시킵니다.

데이터셋 종류별 영향 및 학습 결과 정리

데이터 유형 데이터셋 이름 사용 예시 학습 결과 및 영향
캡셔닝 데이터 COCO Captions 이미지에 대한 캡션 제공 이미지 내용 이해 및 설명 능력 강화, 제로샷 학습 성능 향상
Flickr30k 다양한 일상 장면 캡션 다양한 시각적 문맥에서의 언어적 표현 학습
중첩된 이미지-텍스트 문서 WIT 웹에서 추출한 이미지-텍스트 복잡한 문맥에서 정보 연결 및 이해 능력 향상, 퓨샷 학습에서의 성능 개선
텍스트 전용 데이터 BooksCorpus 다양한 장르의 책 텍스트 언어 이해 및 다양한 언어적 문맥에서의 추론 능력 강화
Wikipedia 백과사전 스타일의 정보 일반 지식에 대한 모델의 이해 강화, 언어 모델링 능력 향상

데이터의 종류에 따른 모델에 미치는 영향

  • 캡셔닝 데이터는 모델이 시각적 내용을 해석하고 설명하는 데 필수적입니다. 제로샷 학습에서 특히 유용하며, 이러한 데이터 유형은 모델이 이미지에 대한 정확한 캡션을 생성하는 데 도움을 줍니다.

  • 중첩된 이미지-텍스트 문서는 모델이 더 복잡한 시나리오에서 정보를 연결하고 이해하는 능력을 향상시키는 데 중요합니다. 이 유형의 데이터는 특히 퓨샷 학습 성능을 개선하는 데 기여합니다.

  • 텍스트 전용 데이터는 모델이 언어적 상호작용과 문제 해결을 위한 깊은 이해를 개발하는 데 중요합니다. 이 데이터는 언어 모델링과 다양한 텍스트 기반 작업에서의 모델 성능을 강화하는 기반을 제공합니다.

3개의 좋아요