[GN⁺] Llama 3-V - GPT4-V와 동등한 성능을 100배 작은 모델과 500달러로 구현하기

Llama 3-V - GPT4-V와 동등한 성능을 100배 작은 모델과 500달러로 구현하기

소개

[GN⁺] Llama 3-V - GPT4-V와 동등한 성능을 100배 작은 모델과 500달러로 구현하기

  • Llama3-V는 Llama3를 기반으로 한 최초의 멀티모달 모델
  • Llama3-V는 500달러 이하의 비용으로 훈련되었음
  • 벤치마크에서 Llava보다 10-20% 성능 향상을 보였고, 100배 큰 폐쇄형 모델과 비교해도 대부분의 지표에서 유사한 성능을 보임

모델 아키텍처

llama 3-v 전체 모델 구조

  • SigLIP: 이미지 임베딩 모델로, CLIP과 유사하지만 시그모이드 손실을 사용함.

  • 텍스트 임베딩 정렬: SigLIP을 고정하고, 투영 모듈을 사용해 이미지 임베딩을 텍스트 임베딩과 정렬함.

  • 이미지 토큰 추가: 이미지 임베딩을 텍스트 토큰 앞에 추가하여 Llama3에 입력함.

추론 최적화

  • 캐싱: SigLIP 모델의 이미지 임베딩을 사전에 계산하여 GPU 활용도를 높이고, 훈련/추론 시간을 절약함.
  • MPS/MLX 최적화: SigLIP 모델을 MPS 최적화하여 초당 32개의 이미지를 처리함.

훈련 과정

  • 임베딩 사전 계산: SigLIP을 사용해 이미지 임베딩을 사전 계산함.
  • 투영 레이어 학습: 투영 레이어를 통해 이미지와 텍스트 임베딩을 멀티모달 임베딩 공간으로 정렬함.
  • 지도 학습: 사전 훈련 후, 지도 학습을 통해 모델 성능을 향상시킴.

요약

  • Llama3 8B에 비전 인코더를 추가함.
  • Llava보다 10-20% 성능 향상.
  • GPT4v, Gemini Ultra, Claude Opus와 같은 100배 큰 모델과 유사한 성능.
  • 500달러 이하의 비용으로 효율적인 훈련 및 지도 학습 파이프라인 제공.

GN⁺의 의견

  • 흥미로운 점: Llama3-V는 저비용으로 고성능 멀티모달 모델을 구현한 점이 흥미로움.
  • 비판적 시각: 모델 크기와 비용을 줄이면서 성능을 유지하는 것이 얼마나 지속 가능할지 의문임.
  • 관련 기술: 비슷한 기능을 제공하는 모델로는 CLIP과 DALL-E가 있음.
  • 도입 고려사항: 새로운 기술 도입 시, 모델의 정확도와 비용 효율성을 고려해야 함.
  • 기술 선택의 득과 실: 저비용으로 고성능을 얻을 수 있지만, 모델의 확장성과 유지보수 비용도 고려해야 함.

원문 블로그

Llama 3-V 모델 저장소

GitHub 저장소

Hugging Face 모델

출처 / GeekNews


:information_source: 알려드립니다

이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.

출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다! :wink:

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

2개의 좋아요

몇 일 전, Llama3-V 프로젝트에 대해서 MiniCPM-Llama3-V 프로젝트의 작업물을 무단으로 도용했다는 이슈가 제기되었습니다.

이에 대해 Twitter를 비롯하여 Reddit 등의 커뮤니티들이 한참 불타올랐고, 결과적으로 Llama3-V 프로젝트의 주요 관리자 중 한 명이 사과문을 게시하였습니다.

https://x.com/akshgarg03/status/1797682238961914370?s=46&t=q2H801T8IVw_rdBnBRF32g

Re Llama3V: 먼저 MiniCPM의 원저작자에게 사과드립니다. 저희는 무스타파가 직접 입장을 밝히기를 원했지만 어제부터 연락이 닿지 않고 있습니다.

Re Llama3V: First of all, we want to apologize to the original authors of MiniCPM. We wanted Mustafa to make the original statement but have been unable to contact him since yesterday.

@siddrrsh와 저는 @mustafaaljadery와 함께 Llama3V를 게시했습니다. 무스타파가 이 프로젝트의 코드를 작성했습니다. 시드와 저는 모두 멀티모달 모델에 관심이 많았고 그가 설명한 Idefics, SigLip, UHD를 기반으로 한 아키텍처 확장이 마음에 들었습니다. 따라서 저희의 역할은 그가 이 모델을 미디어와 트위터에서 홍보하는 것을 돕는 것이었습니다. Sid와 저는 이 작업의 참신성을 검증하기 위해 최근 논문을 살펴봤지만, @OpenBMB의 이전 작업에 대해서는 어떠한 정보도 듣지 못했거나 알지 못했습니다.

@siddrrsh and I posted Llama3V with @mustafaaljadery. Mustafa wrote the code for the project. Sid and I were both really excited about multimodal models and liked the architectural extensions on top of Idefics, SigLip, and UHD he described to us. Thus, our role here was to help him promote the model on medium and twitter. Sid and I looked at recent papers to validate the novelty of the work but we were not informed of or aware of any of the previous work by @OpenBMB.

저자들에게 사과드리며, 이 작품의 독창성을 확인하기 위해 성실히 노력하지 않은 저희 자신에게도 매우 실망했습니다. 과거 연구와 비교하여 저희의 작업을 검증하는 것은 저희의 의무였으나, 그 의무를 다하지 못하여 발생한 일에 대해 전적으로 책임을 집니다. 앞으로 @siddrrsh와 저는 훨씬 더 신중하고 부지런히 행동할 것이며, 이 문제를 알려주신 커뮤니티에 진심으로 감사드립니다. 원본 작품과 관련하여 Llama3V에 대한 모든 언급을 삭제했으며 다시 한 번 사과드립니다.

We apologize to the authors and are quite disappointed in ourselves for not doing the diligence to verify the originality of this work. It was our duty to verify our work against past research and we failed in that, so we take full responsibility for what happened. Going forward, @siddrrsh and I will be much more cautious and diligent, and we sincerely thank the community for bringing this to our attention. We've taken all references to Llama3V down in respect to the original work and apologize once again.

  • 악쉬와 싯다르타
  • Aksh and Siddharth
1개의 좋아요