NVLM 1.0, NVIDIA에서 개발한 (공개할) Open Multimodal LLM

NVLM 모델 소개

NVLM 1.0은 NVIDIA에서 개발한 최첨단 오픈 액세스 멀티모달 대규모 언어 모델(LLM) 패밀리로, 2024년 9월 17일에 공개되었습니다. 이 모델들은 GPT-4o와 같은 주요 상용 모델 및 Llama 3-V, InternVL 2와 같은 오픈 액세스 모델들과 경쟁하며, 멀티모달 학습 후에도 텍스트 전용 성능이 눈에 띄게 향상된다는 점이 큰 특징입니다. NVIDIA는 커뮤니티 사용을 위해 모델 가중치와 코드를 오픈소스로 제공할 예정입니다.

NVLM 1.0 패밀리는 시각-언어 작업에서 높은 정확도와 성능을 발휘하도록 설계되었습니다. 이 모델들은 상용 및 오픈 액세스 LLM들과 비교했을 때 최첨단 결과를 보여주며, 멀티모달 학습 후 텍스트 전용 성능에서도 향상을 보였습니다.

NVLM 모델 성능 평가 결과

특히 NVLM-D1.0 72B 모델은 수학 및 코딩과 같은 텍스트 전용 작업에서 그 기반이 되는 LLM을 능가하는 성능을 보여줍니다. 이 모델은 이러한 분야에서 평균 정확도가 4.3 포인트 상승했으며, 멀티모달 학습 중 성능이 하락하거나 유지된 다른 모델(Llama 3-V, InternVL)과 차별화된 성능을 자랑합니다.

NVLM 1.0은 주요 모델들과 시각-언어 작업과 텍스트 전용 작업에서 비교 평가되었습니다. InternVL2-Llama3-76B와 같은 모델들은 멀티모달 학습 후 텍스트 전용 성능이 크게 저하되었으나, Llama 3-V(70B 및 405B) 모델들은 멀티모달 학습 중 백본이 동결되었기 때문에 텍스트 전용 성능을 유지할 수 있었습니다.

반면, NVLM-D1.0 72B는 멀티모달 학습 후에도 백본 성능이 향상되었으며, 특히 수학과 코딩과 같은 텍스트 벤치마크에서 눈에 띄는 성능 향상을 보였습니다. 이는 NVLM의 멀티모달 학습 방식이 텍스트 전용 작업에서도 성능을 향상시키는 특징을 가지고 있음을 보여줍니다.

정성 평가

NVLM 1.0-72B 모델의 성능: 정성 평가

NVLM-D-1.0-72B는 다양한 멀티모달 작업에서 뛰어난 다재다능함을 보여줍니다. 여기에는 다음과 같은 작업이 포함됩니다:

  • OCR(광학 문자 인식) 및 추론: 이미지를 통해 텍스트를 인식하고 문맥을 파악하는 능력을 가지고 있으며, "abstract vs. paper"라는 밈을 분석할 때 텍스트를 인식하고 유머를 이해하는 능력을 보여줍니다.

  • 로컬라이제이션(위치 인식) 및 상식 추론: 이미지 내 물체 간의 위치 차이를 인식하고 답변하는 데 탁월한 성능을 발휘합니다.

  • 수학적 및 코딩 추론: NVLM은 표나 수기 의사 코드(pseudocode)와 같은 시각적 정보를 해석하고, 이에 기반한 수학적 또는 코딩 작업을 수행할 수 있습니다.

:scroll: NVLM 1.0 논문

:github: NVLM 1.0 Code 저장소

:hugs: NVLM 1.0 모델 가중치




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

모델 가중치가 공개되었습니다:tada: