InternVL3, 네이티브 멀티모달 사전학습을 거친 오픈소스 멀티모달 LLM

InternVL3 모델 소개

InternVL 시리즈가 드디어 3.0으로 업데이트되었습니다. GPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro 같은 상용 모델들과도 견줄 수 있는 오픈소스 멀티모달 모델로, 특히 영상, 문서, 차트, GUI 조작까지 가능합니다.

InternVL3는 멀티모달 대형 언어 모델(MLLM) 중 최초로 네이티브 멀티모달 사전 학습(Native Multimodal Pre-Training)을 도입해, 텍스트와 비전 데이터를 동시에 사전 학습합니다. 기존의 MLLM들은 텍스트 전용 LLM을 사전 학습한 후 비전 기능을 “붙이는” 방식이었다면, InternVL3는 처음부터 멀티모달 구조로 학습이 진행됩니다.

이로 인해 모달리티 간 정렬 문제를 크게 줄일 수 있었고, 성능 또한 자연스럽게 향상되었습니다. 특히 도큐먼트, 차트, OCR, 영상, GUI 조작 등 실제 사용 가능한 멀티모달 태스크에서 강력한 성능을 보입니다.

InternVL3와 다른 모델들을 비교해보면 다음과 같습니다:

  • GPT-4o, Claude 3.5, Gemini 2.5 Pro와 비교해도 많은 지표에서 동등하거나 더 우수한 성능
  • 오픈소스 중에서는 Qwen2.5-VL, Ovis, MiniCPM 등을 넘어서며 새로운 기준점 제시
  • MMMU, MathVista, AI2D, DocVQA, ScreenSpot 등 여러 벤치마크에서 상위권 점수 기록

InternVL3는 아래와 같은 7가지 크기의 모델들로 제공됩니다:

모델 이름 파라미터 수 구성 다운로드 링크
InternVL3-1B 약 938M ViT 304M + MLP 4.4M + LLM 630M 다운로드
InternVL3-2B 약 2.09B ViT 304M + MLP 8.6M + LLM 1.78B 다운로드
InternVL3-8B 약 7.94B ViT 304M + MLP 27.5M + LLM 7.61B 다운로드
InternVL3-9B 약 9.14B ViT 304M + MLP 33.6M + LLM 8.80B 다운로드
InternVL3-14B 약 15.1B ViT 304M + MLP 47.2M + LLM 14.8B 다운로드
InternVL3-38B 약 38.4B ViT 5.54B + MLP 91.8M + LLM 32.8B 다운로드
InternVL3-78B 약 78.4B ViT 5.54B + MLP 172M + LLM 72.7B 다운로드
  • 입력 해상도는 학습 시 최대 36타일(448x448), 테스트 시 최대 128타일까지 지원
  • ViT-MLP-LLM 구조 기반
  • Pixel Unshuffle 및 Dynamic Tiling 적용

InternVL3 모델의 주요 특징

  • Native Multimodal Pre-Training : 텍스트와 이미지, 영상 데이터를 통합하여 사전학습
  • V2PE (Variable Visual Position Encoding) : 긴 시퀀스를 유연하게 처리할 수 있는 시각 위치 인코딩 방식
  • Mixed Preference Optimization (MPO) : 추론 중 분포 불일치를 줄이기 위한 CoT 강화 학습
  • VisualPRM Best-of-N 평가: 여러 응답 중 최적 결과를 선택해 성능 향상
  • InternEVO 학습 프레임워크: 2,000개 이상의 GPU를 활용한 초대규모 분산 학습 구조

:house: InternVL3 홈페이지

:framed_picture: InternVL3 데모

:scroll: InternVL3 기술 문서

:github: InternVL3 GitHub 저장소

:hugs: InternVL3 모델 다운로드

Model Name Vision Part Language Part HF Link
InternVL3-1B InternViT-300M-448px-V2_5 Qwen2.5-0.5B 🤗 link
InternVL3-2B InternViT-300M-448px-V2_5 Qwen2.5-1.5B 🤗 link
InternVL3-8B InternViT-300M-448px-V2_5 Qwen2.5-7B 🤗 link
InternVL3-9B InternViT-300M-448px-V2_5 internlm3-8b-instruct 🤗 link
InternVL3-14B InternViT-300M-448px-V2_5 Qwen2.5-14B 🤗 link
InternVL3-38B InternViT-6B-448px-V2_5 Qwen2.5-32B 🤗 link
InternVL3-78B InternViT-6B-448px-V2_5 Qwen2.5-72B 🤗 link




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: