HPT 1.5 Air, Llama 3 기반의 8B 규모의 멀티모달 LLM (OpenLLM)
소개
HyperGAI가 최근에 발표한 HPT 1.5 Air는 기존에 발표된 HPT Air 아키텍처를 기반으로 하여, 시각적 인코더와 새로운 H-Former, 그리고 최신 Llama 3 8B 버전의 LLM을 통합한 모델입니다. 특히, 이미지와 텍스트 데이터의 혼합된 더 큰 데이터셋으로 훈련되어, 복잡한 시각적 이해와 추론 능력에서 높은 성능을 보여줍니다. 10B 미만의 상대적으로 작은 LLM군에 속함에도 불구하고, 8.5B의 총 파라미터로 다수의 상업적 모델을 능가하는 결과를 제시하고 있습니다.
HPT 1.5 Air는 LLaVA-Next, GPT-4V, Gemini 1.0 Pro와 같은 대형 또는 상업적 모델들과 비교했을 때 SEED-I, SQA, MMStar 등의 벤치마크에서 우수한 성능을 보였습니다. 이 모델은 다양한 벤치마크에서 최고의 결과를 달성했으며, 오픈 소스 범주에서는 두 번째로 좋은 결과를 언더라인으로 표시하여 강조했습니다.
주요 기능
- 개선된 시각적 이해와 복잡한 추론 능력: HPT 1.5 Air는 실제 세계 시나리오에서 뛰어난 성능을 보여주며, 차트와 다이어그램 같은 다른 유형의 입력에서도 경쟁력 있는 성능을 유지합니다.
- 인상적인 성능: 시장에서 가장 우수한 멀티모달 Llama 3으로서, 더 큰 상업적 모델들을 여러 벤치마크에서 앞지르는 성능을 보여줍니다.
- 투명성: 모든 구성 요소를 Apache 2.0 라이선스 하에 공개하여, 개발자들이 실제 응용 프로그램을 구축할 수 있게 지원합니다.
예시
사용 방법
HPT 1.5 Air는 Huggingface와 Github에서 접근할 수 있습니다. 개발자들은 이 플랫폼들을 통해 모델을 자유롭게 다운로드하고, 다양한 실제 애플리케이션 개발에 활용할 수 있습니다. 간단한 설치 지침 또는 예제 코드 스니펫을 포함할 수 있습니다.
라이선스
이 프로젝트는 Apache 2.0 License로 공개 및 배포 되고 있습니다.
더 읽어보기
소개 글
Github 저장소
https://github.com/hyperGAI/HPT
HuggingFace 모델 저장소
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~