파인튜닝 가능한 멀티모달 LLM이 뭐가 있을까요?

도면을 해석하는 M-LLM이라니, 흥미로운 주제네요. :star_struck:

XTuner는 모델이라기보다는 파인튜닝을 위한 도구로 알고 있고요, LLaVA스크립트와 기본 데이터셋들이 모두 제공되어 쉽게 따라해보실 수 있습니다.

XTuner를 사용해서 Llama-3를 기반으로 LLaVA 학습을 한 결과가 공개된 것도 있긴 한데, 저는 사용해보지 않았구요, LLaVA GitHub 저장소 받으셔서 pretrain과 finetuning 스크립트를 실행하시면 진행 가능합니다.

https://github.com/haotian-liu/LLaVA

(LLaVA 논문을 보시면 아실 수 있는 내용이긴 하지만 사족을 덧붙이자면) pretrain은 Vision Encoder(ViT)로부터 나오는 Embedding을 Text Embedding의 Vector Space로 Projection해주는 Projection Weights W를 학습 하는 과정이고, finetuning은 End-to-end로 학습하는 과정입니다.

어떠한 도면을 어느 정도까지 학습시키시느냐에 따라 두 단계 모두 필요하실 수도, Fine tuning만 필요하실 수도 있을 것 같습니다. :smiley:

  • 재밌는 결과 있으시면 공유 부탁드립니다~
2개의 좋아요