smolVLM과 llama.cpp를 활용한 실시간 웹캠 기반 시각-언어 모델 데모 프로젝트
|
|
0
|
83
|
5월 14, 2025
|
Google, 단일 GPU/TPU에 최적화된 최신 언어모델 Gemma 3 공개
|
|
0
|
2785
|
3월 12, 2025
|
Qwen2-VL, 이미지와 비디오를 처리하는 최신 Multimodal LLM (feat. Alibaba)
|
|
0
|
881
|
9월 12, 2024
|
Microsoft, Phi-3 모델들을 개선한 Phi-3.5 모델 시리즈 공개 (+ Phi-3.5-MoE-instruct)
|
|
0
|
957
|
8월 22, 2024
|
Octopus-v3 기술문서: On-Device용 Multimodal AI Agent를 위한 1B 미만 규모의 모델
|
|
0
|
638
|
4월 25, 2024
|
PaliGemma, Gemma 기반의 소규모 Multimodal-LLM
|
|
0
|
1323
|
5월 17, 2024
|
Imp, 3B 규모의 소규모 멀티모달 언어 모델 (feat. Phi-2 + SigLIP + LLaVA)
|
|
0
|
488
|
3월 18, 2024
|