Molmo & PixMo: 공개된 가중치 모델(Molmo)과 데이터(PixMo)로 이루어진 최첨단 멀티모달 모델 (feat. AllenAI)
|
|
0
|
109
|
10월 4, 2024
|
CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)
|
|
0
|
162
|
9월 5, 2024
|
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest)
|
|
0
|
616
|
7월 13, 2024
|
[GN] GPT-4o는 이미지를 어떻게 인코딩할까?
|
|
1
|
627
|
6월 15, 2024
|
Dragonfly: 다중 해상도 줌을 갖춘, Llama-3 기반 Vision-Language 모델 (feat. TogetherAI)
|
|
0
|
386
|
6월 12, 2024
|
[2024/05/27 ~ 06/02] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
|
|
0
|
564
|
6월 3, 2024
|
Idefics2, Hugging Face가 공개한 8B 규모의 멀티모달 모델 (Vision-Language)
|
|
0
|
593
|
5월 10, 2024
|
ScreenAI: UI와 시각적 언어 이해를 위한 시각-언어 모델(feat. Google)
|
|
0
|
641
|
4월 10, 2024
|
Apple, 멀티모달 LLM 'MM1'에 대한 연구 결과 발표 (모델 공개X)
|
|
2
|
2842
|
3월 17, 2024
|
VLM(Vision-Language Model)과 시각 연역 추론에 대한 Apple의 연구
|
|
0
|
1217
|
3월 12, 2024
|
[2024/01/29 ~ 02/04] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
|
|
0
|
1334
|
2월 5, 2024
|
MoE-LLaVA: 대규모 Vision-Language 모델을 위한 전문가 혼합 기법 적용 (Mixture of Experts for Large Vision-Language Models)
|
|
0
|
1051
|
2월 6, 2024
|
[2024/01/22 ~ 01/28] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
|
|
0
|
852
|
1월 29, 2024
|
[2023/12/25 ~ 12/31] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
|
|
0
|
829
|
1월 1, 2024
|
[TLDR] 오늘의 AI 뉴스, 2023-10-03: AI 디바이스, Humane Ai Pin 🧷, 리와인드 펜던트 📿, 효율적인 비디오 모델 학습 📹
|
|
1
|
391
|
12월 31, 2023
|
AnomalyGPT: 대형 시각-언어 모델을 사용한 산업 이상 탐지 (AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models)
|
|
0
|
721
|
9월 19, 2023
|
[GN] XrayGPT: 메디컬 비전-언어 모델(VLM)을 이용한 흉부 방사선 사진 요약
|
|
0
|
405
|
7월 4, 2023
|
Salesforce, InstructBLIP 모델의 논문 / 코드 / 가중치 공개
|
|
1
|
1359
|
5월 17, 2023
|