muGen, 멀티모달/멀티채널 AI 서비스 구축 및 배포를 위한 프레임워크
|
|
0
|
152
|
11월 14, 2024
|
[서울대학교병원] Multimodal AI4TB Challenge 2024 글로벌 개최 안내 (참가신청 ~11/18)
|
|
0
|
70
|
11월 8, 2024
|
Whiteboard-of-Thought(WoT), Multimodal LLM을 위한 시각적 CoT(Chain-of-Thought)에 대한 연구
|
|
0
|
191
|
10월 25, 2024
|
NVLM 1.0, NVIDIA에서 개발한 (공개할) Open Multimodal LLM
|
|
1
|
507
|
10월 5, 2024
|
Molmo & PixMo: 공개된 가중치 모델(Molmo)과 데이터(PixMo)로 이루어진 최첨단 멀티모달 모델 (feat. AllenAI)
|
|
0
|
310
|
10월 4, 2024
|
RUM(Robot Utility Models): 다양한 환경 및 물체에서 학습한, Zero-Shot 배포가 가능한 로봇 모델🤖
|
|
0
|
195
|
9월 28, 2024
|
Meta, 이미지 인식 기능(11/90B) 및 소규모 모델(1/3B) 각 2종씩을 포함한 Llama 3.2 공개
|
|
0
|
1161
|
9월 26, 2024
|
Qwen2-VL, 이미지와 비디오를 처리하는 최신 Multimodal LLM (feat. Alibaba)
|
|
0
|
419
|
9월 12, 2024
|
Pixtral 12B, Mistral 사용자 커뮤니티가 공개한 멀티모달 모델(feat. Nemo 12B)
|
|
0
|
232
|
9월 11, 2024
|
CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)
|
|
0
|
242
|
9월 5, 2024
|
Transfusion: 텍스트 및 이미지를 하나의 모델로 생성하는 멀티모달 생성 모델 (feat. Meta)
|
|
0
|
373
|
8월 25, 2024
|
OmniBind: 대규모 통합 멀티모달(Omni Multimodal) 표현 모델
|
|
0
|
185
|
8월 24, 2024
|
ChartQA-MLLM: 멀티모달 LLM을 활용한 차트 질문-답변 분야 성능 향상 프로젝트
|
|
0
|
242
|
8월 3, 2024
|
MINT-1T: 1T Token 규모의 Multimodal Dataset (feat. MLFoundations)
|
|
0
|
194
|
7월 25, 2024
|
WebVoyager: 대규모 멀티모달 모델(LMM)을 이용한 웹 에이전트
|
|
0
|
196
|
7월 24, 2024
|
Meta, EU 규제로 Multimodal 모델 출시하지 않기로 결정
|
|
0
|
219
|
7월 22, 2024
|
E5-V, Multimodal LLM을 활용한 범용 임베딩 프레임워크(Universal Embedding Framework)
|
|
0
|
231
|
7월 22, 2024
|
Octopus-v3 기술문서: On-Device용 Multimodal AI Agent를 위한 1B 미만 규모의 모델
|
|
0
|
499
|
4월 25, 2024
|
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest)
|
|
0
|
753
|
7월 13, 2024
|
혹시 구글 API도 Open API 처럼 사용 가능한가요?
|
|
3
|
175
|
6월 24, 2024
|
Meta, Charmeleon 모델의 가중치 공개
|
|
0
|
344
|
6월 19, 2024
|
GLM-4, 26개 언어를 지원하는 9B 규모의 LLM 및 MLLM(Multimodal-LLM)
|
|
0
|
639
|
6월 7, 2024
|
OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V 공개
|
|
0
|
295
|
6월 6, 2024
|
[GN⁺] Llama 3-V - GPT4-V와 동등한 성능을 100배 작은 모델과 500달러로 구현하기
|
|
1
|
1550
|
6월 4, 2024
|
Meta, 다양한 모달리티에서 더 뛰어난 성능을 제공하는 융합 모델 Chameleon 공개
|
|
0
|
853
|
5월 20, 2024
|
PaliGemma, Gemma 기반의 소규모 Multimodal-LLM
|
|
0
|
1150
|
5월 17, 2024
|
HPT 1.5 Air, HyperGAI가 공개한 Llama 3 기반의 8B 규모의 멀티모달 LLM (feat. OpenLLM)
|
|
0
|
381
|
5월 14, 2024
|
Idefics2, Hugging Face가 공개한 8B 규모의 멀티모달 모델 (Vision-Language)
|
|
0
|
624
|
5월 10, 2024
|
[2024/04/29 ~ 05/06] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
|
|
0
|
699
|
5월 6, 2024
|
PLLaVA, Vision-Language 모델인 LLaVA를 Video로 확장하는 프로젝트
|
|
0
|
634
|
5월 2, 2024
|