|
AMD Developer Cloud 사용 후기(LLM finetune Multi-task Agent)
|
|
0
|
241
|
10월 23, 2025
|
|
Qwen3-VL: Alibaba Qwen팀이 공개한 더 선명한 시각, 더 깊은 생각, 더 넓은 행동이 가능한 Multimodal LLM
|
|
0
|
1382
|
9월 30, 2025
|
|
[K-AI 밋업 D-17] LG AI연구원, Upstage, SK텔레콤, NC AI와 함께하는 K-AI FriendliAI 서울 밋업 - 10/16(목) 18시
|
|
0
|
97
|
9월 29, 2025
|
|
Llama-Scan: ollama의 멀티모달 모델을 활용하여 로컬에서 PDF를 텍스트로 변환하는 도구
|
|
0
|
710
|
8월 19, 2025
|
|
FastVLM: 고해상도에서도 빠르고 정확하게 동작하는 시각-언어 모델(VLM) 구현에 대한 연구 (feat. Apple)
|
|
0
|
1062
|
7월 27, 2025
|
|
[2025/06/23 ~ 29] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
0
|
656
|
6월 30, 2025
|
|
퀄컴AI혁신프로그램 (신청기한: 2025/4/16 오후 3:59)
|
|
0
|
169
|
2월 13, 2025
|
|
muGen, 멀티모달/멀티채널 AI 서비스 구축 및 배포를 위한 프레임워크
|
|
0
|
223
|
11월 14, 2024
|
|
[서울대학교병원] Multimodal AI4TB Challenge 2024 글로벌 개최 안내 (참가신청 ~11/18)
|
|
0
|
116
|
11월 8, 2024
|
|
Whiteboard-of-Thought(WoT), Multimodal LLM을 위한 시각적 CoT(Chain-of-Thought)에 대한 연구
|
|
0
|
264
|
10월 25, 2024
|
|
NVLM 1.0, NVIDIA에서 개발한 (공개할) Open Multimodal LLM
|
|
1
|
666
|
10월 5, 2024
|
|
Molmo & PixMo: 공개된 가중치 모델(Molmo)과 데이터(PixMo)로 이루어진 최첨단 멀티모달 모델 (feat. AllenAI)
|
|
0
|
659
|
10월 4, 2024
|
|
RUM(Robot Utility Models): 다양한 환경 및 물체에서 학습한, Zero-Shot 배포가 가능한 로봇 모델🤖
|
|
0
|
245
|
9월 28, 2024
|
|
Meta, 이미지 인식 기능(11/90B) 및 소규모 모델(1/3B) 각 2종씩을 포함한 Llama 3.2 공개
|
|
0
|
1864
|
9월 26, 2024
|
|
Qwen2-VL, 이미지와 비디오를 처리하는 최신 Multimodal LLM (feat. Alibaba)
|
|
0
|
1288
|
9월 12, 2024
|
|
Pixtral 12B, Mistral 사용자 커뮤니티가 공개한 멀티모달 모델(feat. Nemo 12B)
|
|
0
|
392
|
9월 11, 2024
|
|
CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋)
|
|
0
|
668
|
9월 5, 2024
|
|
Transfusion: 텍스트 및 이미지를 하나의 모델로 생성하는 멀티모달 생성 모델 (feat. Meta)
|
|
0
|
615
|
8월 25, 2024
|
|
OmniBind: 대규모 통합 멀티모달(Omni Multimodal) 표현 모델
|
|
0
|
320
|
8월 24, 2024
|
|
ChartQA-MLLM: 멀티모달 LLM을 활용한 차트 질문-답변 분야 성능 향상 프로젝트
|
|
0
|
526
|
8월 3, 2024
|
|
MINT-1T: 1T Token 규모의 Multimodal Dataset (feat. MLFoundations)
|
|
0
|
301
|
7월 25, 2024
|
|
WebVoyager: 대규모 멀티모달 모델(LMM)을 이용한 웹 에이전트
|
|
0
|
500
|
7월 24, 2024
|
|
Meta, EU 규제로 Multimodal 모델 출시하지 않기로 결정
|
|
0
|
242
|
7월 22, 2024
|
|
E5-V, Multimodal LLM을 활용한 범용 임베딩 프레임워크(Universal Embedding Framework)
|
|
0
|
624
|
7월 22, 2024
|
|
Octopus-v3 기술문서: On-Device용 Multimodal AI Agent를 위한 1B 미만 규모의 모델
|
|
0
|
702
|
4월 25, 2024
|
|
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest)
|
|
0
|
1221
|
7월 13, 2024
|
|
혹시 구글 API도 Open API 처럼 사용 가능한가요?
|
|
3
|
363
|
6월 24, 2024
|
|
Meta, Charmeleon 모델의 가중치 공개
|
|
0
|
368
|
6월 19, 2024
|
|
GLM-4, 26개 언어를 지원하는 9B 규모의 LLM 및 MLLM(Multimodal-LLM)
|
|
0
|
1374
|
6월 7, 2024
|
|
OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V 공개
|
|
0
|
393
|
6월 6, 2024
|