주제에 multimodal 태그가 달렸습니다

글	댓글	조회수	활동
AMD Developer Cloud 사용 후기(LLM finetune Multi-task Agent) 읽을거리&정보공유 파이토치 , llm-agent , multimodal , nanovlm	0	241	10월 23, 2025
Qwen3-VL: Alibaba Qwen팀이 공개한 더 선명한 시각, 더 깊은 생각, 더 넓은 행동이 가능한 Multimodal LLM 읽을거리&정보공유 multimodal , vision-language , mixture-of-experts , alibaba , qwen , qwen3-vl	0	1382	9월 30, 2025
[K-AI 밋업 D-17] LG AI연구원, Upstage, SK텔레콤, NC AI와 함께하는 K-AI FriendliAI 서울 밋업 - 10/16(목) 18시 행사&이벤트 홍보 파이토치 , openai , llm , multimodal , ai	0	97	9월 29, 2025
Llama-Scan: ollama의 멀티모달 모델을 활용하여 로컬에서 PDF를 텍스트로 변환하는 도구 읽을거리&정보공유 multimodal , ocr , pdf-extraction-tool , pdf-to-text , llama-scan	0	710	8월 19, 2025
FastVLM: 고해상도에서도 빠르고 정확하게 동작하는 시각-언어 모델(VLM) 구현에 대한 연구 (feat. Apple) 읽을거리&정보공유 apple , multimodal , vision-language , vision-transformer , fastvit , llava , mlx , on-device , fastvlm , fastvithd , time-to-first-token , pareto-optimal-curve , high-resolution	0	1062	7월 27, 2025
[2025/06/23 ~ 29] 이번 주에 살펴볼 만한 AI/ML 논문 모음 읽을거리&정보공유 multimodal , ai-ml-papers-of-the-week , xolver , mem1 , gso , visionary-r1 , visual-language-alignment , griffon-r , flexselect , longvu , dolphin , bagel , multi-agent-learning , long-term-memory	0	656	6월 30, 2025
퀄컴AI혁신프로그램 (신청기한: 2025/4/16 오후 3:59) 행사&이벤트 홍보 파이토치 , llm , multimodal , opensource , qualcomm , ai , on-device-ai , android , 안드로이드 , iot , 퀄컴 , pc , 모바일	0	169	2월 13, 2025
muGen, 멀티모달/멀티채널 AI 서비스 구축 및 배포를 위한 프레임워크 읽을거리&정보공유 multimodal , framework , llm-framework , mugen , microframework , multichannel	0	223	11월 14, 2024
[서울대학교병원] Multimodal AI4TB Challenge 2024 글로벌 개최 안내 (참가신청 ~11/18) 행사&이벤트 홍보 파이토치 , multimodal , medical , x-ray , ai	0	116	11월 8, 2024
Whiteboard-of-Thought(WoT), Multimodal LLM을 위한 시각적 CoT(Chain-of-Thought)에 대한 연구 읽을거리&정보공유 multimodal , paper , chain-of-thought , visual-reasoning , whiteboard-of-thought	0	264	10월 25, 2024
NVLM 1.0, NVIDIA에서 개발한 (공개할) Open Multimodal LLM 읽을거리&정보공유 nvidia , multimodal , nvlm , nvlm-d-10-72b	1	666	10월 5, 2024
Molmo & PixMo: 공개된 가중치 모델(Molmo)과 데이터(PixMo)로 이루어진 최첨단 멀티모달 모델 (feat. AllenAI) 읽을거리&정보공유 multimodal , vision-language , paper , allen-ai , open-weights , multimodal-dataset , molmo , pixmo	0	659	10월 4, 2024
RUM(Robot Utility Models): 다양한 환경 및 물체에서 학습한, Zero-Shot 배포가 가능한 로봇 모델🤖 읽을거리&정보공유 multimodal , opensource , paper , robot , rum , robot-utility-models , robot-dataset , robot-hardware , robot-gripper , stick-v2	0	245	9월 28, 2024
Meta, 이미지 인식 기능(11/90B) 및 소규모 모델(1/3B) 각 2종씩을 포함한 Llama 3.2 공개 읽을거리&정보공유 meta , multimodal , meta-ai , small-llm , llama-3-2 , llama-3 , llama-stack	0	1864	9월 26, 2024
Qwen2-VL, 이미지와 비디오를 처리하는 최신 Multimodal LLM (feat. Alibaba) 읽을거리&정보공유 multimodal , alibaba , qwen-vl , qwen , small-multimodal , qwen2-vl , qwen2-vl-2b , qwen2-vl-7b , qwen2-vl-72b	0	1288	9월 12, 2024
Pixtral 12B, Mistral 사용자 커뮤니티가 공개한 멀티모달 모델(feat. Nemo 12B) 읽을거리&정보공유 multimodal , mistral-ai , mistral , pixtral , pixtral-12b , mistral-community , nemo-12b	0	392	9월 11, 2024
CAPTURE: Multimodal LLM(LVLM)의 이미지 캡션 생성 성능 평가 지표 (벤치마크 & 평가 데이터셋) 읽을거리&정보공유 multimodal , vision-language , large-vision-language-model , benchmark , capture , evaluation , mllm-benchmark , lvlm , image-captioning	0	668	9월 5, 2024
Transfusion: 텍스트 및 이미지를 하나의 모델로 생성하는 멀티모달 생성 모델 (feat. Meta) 읽을거리&정보공유 generative , multimodal , meta-ai , text-to-image , image-editing , transfusion , paper	0	615	8월 25, 2024
OmniBind: 대규모 통합 멀티모달(Omni Multimodal) 표현 모델 읽을거리&정보공유 multimodal , omnibind , omni-multimodal-representation	0	320	8월 24, 2024
ChartQA-MLLM: 멀티모달 LLM을 활용한 차트 질문-답변 분야 성능 향상 프로젝트 읽을거리&정보공유 multimodal , chartqa-mllm , chartqa , chart-understanding	0	526	8월 3, 2024
MINT-1T: 1T Token 규모의 Multimodal Dataset (feat. MLFoundations) 읽을거리&정보공유 pdf , arxiv , dataset , multimodal , opensource , multimodal-dataset , mint-1t , obelics	0	301	7월 25, 2024
WebVoyager: 대규모 멀티모달 모델(LMM)을 이용한 웹 에이전트 읽을거리&정보공유 llm-agent , multimodal , opensource , paper , apache-20-license , agent-framework , multimodal-agent , web-agent , webvoyager	0	500	7월 24, 2024
Meta, EU 규제로 Multimodal 모델 출시하지 않기로 결정 읽을거리&정보공유 meta , multimodal , meta-ai , ai-regulation , eu	0	242	7월 22, 2024
E5-V, Multimodal LLM을 활용한 범용 임베딩 프레임워크(Universal Embedding Framework) 읽을거리&정보공유 multimodal , paper , embedding , e5-v , universal-embedding	0	624	7월 22, 2024
Octopus-v3 기술문서: On-Device용 Multimodal AI Agent를 위한 1B 미만 규모의 모델 읽을거리&정보공유 multimodal , multimodal-agent , on-device , small-multimodal , nexa-ai , ai-agent , octopus-v3 , octopus	0	702	4월 25, 2024
VLMs are blind: 시각-언어 모델이 실패하는 (인간에게는 쉬운) 시각적 작업들에 대한 연구 (feat. BlindTest) 읽을거리&정보공유 dataset , multimodal , vision-language , paper , large-vision-language-model , benchmark , blindtest	0	1221	7월 13, 2024
혹시 구글 API도 Open API 처럼 사용 가능한가요? 묻고 답하기 openai , multimodal	3	363	6월 24, 2024
Meta, Charmeleon 모델의 가중치 공개 읽을거리&정보공유 meta , multimodal , meta-ai , visualization-tool , early-fusion , charmeleon	0	368	6월 19, 2024
GLM-4, 26개 언어를 지원하는 9B 규모의 LLM 및 MLLM(Multimodal-LLM) 읽을거리&정보공유 multimodal , long-context , mllm , vllm , multilingual , glm-4	0	1374	6월 7, 2024
OpenBMB, VQA(Visual QA) 데이터셋 RLAIF-V 공개 읽을거리&정보공유 dataset , multimodal , multimodal-dataset , vqa-dataset , openbmb , rlaif-v , omnilmm	0	393	6월 6, 2024

AMD Developer Cloud 사용 후기(LLM finetune Multi-task Agent)

읽을거리&정보공유

0

241

10월 23, 2025

Qwen3-VL: Alibaba Qwen팀이 공개한 더 선명한 시각, 더 깊은 생각, 더 넓은 행동이 가능한 Multimodal LLM

읽을거리&정보공유

multimodal , vision-language , mixture-of-experts , alibaba , qwen , qwen3-vl

0

1382

9월 30, 2025

[K-AI 밋업 D-17] LG AI연구원, Upstage, SK텔레콤, NC AI와 함께하는 K-AI FriendliAI 서울 밋업 - 10/16(목) 18시

행사&이벤트 홍보

파이토치 , openai , llm , multimodal , ai

0

97

9월 29, 2025

Llama-Scan: ollama의 멀티모달 모델을 활용하여 로컬에서 PDF를 텍스트로 변환하는 도구

읽을거리&정보공유

multimodal , ocr , pdf-extraction-tool , pdf-to-text , llama-scan

0

710

8월 19, 2025

FastVLM: 고해상도에서도 빠르고 정확하게 동작하는 시각-언어 모델(VLM) 구현에 대한 연구 (feat. Apple)

읽을거리&정보공유

apple , multimodal , vision-language , vision-transformer , fastvit , llava , mlx , on-device , fastvlm , fastvithd , time-to-first-token , pareto-optimal-curve , high-resolution

0

1062

7월 27, 2025

[2025/06/23 ~ 29] 이번 주에 살펴볼 만한 AI/ML 논문 모음

읽을거리&정보공유

multimodal , ai-ml-papers-of-the-week , xolver , mem1 , gso , visionary-r1 , visual-language-alignment , griffon-r , flexselect , longvu , dolphin , bagel , multi-agent-learning , long-term-memory

0

656

6월 30, 2025

퀄컴AI혁신프로그램 (신청기한: 2025/4/16 오후 3:59)

행사&이벤트 홍보