🤖 Magma, Microsoft가 공개한 멀티모달 AI 에이전트를 위한 기초 모델(Foundation Model)
|
|
0
|
59
|
2월 21, 2025
|
OmniParser, Microsoft가 공개한 순수 Vision 기반의 GUI Agent 연구 (feat. GPT-4V)
|
|
0
|
1190
|
10월 29, 2024
|
WebVoyager: 대규모 멀티모달 모델(LMM)을 이용한 웹 에이전트
|
|
0
|
286
|
7월 24, 2024
|
Octopus-v3 기술문서: On-Device용 Multimodal AI Agent를 위한 1B 미만 규모의 모델
|
|
0
|
576
|
4월 25, 2024
|
OSWorld, 멀티모달 에이전트의 작업 실행 및 평가 등을 위한 실제 컴퓨터 환경
|
|
0
|
265
|
5월 12, 2024
|
SpeechAgents: 멀티모달, 멀티에이전트를 사용한 인간과의 의사소통 시뮬레이션 프로젝트
|
|
0
|
331
|
1월 23, 2024
|
AI Employe: GPT-4V를 활용한 브라우저 자동화 도구
|
|
0
|
261
|
1월 8, 2024
|
텐센트가 공개한, 스마트폰 사용자처럼 동작하는 AppAgent 모델
|
|
0
|
938
|
12월 27, 2023
|