multimodal-agent
글 | 댓글 | 조회수 | 활동 | |
---|---|---|---|---|
OmniParser, Microsoft가 공개한 순수 Vision 기반의 GUI Agent 연구 (feat. GPT-4V) |
![]() |
0 | 1132 | 10월 29, 2024 |
WebVoyager: 대규모 멀티모달 모델(LMM)을 이용한 웹 에이전트 |
![]() |
0 | 282 | 7월 24, 2024 |
Octopus-v3 기술문서: On-Device용 Multimodal AI Agent를 위한 1B 미만 규모의 모델 |
![]() |
0 | 575 | 4월 25, 2024 |
OSWorld, 멀티모달 에이전트의 작업 실행 및 평가 등을 위한 실제 컴퓨터 환경 |
![]() |
0 | 265 | 5월 12, 2024 |
SpeechAgents: 멀티모달, 멀티에이전트를 사용한 인간과의 의사소통 시뮬레이션 프로젝트 |
![]() |
0 | 331 | 1월 23, 2024 |
AI Employe: GPT-4V를 활용한 브라우저 자동화 도구 |
![]() |
0 | 261 | 1월 8, 2024 |
텐센트가 공개한, 스마트폰 사용자처럼 동작하는 AppAgent 모델 |
![]() |
0 | 938 | 12월 27, 2023 |