multimodal-agent
글 | 댓글 | 조회수 | 활동 | |
---|---|---|---|---|
OmniParser, Microsoft가 공개한 순수 Vision 기반의 GUI Agent 연구 (feat. GPT-4V) | 0 | 481 | 10월 29, 2024 | |
WebVoyager: 대규모 멀티모달 모델(LMM)을 이용한 웹 에이전트 | 0 | 192 | 7월 24, 2024 | |
Octopus-v3 기술문서: On-Device용 Multimodal AI Agent를 위한 1B 미만 규모의 모델 | 0 | 491 | 4월 25, 2024 | |
OSWorld, 멀티모달 에이전트의 작업 실행 및 평가 등을 위한 실제 컴퓨터 환경 | 0 | 224 | 5월 12, 2024 | |
SpeechAgents: 멀티모달, 멀티에이전트를 사용한 인간과의 의사소통 시뮬레이션 프로젝트 | 0 | 303 | 1월 23, 2024 | |
AI Employe: GPT-4V를 활용한 브라우저 자동화 도구 | 0 | 257 | 1월 8, 2024 | |
텐센트가 공개한, 스마트폰 사용자처럼 동작하는 AppAgent 모델 | 0 | 868 | 12월 27, 2023 |