GroundingGPT: ByteDance가 공개한, 언어-강화 멀티모달 그라운딩 모델 (Language Enhanced Multi-modal Grounding Model)

9bow · 1월 22, 2024, 6:02오전

읽어주셔서 감사합니다! VTR하면 Video Tape Recorder(읍읍) 밖에 생각이 안나서 찾아보니 Video-Text Retrieval이군요 +_+
ImageBind 등을 보면 최근에는 각 모달리티에서 임베딩을 잘 뽑는 유니모달 인코더들을 주로 사용하는 방식이 주류인 것 같은데, Fuyu 같은 접근 방식도 나오는걸 보면 세상은 넓고 배울 것은 넘나 많은 것 같습니다.