[GN⁺] Gemini Pro 1.5의 킬러 앱은 비디오입니다

이번 주 초에 [2024/02/12 ~ 02/18] 이번 주의 주요 ML 논문 (Top ML Papers of the Week) 에서 소개했던 LWM(Large World Model)이 생각나네요 ㅎㅎ

LWM(Large World Model): 링어텐션으로 백만 길이의 동영상과 언어를 사용하는 모델(World Model on Million-Length Video And Language With RingAttention)이라는 제목이 보여주듯, RingAttention으로 1M까지 Context Window 사이즈를 키우고 이를 비디오 영역에서 잘 활용하는 것이 주요 기여인데요,

작년까지만 해도 올해의 Large Multimodal Model들은 주로 Image / Text (+ Audio?) 정도를 처리할 것이라고 생각했는데, Video쪽까지도 빠르게 확장해가며 서비스들이 나올거 같습니다. :eyes:


더 관심있으신 분들께서는 대규모 멀티모달 모델들에 대한 서베이 논문을 살펴본 글도 함께 살펴보시면 좋을 것 같습니다. :smiley: