[GN] LLaVaVision - llama.cpp/llava로 만든 "Be My Eyes" 웹앱

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • 시각장애인을 위해 자원봉사자와 연결해서 화면을 읽어주는 "Be My Eyes" 서비스를 AI로 비슷하게 구현
  • 멀티모달 백엔드를 통해서 영상을 보고 어떤 것인지 실시간으로 설명해주는 웹앱
  • 오픈소스 멀티모달 모델인 SkunkworksAI의 BakLLaVA-1 모델을 llama.cpp 로 실행하며 음성은 Web Speech API로 출력

원문

출처 / GeekNews