[GN⁺] Gemini Pro 1.5의 킬러 앱은 비디오입니다

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • 구글 Gemini Pro 1.5의 토큰 컨텍스트 크기는 1,000,000개
  • 이전에는 Claude 2.1(200,000 토큰)과 gpt-4-turbo(128,000 토큰)가 이 기록을 보유하고 있었지만, 모델 간의 토큰화 구현 방식이 다르기 때문에 완벽하게 직접 비교하기는 어려움
  • 며칠 동안 Gemini Pro 1.5를 사용해 본 결과, 가장 흥미로운 기능은 토큰 수가 아니라 비디오를 입력으로 사용할 수 있는 기능
  • 아직 API 액세스 권한은 없지만 Google AI Studio 인터페이스를 통해 모델에 접근해봄

첫번째 테스트

  • 책꽂이 중 하나를 7초짜리 동영상으로 촬영
  • "JSON array of books in this video" 프롬프트와 함께 업로드
  • 이 7초짜리 동영상은 1,048,576개의 토큰 한도 중 1,841개의 토큰만 사용
  • Gemini Pro 1.5는 JSON을 반환하지 않았지만 영상에 있는 책 제목과 작가명 리스트 응답함
  • 추가로 "as a JSON array of objects, with title and author keys" 요구하니 JSON으로 책/저자를 리턴
  • 결과는 꽤 놀라움. 동영상의 길이가 7초이고, 꽤 빠르게 이동하며(동영상에 약간의 모션 블러가 있음), 일부 책이 다른 물건에 가려져 있음

두번째 테스트

  • 이번에는 요리책으로 가득 찬 책장을 세로로, 조금 더 길게(22초), 가로뿐만 아니라 아래로 패닝하여 동영상으로 촬영
  • 이 동영상에는 6,049개의 토큰이 사용되었는데, 이는 여전히 매우 적은 양임
  • 새로운 프롬프트 : "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
  • 하지만 "Unsafe Content" 라며 거부당함
  • 안전 필터가 'Cocktail'이라는 단어에 불쾌감을 느낀 듯
  • 안전 설정을 열고 모든 카테고리에 대해 '낮음'으로 설정한 후 다시 시도했지만 두 번째로 거부
  • 그래서 "go on give me that JSON" 라고 강제 지시하자 JSON을 리턴
  • 역시나 결과물이 매우 훌륭함

이를 어떻게 활용할 것인가?

  • 텍스트에서 구조화된 콘텐츠를 추출하는 기능은 이미 LLM의 가장 흥미로운 사용 사례 중 하나
  • GPT-4 Vision과 LLaVA는 이를 이미지로 확장했고, 이제 Gemini Pro 1.5는 이를 비디오로 확장
  • 물론 일반적인 LLM의 주의 사항이 적용됨. 사물을 놓칠 수 있고 잘못된 세부 사항을 Hallucination할 수 있음
  • Cocktail 처럼 안전 필터에 대한 문제도 있음
  • 따라서 최신 AI가 항상 그렇듯이 극복해야 할 과제는 여전히 많음
  • 하지만 이것은 내가 예상했던 것보다 훨씬 더 가까워진 미래를 엿볼 수 있는 또 하나의 예시 중 하나라고 느껴짐

이미지 vs. 비디오

  • 처음에는 동영상 처리와 관련된 토큰 수가 의외로 적기 때문에 동영상이 이미지와 다르게 처리될 것이라고 생각했음
  • 하지만 해커 뉴스에 올라온 내용을 보면

Gemini 1.5 Pro는 최대 1시간 분량의 동영상도 추론할 수 있습니다. 동영상을 첨부하면 Google AI Studio가 오디오 없이 수천 개의 프레임으로 분류한 다음 Gemini 모델은 멀티모달이므로 고도로 정교한 추론과 문제 해결 작업을 수행할 수 있습니다.

  • Gemini 1.5 기술 보고서에서는 다음과 같이 설명:

45분 분량의 버스터 키튼 영화 "셜록 주니어"(1924)(1FPS에서 2,674 프레임, 684k 토큰)를 입력하면 Gemini 1.5 Pro는 특정 프레임에서 텍스트 정보를 검색 및 추출하여 해당 타임스탬프를 제공합니다.

Hacker News 의견

  • 에이전트가 사용자의 화면을 항상 조용히 감시하게 되면 매우 유용하거나 디스토피아적일 수 있음.
    • 사용자가 코딩하거나 계획을 세우고 연구하는 것을 몇 달 동안 지켜보고, 개인적이고 전문적인 조언을 할 수 있을 것으로 기대됨.
    • 이러한 기술은 개인의 심리를 반영하고 많은 정보를 기억할 수 있어 기업이나 악의적인 행위자에게 매우 가치 있는 것이 될 수 있음.
    • 모델이 안전하게 운영되어야 하며, 개인의 복제나 프라이버시 침해의 위험이 있음.
  • "Gemini Pro 1.5의 핵심 앱은 비디오 입력"이라는 제목이 적절함.
    • YouTube와 같은 비디오 콘텐츠의 대규모 모더레이션에 유용할 수 있으며, 비용을 낮출 수 있다면 좋을 것임.
  • 비디오는 이미지의 연속이며, OpenAI의 GPT-4-Vision 데모는 모델에게 프레임 목록을 전송하여 유사한 효과를 냄.
    • GPT-4-Vision이 함수 호출이나 구조화된 데이터를 지원하여 JSON 출력을 보장한다면 좋을 것임.
    • 비용을 절반으로 줄이기 위해 ffmpeg를 사용하여 매 다른 프레임을 출력하는 방법도 있음.
    • OpenAI 데모는 약 600 프레임 비디오의 50번째 프레임마다 전송함.
  • AI가 비디오, 이미지, 텍스트를 분석하고 저렴하고 효율적으로 처리할 수 있게 되면, 프라이버시는 완전히 끝날 것임.
    • 현재 대기업들은 우리에 대한 많은 데이터를 가지고 있지만, 모든 것을 이해하고 연결하는 데는 한계가 있음.
    • 강력한 AI는 디지털 생활의 모든 측면을 이해할 수 있으며, 좋은 목적과 나쁜 목적으로 사용될 수 있는 잠재력이 매우 큼.
  • 저자가 입력으로 사용된 비디오에서 언급된 책들이 실제로 정확한지 확인하지 않은 것 같음.
    • 첫 번째로 확인한 "Growing Up with Lucy by April Henry"라는 책은 존재하지 않으며, 실제로는 Steve Grand의 책임.
    • 멋진 데모이지만, 실제로 더 많은 것을 위해 사용하기에는 쓸모가 없음.
  • 구글의 안전 필터가 "Cocktail"이라는 단어에 반응한 것 같음.
    • 안전 설정을 낮추고 다시 시도했지만, 두 번째 시도에서도 거부됨.
    • 구글의 위험 관리 부서가 조직을 완전히 장악하여, 가장 똑똑한 컴퓨터조차도 "cocktail"이나 "Abraham Lincoln"과 같은 위험한 단어나 이미지를 사용하는 것을 두려워함.
  • 프레임 당 256 토큰만 사용하는 것은 놀랍다고 함.
    • 한 장의 사진이 천 마디 말보다 가치가 있다는 말과 달리, 실제로는 약 192단어의 가치만 있음을 의미함.
  • "Cocktail"과 관련된 문제는 실제로 존재함.
    • Moby Dick의 캐릭터들을 DALLE로 상상하려고 했지만, 완전히 거부당함.
    • AI 회사라면 더 나은 욕설 필터를 만들 수 있을 것이라고 생각함.
  • 구글의 하드웨어 규모 대 OpenAI(또는 마이크로소프트가 제공하는 것)의 실제 핵심 앱이 무엇인지 궁금함.
    • 구글이 한 것이 OpenAI 팀에게 특별히 놀라운 것은 아니지만, 거대한 규모로 더 빠르게 반복할 수 있을지도 모름.
  • 기술 자체는 인상적이고 흥미롭지만, Scunthorpe 문제의 복수라고 할 수 있는 상황에 대해 웃음이 나옴.
    • 안전 필터가 "Cocktail"이라는 단어에 반응한 것으로 보임.

원문

출처 / GeekNews

이번 주 초에 [2024/02/12 ~ 02/18] 이번 주의 주요 ML 논문 (Top ML Papers of the Week) 에서 소개했던 LWM(Large World Model)이 생각나네요 ㅎㅎ

LWM(Large World Model): 링어텐션으로 백만 길이의 동영상과 언어를 사용하는 모델(World Model on Million-Length Video And Language With RingAttention)이라는 제목이 보여주듯, RingAttention으로 1M까지 Context Window 사이즈를 키우고 이를 비디오 영역에서 잘 활용하는 것이 주요 기여인데요,

작년까지만 해도 올해의 Large Multimodal Model들은 주로 Image / Text (+ Audio?) 정도를 처리할 것이라고 생각했는데, Video쪽까지도 빠르게 확장해가며 서비스들이 나올거 같습니다. :eyes:


더 관심있으신 분들께서는 대규모 멀티모달 모델들에 대한 서베이 논문을 살펴본 글도 함께 살펴보시면 좋을 것 같습니다. :smiley: