[GN⁺] Mistral CEO, GPT4 성능에 근접한 새로운 오픈 소스 AI 모델이 유출된 것을 시인

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

  • 1월 28일경 사용자 "Miqu Dev"가 오픈소스 AI 모델 및 코드 공유 플랫폼인 HuggingFace에 "miqu-1-70b"라는 새로운 오픈소스 대형 언어 모델(LLM) 파일 세트를 게시
  • 이 모델은 현재 가장 성능이 좋은 것으로 평가받는 오픈소스 AI 회사 Mistral이 만든 Mixtral 8x7b와 동일한 "Prompt format"을 사용함
  • 같은 날, 익명 사용자가 4chan에 miqu-1-70b 파일에 대한 링크를 게시
  • 일부 사용자들은 이 모델이 일반적인 LLM 작업에서 뛰어난 성능을 보이며, OpenAI의 GPT-4에 근접하는 것으로 나타남

Mistral 양자화?

  • 기계 학습(ML) 연구자들이 LinkedIn에서 "miqu"가 "MIstral QUantized"를 의미하는지에 대해 관심을 보임
  • 양자화는 AI 모델을 덜 강력한 컴퓨터와 칩에서 실행할 수 있도록 모델 아키텍처의 긴 숫자 시퀀스를 더 짧은 것으로 대체하는 기술
  • Mistral의 공동 창립자 겸 CEO인 Arthur Mensch가 "Miqu" 모델이 Mistral의 얼리 억세스 고객 중 한 곳의 지나치게 열정적인 직원에 의해 유출되었다고 밝힘
    • Mistral은 이 모델을 Llama 2에서 재훈련하여 Mistral 7B 출시 당일에 Pretraining을 마쳤으며, 이후로도 좋은 진전을 보이는 중
  • 재밌게도 멘쉬는 불법적인 허깅페이스 게시물에 삭제를 요구하기는 커녕 "저작자 표시를 고려할 수 있다"는 댓글을 남겼음

오픈소스 AI와 그 너머의 중대한 순간?

  • GPT-4 수준의 성능을 가진 오픈소스 모델의 출시는 오픈소스 생성 AI뿐만 아니라 전체 AI 및 컴퓨터 과학 분야에 중대한 순간이 될 수 있음
  • OpenAI는 GPT-4 Turbo와 GPT-4V(비전)으로 경쟁 우위를 유지할 수 있지만, 오픈소스 AI 커뮤니티가 빠르게 따라잡고 있음

GN⁺의 의견

  • "Miqu" 모델의 등장은 오픈소스 AI 분야에서 상업적 AI 제품과 경쟁할 수 있는 새로운 가능성을 보여줌
  • 이 사건은 오픈소스 커뮤니티의 혁신적인 역량과 기술의 빠른 발전을 강조함
  • 오픈소스 모델의 발전은 기업들이 AI를 활용하는 방식에 변화를 가져올 수 있으며, 이는 기술 산업 전반에 걸쳐 중요한 영향을 미칠 것임

Hacker News 의견

  • 사용자는 TheBloke의 페이지를 주시하며 자신의 MacBook에서 Miqu Q5 양자화 모델을 실행할 수 있기를 기다리고 있음. Mixtral을 매일 사용하고 있으며, 만약 이 모델(또는 새로운 공식 버전)이 GPT-4에 근접한다면 OpenAI 구독을 중단할 것임. Mistral의 소규모 팀이 경쟁사들을 능가하고 있으며, "Open"AI가 되어야 할 모습이라고 생각함.

Mistral CEO의 트윗: 초기 접근 고객 중 한 명의 지나치게 열정적인 직원이 오래된 모델의 양자화(그리고 워터마크가 찍힌) 버전을 유출했음. Mistral 7B 출시 당일에 전체 클러스터에 접근하자마자 이 모델을 Llama 2에서 재학습했으며, 그 이후로 좋은 진전을 이루고 있음을 알림.

  • 한 사용자는 GPT-4가 출시된 지 1년이 지났음에도 불구하고, 여전히 GPT-4를 따라잡기 위한 집단적인 노력이 특별한 비결 없이 매우 피곤할 것이라고 언급함. OpenAI가 언제든지 훨씬 더 나은 것을 내놓을 수 있다는 것을 알면서도 말이다.
  • 다른 사용자는 GPT-4에 근접했다는 주장에 대해, 리더보드가 GPT4-0314와 GPT4-Turbo 사이에 큰 격차가 있음을 보여주고 있으며, 만약 GPT4-0314에 겨우 근접했다면 여전히 최신 기술에서 1년 뒤처져 있다고 지적함.
  • 또 다른 사용자는 유출된 모델이 몇 달 안에 중요하지 않게 될 것이라고 언급함. 공식 모델이 나온 후 더 나은 모델이 출시될 것이며, 모델 자체보다는 빠른 발전 속도에 흥분한다고 말함.
  • 한 사용자는 이 모델이 왜 오픈소스 모델로 불리는지 의문을 제기함. 이는 인터넷에 유출된 독점 모델이며, Mistral이 공식적으로 출시할 때까지 그럴 것이라고 함. 개인적인 사용에 대해서는 Llama 1처럼 신경 쓰지 않겠지만, 어떤 기업도 이 모델을 사용하지 않을 것이라고 언급함.
  • 다른 사용자는 Mistral이 2015년 이전의 좋았던 옛날 기술 회사들을 떠올리게 한다고 말함.
  • 한 사용자는 GPT가 최신 버전의 아파치나 MySQL과 같아진 세상에서 우리가 수백만 개의 웹 호스트(죄송합니다, AI 호스트)로 돌아가는 모습을 어떻게 상상할 수 있을지 궁금해함.
  • 마지막으로 한 사용자는 GPT-4가 거의 1년 전에 출시되었고, OpenAI가 매달 새로운 혁신적인 기술을 출시하는 빠른 속도가 멈춘 것 같다고 언급함. OpenAI에 무슨 일이 일어나고 있는지, 최근의 혼란이 회사에 지연을 초래했는지, 아니면 어떤 '슈퍼웨폰'을 개발하고 있는지 궁금해함.

원문

출처 / GeekNews