[GN⁺] Mistral AI, GPT-4에 이어 강력한 성능을 보여주는 Mistral Large 및 Small 모델(의 API) 공개

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:


소개

[GN⁺] Mistral Large 모델 공개

  • Mistral Large는 최첨단 텍스트 생성 모델로, 최고 수준의 추론 능력을 갖춤

  • 다양한 언어로 복잡한 추론 작업을 수행할 수 있으며, 텍스트 이해, 변환, 코드 생성에 사용 가능

  • MMLU 벤치마크에서 강력한 성능을 보여주며, API를 통해 일반적으로 사용 가능한 세계에서 두 번째로 순위가 높은 모델임

    • GPT-4 86.4% 다음인 81.2%, Claude 2가 78.5%, Gemini Pro가 71.8%

Mistral Large의 새로운 기능과 강점

  • 영어, 프랑스어, 스페인어, 독일어, 이탈리아어에 원어민 수준으로 능통하며, 문법과 문화적 맥락에 대한 미묘한 이해를 제공

  • 32K 토큰 컨텍스트 윈도우를 통해 대규모 문서에서 정확한 정보 회상이 가능

  • 정확한 지시사항을 따르는 기능을 통해 개발자들이 자신의 모더레이션 정책을 설계할 수 있으며, 이를 통해 le Chat의 시스템 수준 모더레이션 설정에 사용됨

  • 함수 호출 기능이 내재되어 있어, la Plateforme에서 구현된 제한된 출력 모드와 함께 애플리케이션 개발 및 기술 스택 현대화를 대규모로 가능하게 함

Microsoft와의 파트너십을 통해 Azure에서 모델 제공

  • Mistral의 목표는 선도적인 AI를 보편화하는 것이며, 이를 위해 Azure에 오픈 및 상업 모델을 제공함

  • Mistral의 모델은 La Plateforme과 Azure를 통해 사용할 수 있으며, 사용자 환경에 직접 배포할 수도 있음

  • La Plateforme은 Mistral의 유럽 인프라에서 안전하게 호스팅되며, Azure는 Azure AI Studio와 Azure Machine Learning을 통해 제공됨

  • 자체 배포는 가장 민감한 사용 사례에 대해 모델 가중치에 접근할 수 있게 하며, 성공 사례를 읽고 팀에 연락하여 자세한 정보를 얻을 수 있음

Mistral Large의 능력

  • Mistral Large는 표준 벤치마크에서 선도적인 LLM 모델들과 비교하여 강력한 추론 능력을 보임

  • 다국어 능력에서도 Mistral Large는 프랑스어, 독일어, 스페인어, 이탈리아어에서 LLaMA 2 70B를 크게 앞지름

Mistral Large의 능력: 코딩 및 수학

  • 코딩 및 수학 작업에서도 최고의 성능을 보여줌

새로운 Mistral Small, 저지연 워크로드에 최적화

  • Mistral Large와 함께, 지연 시간과 비용에 최적화된 새로운 모델인 Mistral Small을 출시

    • open-mistral-7B 와 open-mixtral-8x7b
  • Mistral Small은 Mixtral 8x7B보다 성능이 우수하며 지연 시간이 낮아, 오픈-웨이트 제공과 플래그십 모델 사이의 정제된 중간 솔루션임

  • Mistral Small은 Mistral Large와 동일한 RAG 활성화 및 함수 호출 혁신을 활용함

  • 경쟁력 있는 가격의 오픈-웨이트 엔드포인트와 새로운 최적화된 모델 엔드포인트를 제공하며, 성능/비용 트레이드오프에 대한 포괄적인 시야를 제공함

JSON 형식과 함수 호출

  • JSON 형식 모드는 언어 모델 출력이 유효한 JSON이 되도록 강제함

  • 함수 호출 기능을 통해 개발자들은 자체 도구 세트와 Mistral 엔드포인트를 연결하여 내부 코드, API 또는 데이터베이스와 더 복잡한 상호 작용을 가능하게 함

  • 함수 호출과 JSON 형식은 mistral-small과 mistral-large에서만 사용 가능하며, 모든 엔드포인트에 대한 형식 지정을 곧 추가할 예정임

GN⁺의 의견

  • Mistral Large는 다국어 지원과 고급 추론 능력을 갖춘 인공지능 언어 모델로, 다양한 언어로 복잡한 작업을 수행할 수 있는 능력이 특히 주목할 만함.

  • 이 모델은 기존의 GPT-4와 같은 모델들과 경쟁할 수 있는 잠재력을 가지고 있으며, 특히 다양한 언어에 대한 지원은 글로벌 시장에서의 적용 가능성을 높임.

  • Azure와의 파트너십은 Mistral AI의 모델이 더 넓은 사용자 기반에 도달할 수 있는 기회를 제공하며, 클라우드 기반 AI 서비스의 확장성과 접근성을 강화함.

  • Mistral Small과 같은 최적화된 모델의 출시는 비용 효율적이고 지연 시간이 낮은 AI 솔루션을 필요로 하는 기업들에게 매력적인 옵션이 될 수 있음.

  • JSON 형식과 함수 호출 기능은 개발자들이 AI 모델을 자신들의 애플리케이션과 더욱 쉽게 통합할 수 있게 하여, AI 기술의 실용성과 유연성을 높임.

Hacker News 의견

  • 마케팅 자료의 솔직함을 높이 평가함. 시장 선두 제품보다 낮은 벤치마크 점수를 보여주는 것이 구글이 벤치마크를 선택적으로 사용하는 것보다 낫다고 생각함.

  • 이미 많은 일을 해왔지만, 오픈 소스 커뮤니티에 기여할 것이라는 약속을 다시 확인하는 내용이 있었으면 좋겠다는 의견. 이것이 그들의 브랜드의 주요 부분이라고 생각했음.

  • miqu 사태 이후로 더 많은 오픈 웨이트가 나올 것이라고 기대하며 지켜봤지만, 결과를 기다려봐야 할 것 같음.

  • 변경 사항 업데이트: API 엔드포인트 이름 변경 및 모델 엔드포인트 추가, 새로운 모델 출시, 기존 모델 업데이트 및 폐기 예정 안내.

  • 새로운 API 기능: Mistral Small과 Mistral Large 모델에서 함수 호출 및 JSON 모드 사용 가능.

  • La Plateforme: 다중 통화 지원 결제 시스템 추가 및 기업용 플랫폼 기능 도입.

  • Le Chat: Mistral 모델과 쉽게 상호작용할 수 있는 새로운 채팅 인터페이스 출시.

  • 새로운 모델을 LLM CLI 도구용 플러그인에 추가함. 이제 다음과 같이 사용할 수 있음.

  • Le Chat을 사용하여 오늘 발생한 몇 가지 코딩 문제를 해결해봤는데, ChatGPT(GPT-4 포함)보다 훨씬 나은 답변을 제공함. 일부 사람들이 제안하는 것처럼 ChatGPT의 품질이 비용 절감을 위해 떨어진 것인지 확실하지 않지만, 이 몇 가지 문제에 대해서는 Mistral의 답변 품질이 훨씬 더 우수했음.

  • Le Chat의 존재를 몰랐음. Mistral을 사용한 ChatGPT 경쟁자를 원했는데, 제품명 앞에 "le"를 붙인 것도 마음에 듦.

  • Azure에서 GPT-4보다 Mistral이 약간 더 저렴함.

  • 오픈 웨이트에 대한 모든 소란이 이미 끝났는지, 계속 닫혀 있을 것인지에 대한 의문.

  • 파라미터 크기에 대한 정보가 어디에도 없는데, 이것이 의도적인지 아니면 놓친 것인지에 대한 질문.

  • 마치 여러 교체 가능한 CPU 아키텍처가 존재하는 것과 같음. 새로운 LLM이 출시될 때마다 독점이 훨씬 줄어들어서 더 나아질 것이라는 기대감을 갖게 됨. 오픈 소스 모델 없이도 OpenAI는 이미 그들의 미션을 달성한 것으로 보임.

원문

공개 블로그 글

함수 호출 관련 가이드

출처 / GeekNews