[GN⁺] Mistral AI, GPT-4에 이어 강력한 성능을 보여주는 Mistral Large 및 Small 모델(의 API) 공개

9bow · 2월 28, 2024, 12:34오전

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

Mistral Large는 최첨단 텍스트 생성 모델로, 최고 수준의 추론 능력을 갖춤
다양한 언어로 복잡한 추론 작업을 수행할 수 있으며, 텍스트 이해, 변환, 코드 생성에 사용 가능
MMLU 벤치마크에서 강력한 성능을 보여주며, API를 통해 일반적으로 사용 가능한 세계에서 두 번째로 순위가 높은 모델임
- GPT-4 86.4% 다음인 81.2%, Claude 2가 78.5%, Gemini Pro가 71.8%

Mistral Large의 새로운 기능과 강점

영어, 프랑스어, 스페인어, 독일어, 이탈리아어에 원어민 수준으로 능통하며, 문법과 문화적 맥락에 대한 미묘한 이해를 제공
32K 토큰 컨텍스트 윈도우를 통해 대규모 문서에서 정확한 정보 회상이 가능
정확한 지시사항을 따르는 기능을 통해 개발자들이 자신의 모더레이션 정책을 설계할 수 있으며, 이를 통해 le Chat의 시스템 수준 모더레이션 설정에 사용됨
함수 호출 기능이 내재되어 있어, la Plateforme에서 구현된 제한된 출력 모드와 함께 애플리케이션 개발 및 기술 스택 현대화를 대규모로 가능하게 함

Microsoft와의 파트너십을 통해 Azure에서 모델 제공

Mistral의 목표는 선도적인 AI를 보편화하는 것이며, 이를 위해 Azure에 오픈 및 상업 모델을 제공함
Mistral의 모델은 La Plateforme과 Azure를 통해 사용할 수 있으며, 사용자 환경에 직접 배포할 수도 있음
La Plateforme은 Mistral의 유럽 인프라에서 안전하게 호스팅되며, Azure는 Azure AI Studio와 Azure Machine Learning을 통해 제공됨
자체 배포는 가장 민감한 사용 사례에 대해 모델 가중치에 접근할 수 있게 하며, 성공 사례를 읽고 팀에 연락하여 자세한 정보를 얻을 수 있음

Mistral Large의 능력

Mistral Large는 표준 벤치마크에서 선도적인 LLM 모델들과 비교하여 강력한 추론 능력을 보임

다국어 능력에서도 Mistral Large는 프랑스어, 독일어, 스페인어, 이탈리아어에서 LLaMA 2 70B를 크게 앞지름

코딩 및 수학 작업에서도 최고의 성능을 보여줌

새로운 Mistral Small, 저지연 워크로드에 최적화

Mistral Large와 함께, 지연 시간과 비용에 최적화된 새로운 모델인 Mistral Small을 출시
- open-mistral-7B 와 open-mixtral-8x7b
Mistral Small은 Mixtral 8x7B보다 성능이 우수하며 지연 시간이 낮아, 오픈-웨이트 제공과 플래그십 모델 사이의 정제된 중간 솔루션임
Mistral Small은 Mistral Large와 동일한 RAG 활성화 및 함수 호출 혁신을 활용함
경쟁력 있는 가격의 오픈-웨이트 엔드포인트와 새로운 최적화된 모델 엔드포인트를 제공하며, 성능/비용 트레이드오프에 대한 포괄적인 시야를 제공함

JSON 형식과 함수 호출

JSON 형식 모드는 언어 모델 출력이 유효한 JSON이 되도록 강제함
함수 호출 기능을 통해 개발자들은 자체 도구 세트와 Mistral 엔드포인트를 연결하여 내부 코드, API 또는 데이터베이스와 더 복잡한 상호 작용을 가능하게 함
함수 호출과 JSON 형식은 mistral-small과 mistral-large에서만 사용 가능하며, 모든 엔드포인트에 대한 형식 지정을 곧 추가할 예정임

GN⁺의 의견

Mistral Large는 다국어 지원과 고급 추론 능력을 갖춘 인공지능 언어 모델로, 다양한 언어로 복잡한 작업을 수행할 수 있는 능력이 특히 주목할 만함.
이 모델은 기존의 GPT-4와 같은 모델들과 경쟁할 수 있는 잠재력을 가지고 있으며, 특히 다양한 언어에 대한 지원은 글로벌 시장에서의 적용 가능성을 높임.
Azure와의 파트너십은 Mistral AI의 모델이 더 넓은 사용자 기반에 도달할 수 있는 기회를 제공하며, 클라우드 기반 AI 서비스의 확장성과 접근성을 강화함.
Mistral Small과 같은 최적화된 모델의 출시는 비용 효율적이고 지연 시간이 낮은 AI 솔루션을 필요로 하는 기업들에게 매력적인 옵션이 될 수 있음.
JSON 형식과 함수 호출 기능은 개발자들이 AI 모델을 자신들의 애플리케이션과 더욱 쉽게 통합할 수 있게 하여, AI 기술의 실용성과 유연성을 높임.

Hacker News 의견

마케팅 자료의 솔직함을 높이 평가함. 시장 선두 제품보다 낮은 벤치마크 점수를 보여주는 것이 구글이 벤치마크를 선택적으로 사용하는 것보다 낫다고 생각함.
이미 많은 일을 해왔지만, 오픈 소스 커뮤니티에 기여할 것이라는 약속을 다시 확인하는 내용이 있었으면 좋겠다는 의견. 이것이 그들의 브랜드의 주요 부분이라고 생각했음.
miqu 사태 이후로 더 많은 오픈 웨이트가 나올 것이라고 기대하며 지켜봤지만, 결과를 기다려봐야 할 것 같음.
변경 사항 업데이트: API 엔드포인트 이름 변경 및 모델 엔드포인트 추가, 새로운 모델 출시, 기존 모델 업데이트 및 폐기 예정 안내.
새로운 API 기능: Mistral Small과 Mistral Large 모델에서 함수 호출 및 JSON 모드 사용 가능.
La Plateforme: 다중 통화 지원 결제 시스템 추가 및 기업용 플랫폼 기능 도입.
Le Chat: Mistral 모델과 쉽게 상호작용할 수 있는 새로운 채팅 인터페이스 출시.
새로운 모델을 LLM CLI 도구용 플러그인에 추가함. 이제 다음과 같이 사용할 수 있음.
Le Chat을 사용하여 오늘 발생한 몇 가지 코딩 문제를 해결해봤는데, ChatGPT(GPT-4 포함)보다 훨씬 나은 답변을 제공함. 일부 사람들이 제안하는 것처럼 ChatGPT의 품질이 비용 절감을 위해 떨어진 것인지 확실하지 않지만, 이 몇 가지 문제에 대해서는 Mistral의 답변 품질이 훨씬 더 우수했음.
Le Chat의 존재를 몰랐음. Mistral을 사용한 ChatGPT 경쟁자를 원했는데, 제품명 앞에 "le"를 붙인 것도 마음에 듦.
Azure에서 GPT-4보다 Mistral이 약간 더 저렴함.
오픈 웨이트에 대한 모든 소란이 이미 끝났는지, 계속 닫혀 있을 것인지에 대한 의문.
파라미터 크기에 대한 정보가 어디에도 없는데, 이것이 의도적인지 아니면 놓친 것인지에 대한 질문.
마치 여러 교체 가능한 CPU 아키텍처가 존재하는 것과 같음. 새로운 LLM이 출시될 때마다 독점이 훨씬 줄어들어서 더 나아질 것이라는 기대감을 갖게 됨. 오픈 소스 모델 없이도 OpenAI는 이미 그들의 미션을 달성한 것으로 보임.

[GN⁺] Mistral AI, GPT-4에 이어 강력한 성능을 보여주는 Mistral Large 및 Small 모델(의 API) 공개

소개

Mistral Large의 새로운 기능과 강점

Microsoft와의 파트너십을 통해 Azure에서 모델 제공

Mistral Large의 능력

새로운 Mistral Small, 저지연 워크로드에 최적화

JSON 형식과 함수 호출

GN⁺의 의견

Hacker News 의견

원문

공개 블로그 글

함수 호출 관련 가이드

출처 / GeekNews