Cohere, 이미지와 텍스트의 교차 검색이 가능한 멀티모달 임베딩 모델 Embed 3 출시

Multimodal Embed 3 모델 소개

Embed 3는 Cohere가 새롭게 발표한 멀티모달 AI 검색 모델로, 텍스트와 이미지 데이터를 통합하여 한층 향상된 검색 기능을 제공합니다. 기존에는 텍스트 기반 검색이 주를 이뤘으나, Embed 3는 텍스트와 이미지를 동일한 벡터 공간에 배치해 상호 연관된 데이터를 더 정확히 검색할 수 있습니다. 이 모델은 엔터프라이즈 AI 솔루션을 필요로 하는 기업들에게 고도화된 검색 및 데이터 활용을 가능하게 하며, 100개 이상의 언어를 지원해 글로벌 비즈니스 확장성에도 유리합니다.

Embed 3는 CLIP 등 기존의 멀티모달 모델과 달리 텍스트와 이미지 데이터를 단일 벡터 공간에 배치하는 것이 특징입니다. 이는 텍스트와 이미지 간 검색 편향을 줄이고, 텍스트와 이미지 모두에서 유사성을 균형 있게 평가할 수 있게 합니다. 예를 들어, CLIP은 텍스트 중심으로 결과를 도출하는 반면, Embed 3는 의미 중심의 일관된 검색 결과를 제공합니다.

Embed 3 모델의 주요 기능

  • 다중 언어 지원: Embed 3는 100개 이상의 언어를 지원하며, 텍스트-이미지 검색을 위한 다국어 확장성을 갖추고 있습니다.

  • 복잡한 벡터 공간 활용: 텍스트와 이미지를 통합 벡터 공간에서 처리하여, 데이터 검색 및 추천의 정확도를 높입니다.

  • 상용화된 사례들: 그래프 및 차트, 전자상거래 제품 카탈로그, 디자인 파일 및 템플릿 등 다양한 비즈니스 데이터를 효과적으로 검색할 수 있습니다.

  • 높은 정확도: BEIR, Flickr, CoCo, eCommerce 데이터셋을 기반으로 한 평가에서 높은 성능을 보이며, 노이즈가 많은 현실 데이터에서도 안정적인 성능을 유지합니다.

사용법

Embed 3는 Cohere 플랫폼Microsoft Azure AI Studio에서 사용할 수 있으며, Amazon SageMaker와 개인 전용 클라우드(VPC) 배포도 지원합니다. 사용자는 API 문서와 플랫폼 통합 기능을 통해 Embed 3의 기능을 쉽게 사용할 수 있습니다. 실제 배포 전에 모델의 성능을 실험할 수 있도록 Cohere에서 무료 체험을 제공하고 있어 테스트 후 기업 환경에 맞게 최적화할 수 있습니다.

라이선스

이 모델은 Cohere의 플랫폼과 Microsoft Azure AI Studio에서 상업적으로 사용 가능하며, 사용에 대한 라이선스 세부 사항은 Cohere의 Embed 3 문서에서 확인할 수 있습니다.

:scroll: Cohere의 Embed 3 모델 공개 블로그




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: