VoyageAI, 새로운 범용 임베딩 모델 Voyage-3 및 Voyage-3-lite 공개

9bow · 11월 25, 2024, 3:19오전

Voyage-3 및 Voyage-3-Lite 모델 소개

VoyageAI는 새로운 세대의 범용 임베딩 모델 voyage-3 및 voyage-3-lite를 발표하며, 검색 품질, 비용 절감, 그리고 대규모 데이터베이스 활용 효율성을 대폭 향상시켰습니다. 이전 모델인 Voyage 2 시리즈는 도메인 특화 모델(voyage-code-2, voyage-law-2, voyage-finance-2, voyage-multilingual-2)로 각 산업 분야에서 주목받았으며, 이번에는 이를 뛰어넘는 범용성과 확장성을 제공하는 모델을 선보였습니다. VoyageAI의 임베딩 모델들은 API를 통해 사용할 수 있으며, 초기 200M 토큰은 무료로 제공됩니다.

특히, Voyage 3 시리즈는 경쟁 모델(OpenAI, Cohere, E5 Mistral 등)과 비교했을 때 검색 품질과 비용 효율성에서 모두 우수합니다:

Voyage 3 모델의 효율적인 임베딩 크기는 벡터 데이터베이스 비용도 최대 3배 절감할 수 있게 합니다. 또한, 한국어를 포함한 다국어 검색 품질은 지연 시간이 더 짧고 비용은 절반 가량으로 다른 경쟁 모델들 대비 우수한 성능을 보입니다:

Voyage 3 시리즈 주요 특징

Voyage-3 모델

Voyage-3는 뛰어난 성능과 경제성을 자랑하는 범용 임베딩 모델로, 다양한 도메인과 작업에서 기존 모델 대비 우수한 검색 품질과 효율성을 제공합니다:

임베딩 크기: 1024차원(OpenAI의 3072 대비 3배 작음).
비용 효율성: OpenAI v3 large 대비 2.2배 낮은 비용.
컨텍스트 길이: 32K 토큰 지원(OpenAI 8K 대비 4배 확장).
성능 개선: OpenAI v3 large 대비 7.55% 향상된 검색 품질.

Voyage-3-lite 모델

Voyage-3-lite는 낮은 비용과 빠른 처리 속도를 중시하는 사용자에게 적합한 경량화된 모델입니다.

* 임베딩 크기: 512차원(OpenAI 3072 대비 6배 작음).

비용: OpenAI v3 large 대비 6.5배 저렴한 비용($0.02/백만 토큰).
컨텍스트 길이: 동일하게 32K 토큰 지원.
성능: OpenAI v3 small 및 large 모델 대비 각각 7.58%, 3.82% 향상.

도메인별 및 다국어 성능

도메인별 검색 성능

Voyage-3는 8개의 주요 도메인(기술, 법률, 금융, 코드, 웹, 긴 문서, 대화 등)에서 평균적으로 OpenAI v3 large보다 7.55% 높은 검색 품질을 제공합니다.

특히, 법률과 금융 데이터에서 검색 정확도가 높은 voyage-law-2 및 voyage-finance-2와 유사한 수준의 성능을 보였습니다.

다국어 검색 품질

다국어 데이터세트를 통해 평가한 결과, Voyage-3는 26개 언어를 지원하며 OpenAI 및 Cohere의 다국어 모델을 능가하는 성능을 보였습니다.

프랑스어, 독일어, 일본어, 스페인어, 한국어 등 주요 언어에서 높은 정확도를 기록.
voyage-3-lite는 OpenAI v3 large보다 4.55% 더 높은 다국어 검색 품질을 제공합니다.

VoyageAI의 새로운 임베딩 모델 공개 블로그

Voyage-3 및 Voyage-3-lite 모델 평가 결과 (Google Sheets)

VoyageAI의 텍스트 임베딩 모델 문서

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~