Cohere, Wikipedia 기반 300개 이상의 다국어 임베딩 데이터셋 wikipedia-2023-11-embed-multilingual-v3 공개

9bow · 6월 7, 2024, 4:04오후

Cohere, Wikipedia 기반 300개 이상의 다국어 임베딩 데이터셋 wikipedia-2023-11-embed-multilingual-v3 공개

소개

자연어 처리(NLP) 전문 기업 Cohere에서는 Wikipedia 데이터셋을 바탕으로 생성한 다양한 언어의 텍스트 처리를 위한 임베딩 데이터셋을 공개했습니다. 이 데이터셋은 Wikimedia에서 Hugging Face에 공개한 2023년 11월 1월 기준의 Wikipedia 데이터셋(wikimedia/wikipedia)를 기반으로 생성되었습니다.

이 데이터셋은 다양한 언어의 텍스트 데이터를 벡터 형태로 변환하여 효과적으로 처리할 수 있도록 하는 임베딩(embedding) 모델 개발에 유용하게 사용할 수 있을 것으로 기대합니다. 이 데이터셋은 기존의 위키피디아 기반 데이터셋들과 비교했을 때 더 많은 언어를 포함하고 있으며, 최신 텍스트 자료를 반영하고 있습니다. 예를 들어, 2022년 버전의 데이터셋과 비교했을 때, 더 많은 언어와 최신 기사를 포함하여 더욱 풍부한 데이터를 제공합니다.

주요 특징

언어 다양성: 100개 이상의 언어를 포함하여 글로벌 언어 커버리지가 뛰어납니다. 포함된 전체 문서의 수는 247,154,006건으로, 각 언어별 문서의 수는 Hugging Face의 저장소 문서를 참고해주세요. (예. 영어: 41,488,110건 / 한국어: 1,513,291건 등)
최신성: 2023년 11월 01일까지의 최신 위키피디아 자료를 반영합니다. 이 데이터셋은 247,154,006건의 데이터를 포함하고 있으며, 전체 용량은 536GB입니다.
고품질 임베딩: Cohere의 고성능 다국어 임베딩 모델인 Cohere Embed V3 embedding model을 사용하여 생성된 데이터셋으로, 다양한 NLP 작업에서 우수한 성능을 보장합니다.

사용 방법

이 데이터셋은 Hugging Face의 API를 통해 쉽게 접근할 수 있습니다. 아래는 데이터셋을 로드하는 간단한 코드 예시입니다:

from datasets import load_dataset

dataset = load_dataset('Cohere/wikipedia-2023-11-embed-multilingual-v3')

해당 데이터셋을 사용하여 언어 모델을 학습하거나 평가할 수 있으며, 다국어 텍스트 분석, 번역 모델, 문서 분류 등의 작업에 활용할 수 있습니다. 다른 활용 예시들은 Hugging Face 저장소의 예시 코드를 참고해주세요.

wikipedia-2023-11-embed-multilingual-v3 데이터셋 저장소

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~