Aya: 23개 및 101개 언어를 지원하는 다국어 지원 데이터셋 및 언어 모델(LLM) 프로젝트 (feat. Cohere for AI)

9bow · 5월 26, 2024, 2:38오전

Cohere, 101개 언어를 지원하는 다국어 지원 LLM Aya 공개

Aya 소개

Aya는 Cohere For AI(C4AI)가 주도하는 글로벌 이니셔티브로, 119개국의 3,000명 이상의 독립 연구자들이 참여합니다. Aya는 101개 언어를 다루는 최첨단 모델과 데이터셋으로, 다언어 AI의 한계를 확장하며 오픈 사이언스를 통해 발전하고 있습니다. Aya라는 이름은 트위(Twi) 언어로 '양치식물'을 의미하며, 인내와 재치의 상징입니다. Aya는 다언어 AI를 발전시키려는 Cohere for AI(C4AI)의 헌신을 나타냅니다.

Aya의 공개 데이터셋 및 모델

Aya Dataset

Aya 프로젝트의 일환으로 만들어진 데이터셋으로, 다양한 언어와 방대한 양의 텍스트 데이터를 포함합니다. Aya Dataset은 101개 언어를 다루며, 204K의 원본 인간 주석이 포함되어 있습니다. 이 데이터셋을 사용하여 다양한 언어의 AI 모델 학습을 위해 사용되며, 연구자들이 다양한 언어에서 AI 모델을 개발하고 평가할 수 있도록 지원합니다. Aya Dataset은 Apache 2.0 라이선스로 공개 및 배포됩니다.

더 읽어보기: Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning
데이터셋 세부 내용: CohereForAI/aya_collection · Datasets at Hugging Face

Aya 23

Aya 23은 Aya 프로젝트의 최신 연구용 대형 언어 모델(LLM) 중 하나입니다. 이 모델은 23개의 주요 언어를 지원하며, 8B 및 35B의 매개변수를 가진 두 가지 버전이 있습니다. 다언어 자연어 처리 작업을 위한 최첨단 연구용 모델로, 다양한 언어에서의 텍스트 생성, 번역, 요약 등을 지원합니다. Aya 23 모델은 CC-BY-NC 라이선스로 공개되었으며, C4AI의 사용 제한 정책 또한 준수해야 합니다.

더 읽어보기: Aya 23: Open Weight Releases to Further Multilingual Progress
모델 데모 (35B): C4AI Aya 23 - 35B - a Hugging Face Space by CohereForAI
모델 다운로드:
- Aya 23 - 8B 모델: CohereForAI/aya-23-8B · Hugging Face
- Aya 23 - 35B 모델: CohereForAI/aya-23-35B · Hugging Face

Aya 101

Aya 101은 Aya 프로젝트의 대규모 다양한 언의 연구용 대규모 언어 모델(LLM)입니다. 이름에서 볼 수 있듯, 101개의 언어를 지원하며, 다언어 AI 연구를 위한 종합적인 모델입니다. 다양한 언어에 대한 깊이 있는 이해와 처리를 가능하게 하여, 글로벌 언어 격차를 해소하는 데 중점을 둡니다. Aya 101 모델은 Apache-2.0 라이선스로 공개되었습니다.

더 읽어보기: Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
모델 다운로드: CohereForAI/aya-101 · Hugging Face

Aya의 주요 지표들

지표	값
모델 수	3
총 릴리스된 데이터셋 크기	513M
독립 연구자 수	3K
언어 대사 수	56
참여 국가 수	119
원본 인간 주석 수	204K
지원 언어 수	101
디스코드 메시지 수	31K

다언어 AI 연구

Aya는 다언어 AI 연구를 가속화하기 위한 획기적인 기반을 제공합니다. 이는 기계 학습 역사상 가장 큰 오픈 사이언스 프로젝트 중 하나로, 전 세계의 독립 연구자들과 협력하여 연구 환경을 재정의하고 있습니다. 그 결과로 완전히 오픈 소스화된 데이터셋과 모델이 탄생했습니다.

다언어 생성 AI의 발전

Aya는 자연어 이해, 요약, 번역 작업에서 소외된 언어를 위한 기초를 제공합니다. 101개 언어를 다루는 대규모 다언어 모델을 다운로드하거나, 21개 언어를 지원하는 최고의 Aya 모델을 체험해보세요.

원문 기사

Aya 소개 블로그 글

Aya Dataset 소개 및 다운로드

이름	설명
aya_dataset	인간이 주석을 단 다언어 지시 세부 조정 데이터셋으로, 65개 언어에 걸쳐 204K 이상의 인스턴스로 구성됩니다.
aya_collection	유창한 화자들이 지시 스타일의 템플릿을 44개의 데이터셋에 적용하여 생성된 컬렉션으로, 19개의 지시 스타일 데이터셋을 101개 언어로 번역한 내용을 포함합니다. 이 컬렉션은 데이터셋 수준의 하위 집합으로 구조화되어 있으며, 언어별 하위 집합으로 구조화된 대안 버전도 제공됩니다.
aya_collection_language_split	언어 수준 하위 집합에 기반하여 구조화된 Aya Collection입니다.
aya_evaluation_suite	다언어 자유 생성에 대한 다양한 평가 세트로, 7개 언어로 된 250개의 문화적으로 기반된 프롬프트, 24개 언어로 번역된 200개의 프롬프트, 그리고 6개 언어로 번역된 English Dolly에서 문화적 관련성에 따라 인간이 편집한 버전을 특징으로 합니다.

Aya 23 모델 기술 문서 및 모델 다운로드

Aya 101 모델 기술 문서 및 다운로드

더 읽어보기: Aya 관련 보도 기사들

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~