Eagle 7B: RWKV-v5 아키텍처 기반의 오픈소스 다국어 LLM (feat. 상업적 사용 가능)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 100개 이상의 다국어를 지원하는 오픈소스 LLM인 Eagle 7B가 공개되어 살펴보았습니다. 단순히 성능만 강조하는 것 뿐만 아니라, 토큰 당 처리에 필요한 전력량이 가장 낮은 '친환경 LLM'임을 함께 강조하고 있는 것이 독특합니다. 함께 살펴보시죠! :smiley::green_heart:
  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

소개

기존의 Falcon이나 Llama2, Mistral 같은 기존 모델들은 상당한 계산 자원을 요구하며, 영어 데이터셋으로 학습하여 비영어권 사용자들이 사용하기에는 쉽지 않았습니다. 이번에 공개한 Eagle 7B 모델은 RWKV-v5 아키텍처를 기반으로 한, 오픈소스 다국어 LLM입니다.

특히, Eagle 7B는 7.52B의 파라매터를 가진, 1.1조 토큰을 100개 이상의 언어로 학습하여 23개 언어들에 대해서도 높은 성능을 보이고 있습니다. 오픈소스 영역에서 가장 포괄적이고 포용적인 AI 모델인 Eagle 7B를 살펴보겠습니다.

주요 특징

다국어 성능 비교

xLAMBDA, xStoryCloze, xWinograd, xCopa 벤치마크를 사용하여 23개 언어에 대한 측정 결과입니다.

영어 성능 비교

12개의 개별 벤치마크를 사용한 측정 결과입니다.

더 읽어보기

Eagle 7B 모델 공개 글

허깅페이스에서 Eagle 7B 모델 가중치 다운로드

RWKV 아키텍처 알아보기

RWKV-v5 아키텍처는 기존의 트랜스포머 모델이 가지는 계산 복잡도 문제를 해결하기 위한 선형 트랜스포머 모델을 기반으로 하고 있습니다. 대부분의 트랜스포머 모델은 셀프 어텐션 메커니즘(self-attention mechanism)을 사용하는데, 이는 입력 시퀀스의 길이에 따라 계산 비용이 제곱으로 증가합니다. 반면, RWKV-v5는 계산 복잡도를 선형으로 줄여, 더 큰 데이터셋과 더 긴 시퀀스를 효율적으로 처리할 수 있습니다.

RWKV-v5 아키텍처는 선형 트랜스포머의 계산 효율성과 RWKV 메커니즘의 혁신적인 접근 방식을 결합하여 효율성과 확장성, 다국어 지원 등과 같은 특장점을 달성합니다. 선형 복잡도를 통해 모델은 더 큰 규모의 데이터와 더 긴 시퀀스를 효율적으로 처리할 수 있으며, RWKV 메커니즘은 셀프 어텐션 메커니즘의 계산 비용 없이도 유사한 또는 그 이상의 성능을 제공합니다. 또한, 다양한 언어에 대한 광범위한 학습을 통해 모델은 전 세계적으로 AI 기술의 접근성과 포괄성을 향상시킬 수 있을 것으로 기대합니다.

RWKV의 친환경 모델 관련 소개 글

Discord




:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck: