PyTorchKR
- 100개 이상의 다국어를 지원하는 오픈소스 LLM인 Eagle 7B가 공개되어 살펴보았습니다. 단순히 성능만 강조하는 것 뿐만 아니라, 토큰 당 처리에 필요한 전력량이 가장 낮은 '친환경 LLM'임을 함께 강조하고 있는 것이 독특합니다. 함께 살펴보시죠!
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
소개
기존의 Falcon이나 Llama2, Mistral 같은 기존 모델들은 상당한 계산 자원을 요구하며, 영어 데이터셋으로 학습하여 비영어권 사용자들이 사용하기에는 쉽지 않았습니다. 이번에 공개한 Eagle 7B 모델은 RWKV-v5 아키텍처를 기반으로 한, 오픈소스 다국어 LLM입니다.
특히, Eagle 7B는 7.52B의 파라매터를 가진, 1.1조 토큰을 100개 이상의 언어로 학습하여 23개 언어들에 대해서도 높은 성능을 보이고 있습니다. 오픈소스 영역에서 가장 포괄적이고 포용적인 AI 모델인 Eagle 7B를 살펴보겠습니다.
주요 특징
-
Eagle 7B는 7.52B개의 매개변수를 갖는 대규모 언어모델입니다.
-
추론 비용이 10~100배 가량 낮은 선형 트랜스포머 구조인 RWKV-v5 아키텍처를 기반으로 하였습니다.
-
100개 이상의 언어에 걸쳐 1조 1천억 개(1.1T)의 토큰으로 학습하였습니다.
-
다국어 벤치마크에서 모든 7B 클래스 모델보다 우수한 성능 제공합니다.
-
영어 평가에서 팔콘(1.5T), LLaMA2(2T), 미스트랄(>2T?) 수준의 성능에 근접하였습니다.
-
영어 평가에서 MPT-7B(1T)와 동등한 성능 제공합니다.
-
Eagle 7B는 아주 작은 지시어 튜닝만 적용한 파운데이션 모델로, 다양한 사용 사례에 따라 추가 미세 조정이 필요합니다!
-
RWKV-v5 Eagle 7B는 리눅스 재단의 Apache 2.0 라이선스가 적용되어, 개인 또는 상업적으로 제한 없이 사용할 수 있습니다.
-
허깅페이스에서 모델을 다운로드하여 어디서나(로컬에서도) 사용 가능
-
제공하는 pip 추론 패키지를 사용하거나, 다른 커뮤니티 추론 옵션(데스크톱 앱, RWKV.cpp, 그 외 도구들)를 사용할 수 있습니다.
다국어 성능 비교
xLAMBDA, xStoryCloze, xWinograd, xCopa 벤치마크를 사용하여 23개 언어에 대한 측정 결과입니다.
영어 성능 비교
12개의 개별 벤치마크를 사용한 측정 결과입니다.
더 읽어보기
Eagle 7B 모델 공개 글
허깅페이스에서 Eagle 7B 모델 가중치 다운로드
RWKV 아키텍처 알아보기
RWKV-v5 아키텍처는 기존의 트랜스포머 모델이 가지는 계산 복잡도 문제를 해결하기 위한 선형 트랜스포머 모델을 기반으로 하고 있습니다. 대부분의 트랜스포머 모델은 셀프 어텐션 메커니즘(self-attention mechanism)을 사용하는데, 이는 입력 시퀀스의 길이에 따라 계산 비용이 제곱으로 증가합니다. 반면, RWKV-v5는 계산 복잡도를 선형으로 줄여, 더 큰 데이터셋과 더 긴 시퀀스를 효율적으로 처리할 수 있습니다.
RWKV-v5 아키텍처는 선형 트랜스포머의 계산 효율성과 RWKV 메커니즘의 혁신적인 접근 방식을 결합하여 효율성과 확장성, 다국어 지원 등과 같은 특장점을 달성합니다. 선형 복잡도를 통해 모델은 더 큰 규모의 데이터와 더 긴 시퀀스를 효율적으로 처리할 수 있으며, RWKV 메커니즘은 셀프 어텐션 메커니즘의 계산 비용 없이도 유사한 또는 그 이상의 성능을 제공합니다. 또한, 다양한 언어에 대한 광범위한 학습을 통해 모델은 전 세계적으로 AI 기술의 접근성과 포괄성을 향상시킬 수 있을 것으로 기대합니다.
RWKV의 친환경 모델 관련 소개 글
Discord
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~