PyTorchKR


- 최근 Phi와 같은 2B 규모의 경량화된 LLM들이 속속 출시되고 있는데요, 구글
이 새롭게 Gemma라는 모델을 공개하며 이 대열에 동참했습니다. Gemma는 2B과 7B 모델을 Gemma License로 공개하였는데, 어느 정도의 성능이고 어떠한 라이선스로 공개되었는지 함께 살펴보시죠.
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
Gemma, 구글
이 공개한 오픈소스 경량 LLM
Gemma 모델 소개
구글이 최첨단 오픈 소스 대규모 언어 모델(LLM) 패밀리인 Gemma를 발표했습니다. 이는 구글의 오픈소스 AI에 대한 약속을 강화하는 중요한 발걸음으로, Gemma 모델은 Hugging Face를 통해 공개적으로 접근 가능합니다. Gemma는 7B 매개변수와 2B 버전으로 제공되며, 각각 소비자 규모의 GPU 및 TPU와 CPU 및 온-디바이스 애플리케이션을 위해 최적화되어 있습니다.
Gemma는 기본(사전 훈련된) 및 지시 튜닝된 버전으로 제공되는 2B 및 7B의 두 가지 크기로 구성됩니다. 이 모델들은 8K 토큰의 컨텍스트 길이를 지원하며, 양자화 없이도 다양한 소비자 하드웨어에서 실행될 수 있습니다. 다른 LLM의 기본 모델과 마찬가지로, 각 기본(Base) 모델들에는 프롬프트 형식이 없으므로, 원하는 사용 사례에 대한 미세 조정을 위한 훌륭한 기반이 됩니다. 지시 버전은 매우 간단한 대화 구조를 가지고 있습니다:
Gemma 7B 모델은 7B 가중치에서 최고의 모델과 비교할 수 있는 강력한 성능을 자랑합니다. 반면, Gemma 2B 모델은 그 크기에 비해 흥미로운 모델이지만, 비슷한 크기의 최고 모델들과 비교했을 때 리더보드에서 높은 점수를 얻지는 못합니다. 다음은 LLM Leaderboard에서의 주요 성능 측정 비교 결과입니다. (높은 숫자가 성능이 높습니다.)
Model | License | Commercial use? | Pretraining size [tokens] | Leaderboard score ![]() |
---|---|---|---|---|
LLama 2 70B Chat (reference) | Llama 2 license | ![]() |
2T | 67.87 |
Gemma-7B | Gemma license | ![]() |
6T | 63.75 |
DeciLM-7B | Apache 2.0 | ![]() |
unknown | 61.55 |
PHI-2 (2.7B) | MIT | ![]() |
1.4T | 61.33 |
Mistral-7B-v0.1 | Apache 2.0 | ![]() |
unknown | 60.97 |
Llama 2 7B | Llama 2 license | ![]() |
2T | 54.32 |
Gemma 2B | Gemma license | ![]() |
2T | 46.51 |
Gemma의 핵심 혁신은 최첨단 성능과 경량 아키텍처의 결합에 있습니다. 이는 고급 기술을 통한 모델 훈련 및 최적화로 달성되며, Gemma 모델은 크기에 비해 최고 수준의 성능을 제공합니다. 이 접근 방식은 AI 개발의 진입 장벽을 낮추어 다양한 개발자가 고급 AI 애플리케이션을 실험하고 배포할 수 있게 합니다.
또한, Gemma는 책임있는 AI 개발을 강조합니다. 구글은 개발자가 안전한 AI 애플리케이션을 만들 수 있도록 지원하는 책임있는 생성 AI 툴킷(Responsible Generative AI Toolkit을 함께 출시했습니다. 이 툴킷은 AI 개발의 윤리적 고려 사항을 직접 다루며, Gemma로 구축된 애플리케이션이 공정성, 개인 정보 보호 및 보안의 높은 기준을 준수하도록 합니다.
Gemma의 아키텍처는 Google의 Gemini 기술과 인프라 구성 요소를 공유하며, 이를 통해 더 작은 규모에서도 탁월한 성능을 제공합니다. 모델은 다양한 응용 프로그램에 즉시 사용할 수 있도록 사전 훈련되고 지시 튜닝되었습니다.
Gemma는 Keras 3.0을 통해 JAX, PyTorch, TensorFlow와 같은 주요 프레임워크에서 추론 및 감독된 미세 조정을 위한 도구 체인을 포함하는 포괄적인 생태계를 제공합니다. 이는 개발자가 Gemma를 시작하는 과정을 단순화하고, 기존 워크플로우에 쉽게 통합할 수 있도록 합니다.
Gemma는 개인 컴퓨터에서 클라우드 기반 환경에 이르기까지 다양한 설정에서 업계 선도적인 성능을 제공합니다. 이러한 유연성은 AI 애플리케이션 개발에 대한 새로운 가능성을 열며, 학술 연구, 스타트업 혁신, 기업 솔루션을 위한 강력하고 접근 가능한 도구를 제공합니다.
사용법 소개 문서 및 노트북
더 읽어보기
Gemma 홈페이지
Google의 Gemma 공개 소개 글
Gemma 활용 코드 살펴보기 (feat. Kaggle
)
Gemma 모델 가중치 내려받기
모델 이름 | 모델 크기 | 설명 | 다운로드 |
---|---|---|---|
Gemma-2B | 2B | 기본 2B 모델(Base Model) | google/gemma-2b · Hugging Face |
Gemma-2B-IT | 2B | 지시어 파인 튜닝(Instruction Fine-tuned)된 2B 모델 | google/gemma-2b-it · Hugging Face |
Gemma-7B | 7B | 기본 7B 모델(Base Model) | google/gemma-7b · Hugging Face |
Gemma-7B-IT | 7B | 지시어 파인 튜닝(Instruction Fine-tuned)된 7B 모델 | https://huggingface.co/google/gemma-7b-it |
Hugging Face와 Kaggle
에서 각각 소개 글과 함께 공개되어 있습니다.
Gemma 기술문서 (Technical Report)
책임있는 생성형 AI 툴킷
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~