Meta, Llama 3 8B 및 70B 모델 공개 🦙🦙🦙 (400B+는 준비 중)

:pytorch:PyTorchKR:kr:

  • Meta에서 조금 전 Llama-3를 발표 및 공개했습니다. (Llama-3 모델이 Meta AI에 통합되었지만 아직 한국은 지원하지 않아 웹에서 사용하긴 어렵고:sob: 기존처럼 모델을 내려받아 사용해야 합니다.) 기존 모델들보다 더 나은 성능을 보이고 있는데요, 함께 살펴보시죠:llama::llama::llama:

Meta, Llama 3 발표 :llama::llama::llama:

소개

Llama 3는 Meta에서 개발한 최신 AI 대화 모델로, 기존의 Llama 모델들보다 더욱 개선된 언어 이해와 생성 능력을 갖추고 있습니다. 이 모델은 대규모 데이터셋을 학습하여 다양한 주제에 대해 사람과 같은 수준으로 대화를 진행할 수 있습니다. 특히, 이전 모델들 대비 향상된 컨텍스트 이해력은 Llama 3의 가장 큰 특징 중 하나입니다.

  • 고급 언어 이해 및 생성: Llama 3는 복잡한 언어 구조와 의미를 더 정확하게 이해하고, 자연스러운 대화를 생성할 수 있습니다.
  • 대규모 학습 데이터셋: 다양한 언어와 주제에 대한 방대한 데이터셋을 학습하여, 보다 넓은 범위의 지식과 정보를 제공합니다.
  • 개선된 대화 관리: 사용자의 의도와 문맥을 더 정확하게 파악하여, 더욱 유연하고 맥락에 맞는 대화가 가능합니다.

학습 정보 및 공개 모델

Llama-3 모델은 Meta에서 최근 공개한 맞춤형 24K GPU 클러스터에서 15T 이상의 토큰들을 사용하여 학습하였습니다. 이는 Llama-2 학습에 사용했던 것보다 4배 더 많은 코드들을 포함하며, 전체 학습 데이터셋은 7배가량 더 큽니다.

이번에 공개한 Llama-3 모델은 8B과 70B의 2종류로, 모델 정보는 아래 표와 같습니다:

Training Data Params Context length GQA Token count Knowledge cutoff
Llama 3 A new mix of publicly available online data. 8B 8k Yes 15T+ March, 2023
70B 8k Yes December, 2023

가장 큰 모델은 400B+ 규모로, 아직 학습 중이며, 2024년 4월 15일 기준 성능 벤치마크 결과는 아래와 같습니다:

Meta Llama-3 400B+ 모델의 성능 평가 (학습 중간 결과물)

성능 비교 / 벤치마크

Base pre-trained models

Meta Llama-3 Base model performance 비교

Category Benchmark Llama 3 8B Llama2 7B Llama2 13B Llama 3 70B Llama2 70B
General MMLU (5-shot) 66.6 45.7 53.8 79.5 69.7
AGIEval English (3-5 shot) 45.9 28.8 38.7 63.0 54.8
CommonSenseQA (7-shot) 72.6 57.6 67.6 83.8 78.7
Winogrande (5-shot) 76.1 73.3 75.4 83.1 81.8
BIG-Bench Hard (3-shot, CoT) 61.1 38.1 47.0 81.3 65.7
ARC-Challenge (25-shot) 78.6 53.7 67.6 93.0 85.3
Knowledge reasoning TriviaQA-Wiki (5-shot) 78.5 72.1 79.6 89.7 87.5
Reading comprehension SQuAD (1-shot) 76.4 72.2 72.1 85.6 82.6
QuAC (1-shot, F1) 44.4 39.6 44.9 51.1 49.4
BoolQ (0-shot) 75.7 65.5 66.9 79.0 73.1
DROP (3-shot, F1) 58.4 37.9 49.8 79.7 70.2

Instruction-tuned models

Benchmark Llama 3 8B Llama 2 7B Llama 2 13B Llama 3 70B Llama 2 70B
MMLU (5-shot) 68.4 34.1 47.8 82.0 52.9
GPQA (0-shot) 34.2 21.7 22.3 39.5 21.0
HumanEval (0-shot) 62.2 7.9 14.0 81.7 25.6
GSM-8K (8-shot, CoT) 79.6 25.7 77.4 93.0 57.5
MATH (4-shot, CoT) 30.0 3.8 6.7 50.4 11.6

새로 개발된 고품질 인간 평가 세트를 사용하여, 12가지 주요 사용 사례에 대해 평가가 이루어졌습니다. Llama-3 70B 모델은 Claude Sonnet, Mistral Medium, GPT-3.5와 같은 경쟁 모델 및 이전 모델인 Llama-2 모델과 비교했을 때 더 나은 성능을 보였습니다.

책임있는 AI를 향한 시스템 레벨의 접근

Meta의 Llama 3 모델은 최고 수준의 책임감 있는 배포를 보장하면서 가능한 한 유용하게 설계되었습니다. 이를 위해 Llama의 책임 있는 개발 및 배포를 위한 새로운 시스템 수준 접근 방식을 채택했습니다. Llama 모델은 개발자가 주도하는 더 넓은 시스템의 일부로서, 개발자가 고유한 최종 목표를 염두에 두고 설계할 수 있는 기초적인 요소로 활용됩니다.

시스템 수준 책임 접근 방식

  • 개발자 중심 설계: Llama 모델은 개발자가 자신의 특정 목표에 맞게 시스템을 설계할 수 있도록 지원합니다. 이는 개발자가 Llama 모델을 활용하여 보다 맞춤화된 애플리케이션을 개발할 수 있게 함으로써, 기술의 유연성과 적용 범위를 확장합니다.
  • 책임 있는 배포: 모델은 업계 선도적인 방식으로 책임감 있게 배포되며, 이는 개발 초기 단계에서부터 안전과 윤리적 고려가 포함되어 설계되었음을 의미합니다.

지시 사항 미세 조정과 안전성

  • 레드 팀 테스트: Llama 3의 지시 사항 미세 조정 모델은 내부 및 외부 노력을 통해 안전성을 위한 레드 팀 테스트를 거쳤습니다. 이 접근법은 인간 전문가와 자동화 방법을 활용하여 문제를 일으킬 수 있는 대응을 유도하려는 적대적 프롬프트를 생성합니다.
  • 위험 평가: 화학, 생물학, 사이버 보안 및 기타 위험 영역과 관련된 오용의 위험을 평가하기 위해 종합적인 테스트가 적용됩니다. 이러한 노력은 반복적이며 출시되는 모델의 안전 미세 조정에 대한 정보를 제공하는 데 사용됩니다.

더 읽어보기

Llama-3 홈페이지

Llama-3 모델 출시 공지

Llama 3 모델 다운로드

Llama 레시피: 라마 모델의 파인튜닝 및 배포, 평가 코드

Meta AI (한국에선 아직 사용 불가)

https://meta.ai/




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

4개의 좋아요

나와줘서 고마워 라는 마음과 그만 나와 라는 마음이 동시에 드는 건 어떤 의미일까요...:carrot::carrot:

2개의 좋아요

그것은... 아마... 리서치 또는 공부하시는 분들의 숙명같은 것이 아닐까 싶습니다. :sweat_smile:

1개의 좋아요

[GN] Meta, Llama 3 공개

소개

Llama 3의 성능

  • 8B와 70B 파라미터 Llama 3 모델은 Llama 2에 비해 큰 도약을 이루었으며, 해당 규모에서 LLM 모델의 새로운 최고 수준을 달성
  • 사전 학습 및 사후 학습의 개선 덕분에 사전 학습되고 명령어 미세 조정된 모델은 8B와 70B 파라미터 규모에서 현존하는 최고의 모델임
  • 사후 학습 절차의 개선으로 거짓 거부율이 상당히 감소하고, 정렬이 개선되었고, 모델 응답의 다양성이 증가함
  • 또한 추론, 코드 생성, 명령어 따르기 등의 기능이 크게 개선되어 Llama 3가 더 조종 가능해짐(Steerable)
  • Llama 3 개발 과정에서 표준 벤치마크에서의 모델 성능을 살펴보고, 실제 시나리오에 대한 성능 최적화도 추구함
  • 이를 위해 12가지 핵심 사용 사례를 다루는 1,800개의 프롬프트가 포함된 새로운 고품질 인간 평가 세트를 개발함
  • 이 평가 세트를 통해 70B 명령어-추종 모델이 실제 시나리오에서 유사한 크기의 경쟁 모델에 비해 강력한 성능을 보여주는 것으로 나타남
  • 사전 학습된 모델 또한 해당 규모에서 LLM 모델의 새로운 최첨단 기술을 달성
  • 훌륭한 언어 모델을 개발하기 위해서는 혁신, 확장, 단순성 최적화가 중요하다고 믿음
  • Llama 3 프로젝트 전반에 걸쳐 모델 아키텍처, 사전 학습 데이터, 사전 학습 확장, 명령어 미세 조정의 네 가지 핵심 요소에 초점을 맞추어 이 설계 철학을 채택함

모델 아키텍처

  • Llama 3에서는 비교적 표준적인 디코더 전용 트랜스포머 아키텍처를 선택함
  • Llama 2와 비교하여 몇 가지 주요 개선 사항이 있음
    • Llama 3는 언어를 훨씬 더 효율적으로 인코딩하는 128K 토큰의 어휘를 가진 토크나이저를 사용하여 모델 성능을 상당히 개선함
    • Llama 3 모델의 추론 효율성을 개선하기 위해 8B와 70B 크기 모두에 걸쳐 그룹화된 쿼리 주의(GQA)를 채택함
    • 셀프 어텐션이 문서 경계를 넘지 않도록 마스크를 사용해 8,192개의 토큰 시퀀스로 모델을 훈련

학습 데이터

  • 최고의 언어 모델을 학습시키기 위해서는 대규모 고품질 학습 데이터셋의 큐레이션이 가장 중요함
  • Llama 3는 공개적으로 사용 가능한 소스에서 수집된 15T 이상의 토큰으로 사전 학습됨
  • 학습 데이터셋은 Llama 2에 사용된 것보다 7배 더 크며, 4배 더 많은 코드를 포함함
  • 향후 다국어 사용 사례를 준비하기 위해 Llama 3 사전 학습 데이터셋의 5% 이상이 30개 이상의 언어를 다루는 고품질 비영어 데이터로 구성됨

사전 학습 확장

  • Llama 3 모델에서 사전 학습 데이터를 효과적으로 활용하기 위해 사전 학습 확장에 상당한 노력을 기울임
  • 특히 다운스트림 벤치마크 평가를 위한 일련의 상세한 스케일링 법칙을 개발함
  • 이러한 스케일링 법칙을 통해 최적의 데이터 믹스를 선택하고 학습 컴퓨팅을 최상으로 사용하는 방법에 대해 정보에 입각한 결정을 내릴 수 있음

명령어 미세 조정

  • 채팅 사용 사례에서 사전 학습된 모델의 잠재력을 완전히 발휘하기 위해 명령어 조정 접근 방식에 대해서도 혁신을 이룸
  • 사후 학습에 대한 접근 방식은 지도 학습 미세 조정(SFT), 거부 샘플링, 근접 정책 최적화(PPO), 직접 정책 최적화(DPO)의 조합임
  • SFT에 사용되는 프롬프트의 품질과 PPO 및 DPO에 사용되는 선호도 순위는 정렬된 모델의 성능에 과도한 영향을 미침

Llama 3로 구축하기

  • Meta의 비전은 개발자가 Llama 3을 맞춤 설정하여 관련 사용 사례를 지원하고 모범 사례를 쉽게 채택하고 개방형 생태계를 개선할 수 있도록 하는 것임
  • 이번 릴리스에서는 Llama Guard 2 및 Cybersec Eval 2와 함께 업데이트된 구성 요소를 포함한 새로운 신뢰 및 안전 도구와 LLM에서 생성한 안전하지 않은 코드를 필터링하기 위한 추론 시간 가드레일인 Code Shield를 도입함
  • 또한 Llama 3을 LLM을 쉽게 작성, 미세 조정 및 실험할 수 있는 새로운 PyTorch 기본 라이브러리인 torchtune과 함께 개발함

책임감 있는 개발과 배포를 위한 시스템 수준 접근법

  • Llama 3 모델은 최대한 도움이 되면서도 업계 최고 수준의 책임감 있는 배포 접근 방식을 보장하도록 설계됨
  • 이를 위해 Llama의 책임감 있는 개발과 배포를 위한 새로운 시스템 수준 접근법을 채택함
  • Llama 모델을 개발자가 고유한 최종 목표를 염두에 두고 설계하는 시스템의 기본 요소로 간주함
  • 명령어 미세 조정은 모델의 안전성을 보장하는 데 중요한 역할을 함
  • 명령어 미세 조정된 모델은 내부 및 외부 노력을 통해 안전성에 대해 레드팀(테스트)을 거침
  • 이러한 노력은 반복적이며 릴리스되는 모델의 안전성 미세 조정에 사용됨
  • Llama Guard 모델은 프롬프트 및 응답 안전의 기반이 되며 애플리케이션 요구 사항에 따라 새로운 분류를 쉽게 만들 수 있음
  • 새로운 Llama Guard 2는 업계 표준 지원을 위해 최근 발표된 MLCommons 분류법을 사용함
  • CyberSecEval 2는 LLM의 코드 인터프리터 악용 성향, 공격적인 사이버 보안 기능, 프롬프트 주입 공격에 대한 취약성 측정을 추가하여 이전 버전을 확장함
  • Code Shield는 LLM에서 생성된 안전하지 않은 코드에 대한 추론 시간 필터링을 지원하여 안전하지 않은 코드 제안, 코드 인터프리터 악용 방지, 보안 명령 실행과 관련된 위험을 완화함

Llama 3의 대규모 배포

  • Llama 3는 클라우드 제공업체, 모델 API 제공업체 등 주요 플랫폼에서 곧 사용 가능해질 예정임
  • 벤치마크에 따르면 토크나이저는 Llama 2에 비해 최대 15% 적은 토큰을 생성하여 토큰 효율성이 향상됨
  • 또한 그룹 쿼리 주의력(GQA)이 Llama 3 8B에도 추가됨

Llama 3의 향후 계획

  • Llama 3 8B 및 70B 모델은 Llama 3 출시 계획의 시작에 불과함
  • 향후 몇 달 동안 멀티모달, 다국어 대화 능력, 훨씬 더 긴 맥락 창, 전반적으로 더 강력한 기능 등 새로운 기능을 갖춘 여러 모델을 출시할 예정임
  • Llama 3 학습이 완료되면 상세한 연구 논문도 게재할 예정임

원문

출처 / GeekNews


:information_source: 알려드립니다

이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.

출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다! :wink:

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~ :star_struck: