Meta, Llama 3 8B 및 70B 모델 공개 🦙🦙🦙 (400B+는 준비 중)

9bow · 4월 18, 2024, 5:44오후

PyTorchKR

Meta에서 조금 전 Llama-3를 발표 및 공개했습니다. (Llama-3 모델이 Meta AI에 통합되었지만 아직 한국은 지원하지 않아 웹에서 사용하긴 어렵고 기존처럼 모델을 내려받아 사용해야 합니다.) 기존 모델들보다 더 나은 성능을 보이고 있는데요, 함께 살펴보시죠

Meta, Llama 3 발표

소개

Llama 3는 Meta에서 개발한 최신 AI 대화 모델로, 기존의 Llama 모델들보다 더욱 개선된 언어 이해와 생성 능력을 갖추고 있습니다. 이 모델은 대규모 데이터셋을 학습하여 다양한 주제에 대해 사람과 같은 수준으로 대화를 진행할 수 있습니다. 특히, 이전 모델들 대비 향상된 컨텍스트 이해력은 Llama 3의 가장 큰 특징 중 하나입니다.

고급 언어 이해 및 생성: Llama 3는 복잡한 언어 구조와 의미를 더 정확하게 이해하고, 자연스러운 대화를 생성할 수 있습니다.
대규모 학습 데이터셋: 다양한 언어와 주제에 대한 방대한 데이터셋을 학습하여, 보다 넓은 범위의 지식과 정보를 제공합니다.
개선된 대화 관리: 사용자의 의도와 문맥을 더 정확하게 파악하여, 더욱 유연하고 맥락에 맞는 대화가 가능합니다.

학습 정보 및 공개 모델

Llama-3 모델은 Meta에서 최근 공개한 맞춤형 24K GPU 클러스터에서 15T 이상의 토큰들을 사용하여 학습하였습니다. 이는 Llama-2 학습에 사용했던 것보다 4배 더 많은 코드들을 포함하며, 전체 학습 데이터셋은 7배가량 더 큽니다.

이번에 공개한 Llama-3 모델은 8B과 70B의 2종류로, 모델 정보는 아래 표와 같습니다:

	Training Data	Params	Context length	GQA	Token count	Knowledge cutoff
Llama 3	A new mix of publicly available online data.	8B	8k	Yes	15T+	March, 2023
		70B	8k	Yes	December, 2023

가장 큰 모델은 400B+ 규모로, 아직 학습 중이며, 2024년 4월 15일 기준 성능 벤치마크 결과는 아래와 같습니다:

성능 비교 / 벤치마크

Base pre-trained models

Category	Benchmark	Llama 3 8B	Llama2 7B	Llama2 13B	Llama 3 70B	Llama2 70B
General	MMLU (5-shot)	66.6	45.7	53.8	79.5	69.7
AGIEval English (3-5 shot)	45.9	28.8	38.7	63.0	54.8
CommonSenseQA (7-shot)	72.6	57.6	67.6	83.8	78.7
Winogrande (5-shot)	76.1	73.3	75.4	83.1	81.8
BIG-Bench Hard (3-shot, CoT)	61.1	38.1	47.0	81.3	65.7
ARC-Challenge (25-shot)	78.6	53.7	67.6	93.0	85.3
Knowledge reasoning	TriviaQA-Wiki (5-shot)	78.5	72.1	79.6	89.7	87.5
Reading comprehension	SQuAD (1-shot)	76.4	72.2	72.1	85.6	82.6
QuAC (1-shot, F1)	44.4	39.6	44.9	51.1	49.4
BoolQ (0-shot)	75.7	65.5	66.9	79.0	73.1
DROP (3-shot, F1)	58.4	37.9	49.8	79.7	70.2

Instruction-tuned models

Benchmark	Llama 3 8B	Llama 2 7B	Llama 2 13B	Llama 3 70B	Llama 2 70B
MMLU (5-shot)	68.4	34.1	47.8	82.0	52.9
GPQA (0-shot)	34.2	21.7	22.3	39.5	21.0
HumanEval (0-shot)	62.2	7.9	14.0	81.7	25.6
GSM-8K (8-shot, CoT)	79.6	25.7	77.4	93.0	57.5
MATH (4-shot, CoT)	30.0	3.8	6.7	50.4	11.6

새로 개발된 고품질 인간 평가 세트를 사용하여, 12가지 주요 사용 사례에 대해 평가가 이루어졌습니다. Llama-3 70B 모델은 Claude Sonnet, Mistral Medium, GPT-3.5와 같은 경쟁 모델 및 이전 모델인 Llama-2 모델과 비교했을 때 더 나은 성능을 보였습니다.

책임있는 AI를 향한 시스템 레벨의 접근

Meta의 Llama 3 모델은 최고 수준의 책임감 있는 배포를 보장하면서 가능한 한 유용하게 설계되었습니다. 이를 위해 Llama의 책임 있는 개발 및 배포를 위한 새로운 시스템 수준 접근 방식을 채택했습니다. Llama 모델은 개발자가 주도하는 더 넓은 시스템의 일부로서, 개발자가 고유한 최종 목표를 염두에 두고 설계할 수 있는 기초적인 요소로 활용됩니다.

시스템 수준 책임 접근 방식

개발자 중심 설계: Llama 모델은 개발자가 자신의 특정 목표에 맞게 시스템을 설계할 수 있도록 지원합니다. 이는 개발자가 Llama 모델을 활용하여 보다 맞춤화된 애플리케이션을 개발할 수 있게 함으로써, 기술의 유연성과 적용 범위를 확장합니다.
책임 있는 배포: 모델은 업계 선도적인 방식으로 책임감 있게 배포되며, 이는 개발 초기 단계에서부터 안전과 윤리적 고려가 포함되어 설계되었음을 의미합니다.

지시 사항 미세 조정과 안전성

레드 팀 테스트: Llama 3의 지시 사항 미세 조정 모델은 내부 및 외부 노력을 통해 안전성을 위한 레드 팀 테스트를 거쳤습니다. 이 접근법은 인간 전문가와 자동화 방법을 활용하여 문제를 일으킬 수 있는 대응을 유도하려는 적대적 프롬프트를 생성합니다.
위험 평가: 화학, 생물학, 사이버 보안 및 기타 위험 영역과 관련된 오용의 위험을 평가하기 위해 종합적인 테스트가 적용됩니다. 이러한 노력은 반복적이며 출시되는 모델의 안전 미세 조정에 대한 정보를 제공하는 데 사용됩니다.

더 읽어보기

Llama-3 홈페이지

Llama-3 모델 출시 공지

Llama 3 모델 다운로드

Llama 레시피: 라마 모델의 파인튜닝 및 배포, 평가 코드

https://github.com/meta-llama/llama-recipes

Meta AI (한국에선 아직 사용 불가)

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

dudtheheaven · 4월 19, 2024, 1:29오전

나와줘서 고마워 라는 마음과 그만 나와 라는 마음이 동시에 드는 건 어떤 의미일까요...

9bow · 4월 19, 2024, 8:32오전

그것은... 아마... 리서치 또는 공부하시는 분들의 숙명같은 것이 아닐까 싶습니다.

9bow · 4월 19, 2024, 8:34오전

[GN] Meta, Llama 3 공개

소개

Llama 3의 성능

8B와 70B 파라미터 Llama 3 모델은 Llama 2에 비해 큰 도약을 이루었으며, 해당 규모에서 LLM 모델의 새로운 최고 수준을 달성
사전 학습 및 사후 학습의 개선 덕분에 사전 학습되고 명령어 미세 조정된 모델은 8B와 70B 파라미터 규모에서 현존하는 최고의 모델임
사후 학습 절차의 개선으로 거짓 거부율이 상당히 감소하고, 정렬이 개선되었고, 모델 응답의 다양성이 증가함
또한 추론, 코드 생성, 명령어 따르기 등의 기능이 크게 개선되어 Llama 3가 더 조종 가능해짐(Steerable)
Llama 3 개발 과정에서 표준 벤치마크에서의 모델 성능을 살펴보고, 실제 시나리오에 대한 성능 최적화도 추구함
이를 위해 12가지 핵심 사용 사례를 다루는 1,800개의 프롬프트가 포함된 새로운 고품질 인간 평가 세트를 개발함
이 평가 세트를 통해 70B 명령어-추종 모델이 실제 시나리오에서 유사한 크기의 경쟁 모델에 비해 강력한 성능을 보여주는 것으로 나타남
사전 학습된 모델 또한 해당 규모에서 LLM 모델의 새로운 최첨단 기술을 달성
훌륭한 언어 모델을 개발하기 위해서는 혁신, 확장, 단순성 최적화가 중요하다고 믿음
Llama 3 프로젝트 전반에 걸쳐 모델 아키텍처, 사전 학습 데이터, 사전 학습 확장, 명령어 미세 조정의 네 가지 핵심 요소에 초점을 맞추어 이 설계 철학을 채택함

모델 아키텍처

Llama 3에서는 비교적 표준적인 디코더 전용 트랜스포머 아키텍처를 선택함
Llama 2와 비교하여 몇 가지 주요 개선 사항이 있음
- Llama 3는 언어를 훨씬 더 효율적으로 인코딩하는 128K 토큰의 어휘를 가진 토크나이저를 사용하여 모델 성능을 상당히 개선함
- Llama 3 모델의 추론 효율성을 개선하기 위해 8B와 70B 크기 모두에 걸쳐 그룹화된 쿼리 주의(GQA)를 채택함
- 셀프 어텐션이 문서 경계를 넘지 않도록 마스크를 사용해 8,192개의 토큰 시퀀스로 모델을 훈련

학습 데이터

최고의 언어 모델을 학습시키기 위해서는 대규모 고품질 학습 데이터셋의 큐레이션이 가장 중요함
Llama 3는 공개적으로 사용 가능한 소스에서 수집된 15T 이상의 토큰으로 사전 학습됨
학습 데이터셋은 Llama 2에 사용된 것보다 7배 더 크며, 4배 더 많은 코드를 포함함
향후 다국어 사용 사례를 준비하기 위해 Llama 3 사전 학습 데이터셋의 5% 이상이 30개 이상의 언어를 다루는 고품질 비영어 데이터로 구성됨

사전 학습 확장

Llama 3 모델에서 사전 학습 데이터를 효과적으로 활용하기 위해 사전 학습 확장에 상당한 노력을 기울임
특히 다운스트림 벤치마크 평가를 위한 일련의 상세한 스케일링 법칙을 개발함
이러한 스케일링 법칙을 통해 최적의 데이터 믹스를 선택하고 학습 컴퓨팅을 최상으로 사용하는 방법에 대해 정보에 입각한 결정을 내릴 수 있음

명령어 미세 조정

채팅 사용 사례에서 사전 학습된 모델의 잠재력을 완전히 발휘하기 위해 명령어 조정 접근 방식에 대해서도 혁신을 이룸
사후 학습에 대한 접근 방식은 지도 학습 미세 조정(SFT), 거부 샘플링, 근접 정책 최적화(PPO), 직접 정책 최적화(DPO)의 조합임
SFT에 사용되는 프롬프트의 품질과 PPO 및 DPO에 사용되는 선호도 순위는 정렬된 모델의 성능에 과도한 영향을 미침

Llama 3로 구축하기

Meta의 비전은 개발자가 Llama 3을 맞춤 설정하여 관련 사용 사례를 지원하고 모범 사례를 쉽게 채택하고 개방형 생태계를 개선할 수 있도록 하는 것임
이번 릴리스에서는 Llama Guard 2 및 Cybersec Eval 2와 함께 업데이트된 구성 요소를 포함한 새로운 신뢰 및 안전 도구와 LLM에서 생성한 안전하지 않은 코드를 필터링하기 위한 추론 시간 가드레일인 Code Shield를 도입함
또한 Llama 3을 LLM을 쉽게 작성, 미세 조정 및 실험할 수 있는 새로운 PyTorch 기본 라이브러리인 torchtune과 함께 개발함

책임감 있는 개발과 배포를 위한 시스템 수준 접근법

Llama 3 모델은 최대한 도움이 되면서도 업계 최고 수준의 책임감 있는 배포 접근 방식을 보장하도록 설계됨
이를 위해 Llama의 책임감 있는 개발과 배포를 위한 새로운 시스템 수준 접근법을 채택함
Llama 모델을 개발자가 고유한 최종 목표를 염두에 두고 설계하는 시스템의 기본 요소로 간주함
명령어 미세 조정은 모델의 안전성을 보장하는 데 중요한 역할을 함
명령어 미세 조정된 모델은 내부 및 외부 노력을 통해 안전성에 대해 레드팀(테스트)을 거침
이러한 노력은 반복적이며 릴리스되는 모델의 안전성 미세 조정에 사용됨
Llama Guard 모델은 프롬프트 및 응답 안전의 기반이 되며 애플리케이션 요구 사항에 따라 새로운 분류를 쉽게 만들 수 있음
새로운 Llama Guard 2는 업계 표준 지원을 위해 최근 발표된 MLCommons 분류법을 사용함
CyberSecEval 2는 LLM의 코드 인터프리터 악용 성향, 공격적인 사이버 보안 기능, 프롬프트 주입 공격에 대한 취약성 측정을 추가하여 이전 버전을 확장함
Code Shield는 LLM에서 생성된 안전하지 않은 코드에 대한 추론 시간 필터링을 지원하여 안전하지 않은 코드 제안, 코드 인터프리터 악용 방지, 보안 명령 실행과 관련된 위험을 완화함

Llama 3의 대규모 배포

Llama 3는 클라우드 제공업체, 모델 API 제공업체 등 주요 플랫폼에서 곧 사용 가능해질 예정임
벤치마크에 따르면 토크나이저는 Llama 2에 비해 최대 15% 적은 토큰을 생성하여 토큰 효율성이 향상됨
또한 그룹 쿼리 주의력(GQA)이 Llama 3 8B에도 추가됨

Llama 3의 향후 계획

Llama 3 8B 및 70B 모델은 Llama 3 출시 계획의 시작에 불과함
향후 몇 달 동안 멀티모달, 다국어 대화 능력, 훨씬 더 긴 맥락 창, 전반적으로 더 강력한 기능 등 새로운 기능을 갖춘 여러 모델을 출시할 예정임
Llama 3 학습이 완료되면 상세한 연구 논문도 게재할 예정임

원문

출처 / GeekNews

알려드립니다

이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.

출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다!

아래쪽에 좋아요를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~