2024년 LLM 모델 개발 트렌드 관련 영상 [영어/유튜브]

9bow · 3월 30, 2024, 11:06오전

little guide라는 제목과는 다르게 방대한 내용을 품고 있는 이 영상은 LLM을 학습시키기 위한 데이터의 준비부터 학습 기법, 그리고 평가 방법 등을 다루고 있습니다. (GPT 모델이 정리해준) 대략적인 내용들은 다음과 같습니다:

데이터 준비(Data Preparation): 다양성과 커버리지를 극대화하는 동시에 품질을 보장하는 데 초점을 맞춰야하는, LLM 학습의 어두운 과학(data science) 부분입니다.
평가 기법(Evaluation Techniques): 모델이 다양한 지표에서 우수한 성능을 발휘하도록 하기 위한 철저한 평가 방법의 중요성에 대해 설명합니다.
효율적인 트레이닝 기법(Efficient Training Techniques): 데이터의 준비와 품질에 중점을 두되, LLM을 보다 효율적으로 훈련하는 기법에 대해 논의합니다.
현실과 과장(Reality vs. Hype): 현실적으로 달성 가능한 것과 종종 과장된 것을 강조하면서 LLM 개발 과정을 이해하기 쉽게 설명하는 것을 목표로 합니다.
데이터 세트의 영향력(Influence of Datasets): 데이터 세트가 아키텍처 세부 사항보다 모델의 동작에 더 큰 영향을 미친다는 점을 강조합니다.
데이터 품질 및 다양성(Data Quality and Diversity): 효과적으로 LLM을 학습하기 위해서는 고품질의 다양한 데이터 세트가 필요하다는 것은 반복되는 주제입니다.
아키텍처 및 하이퍼파라미터(Architecture and Hyperparameters): 핵심은 아니지만 모델 훈련에서 아키텍처와 하이퍼파라미터의 역할에 대해서도 다룹니다.
사례 연구 및 예시(Case Studies and Examples): 성공적인 모델과 기법에 대한 참조를 통해 LLM 개발에 대한 실질적인 인사이트를 제공합니다.
트레이닝 과제(Training Challenges): 특히 데이터 선택 및 준비 과정에서 LLM을 교육하는 동안 직면하는 문제를 다룹니다.
도구 및 리소스(Tools and Resources): LLM 개발에 사용할 수 있는 도구와 리소스에 대한 인사이트를 제공하고 효과적인 모델을 구축하는 데 있어 그 중요성을 강조합니다.

~~아직 다 보지도 못하고, 이해도 못했지만~~ 2편이 기대되네요!

9bow · 3월 30, 2024, 11:10오전

영상(및 강의)에 사용한 슬라이드는 다음과 같습니다:

Hugging Face의 공동 창업자 중 한 명이자 CSO(Chief Science Officer)라서 엄청 바쁠텐데 이렇게 공유까지...

9bow · 3월 30, 2024, 11:12오전

Hugging Face에 강의와 함께 공유한 글에서 조금 더 작세한 내용을 찾아보실 수 있습니다:

원문: @thomwolf on Hugging Face: "A Little guide to building Large Language Models in 2024 This is a…"

2024년에 대규모 언어 모델을 구축하기 위한 작은 가이드

이 글은 2주 전에 2024년에 LLM을 처음부터 훈련하는 방법에 대해 75분간 진행한 강의의 사후 녹화본입니다. 좋은 LLM을 훈련하는 데 중요하지만 기술 보고서에는 종종 숨겨져 있는 개념에 초점을 맞춰 짧고 포괄적으로 설명하려고 노력했습니다.

강의에서 저는 학생들에게 좋은 성능의 LLM을 훈련하기 위한 모든 중요한 개념/도구/기법을 소개합니다:

웹 스케일 데이터 찾기, 준비 및 평가하기
모델 병렬 처리와 효율적인 훈련에 대한 이해
모델 미세 조정 / 정렬
빠른 추론

물론 누락된 내용이나 추가했어야 하는 내용도 많으니, 가장 아쉬운 부분을 말씀해 주시면 다음 편에서 추가하도록 하겠습니다. 특히 주제를 잘 그리고 광범위하게 필터링하는 방법과 더 실용적인 일화 및 세부 사항에 더 중점을 두어 추가할 생각입니다.

녹화를 마치고 나니 이 영상이 2부로 구성된 시리즈 중 1부가 될 수 있을 것 같고, 2부는 최근 HF에서 LLM 교육과 관련하여 공개한 라이브러리와 레시피를 사용하여 이 모든 단계를 실행하는 방법에 대한 완전한 실습 영상이 될 수 있을 것 같습니다(다른 프레임워크에도 쉽게 적용할 수 있습니다):

웹 스케일 데이터 준비에 관한 모든 것을 위한 데이터트로브: GitHub - huggingface/datatrove: Freeing data processing from scripting madness by providing a set of platform-agnostic customizable pipeline processing blocks.
경량 4D 병렬 처리 LLM 트레이닝을 위한 나노트론: GitHub - huggingface/nanotron: Minimalistic large language model 3D-parallelism training
트레이닝 중 빠른 병렬 LLM 평가를 위한 lighteval: GitHub - huggingface/lighteval: Lighteval is your all-in-one toolkit for evaluating LLMs across multiple backends

유튜브에서 강의를 시청할 수 있는 링크는 다음과 같습니다: https://www.youtube.com/watch?v=2-SPH9hIKT8
다음은 Google 슬라이드 링크입니다: Little guide to building Large Language Models in 2024 - Google Slides

두 번째 파트에서 추가, 수정, 확장할 내용과 이에 대한 피드백을 기꺼이 듣고 싶습니다.

9bow · 5월 22, 2024, 12:37오후

Thomas Wolf의 새로운 글(?)이 올라와서 공유하면서 다시금 영상을 보니, 아직 2편은 소식이 없네요

[GN] HuggingFace 공동창업자가 추천하는 AI 분야 입문 서적 (txt) 읽을거리&정보공유

HuggingFace 공동창업자가 추천하는 AI 분야 입문 서적 [[GN] HuggingFace 공동창업자가 추천하는 AI 분야 입문 서적 (txt)] 소개 공동창업자이자 CSO인 Thomas Wolf는 물리학 & 법학 전공 그가 2016~17년에 NLP/AI/ML 분야에 들어가면서 읽은 독서 목록 즉, ChatGPT/트랜스포머/Diffusion 혁신 전이라는 것을 유의할 것 "Deep Learning(심층 학습)" 책은 현재 도구에 대한 빠른 개요를 얻기에 좋은 자료 "Artificial Intelligence: A Modern Approach(인공지능:제4판 - 현대적 접근방식)"는 신경망 이전의 모든 도구와 방법에 대한 훌륭한 자료 "Machine Learning: A Probabilistic Perspective(머신 러닝)"는 확률적 접근법을 더 깊이 파고들고 베이지안 도구에 대한 좋은 노출을 얻기에 훌륭한 자료 "Information Theory, Inferenc…