9bow
(박정환)
1
소개
- Chip Huyen이 "AI Engineering" 책을 쓰면서 참고했던 1200개 이상의 링크와 1000개 이상의 AI Github Repo중에서 가장 도움 되는 것들만을 추린 것
- 책의 각 챕터별로 연관된 중요 링크와 간단한 요약이 포함되어 있음
도서 목차
- ML Theory Fundamentals
- Chapter 1. Planning Applications with Foundation Models
- Chapter 2. Understanding Foundation Models
- Training large models
- Sampling
- Context length and context efficiency
- Chapters 3 + 4. Evaluation Methodology
- Chapter 5. Prompt Engineering
- Prompt engineering guides
- Defensive prompt engineering
- Chapter 6. RAG and Agents
- Chapter 7. Finetuning
- Chapter 8. Dataset Engineering
- Chapter 9. Inference Optimization
- Chapter 10. AI Engineering Architecture and User Feedback
- Bonus: Organization engineering blogs
원문
출처 / GeekNews
알려드립니다
이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.
출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다!
아래쪽에 좋아요를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~
9bow
(박정환)
2
Chip Huyen의 LinkedIn에서 보고 정리해야지 생각하고 까먹었다가 GeekNews에 올라온 내용이 있어 업어왔습니다
다음은 o1으로 정리한 챕터별 링크 및 간략한 소개입니다 (자세한 소개는 원문에 있으니 간략히 살펴보는 용도로만 참고해주세요!):
기본 ML 이론 (ML Theory Fundamentals)
- Stanford CS 231N 강의 노트: 컴퓨터 비전과 CNN 기초 개념을 체계적으로 정리한 강의 노트.
-
Machine Learning: A Probabilistic Perspective(2012): 확률적 접근을 통해 머신러닝의 기초부터 심층 개념까지 다루는 종합 교재.
-
Aman's Math Primers: 미분, 확률 등 ML 기초 수학 개념을 간결히 정리한 자료.
-
ML + Engineering Fundamentals - MLOps 정리: MLOps 개념과 ML 엔지니어링 기초 지식을 모은 리소스 집합.
-
1500-word note: 기본 ML 개념 정리: 목적함수, 학습절차 등 ML 모델 학습의 핵심개념을 짧게 요약.
-
AI Engineering 도서 내 기본 개념 정리
- (2장 Transformer 구조, 3장 Embedding, 7장 Backpropagation 등) 파운데이션 모델 이해에 필수적 개념.
Chapter 1. Planning Applications with Foundation Models
-
GPTs are GPTs(2023, OpenAI): 다양한 직군이 LLM으로부터 얼마나 영향을 받는지 분석한 연구.
-
Applied LLMs (Yan et al., 2024): 1년간 LLM 애플리케이션을 운영하며 얻은 실무 노하우와 팁.
-
Musings on Building a Generative AI Product(LinkedIn, 2024): LLM 기반 제품 개발 과정에서 겪은 문제와 해결책, 평가 전략 공유.
-
Apple’s human interface guideline: ML 기능을 사용자 인터페이스에 자연스럽게 녹여내는 디자인 가이드.
-
LocalLlama subreddit: 로컬 환경에서 LLM 사용 시도와 실험 사례를 공유하는 커뮤니티.
-
State of AI Report: 매년 AI 트렌드, 연구 동향, 산업 현황을 종합적으로 정리한 보고서.
-
16 Changes to the Way Enterprises Are Building and Buying Generative AI(a16z, 2024): 엔터프라이즈 분야에서 생성형 AI 도입/활용 방식의 변화 정리.
-
"Like Having a Really Bad PA"(2016): 대화형 에이전트 사용자 경험 연구, 기대와 현실 차이를 분석한 초기 논문.
-
Stanford Webinar - How AI is Changing Coding and Education(2024): AI 도입 후 미래 교육 방향성 및 CS 교육 변화 논의.
-
Professional artists & AI art 영향 토론 (Reddit): 전문 예술가들이 AI 아트 도입 후 느끼는 변화와 고민 공유.
Chapter 2. Understanding Foundation Models
Training large models
-
GPT-2 논문(2019): 대규모 언어모델이 다중작업을 학습하는 능력을 보인 초기 연구.
-
GPT-3(2020): Few-shot 학습 능력을 보인 대규모 언어 모델의 대표 논문.
-
Gopher(2021, DeepMind): 대형 모델 성능 특성 분석 및 스케일링 방법론 제시.
-
InstructGPT(2022, OpenAI): 인간 피드백 기반으로 모델을 더 유용하게 만드는 교육(Instruction) 전략.
-
Chinchilla(2022, DeepMind): Compute 최적화된 모델 설계와 스케일링 법칙 제안.
-
Qwen(2022, Alibaba): Alibaba의 대규모 언어 모델 기술 리포트.
-
Qwen2(2024, Alibaba): 전작 Qwen 모델의 후속 연구로 성능 개선 및 아키텍처 변경 소개.
-
Constitutional AI(2022, Anthropic): 헌법적 원칙에 따라 모델의 유해성 최소화를 시도한 방법론.
-
LLaMA(2023, Meta): Meta가 공개한 효율적 파운데이션 모델.
-
Llama 2(2023, Meta): LLaMA 후속 버전, 다양한 파인튜닝 및 성능 향상 기법 소개.
-
Llama 3(2024, Meta): 합성 데이터 생성 및 검증 기법 등 차세대 LLM 개발 전략 제시.
-
Yi(2024, 01.AI): 01.AI가 제안한 오픈 파운데이션 모델 기술 보고서.
Scaling laws
-
From bare metal to high performance training(imbue): 대형 모델 훈련을 위한 대규모 GPU 인프라 구축 경험 정리.
-
Scaling Laws for Neural Language Models(2020): 파라미터, 데이터, 계산량 간의 스케일링 관계 초기 연구.
-
Training Compute-Optimal LLMs(Chinchilla, 2022): 데이터 양 vs 모델 규모 균형을 제시한 Chinchilla Scaling Law.
-
Scaling Data-Constrained Language Models(2023): 제한된 데이터에서 반복 학습 시 효용성 연구.
-
Scaling Instruction-Finetuned LMs(2022): 다양한 유형의 인스트럭션 데이터를 통한 스케일링 효과 분석.
-
Beyond Chinchilla-Optimal(2023): 추론 비용을 고려한 새로운 스케일링 전략 제안.
-
AI models are devouring energy(MIT Lincoln Lab, 2023): LLM 훈련에 따른 에너지 소비 증가 및 효율화 방안 제안.
-
Will we run out of data?(2022): 인간 생성 데이터 고갈 문제와 LLM 스케일링 한계 탐색.
기타 흥미자료
-
Evaluating feature steering(Anthropic, 2024): LLM 특징 조작(steering)을 통한 특정 편향 제어 실험.
-
Scaling Monosemanticity(Anthropic, 2024): LLM 내부 중간표현 해석 및 단일의미적 뉴런 분석.
-
spreadsheets-are-all-you-need: GPT-2 전방 패스를 엑셀로 구현한 흥미로운 실험.
-
BertViz: 어텐션 메커니즘을 시각화하는 도구.
Sampling
-
A Guide to Structured Generation Using Constrained Decoding(2024): 특정 형식 출력 위해 제한된 디코딩 전략 활용 방법 정리.
-
Fast JSON Decoding for Local LLMs(LMSYS, 2024): JSON 구조 출력을 빠르게 디코딩하는 최적화 기법.
-
How fast can grammar-structured generation be?(2024): 문법 기반 생성 시 속도 최적화 가능성 탐구.
추가: Sampling for text generation(2024)
- 텍스트 생성 샘플링 전략에 대한 저자의 설명.
Context length and context efficiency
-
Everything About Long Context Fine-tuning(2024): 장문맥 처리 모델 파인튜닝 전반 노하우.
-
Data Engineering for Scaling LMs to 128K Context(2024): 초장문맥(128K) 모델 학습 위한 데이터 엔지니어링 기법.
-
100K context window 활용 정리(2023): 장문맥 효율화 및 최적화 트릭 모음.
-
Extending Context is Hard…but not Impossible(2023): 컨텍스트 길이 확장의 어려움과 가능한 해법 탐색.
-
RoFormer(2021): 로터리 위치 임베딩(RoPE)로 더 긴 컨텍스트 처리 구현.
Chapters 3 + 4. Evaluation Methodology
-
Challenges in evaluating AI systems(Anthropic, 2023): AI 평가의 어려움과 기존 벤치마크의 한계 분석.
-
Holistic Evaluation of Language Models(2022): 언어모델 평가를 다각도로 접근하는 총체적 평가 방법 제안.
-
Beyond the Imitation Game(2022): LLM 능력 측정 위한 다양한 벤치마크 고안과 확장.
-
Open-LLM performances plateauing(Hugging Face, 2024): 오픈 소스 LLM 벤치마크 선정 이유와 현재 한계 분석.
-
Judging LLM-as-a-Judge with MT-Bench(2023): LLM의 판단 능력을 평가하기 위한 멀티태스크 벤치마크.
-
LLM Task-Specific Evals that Do & Don't Work(2024): 특정 업무(태스크)별 평가 전략과 실제 성능 간 괴리 사례.
-
Your AI Product Needs Evals(2024): 제품 단계에서 평가(Eval)의 중요성과 실무 적용 조언.
-
Stop Uploading Test Data in Plain Text(2023): 모델 데이터 오염 방지를 위한 테스트 데이터 취급 가이드.
-
LLMEvaluation Repo(Andrei Lopatenko): 다양한 평가 리소스 집합, 슬라이드에 평가 방법과 도구 소개.
-
Model-Written Evaluations(2022): 모델이 스스로 평가셋을 생성하는 메타-평가 기법.
-
Siren's Song in the AI Ocean(2023): LLM 환각(hallucination) 문제와 이를 측정하는 다양한 방법 검토.
-
OpenRouter's LLM Rankings: 플랫폼 내 LLM 사용량(토큰 규모) 기반의 인기 순위 참조.
Chapter 5. Prompt Engineering
Prompt engineering guides
-
Anthropic's Prompt Engineering Interactive Tutorial: 구글 시트 기반 실습형 튜토리얼로 다양한 프롬프트 전략 실험 가능.
-
Brex Prompt Engineering Guide: 기업 실무에 활용되는 다양한 프롬프트 예시와 가이드.
-
Meta's prompt engineering guide: Meta LLaMA 모델 프롬프트 작성 실전 가이드.
-
Google’s Gemini prompt engineering guide: Google Workspace용 Gemini 모델 프롬프트 최적화 방법.
-
dair-ai/Prompt-Engineering-Guide: 다양한 프롬프트 패턴, 기법, 리소스를 종합한 가이드.
-
[OpenAI, Anthropic, Google 예제 프롬프트 모음](https://platform.openai.com/examples, Library - Anthropic, https://console.cloud.google.com/vertex-ai/generative/prompt-gallery): 주요 모델 제공사의 공식 예제 프롬프트 컬렉션.
-
Larger language models do in-context learning differently(2023): 대형 모델의 In-context Learning 특성 비교 연구.
-
How I think about LLM prompt engineering(2023): 프롬프트 엔지니어링에 대한 Francois Chollet의 관점 및 조언.
Defensive prompt engineering
-
Offensive ML Playbook: 악의적 공격 시나리오와 이에 대한 방어 전략을 정리한 자료.
-
The Instruction Hierarchy(2024, OpenAI): 프롬프트 간 우선순위(위계)를 통해 안전성 강화하는 전략.
-
Not what you've signed up for(2023): 간접적 프롬프트 주입 공격 사례 및 방어 방안 제시.
-
Exploiting Programmatic Behavior of LLMs(2023): LLM의 프로그래밍적 동작을 악용한 공격 벡터 분석.
-
Scalable Extraction of Training Data(2023): 대규모 모델에서 학습 데이터 유출 가능성과 그 확장성 연구.
-
How Johnny Can Persuade LLMs to Jailbreak Them(2024): 설득 전략을 통한 LLM 방어 우회(jailbreak) 시도.
-
LLM Security: LLM 보안 관련 연구 자료 모음.
-
[PyRIT, Garak, persuasive_jailbreaker, GPTFUZZER, MasterKey](GitHub - Azure/PyRIT: The Python Risk Identification Tool for generative AI (PyRIT) is an open source framework built to empower security professionals and engineers to proactively identify risks in generative AI systems., GitHub - NVIDIA/garak: the LLM vulnerability scanner, GitHub - CHATS-lab/persuasive_jailbreaker: Persuasive Jailbreaker: we can persuade LLMs to jailbreak them!, [2309.10253] GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts, [2307.08715] MasterKey: Automated Jailbreak Across Multiple Large Language Model Chatbots): 공격 자동화 툴 및 기법 컬렉션.
-
Llama Guard(2023, Meta): 입력/출력단에서 안전성 제어하는 LLM 방어 시스템.
-
AI Security Overview(AI Exchange): AI 시스템 전반의 위협 모델과 보안 개념 정리.
Chapter 6. RAG and Agents
RAG (Retrieval-Augmented Generation)
-
Reading Wikipedia to Answer Open-Domain Questions(2017): 오픈 도메인 QA를 위해 위키 백과를 활용한 Retrieval+Generation 시초 연구.
-
RAG(2020): 추론 시 외부 정보 검색(Retrieve)을 접목한 획기적 LLM 아키텍처 제안.
-
Retrieval-Augmented Generation for LLMs: A Survey(2023): RAG 관련 최신 연구 동향, 기법, 응용 분야 정리.
-
Introducing Contextual Retrieval(2024, Anthropic): 문맥에 맞는 고품질 검색을 위해 데이터 준비 및 활용 전략 논의.
-
[Chunking 전략(Pinecone, Langchain)](Chunking Strategies for LLM Applications | Pinecone, Text Splitters | 🦜️🔗 Langchain): 긴 문서를 효율적으로 쪼개고 검색하기 위한 기법.
-
The 5 Levels Of Text Splitting For Retrieval(2024): 텍스트 분할 레벨별로 RAG 성능 향상 전략 소개.
-
GPT-4 + Streaming Data = Real-Time Generative AI(2023): 실시간 스트리밍 데이터를 결합한 RAG 패턴 구현 사례.
-
Vector Index Basics(Zilliz, 2023): 벡터 인덱싱 및 벡터 DB의 기초 개념 정리.
-
A deep dive into the world’s smartest email AI(2023): 이메일 어시스턴트를 RAG로 구현한 사례 연구.
-
Introduction to Information Retrieval(2008): 정보 검색 이론 기초를 다룬 고전적 교재.
Agents
-
Chameleon(2023): LLM을 플래너로 활용해 툴 체인을 조합하는 방법 분석.
-
Generative Agents(2023): 인간 유사 행동을 시뮬레이션하는 생성형 에이전트 개념 제안.
-
Toolformer(2023): LLM이 스스로 툴 사용 방법을 학습해 문제 해결능력 향상.
-
Gorilla & Berkeley Function Calling Leaderboard 관련 논문, 리더보드: 함수 호출 정확도 벤치마크로 에이전트 툴 선택 능력 평가.
-
AgentBench(ICLR'24): LLM 기반 에이전트 평가를 위한 종합 벤치마크.
-
WebGPT(2021): 웹 브라우징 능력을 탑재한 LLM으로 정보 검색 강화.
-
ReAct(2022): 추론(Reasoning)과 행동(Acting)을 결합한 LLM 프롬프트 전략.
-
Reflexion(2023): 언어 에이전트가 스스로 피드백을 통해 성능을 개선하는 방식 제안.
-
Voyager(2023): 오픈월드 환경(Minecraft)에서 자기주도적으로 학습하는 LLM 에이전트.
-
Artificial Intelligence: A Modern Approach(2020): 고전적 AI 기법 및 탐색전략 등 에이전트 설계 이론의 근간을 담은 명저.
Chapter 7. Finetuning
-
Fine-tuning GPT-3 for classification(OpenAI): GPT-3 파인튜닝을 통해 분류 성능 향상하는 실무 가이드.
-
PEFT, LoRA, QLoRA, LLaMA-Adapter 정리(2023): 파라미터 효율적 파인튜닝 기법 정리 및 비교.
-
Fine-Tuning or Retrieval?(2024): 특정 목적 달성 시 파인튜닝과 RAG 중 어떤 전략이 나은지 비교.
-
PEFT 원조 논문(2019): Adapter 기반 미세조정 개념을 제시한 초기 연구.
-
LoRA(2021): 메모리/계산량을 줄이는 저랭크 어댑터 기반 파인튜닝 기법.
-
QLoRA(2023): 양자화(Quantization) 기반 파인튜닝으로 자원 효율성 극대화.
-
Direct Preference Optimization(Anyscale, 2024): 합성데이터를 이용한 사용자 선호도 직접 최적화 기법.
-
Transformer Inference Arithmetic(2022): 추론 시 메모리/계산량 계산법 및 최적화 개념 정리.
-
Transformer Math 101(EleutherAI, 2023): 트랜스포머 훈련 비용 계산, 메모리 요구사항 정리.
-
Scaling Down to Scale Up(2023): 다양한 파인튜닝 기법 성능 비교해 상황별 최적 접근 제안.
-
파인튜닝 경험 공유(Reddit): 실무자가 LLM 파인튜닝을 시작하며 얻은 교훈 정리.
-
Train With Mixed Precision(NVIDIA Docs): FP16 등 혼합 정밀도 훈련으로 자원 사용 최적화 방법 소개.
Chapter 8. Dataset Engineering
-
Annotation Best Practices(Grammarly, 2022): 안정적이고 일관된 어노테이션을 위한 실무 가이드.
-
Scaling Instruction-Finetuned LMs(2022): 다양한 인스트럭션 데이터가 LLM 성능에 미치는 영향 분석.
-
The Curse of Recursion(2023): 생성된 데이터로 재훈련 시 모델 퇴보 현상을 다룬 연구.
-
The Llama 3 Herd of Models(2024): 합성 데이터 생성 및 검증 전략을 상세히 다룬 논문.
-
Instruction Tuning with GPT-4(2023): GPT-4를 활용한 인스트럭션 기반 데이터 생성 기법.
-
Best Practices and Lessons Learned on Synthetic Data(DeepMind, 2024): 합성 데이터 활용에 대한 노하우와 주의점 정리.
-
UltraChat(2023): 고품질 대화 데이터셋 구축 위한 접근법 제안.
-
Deduplicating Training Data(2021): 훈련 데이터 중복 제거로 모델 성능 향상하는 연구.
-
Can LLMs learn from a single example?(2023): 단 한 개 예제만으로도 모델 성능 변화 관찰하는 실험.
-
LIMA(2023): 소량(1,000개 내외)의 고품질 예시만으로도 모델 정렬 가능함을 보인 연구.
Public datasets
-
Hugging Face datasets: 다양한 NLP/NLU 데이터셋 공개 저장소.
-
Kaggle datasets: 풍부한 실무용 데이터셋 공유 플랫폼.
-
Google Dataset Search: 데이터셋 검색 전용 엔진.
-
[Data.gov(미국), data.gov.in(인도)](https://data.gov, https://data.gov.in): 정부 공개데이터 포털로 방대한 공공 데이터 제공.
-
UMich ICPSR: 사회과학 관련 대규모 데이터 아카이브.
-
[UC Irvine ML Repository, OpenML](UCI Machine Learning Repository, https://www.openml.org/): 고전적 ML 데이터셋 저장소.
-
Open Data Network: 다양한 오픈데이터 포털 간 메타 검색.
-
AWS Open Data: AWS에서 호스팅하는 대규모 공개 데이터셋.
-
TensorFlow datasets: TensorFlow용으로 간단히 로드 가능한 데이터셋 모음.
-
Eleuther AI’s lm-evaluation-harness: LLM 평가용 벤치마크 데이터셋. 소규모 파인튜닝에도 활용 가능.
-
Stanford SNAP: 대규모 그래프 데이터셋 컬렉션.
Chapter 9. Inference Optimization
-
Mastering LLM Techniques: Inference Optimization(NVIDIA, 2023): LLM 추론 최적화 개요 및 다양한 가속 전략 정리.
-
Accelerating Generative AI with PyTorch II(2023): PyTorch 기반 LLM 추론 가속 실험 결과 및 방법론 소개.
-
Efficiently Scaling Transformer Inference(2022): 대규모 추론 환경서 레이턴시/비용 절감 전략 제안.
-
Optimizing AI Inference at Character.AI(2024): Character.AI가 시도한 어텐션 최적화, 캐시 개선 등 추론 최적화 방법.
-
GPU optimization workshop 영상: OpenAI, NVIDIA, PyTorch, Voltron Data 등이 공유하는 GPU 최적화 노하우.
-
Essence VC Q1 Virtual Conference: LLM Inference(영상): vLLM, TVM, Modal Labs 등 다양한 LLM 추론 프레임워크 논의.
-
Techniques for KV Cache Optimization(2024): 가장 비용 큰 부분(KV 캐시) 최적화 방법.
-
Speculative Sampling(2023, DeepMind): 더 빠른 텍스트 생성 위해 스페큘레이티브 샘플링 기법 제안.
-
DistServe(2024): Inference 최적화를 위한 Prefill-Decode 분리 아키텍처 제안.
-
The Best GPUs for Deep Learning in 2023(Tim Dettmers): 딥러닝 작업별 GPU 선택 가이드.
-
Analysis of Large-Scale Multi-Tenant GPU Clusters(2019): 대형 GPU 클러스터 활용 시 스케줄링, 리소스 공유 문제 분석.
-
AI Datacenter Energy Dilemma(SemiAnalysis, 2024): AI 시대 데이터센터 운영상의 에너지 문제 분석.
-
ML 컴파일러 및 옵티마이저 개요(2018): ML 컴파일러 개념 및 모델 최적화 과정 기초 설명.
Chapter 10. AI Engineering Architecture and User Feedback
-
Google SRE Book Chapter 4: Monitoring: 대규모 서비스 모니터링 핵심 개념과 접근방식 정리.
-
Guidelines for Human-AI Interaction(Microsoft Research): AI 시스템 디자인 시 사용자와 상호작용 전략 제안(18개 가이드).
-
Peering Through Preferences(2023): 피드백 프로토콜에 따라 모델 정렬 결과가 어떻게 달라지는지 분석.
-
Feedback-Based Self-Learning in Large-Scale Conversational AI(2019, Amazon): 대규모 대화형 에이전트에서 사용자 피드백으로 성능 개선 전략.
-
Implicit user feedback for NLU in large-scale Conversational AI(2020, Amazon): 암묵적 사용자 피드백 활용해 자연어 이해 성능 개선 방법.
부록: 조직별 엔지니어링 블로그(Organization Engineering Blogs)
-
LinkedIn Engineering Blog: LinkedIn 기술팀이 공유하는 서비스 아키텍처와 ML 활용 사례.
-
DoorDash Engineering Blog: DoorDash의 데이터 인프라, 추천, 물류 최적화 등 엔지니어링 사례.
-
Uber Engineering Blog: 대규모 모빌리티 플랫폼 기술, ML 모델, 인프라 운영 관련 글.
-
The Unofficial Google Data Science Blog: 구글 데이터 사이언티스트들이 비공식적으로 공유하는 노하우.
-
Pinterest Engineering Blog: 이미지 검색, 추천 알고리즘 등 Pinterest의 ML/엔지니어링 경험.
-
Netflix TechBlog: 대규모 스트리밍 인프라, 추천시스템, A/B 테스트 등 사례 공유.
-
LMSYS Blog: LLM 관련 최신 연구, 벤치마크, 툴 개발 상황 정리.
-
Anyscale Blog: Ray 기반 분산 ML 시스템 운영 및 모범사례 소개.
-
Databricks Blog (Data Science and ML): 데이터브릭스 플랫폼 상 데이터/ML 엔지니어링 사례 연구.
-
Together Blog: LLAMA 등 오픈소스 LLM 활용 및 협업형 AI 개발 흐름 소개.
-
Duolingo Engineering: 언어학습 앱의 모델 활용, 실험, UX 개선 방법 공유.
1개의 좋아요