DeepSeek-R1, 지도학습 기반 파인튜닝(SFT) 대신, 강화학습(RL)으로 추론 능력을 개선하여 추론 능력을 강화한 대규모 언어 모델

9bow · 1월 28, 2025, 2:13오전

Transformer와 GPT의 동작 원리를 시각화해서 설명한 글들로 유명한 Jay Alammar가 새롭게 DeepSeek-R1 모델을 설명하는 글을 공개했습니다.

(한 번씩 훑어보시면 좋을 것 같아 여기와 Hugging Face의 Open R1 소개 글에 덧글로 남깁니다)