파이토치 한국 사용자 모임

distilled-models

글		댓글	조회수	활동
DeepSeek-R1, 지도학습 기반 파인튜닝(SFT) 대신, 강화학습(RL)으로 추론 능력을 개선하여 추론 능력을 강화한 대규모 언어 모델 읽을거리&정보공유 deepseek , llm-distillation , deepseek-r1 , deepseek-r1-zero , distilled-models		2	5695	1월 29, 2025