distilled-models
글 | 댓글 | 조회수 | 활동 | |
---|---|---|---|---|
DeepSeek-R1, 지도학습 기반 파인튜닝(SFT) 대신, 강화학습(RL)으로 추론 능력을 개선하여 추론 능력을 강화한 대규모 언어 모델 |
![]() ![]() |
2 | 5261 | 1월 29, 2025 |
글 | 댓글 | 조회수 | 활동 | |
---|---|---|---|---|
DeepSeek-R1, 지도학습 기반 파인튜닝(SFT) 대신, 강화학습(RL)으로 추론 능력을 개선하여 추론 능력을 강화한 대규모 언어 모델 |
![]() ![]() |
2 | 5261 | 1월 29, 2025 |