llm-distillation
글 | 댓글 | 조회수 | 활동 | |
---|---|---|---|---|
DeepSeek-R1, 지도학습 기반 파인튜닝(SFT) 대신, 강화학습(RL)으로 추론 능력을 개선하여 추론 능력을 강화한 대규모 언어 모델 |
![]() ![]() |
2 | 5189 | 1월 29, 2025 |
minitron: 15B -> 8B -> 4B 더 작고 효율적으로 정제한 모델 (feat. NVIDIA)\ |
![]() |
0 | 505 | 8월 26, 2024 |
[2024/07/15 ~ 07/21] 이번 주의 주요 ML 논문 (Top ML Papers of the Week) |
![]() |
0 | 415 | 7월 22, 2024 |