zero-3
글 | 댓글 | 조회수 | 활동 | |
---|---|---|---|---|
Minimal-R1, H100 서버 1대에서 효율적으로 DeepSeek-R1 모델을 재현하기 위한 프로젝트 | 0 | 307 | 1월 31, 2025 | |
[GN] DeepSpeed Ulysses: 긴 시퀀스 트랜스포머 모델 학습을 위한 시스템 최적화 | 0 | 315 | 8월 31, 2023 |
글 | 댓글 | 조회수 | 활동 | |
---|---|---|---|---|
Minimal-R1, H100 서버 1대에서 효율적으로 DeepSeek-R1 모델을 재현하기 위한 프로젝트 | 0 | 307 | 1월 31, 2025 | |
[GN] DeepSpeed Ulysses: 긴 시퀀스 트랜스포머 모델 학습을 위한 시스템 최적화 | 0 | 315 | 8월 31, 2023 |