GRPO:Zero, GRPO를 간단하고 효율적으로 구성한 LLM용 강화학습 프레임워크
|
|
0
|
641
|
4월 14, 2025
|
Mathematical Foundation of RL, 강화학습의 수학적 기초 도서 및 강의 무료 공개
|
|
0
|
1967
|
3월 11, 2025
|
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서
|
|
1
|
1707
|
2월 16, 2025
|
SFT Memorizes, RL Generalizes: Foundation Model의 사후 학습 방법에 대한 비교 연구
|
|
0
|
514
|
2월 4, 2025
|
AlphaChip: 강화학습(RL) 기반의 칩 배치 생성 방법에 대한 연구 (feat. Google)
|
|
0
|
216
|
10월 4, 2024
|
LeanRL, PyTorch 기반의 강화학습(RL)을 위한 경량 라이브러리 (feat. CleanRL)
|
|
0
|
195
|
9월 20, 2024
|
LeRobot: Hugging Face가 제공하는 로봇 학습 모델 / 데이터셋 / 튜토리얼
|
|
0
|
798
|
9월 3, 2024
|
[GN] "RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy
|
|
0
|
224
|
8월 9, 2024
|
LlamaGym: OpenAI Gym 기반의 LLM 에이전트 파인튜닝
|
|
0
|
334
|
3월 23, 2024
|