|
OAT 🌾: 대규모 언어 모델(LLM)의 온라인 정렬을 위한 연구 친화적 프레임워크 (Online Alignment Toolkit for LLMs)
|
|
0
|
178
|
10월 9, 2025
|
|
[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
2
|
1105
|
9월 29, 2025
|
|
AMD Developer Cloud 사용 후기 (LLM inference / SFT / RL)
|
|
0
|
195
|
8월 25, 2025
|
|
[2025/07/21 ~ 27] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
0
|
3354
|
7월 28, 2025
|
|
GLM-4.1V-Thinking: 강화학습 기반의 범용 멀티모달 추론 모델 (feat. Zhipu AI)
|
|
0
|
427
|
7월 7, 2025
|
|
GRPO:Zero, GRPO를 간단하고 효율적으로 구성한 LLM용 강화학습 프레임워크
|
|
0
|
1604
|
4월 14, 2025
|
|
Mathematical Foundation of RL, 강화학습의 수학적 기초 도서 및 강의 무료 공개
|
|
0
|
2336
|
3월 11, 2025
|
|
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서
|
|
1
|
3887
|
2월 16, 2025
|
|
SFT Memorizes, RL Generalizes: Foundation Model의 사후 학습 방법에 대한 비교 연구
|
|
0
|
831
|
2월 4, 2025
|
|
AlphaChip: 강화학습(RL) 기반의 칩 배치 생성 방법에 대한 연구 (feat. Google)
|
|
0
|
446
|
10월 4, 2024
|
|
LeanRL, PyTorch 기반의 강화학습(RL)을 위한 경량 라이브러리 (feat. CleanRL)
|
|
0
|
267
|
9월 20, 2024
|
|
LeRobot: Hugging Face가 제공하는 로봇 학습 모델 / 데이터셋 / 튜토리얼
|
|
0
|
2793
|
9월 3, 2024
|
|
[GN] "RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy
|
|
0
|
267
|
8월 9, 2024
|
|
LlamaGym: OpenAI Gym 기반의 LLM 에이전트 파인튜닝
|
|
0
|
369
|
3월 23, 2024
|