주제에 reinforcement-learning 태그가 달렸습니다

글	댓글	조회수	활동
GLM-4.1V-Thinking: 강화학습 기반의 범용 멀티모달 추론 모델 (feat. Zhipu AI) 읽을거리&정보공유 rlhf , reinforcement-learning , tsinghua-university , rl-with-verifiable-rewards , glm-4-1v-thinking , zhipu-ai , rl-with-curriculum-sampling	0	247	7월 7, 2025
GRPO:Zero, GRPO를 간단하고 효율적으로 구성한 LLM용 강화학습 프레임워크 읽을거리&정보공유 reinforcement-learning , grpo-zero , grpo	0	1257	4월 14, 2025
Mathematical Foundation of RL, 강화학습의 수학적 기초 도서 및 강의 무료 공개 읽을거리&정보공유 pdf , free-course , free-ebook , reinforcement-learning , mathematical-foundation-of-reinforcement-learning	0	2154	3월 11, 2025
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서 읽을거리&정보공유 report , reinforcement-learning , deep-research , rl-in-llm	1	2547	2월 16, 2025
SFT Memorizes, RL Generalizes: Foundation Model의 사후 학습 방법에 대한 비교 연구 읽을거리&정보공유 paper , foundation-model , llm-generalization , reinforcement-learning , supervised-fine-tuning , sft-memorizes-rl-generalizes	0	635	2월 4, 2025
AlphaChip: 강화학습(RL) 기반의 칩 배치 생성 방법에 대한 연구 (feat. Google) 읽을거리&정보공유 google , tpu , ai-chip , reinforcement-learning , circuit-design , alphachip , floorplan , markov-decision-process , edge-gnn , replace , trilium	0	295	10월 4, 2024
LeanRL, PyTorch 기반의 강화학습(RL)을 위한 경량 라이브러리 (feat. CleanRL) 읽을거리&정보공유 pytorch , framework , reinforcement-learning , leanrl , cleanrl , pytorch-labs	0	219	9월 20, 2024
LeRobot: Hugging Face가 제공하는 로봇 학습 모델 / 데이터셋 / 튜토리얼 읽을거리&정보공유 huggingface , apache-20-license , robot , reinforcement-learning , lerobot , robot-arm , koch , aloha , simxarm , pusht , imitation-learning	0	1624	9월 3, 2024
[GN] "RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy 읽을거리&정보공유 geeknews , rlhf , andrej-karpathy , hallucination , reinforcement-learning , reducing-hallucination	0	237	8월 9, 2024
LlamaGym: OpenAI Gym 기반의 LLM 에이전트 파인튜닝 읽을거리&정보공유 llm-agent , llamagym , openai-gym , reinforcement-learning , agent-finetuning	0	350	3월 23, 2024