주제에 reinforcement-learning 태그가 달렸습니다

글	댓글	조회수	활동
MAI-Thinking-1 기술 보고서: 데이터 파이프라인부터 RL 인프라까지, 프런티어 모델 학습의 전 과정을 해부한 '힐 클라이밍 머신' (feat. Microsoft AI) 읽을거리&정보공유 technical-report , paper , reinforcement-learning , llm , microsoft , moe , pre-training , research	0	228	6월 8, 2026
OpenAI, GPT-5.1부터 GPT-5.5까지 확산된 '고블린' 말투에 대한 분석 결과 공개 읽을거리&정보공유 gpt-5-5 , alignment , reinforcement-learning , openai , post-training , codex , behavior-audit , goblin	0	717	5월 4, 2026
RLHF Book: 인간 피드백 기반 강화학습(RLHF)과 사후 학습(Post-training) 전반을 다루는 오픈소스 교재 및 코드 라이브러리 읽을거리&정보공유 reinforcement-learning , post-training , rlhf , dpo , llm-alignment , policy-gradient , open-source-book , course , pdf , epub	1	343	5월 4, 2026
LATENT: 불완전한 모션 캡처 데이터로 휴머노이드 로봇에 테니스 동작을 학습시키는 강화학습 파이프라인 읽을거리&정보공유 reinforcement-learning , humanoid-robot , latent , motion-capture , sim-to-real , ppo	0	382	4월 6, 2026
TTT-Discover, 추론(Test-time) 중 모델을 실시간으로 학습시켜 과학 문제 해결 성능을 개선하는 방식에 대한 연구 (feat. Google DeepMind, NVIDIA, Stanford) 읽을거리&정보공유 nvidia , stanford , deepmind , reinforcement-learning , test-time-compute , alphaevolve , ttt-discover , learning-to-discover-at-test-time , test-time-training , scientific-discovery , ai4science , best-of-n , predictor-upper-confidence-bound-applied-to-trees , state-reuse , entropic-objective , adaptive-beta-scheduling , the-bitter-lesson , paper	2	583	2월 7, 2026
OAT 🌾: 대규모 언어 모델(LLM)의 온라인 정렬을 위한 연구 친화적 프레임워크 (Online Alignment Toolkit for LLMs) 읽을거리&정보공유 rlhf , llm-alignment , reinforcement-learning , online-alignment , alignment-framework , oat , sample-efficient-alignment-for-llms , online-alignment-for-llms , active-learning	0	227	10월 9, 2025
[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음 읽을거리&정보공유 paper , survey-paper , reinforcement-learning , deep-research , large-reasoning-models , ai-ml-papers-of-the-week , universal-deep-research , alphaagents , multi-agent-consensus-alignment , 1-bit-is-all-we-need , time-series-foundation-models , parathinker , parallel-thinking , retrieval-and-structuring-augmented-generation , parallel-r1 , paper2agent	2	1192	9월 29, 2025
AMD Developer Cloud 사용 후기 (LLM inference / SFT / RL) 읽을거리&정보공유 amd-gpu , mi300x , reinforcement-learning , supervised-fine-tuning , amd-developer-cloud	0	234	8월 25, 2025
[2025/07/21 ~ 27] 이번 주에 살펴볼 만한 AI/ML 논문 모음 읽을거리&정보공유 paper , seal , survey-paper , continual-learning , benchmark , reinforcement-learning , rl-with-verifiable-rewards , grpo , ai-ml-papers-of-the-week , inverse-scaling , ttd-dr , pt-moe , one-shot-rlvr , tree-rl , absencebench , verbalization-finetuning , multimodal-multilingual-model	0	3388	7월 28, 2025
GLM-4.1V-Thinking: 강화학습 기반의 범용 멀티모달 추론 모델 (feat. Zhipu AI) 읽을거리&정보공유 rlhf , reinforcement-learning , tsinghua-university , rl-with-verifiable-rewards , glm-4-1v-thinking , zhipu-ai , rl-with-curriculum-sampling	0	542	7월 7, 2025
GRPO:Zero, GRPO를 간단하고 효율적으로 구성한 LLM용 강화학습 프레임워크 읽을거리&정보공유 reinforcement-learning , grpo-zero , grpo	0	1773	4월 14, 2025
Mathematical Foundation of RL, 강화학습의 수학적 기초 도서 및 강의 무료 공개 읽을거리&정보공유 pdf , free-course , free-ebook , reinforcement-learning , mathematical-foundation-of-reinforcement-learning	0	2493	3월 11, 2025
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서 읽을거리&정보공유 report , reinforcement-learning , deep-research , rl-in-llm	1	4446	2월 16, 2025
SFT Memorizes, RL Generalizes: Foundation Model의 사후 학습 방법에 대한 비교 연구 읽을거리&정보공유 paper , foundation-model , llm-generalization , reinforcement-learning , supervised-fine-tuning , sft-memorizes-rl-generalizes	0	950	2월 4, 2025
AlphaChip: 강화학습(RL) 기반의 칩 배치 생성 방법에 대한 연구 (feat. Google) 읽을거리&정보공유 google , tpu , ai-chip , reinforcement-learning , circuit-design , alphachip , floorplan , markov-decision-process , edge-gnn , replace , trilium	0	559	10월 4, 2024
LeanRL, PyTorch 기반의 강화학습(RL)을 위한 경량 라이브러리 (feat. CleanRL) 읽을거리&정보공유 pytorch , framework , reinforcement-learning , leanrl , cleanrl , pytorch-labs	0	292	9월 20, 2024
LeRobot: Hugging Face가 제공하는 로봇 학습 모델 / 데이터셋 / 튜토리얼 읽을거리&정보공유 huggingface , apache-20-license , robot , reinforcement-learning , lerobot , robot-arm , koch , aloha , simxarm , pusht , imitation-learning	0	3694	9월 3, 2024
[GN] "RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy 읽을거리&정보공유 geeknews , rlhf , andrej-karpathy , hallucination , reinforcement-learning , reducing-hallucination	0	294	8월 9, 2024
LlamaGym: OpenAI Gym 기반의 LLM 에이전트 파인튜닝 읽을거리&정보공유 llm-agent , llamagym , openai-gym , reinforcement-learning , agent-finetuning	0	390	3월 23, 2024

MAI-Thinking-1 기술 보고서: 데이터 파이프라인부터 RL 인프라까지, 프런티어 모델 학습의 전 과정을 해부한 '힐 클라이밍 머신' (feat. Microsoft AI)

읽을거리&정보공유

technical-report , paper , reinforcement-learning , llm , microsoft , moe , pre-training , research

0

228

6월 8, 2026

OpenAI, GPT-5.1부터 GPT-5.5까지 확산된 '고블린' 말투에 대한 분석 결과 공개

읽을거리&정보공유

gpt-5-5 , alignment , reinforcement-learning , openai , post-training , codex , behavior-audit , goblin

0

717

5월 4, 2026

RLHF Book: 인간 피드백 기반 강화학습(RLHF)과 사후 학습(Post-training) 전반을 다루는 오픈소스 교재 및 코드 라이브러리

읽을거리&정보공유

reinforcement-learning , post-training , rlhf , dpo , llm-alignment , policy-gradient , open-source-book , course , pdf , epub

1

343

5월 4, 2026

LATENT: 불완전한 모션 캡처 데이터로 휴머노이드 로봇에 테니스 동작을 학습시키는 강화학습 파이프라인

읽을거리&정보공유

reinforcement-learning , humanoid-robot , latent , motion-capture , sim-to-real , ppo

0

382

4월 6, 2026

TTT-Discover, 추론(Test-time) 중 모델을 실시간으로 학습시켜 과학 문제 해결 성능을 개선하는 방식에 대한 연구 (feat. Google DeepMind, NVIDIA, Stanford)

읽을거리&정보공유

nvidia , stanford , deepmind , reinforcement-learning , test-time-compute , alphaevolve , ttt-discover , learning-to-discover-at-test-time , test-time-training , scientific-discovery , ai4science , best-of-n , predictor-upper-confidence-bound-applied-to-trees , state-reuse , entropic-objective , adaptive-beta-scheduling , the-bitter-lesson , paper

2

583

2월 7, 2026

OAT 🌾: 대규모 언어 모델(LLM)의 온라인 정렬을 위한 연구 친화적 프레임워크 (Online Alignment Toolkit for LLMs)

읽을거리&정보공유

rlhf , llm-alignment , reinforcement-learning , online-alignment , alignment-framework , oat , sample-efficient-alignment-for-llms , online-alignment-for-llms , active-learning

0

227

10월 9, 2025

[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음

읽을거리&정보공유

paper , survey-paper , reinforcement-learning , deep-research , large-reasoning-models , ai-ml-papers-of-the-week , universal-deep-research , alphaagents , multi-agent-consensus-alignment , 1-bit-is-all-we-need , time-series-foundation-models , parathinker , parallel-thinking , retrieval-and-structuring-augmented-generation , parallel-r1 , paper2agent

2

1192

9월 29, 2025

AMD Developer Cloud 사용 후기 (LLM inference / SFT / RL)

읽을거리&정보공유

amd-gpu , mi300x , reinforcement-learning , supervised-fine-tuning , amd-developer-cloud

0

234

8월 25, 2025

[2025/07/21 ~ 27] 이번 주에 살펴볼 만한 AI/ML 논문 모음

읽을거리&정보공유

paper , seal , survey-paper , continual-learning , benchmark , reinforcement-learning , rl-with-verifiable-rewards , grpo , ai-ml-papers-of-the-week , inverse-scaling , ttd-dr , pt-moe , one-shot-rlvr , tree-rl , absencebench , verbalization-finetuning , multimodal-multilingual-model

0

3388

7월 28, 2025

GLM-4.1V-Thinking: 강화학습 기반의 범용 멀티모달 추론 모델 (feat. Zhipu AI)

읽을거리&정보공유

rlhf , reinforcement-learning , tsinghua-university , rl-with-verifiable-rewards , glm-4-1v-thinking , zhipu-ai , rl-with-curriculum-sampling

0

542

7월 7, 2025

GRPO:Zero, GRPO를 간단하고 효율적으로 구성한 LLM용 강화학습 프레임워크

읽을거리&정보공유

reinforcement-learning , grpo-zero , grpo