|
MAI-Thinking-1 기술 보고서: 데이터 파이프라인부터 RL 인프라까지, 프런티어 모델 학습의 전 과정을 해부한 '힐 클라이밍 머신' (feat. Microsoft AI)
|
|
0
|
228
|
6월 8, 2026
|
|
OpenAI, GPT-5.1부터 GPT-5.5까지 확산된 '고블린' 말투에 대한 분석 결과 공개
|
|
0
|
717
|
5월 4, 2026
|
|
RLHF Book: 인간 피드백 기반 강화학습(RLHF)과 사후 학습(Post-training) 전반을 다루는 오픈소스 교재 및 코드 라이브러리
|
|
1
|
343
|
5월 4, 2026
|
|
LATENT: 불완전한 모션 캡처 데이터로 휴머노이드 로봇에 테니스 동작을 학습시키는 강화학습 파이프라인
|
|
0
|
382
|
4월 6, 2026
|
|
TTT-Discover, 추론(Test-time) 중 모델을 실시간으로 학습시켜 과학 문제 해결 성능을 개선하는 방식에 대한 연구 (feat. Google DeepMind, NVIDIA, Stanford)
|
|
2
|
583
|
2월 7, 2026
|
|
OAT 🌾: 대규모 언어 모델(LLM)의 온라인 정렬을 위한 연구 친화적 프레임워크 (Online Alignment Toolkit for LLMs)
|
|
0
|
227
|
10월 9, 2025
|
|
[2025/09/22 ~ 28] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
2
|
1192
|
9월 29, 2025
|
|
AMD Developer Cloud 사용 후기 (LLM inference / SFT / RL)
|
|
0
|
234
|
8월 25, 2025
|
|
[2025/07/21 ~ 27] 이번 주에 살펴볼 만한 AI/ML 논문 모음
|
|
0
|
3388
|
7월 28, 2025
|
|
GLM-4.1V-Thinking: 강화학습 기반의 범용 멀티모달 추론 모델 (feat. Zhipu AI)
|
|
0
|
542
|
7월 7, 2025
|
|
GRPO:Zero, GRPO를 간단하고 효율적으로 구성한 LLM용 강화학습 프레임워크
|
|
0
|
1773
|
4월 14, 2025
|
|
Mathematical Foundation of RL, 강화학습의 수학적 기초 도서 및 강의 무료 공개
|
|
0
|
2493
|
3월 11, 2025
|
|
[Deep Research] 강화학습의 개념과 주요 기법 분석, LLM에서의 활용 및 발전 방향에 대한 보고서
|
|
1
|
4446
|
2월 16, 2025
|
|
SFT Memorizes, RL Generalizes: Foundation Model의 사후 학습 방법에 대한 비교 연구
|
|
0
|
950
|
2월 4, 2025
|
|
AlphaChip: 강화학습(RL) 기반의 칩 배치 생성 방법에 대한 연구 (feat. Google)
|
|
0
|
559
|
10월 4, 2024
|
|
LeanRL, PyTorch 기반의 강화학습(RL)을 위한 경량 라이브러리 (feat. CleanRL)
|
|
0
|
292
|
9월 20, 2024
|
|
LeRobot: Hugging Face가 제공하는 로봇 학습 모델 / 데이터셋 / 튜토리얼
|
|
0
|
3694
|
9월 3, 2024
|
|
[GN] "RLHF는 RL의 작은 부분일 뿐입니다." - Andrej Karpathy
|
|
0
|
294
|
8월 9, 2024
|
|
LlamaGym: OpenAI Gym 기반의 LLM 에이전트 파인튜닝
|
|
0
|
390
|
3월 23, 2024
|