rLLM, 대규모 언어 모델을 위한 강화학습(RL) 민주화 프로젝트 (feat. DeepCoder)

9bow · 4월 10, 2025, 2:00오전

rLLM 소개

AgenticaProject에서 대규모 언어 모델(LLM)을 위한 강화 학습을 민주화하기 위해 rLLM이라는 오픈 소스 프로젝트를 공개했습니다. 이 프로젝트는 DeepSeek R1 및 OpenAI O1/O3 모델을 실제 작업에서 재현하는 것을 목표로 합니다.

rLLM은 대규모 언어 모델에 강화 학습을 적용하여 성능을 향상시키는 것을 목표로 하는 오픈소스 프로젝트입니다. 이 프로젝트는 학습 스크립트, 모델, 시스템, 데이터셋, 로그 등을 모두 공개하여 누구나 접근하고 활용할 수 있도록 지원합니다. 최근에는 DeepCoder-14B-Preview 모델을 공개하여 LiveCodeBench에서 60.6%의 Pass@1 정확도를 달성하며, 이는 o3-mini-2025-01-031 (Low) 및 o1-2024-12-17 모델과 동등한 성능입니다. 또한, 이전에는 DeepScaleR-1.5B-Preview라는 1.5B 규모 모델도 공개했었고, 이는 AIME 데이터셋에서 43.1% 정확도를 기록하며 O1-preview 모델을 능가하는 성능을 보여줬습니다.

rLLM은 기존의 LLM 학습 방법과 달리 강화 학습을 적용하여 모델의 성능을 향상시키는 접근 방식을 취합니다. 특히, DeepSeek R1 및 OpenAI O1/O3 모델과의 성능 비교를 통해 그 효과를 입증하고 있습니다. 이러한 방식은 전통적인 지도 학습 방식과 비교하여 모델이 더 복잡한 작업을 수행할 수 있도록 돕습니다.

모델	용도	파라미터	성능 (대표 벤치마크)
DeepCoder-14B	코드 생성	14B	LiveCodeBench 60.6% Pass@1
DeepScaleR-1.5B	일반 LLM	1.5B	AIME 43.1% Pass@1
OpenAI O1	일반 LLM	비공개	LiveCodeBench 60.6% 수준
DeepSeek R1	강화학습 LLM	공개	비교용 기준 모델

rLLM의 강점은 이러한 고성능 모델들을 직접 재현할 수 있게 해주는 "학습 파이프라인 전체"를 공개한 점입니다. HuggingFace에 모델과 데이터셋도 업로드 되어 있어, 실험 환경 세팅도 쉽습니다.

rLLM의 주요 기능 및 구성 요소

강화학습 적용: DeepSeek 스타일의 GRPO 알고리즘을 사용하여 성능 개선
모델 구조 다양화: 1.5B 및 14B 모델 제공
콘텍스트 길이 확장 실험: 최대 64K까지 인퍼런스 시 확장 적용
실제 코드 문제 해결에 초점: LiveCodeBench 및 Codeforces 평가 포함
모든 학습 로그와 하이퍼파라미터 공개: wandb 로그, Google Drive 평가 로그 제공

라이선스

rLLM 프로젝트는 MIT License로 공개 및 배포되고 있습니다.

Agentica Project 홈페이지

DeepCoder 학습 레시피 및 인사이트 블로그 글

DeepScaleR 학습 레시피 및 인사이트 블로그 글

rLLM GitHub 저장소

DeepCoder 및 DeepScaleR 모델

DeepCoder 및 DeepScaleR 데이터셋

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~