rLLM 소개
AgenticaProject에서 대규모 언어 모델(LLM)을 위한 강화 학습을 민주화하기 위해 rLLM이라는 오픈 소스 프로젝트를 공개했습니다. 이 프로젝트는 DeepSeek R1 및 OpenAI O1/O3 모델을 실제 작업에서 재현하는 것을 목표로 합니다.
rLLM은 대규모 언어 모델에 강화 학습을 적용하여 성능을 향상시키는 것을 목표로 하는 오픈소스 프로젝트입니다. 이 프로젝트는 학습 스크립트, 모델, 시스템, 데이터셋, 로그 등을 모두 공개하여 누구나 접근하고 활용할 수 있도록 지원합니다. 최근에는 DeepCoder-14B-Preview 모델을 공개하여 LiveCodeBench에서 60.6%의 Pass@1 정확도를 달성하며, 이는 o3-mini-2025-01-031 (Low) 및 o1-2024-12-17 모델과 동등한 성능입니다. 또한, 이전에는 DeepScaleR-1.5B-Preview라는 1.5B 규모 모델도 공개했었고, 이는 AIME 데이터셋에서 43.1% 정확도를 기록하며 O1-preview 모델을 능가하는 성능을 보여줬습니다.
rLLM은 기존의 LLM 학습 방법과 달리 강화 학습을 적용하여 모델의 성능을 향상시키는 접근 방식을 취합니다. 특히, DeepSeek R1 및 OpenAI O1/O3 모델과의 성능 비교를 통해 그 효과를 입증하고 있습니다. 이러한 방식은 전통적인 지도 학습 방식과 비교하여 모델이 더 복잡한 작업을 수행할 수 있도록 돕습니다.
모델 | 용도 | 파라미터 | 성능 (대표 벤치마크) |
---|---|---|---|
DeepCoder-14B | 코드 생성 | 14B | LiveCodeBench 60.6% Pass@1 |
DeepScaleR-1.5B | 일반 LLM | 1.5B | AIME 43.1% Pass@1 |
OpenAI O1 | 일반 LLM | 비공개 | LiveCodeBench 60.6% 수준 |
DeepSeek R1 | 강화학습 LLM | 공개 | 비교용 기준 모델 |
rLLM의 강점은 이러한 고성능 모델들을 직접 재현할 수 있게 해주는 "학습 파이프라인 전체"를 공개한 점입니다. HuggingFace에 모델과 데이터셋도 업로드 되어 있어, 실험 환경 세팅도 쉽습니다.
rLLM의 주요 기능 및 구성 요소
- 강화학습 적용: DeepSeek 스타일의 GRPO 알고리즘을 사용하여 성능 개선
- 모델 구조 다양화: 1.5B 및 14B 모델 제공
- 콘텍스트 길이 확장 실험: 최대 64K까지 인퍼런스 시 확장 적용
- 실제 코드 문제 해결에 초점: LiveCodeBench 및 Codeforces 평가 포함
- 모든 학습 로그와 하이퍼파라미터 공개: wandb 로그, Google Drive 평가 로그 제공
라이선스
rLLM 프로젝트는 MIT License로 공개 및 배포되고 있습니다.
Agentica Project 홈페이지
DeepCoder 학습 레시피 및 인사이트 블로그 글
DeepScaleR 학습 레시피 및 인사이트 블로그 글
rLLM GitHub 저장소
DeepCoder 및 DeepScaleR 모델
DeepCoder 및 DeepScaleR 데이터셋
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~