Open-AgentRL: LLM 에이전트 강화를 위한 통합 오픈소스 프레임워크 (feat. RLAnything & DemyAgent)

9bow · 2월 11, 2026, 9:30오후

Open-AgentRL 프로젝트 소개

Open-AgentRL은 대규모 언어 모델(LLM)이 단순한 텍스트 생성을 넘어, 복잡한 환경에서 도구를 사용하고 추론하며 문제를 해결하는 '에이전트 능력(Agentic Capabilities)'을 극대화하기 위해 설계된 오픈소스 강화학습 프레임워크입니다. 이 프로젝트는 Gen-Verse 팀이 주도하여 개발하였으며, 모델이 환경과 상호작용하며 스스로 성능을 개선하는 강화학습(RL) 파이프라인 전체를 제공합니다.

최근 DeepSeek-R1과 같은 모델들이 보여주었듯이, LLM의 발전 방향은 단순한 지식 전달에서 '사고하는 에이전트'로 빠르게 이동하고 있습니다. 그러나 에이전트 환경은 일반적인 채팅 환경과 달리 보상(Reward)이 매우 드물게 주어지고, 실행 과정에서 수많은 실패 가능성이 존재하기 때문에 기존의 학습 방법으로는 성능 향상에 한계가 있었습니다. Open-AgentRL은 이러한 문제를 해결하기 위해 고안되었으며, 특히 수십억 개(High-Billion)의 파라미터를 가진 거대 모델이 아니더라도, 4B(40억) 수준의 소형 모델이 30B 이상의 모델을 능가하는 성능을 낼 수 있도록 돕는 효율적인 학습 레시피와 시스템을 제공합니다.

특히, Open-AgentRL은 단순한 라이브러리가 아니라, RLAnything(arXiv:2602.02488) 및 DemyAgent(arXiv:2510.11701)의 두 가지 핵심 연구 성과를 순차적으로 통합한 결정체입니다. 사용자는 이 하나의 저장소를 통해 아래 두 논문에서 제안된 기술을 모두 활용할 수 있습니다:

2025년 10월 공개된 DemyAgent: Demystifying Reinforcement Learning in Agentic Reasoning (arXiv:2510.11701)는 에이전트 강화학습을 위한 '최적의 레시피'를 정립한 연구입니다. 데이터 구성 방식, 학습 알고리즘(GRPO-TCR), 그리고 추론 방식에 대한 방법론을 제시하며 Open-AgentRL의 기초를 다졌습니다.

이를 기반으로 2026년 02월 공개된 RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System (arXiv:2602.02488)는 이전의 DemyAgent의 방법론을 넘어, 학습 환경과 보상 모델까지 동적으로 진화시키는 '시스템'을 구축했습니다. 정적인 데이터셋 학습을 넘어 에이전트가 스스로 환경을 탐험하며 성장하는 구조를 완성했습니다.

Open-AgentRL의 기반이 된 2가지 연구들에 대해서 조금 더 깊게 살펴보겠습니다:

DemyAgent: 에이전트 학습의 3대 요소 혁신에 대한 연구

DemyAgent 연구는 에이전트 성능을 결정짓는 3가지 핵심 요소인 데이터(Data), 알고리즘(Algorithm), 추론 모드(Reasoning Mode)에 대한 심도 있는 분석과 해결책을 제시합니다. Open-AgentRL은 이 연구 결과를 토대로 다음과 같은 기술적 특징을 구현했습니다.

가장 먼저 데이터 측면에서, 연구팀은 기존에 널리 쓰이던 합성 데이터(Synthetic Data)의 한계를 지적했습니다. GPT-4와 같은 고성능 모델로 생성한 합성 데이터는 정답 경로만을 깔끔하게 보여주기 때문에, 실제 환경에서 발생하는 오류나 예외 상황을 반영하지 못합니다. Open-AgentRL은 이를 극복하기 위해 실제 실행 궤적(Real End-to-End Trajectories) 을 사용합니다. 실제 궤적 데이터에는 에이전트가 도구를 호출하기 전에 수행하는 사전 분석(Pre-call analysis), 안전한 실행을 위한 가드(Guarded execution), 그리고 무엇보다 중요한 오류 발생 시 스스로 복구(Error recovery)하는 과정이 포함되어 있습니다. 이러한 '지저분하지만 현실적인' 데이터를 학습함으로써 모델은 실전에서의 강인함을 확보하게 됩니다.

알고리즘 측면에서는 기존 PPO(Proximal Policy Optimization)의 복잡성을 줄이고 효율성을 높인 GRPO-TCR (Group Relative Policy Optimization with Token-level Clip Reward) 을 도입했습니다. 표준 GRPO가 그룹 단위의 상대적 보상을 사용하는 것에 더해, TCR은 토큰 수준(Token-level)에서 손실(Loss)을 계산하여 모델에게 더 세밀한 최적화 신호를 제공합니다. 또한 클리핑(Clipping) 제한을 완화하여 모델이 초기 학습 단계에서 더 과감하게 탐색(Exploration)할 수 있도록 유도합니다. 동시에 모델이 불필요하게 긴 답변을 생성하거나 무의미한 도구 호출을 반복하는 것을 막기 위해 답변 길이에 대한 페널티(Length Penalty)를 적용하여 간결하고 정확한 추론을 학습시킵니다.

마지막으로 추론 모드에 대한 최적화가 이루어졌습니다. 연구 결과, 도구를 단순히 자주 호출하는 '반응형 모드(Reactive Mode)'보다는, 한 번의 도구 호출 전후로 깊이 있는 사고 과정을 거치는 신중한 추론 모드(Deliberative Reasoning) 가 훨씬 높은 성능을 보였습니다. Open-AgentRL은 모델이 무작정 도구를 실행하기보다, 현재 상태를 분석하고 계획을 수립한 뒤 도구를 사용하는 패턴을 강화하도록 설계되었습니다.

DemyAgent에 대한 논문 및 모델은 다음 링크에서 확인하실 수 있습니다:

RLAnything: 완전 동적 강화학습 시스템에 대한 연구

2026년 공개된 RLAnything은 DemyAgent의 방법론을 시스템 레벨로 확장했습니다. 이 시스템의 핵심은 Dynamic Triad(동적 3요소) 로 불리는 환경(Environment), 정책(Policy), 보상 모델(Reward Model)의 유기적인 상호작용입니다.

기존 강화학습이 고정된 환경과 정해진 보상 함수 위에서 에이전트(Policy)만 학습시켰다면, RLAnything은 이 세 가지 요소가 폐루프(Closed-loop) 안에서 동시에 진화합니다. 에이전트의 능력이 향상됨에 따라 환경은 더 복잡한 시나리오를 생성하거나 난이도를 조절하여 지속적인 학습 동기를 부여합니다. 이를 통해 모델은 특정 데이터 분포에 과적합(Overfitting)되지 않고 일반화된 문제 해결 능력을 갖추게 됩니다.

특히 주목할 점은 보상 모델의 동적 최적화입니다. RLAnything에서 보상 모델은 고정된 판별자가 아닙니다. 에이전트가 생성하는 다양한 궤적(Trajectory)들 사이의 일관성(Consistency) 정보를 피드백으로 활용하여, 보상 모델 스스로가 학습 과정 중에 공동 최적화(Jointly Optimized)됩니다. 이는 사람이 일일이 라벨링한 데이터보다 훨씬 풍부하고 정교한 보상 신호를 제공하며, 보상의 희소성(Sparsity) 문제를 효과적으로 해결합니다.

또한 정책 모델(에이전트)은 이중 피드백(Dual Feedback) 메커니즘을 통해 학습합니다. 도구 호출과 같은 개별 단계(Step-wise)에 대한 즉각적인 보상과, 최종 문제 해결 여부(Outcome)에 대한 보상을 동시에 고려합니다. 이 두 가지 신호의 결합은 긴 호흡의 작업에서도 에이전트가 길을 잃지 않고 목표를 향해 나아갈 수 있게 돕습니다.

DemyAgent에 대한 논문 및 정책 모델(RLAnything-7B/8B) / 리워드 모델(RLAnything-Reward-8B/14B) 등은 다음 링크에서 확인하실 수 있습니다:

Open-AgentRL의 아키텍처 및 실행 환경 (SandboxFusion)

Open-AgentRL은 이러한 이론적 배경을 실제 코드로 구현하기 위해 견고한 아키텍처를 갖추고 있습니다. 기본적으로 VeRL (Volcano Engine RL) 라이브러리와 ReTool 코드베이스를 기반으로 구축되어 높은 호환성과 성능을 보장합니다.

가장 중요한 컴포넌트 중 하나는 SandboxFusion입니다. 에이전트가 생성한 파이썬 코드나 쉘 스크립트를 실제 시스템에서 바로 실행하는 것은 보안상 매우 위험합니다. SandboxFusion은 이러한 위험을 원천 차단하기 위해 격리된 실행 환경을 제공합니다. 사용자는 Docker를 활용한 로컬 배포(Local Deployment)를 선택하거나, Volcano Engine과 같은 클라우드 FaaS(Function as a Service)를 연동하여 대규모 병렬 처리가 가능한 클라우드 환경을 구축할 수도 있습니다. 이 샌드박스 환경은 코드 실행 결과를 즉시 에이전트에게 피드백으로 전달하여, 강화학습의 루프가 끊김 없이 이어지도록 합니다.

모델 지원 측면에서도 유연함을 자랑합니다. Qwen2.5, Qwen3, DeepSeek 등 최신 LLM 아키텍처를 모두 지원하며, 특히 4B, 7B와 같은 소형 모델부터 70B 이상의 대형 모델까지 다양한 크기의 모델을 학습시킬 수 있는 스크립트와 설정 파일을 기본으로 제공합니다.

벤치마크 성능 및 의의

	MATH		Science	Code
Method	AIME2024	AIME2025	GPQA-Diamond	LiveCodeBench-v6
Self-Contained Reasoning
Qwen2.5-7B-Instruct	16.7	10.0	31.3	15.2
Qwen3-4B-Instruct-2507	63.3	47.4	52.0	35.1
Qwen2.5-72B-Instruct	18.9	15.0	49.0	-
DeepSeek-V3	39.2	28.8	59.1	16.1
DeepSeek-R1-Distill-32B	70.0	46.7	59.6	-
DeepSeek-R1-Zero (671B)	71.0	53.5	59.6	-
Agentic Reasoning
Qwen2.5-7B-Instruct	4.8	5.6	25.5	12.2
Qwen3-4B-Instruct-2507	17.9	16.3	44.3	23.0
ToRL-7B	43.3	30.0	-	-
ReTool-32B	72.5	54.3	-	-
Tool-Star-3B	20.0	16.7	-	-
ARPO-7B	30.0	30.0	53.0	18.3
rStar2-Agent-14B	80.6	69.8	60.9	-
DemyAgent-4B (Ours)	72.6	70.0	58.5	26.8

Open-AgentRL을 통해 학습된 DemyAgent-4B 모델의 성과는 소형 모델의 가능성을 증명했다는 점에서 큰 의의를 가집니다. AIME 2025와 같은 고난이도 수학/추론 벤치마크에서 40억(4B) 파라미터를 가진 이 모델은 320억(32B) 파라미터의 ReTool-32B 모델을 능가하는 점수(70.0% vs 54.3%)를 기록했습니다. 심지어 14B 크기의 rStar2-Agent 모델과 대등한 성능을 보여주며, 단순히 모델의 크기를 키우는 것보다 양질의 데이터와 올바른 강화학습 알고리즘이 훨씬 중요함을 입증했습니다.

또한 코드 생성 능력을 평가하는 LiveCodeBench에서도 동급 모델 대비 압도적인 성능 향상을 보였습니다. 이는 단순히 정답률(Pass@k)만 높아진 것이 아니라, 탐험과 활용의 균형을 통해 평균 점수(Average@k)까지 고르게 향상된 결과입니다. 즉, 모델이 운 좋게 정답을 맞히는 것이 아니라, 문제 해결의 논리적 구조를 제대로 학습했음을 시사합니다.

Open-AgentRL 설치 및 사용 가이드

Open-AgentRL은 단순한 라이브러리가 아니라, SFT(지도 미세 조정)부터 RL(강화 학습), 그리고 평가까지 전체 파이프라인을 포함하는 프레임워크입니다. 따라서 설치부터 실제 학습 실행까지의 과정을 단계별로 상세히 안내해 드립니다.

환경 설정 및 설치 (Installation)

Open-AgentRL은 파이썬 3.11 환경과 vllm과 같은 고성능 추론 엔진을 필요로 합니다. Anaconda를 사용하여 격리된 환경을 만드는 것을 권장합니다.

먼저, 기본 설치를 위해 터미널에서 다음 명령어를 순서대로 입력하여 프로젝트를 클론하고 의존성을 설치합니다:

# 1. GitHub 저장소 복제(clone)
git clone https://github.com/Gen-Verse/Open-AgentRL.git
cd Open-AgentRL

# Conda 가상환경 생성 (Python 3.11 권장)
conda create -n OpenAgentRL python=3.11
conda activate OpenAgentRL

# vllm 및 관련 의존성 설치 스크립트 실행
bash scripts/install_vllm_sglang_mcore.sh

# 프로젝트 패키지 설치 (vllm 옵션 포함)
pip install -e .[vllm]

Cold-Start SFT (지도 미세 조정) 단계

강화학습(RL)을 시작하기 전, 모델이 기본적인 에이전트 동작(도구 사용, 추론 형식 등)을 익히도록 하는 단계입니다. 이미 학습된 체크포인트를 사용한다면 이 단계를 건너뛰어도 됩니다.

다음 기본 데이터 및 모델을 다운로드 받습니다:

Base Model: Qwen2.5-7B-Instruct 또는 Qwen3-4B-Instruct와 같은 베이스 모델을 준비합니다.
SFT Dataset: 3K Agentic SFT Data (HuggingFace)를 다운로드합니다. 이 데이터는 .parquet 형식입니다.

기본 데이터 및 모델이 준비되었다면, 이제 다음 단계에 따라 recipe/demystify/ 디렉토리에 있는 스크립트(qwen3_4b_sft.sh 등)를 수정하여 경로를 설정합니다:

스크립트 설정:
- TRAIN_DATA: 다운로드한 SFT 데이터셋 경로 (.parquet)
- MODEL_PATH: 베이스 모델의 경로
- SAVE_PATH: 학습된 모델이 저장될 경로
학습 실행:Bashbash recipe/demystify/qwen3_4b_sft.sh
모델 병합 (Merging): VeRL 프레임워크로 학습된 모델은 분산 저장되므로, HuggingFace 포맷으로 변환(Merge)해야 합니다.

python3 -m verl.model_merger merge \
    --backend fsdp \
    --local_dir /path/to/checkpoints/global_step_xxx \
    --target_dir /path/to/save/merged_model

Agentic RL (강화 학습) 단계

Open-AgentRL 프로젝트의 핵심인 GRPO-TCR 알고리즘을 사용하여 에이전트를 강화하는 단계입니다.

먼저 데이터 및 샌드박스를 준비합니다:

RL Dataset: 30K Agentic RL Data를 다운로드합니다.
SandboxFusion 설정 (필수): 에이전트가 코드를 실행해볼 수 있는 안전한 환경이 필요합니다.
- 옵션 A (로컬): Docker를 사용하여 로컬에 SandboxFusion을 배포합니다. (권장)
- 옵션 B (클라우드): Volcano Engine의 FaaS를 사용합니다.

샌드박스 서버가 실행되면 API 엔드포인트(예: http://localhost:8080/run_code)를 획득하게 됩니다. 이 주소를 recipe/demystify/sandbox_fusion_tool_config.yaml 파일과 verl/utils/reward_score/livecodebench/code_math.py 내의 check_correctness 함수에 등록해야 합니다.

마지막으로 지금까지 준비한 데이터 및 모델에 맞춰 recipe/demystify/ 디렉토리의 RL 스크립트(grpo_tcr_qwen3_4b.sh)를 적절히 수정합니다:

스크립트 설정:
- open_agent_rl: RL 데이터셋 경로 (.parquet)
- model_path: 위 SFT 단계에서 병합한 모델 경로 (또는 제공된 체크포인트)
- aime2024/aime2025: 학습 중간 평가를 위한 벤치마크 데이터 경로
- default_local_dir: RL 체크포인트 저장 경로

학습 실행:

bash recipe/demystify/grpo_tcr_qwen3_4b.sh

학십 시 진행 상황(Loss, Reward 등)은 wandb (Weights & Biases)를 통해 실시간으로 확인할 수 있습니다.

평가 (Evaluation)

학습된 모델의 성능을 검증하기 위해 AIME, GPQA, LiveCodeBench 등의 벤치마크 스크립트를 제공합니다.

먼저, 수학 및 과학 추론 능력을 평가하는 AIME & GPQA 평가는 다음 스크립트를 실행하여 확인할 수 있습니다:

# 스크립트 내 MODEL_PATH 등을 수정한 후 실행
bash recipe/demystify/eval/eval_qwen3_4b_aime_gpqa.sh

결과는 wandb 프로젝트의 average@32, pass@32 메트릭으로 확인할 수 있습니다.

코드 생성 및 실행 능력을 평가하는 LiveCodeBench는 다음 스크립트를 실행하여 확인할 수 있습니다:

# 1. 추론 실행 (Rollout 생성)
bash recipe/demystify/eval/eval_qwen3_4b_livecodebench.sh

# 2. 결과 검증
# 생성된 결과물(VAL_SAVE_PATH)을 LiveCodeBench 공식 평가 도구로 검증

Open-AgentRL 프로젝트는 OSWorld 및 AlfWorld 등과 같은 더 많은 벤치마크 평가 스크립트들도 제공하고 있습니다. Open-AgentRL GitHub 저장소를 참고해주세요.

라이선스

Open-AgentRL 프로젝트는 Apache License 2.0 라이선스 하에 배포되고 있습니다. 이는 개인적 사용은 물론 상업적 목적으로의 사용, 수정, 배포가 모두 자유로움을 의미합니다. 연구자나 개발자는 이 프레임워크를 기반으로 자신만의 에이전트 서비스를 구축하거나 새로운 연구를 수행하는 데 법적인 제약을 거의 받지 않습니다.

RLAnything 논문: RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

DemyAgent 논문: Demystifying Reinforcement Learning in Agentic Reasoning

Open-AgentRL 관련 학습 모델 및 데이터셋 다운로드

Open-AgentRL 프로젝트 GitHub 저장소

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~