[2026/03/09 ~ 15] 이번 주에 살펴볼 만한 AI/ML 논문 모음

[2026/03/09 ~ 15] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR​:fire::south_korea: :thinking::thought_balloon:

:one: 에이전틱 강화학습(Agentic RL)과 자율적 자가 개선: 이번 주 논문들에서는 언어 모델이 정적인 텍스트 생성을 넘어, 환경과 상호작용하며 스스로 성능을 높이는 '에이전틱 강화학습'이 핵심 화두로 떠올랐습니다. OpenClaw-RLAgentic RL 서베이 논문은 모델이 터미널, GUI 등 복잡한 환경에서의 피드백을 통해 실시간으로 지속 학습하는 패러다임을 제시합니다. 또한 AutoHarnessEvoSkill은 에이전트가 자신의 실행 실패를 분석하여 스스로 코드 하네스를 합성하거나 새로운 스킬을 진화시키는 등 인간의 개입을 최소화한 자가 개선 능력을 입증했습니다. 이는 AI가 단방향 도구에서 벗어나, 시행착오를 통해 자율적으로 문제를 해결하고 최적화하는 독립적인 시스템으로 진화하고 있음을 의미합니다.

:two: 컨텍스트 효율성 극대화 및 추론(Reasoning)의 재발견: 긴 문맥을 처리하고 복잡한 논리를 전개할 때 발생하는 연산 및 메모리 병목을 극복하고, 추론의 본질적인 이점을 극대화하려는 시도도 돋보였습니다. Doc-to-LoRA는 방대한 컨텍스트를 가벼운 LoRA 어댑터로 즉시 압축하여 반복적인 메모리 소모를 없애는 혁신적인 접근을 보여주었습니다. 한편, InftyThink+ 는 무한한 추론 과정에서 언제 요약하고 무엇을 남길지를 강화학습으로 최적화하여 긴 호흡의 논리 전개를 효율화했습니다. 더불어 Thinking to Recall 연구는 단순한 사실 확인 질문에서도 추론 과정 자체가 계산 버퍼 역할을 하여 모델 내부에 잠재된 지식을 효과적으로 끌어낼 수 있음을 밝혀내며, 추론 토큰이 가지는 숨겨진 가치를 재조명했습니다.

:three: 특정 개발 환경(Terminal/CUDA)에 밀착된 전문 에이전트: 범용 모델의 한계를 극복하고, 실제 소프트웨어 개발자들의 작업 환경에 직접 파고드는 도메인 특화 에이전트의 등장도 중요한 트렌드입니다. OPENDEV는 무거운 IDE 플러그인 형태를 벗어나 개발자의 터미널에서 직접 소스 제어와 배포를 수행하는 CLI 기반 에이전트 아키텍처를 제안했습니다. 또한 CUDA Agent는 고도의 하드웨어 전문성이 필요한 GPU 커널 최적화 작업에 대규모 에이전틱 강화학습을 도입하여, 기존의 강력한 상용 모델들을 압도하는 성능을 기록했습니다. 이는 AI가 일반적인 코딩 보조를 넘어, 시스템 인프라 및 로우레벨(Low-level) 최적화까지 능숙하게 다루는 전문 엔지니어의 영역으로 진입하고 있음을 시사합니다.


오토하네스: 코드 하네스를 자동으로 합성하여 LLM 에이전트를 개선하기 / AutoHarness: improving LLM agents by automatically synthesizing a code harness

논문 소개

최근 언어 모델(LLM)의 발전에도 불구하고, 이러한 모델들이 에이전트로 사용될 때 발생하는 여러 문제점들이 존재한다. 특히, LLM이 주어진 상태에서 최적이 아닌 행동을 하거나 외부 환경에 의해 금지된 행동을 시도하는 경우가 빈번하게 발생한다. 예를 들어, 최근의 Kaggle GameArena 체스 대회에서 Gemini-2.5-Flash 모델은 78%의 패배가 불법적인 수에 기인한 것으로 나타났다. 이러한 문제를 해결하기 위해 사람들은 종종 LLM 주위에 '하네스'라는 구조를 수동으로 작성하여 실패를 방지하려고 한다.

본 연구에서는 Gemini-2.5-Flash가 환경으로부터의 피드백을 바탕으로 소수의 반복적인 코드 정제를 통해 코드 하네스를 자동으로 합성할 수 있는 방법을 제시한다. 이 과정에서 Gemini-2.5-Flash는 145개의 다양한 TextArena 게임에서 모든 불법적인 수를 방지할 수 있으며, 이를 통해 더 작은 모델이 어떻게 더 큰 모델인 Gemini-2.5-Pro보다 뛰어난 성능을 발휘할 수 있는지를 증명한다. 또한, 이 방법론은 LLM의 의사결정 과정을 개선하기 위해 전체 정책을 코드로 생성하는 방식으로 확장될 수 있으며, 이 경우 LLM을 의사결정 시 사용할 필요가 없어지는 혁신적인 접근을 보여준다.

실험 결과, Gemini-2.5-Flash의 코드 정책은 16개의 TextArena 1인 게임에서 Gemini-2.5-Pro와 GPT-5.2-High보다 더 높은 평균 보상을 기록하였다. 본 연구는 맞춤형 코드 하네스를 합성하는 데 있어 더 작은 모델을 활용하는 것이 성능과 비용 효율성 측면에서 더 큰 모델보다 우수할 수 있음을 명확하게 보여준다. 이러한 발견은 LLm 에이전트의 성능 향상을 위한 새로운 방법론적 기여로, 향후 다양한 게임 및 시나리오에 적용 가능한 가능성을 열어준다.

논문 초록(Abstract)

최근 몇 년간 언어 모델에서 상당한 발전이 있었음에도 불구하고, 이러한 모델이 에이전트로 사용될 때, 주어진 상태에 대해 최적이 아닌 행동을 수행할 뿐만 아니라 외부 환경에 의해 엄격히 금지된 행동을 시도하는 경우가 많습니다. 예를 들어, 최근 Kaggle GameArena 체스 대회에서 Gemini-2.5-Flash의 패배 중 78%는 불법적인 움직임에 기인했습니다. 종종 사람들은 이러한 실패를 방지하기 위해 LLM 주위에 "하네스"를 수동으로 작성합니다. 본 논문에서는 Gemini-2.5-Flash가 (게임) 환경으로부터 피드백을 받아 소수의 반복 코드 정제 라운드를 통해 이러한 코드 하네스를 자동으로 합성할 수 있음을 보여줍니다. 결과적으로 생성된 하네스는 145개의 다양한 TextArena 게임(1인 및 2인 게임 모두)에서 모든 불법적인 움직임을 방지하여, 더 작은 Gemini-2.5-Flash 모델이 Gemini-2.5-Pro와 같은 더 큰 모델을 초월할 수 있게 합니다. 우리의 기법을 극한까지 밀어붙이면, Gemini-2.5-Flash가 전체 정책을 코드로 생성하도록 할 수 있어, 의사 결정 시 LLM을 사용할 필요가 없어집니다. 결과적으로 생성된 코드-정책은 16개의 TextArena 1인 게임에서 Gemini-2.5-Pro 및 GPT-5.2-High보다 더 높은 평균 보상을 받습니다. 우리의 결과는 맞춤형 코드 하네스(또는 전체 정책)를 합성하기 위해 더 작은 모델을 사용하는 것이 훨씬 더 큰 모델보다 성능이 우수하면서도 비용 효율적일 수 있음을 보여줍니다.

Despite significant strides in language models in the last few years, when used as agents, such models often try to perform actions that are not just suboptimal for a given state, but are strictly prohibited by the external environment. For example, in the recent Kaggle GameArena chess competition, 78% of Gemini-2.5-Flash losses were attributed to illegal moves. Often people manually write "harnesses" around LLMs to prevent such failures. In this paper, we demonstrate that Gemini-2.5-Flash can automatically synthesize such a code harness, using a small number of rounds of iterative code refinement given feedback from the (game) environment. The resulting harness prevents all illegal moves in 145 different TextArena games (both 1-player and 2-player), enabling the smaller Gemini-2.5-Flash model to outperform larger models, such as Gemini-2.5-Pro. Pushing our technique to the limit, we can get Gemini-2.5-Flash to generate the entire policy in code, thus eliminating the need to use the LLM at decision making time. The resulting code-policy receives a higher average reward than Gemini-2.5-Pro and GPT-5.2-High on 16 TextArena 1-player games. Our results show that using a smaller model to synthesize a custom code harness (or entire policy) can outperform a much larger model, while also being more cost effective.

논문 링크


오픈클로-RL: 대화를 통해 어떤 에이전트도 간단히 학습하기 / OpenClaw-RL: Train Any Agent Simply by Talking

논문 대표 이미지

논문 소개

OpenClaw-RL은 모든 에이전트 상호작용이 발생하는 다음 상태 신호를 활용하여 에이전트를 훈련할 수 있는 프레임워크입니다. 이 시스템은 사용자 응답, 도구 출력, 터미널 또는 GUI 상태 변화 등 다양한 신호를 실시간 온라인 학습 소스로 회수하지 않는 기존의 에이전틱 강화학습(RL) 시스템의 한계를 극복합니다. OpenClaw-RL은 개인 대화, 터미널 실행, GUI 상호작용, 소프트웨어 엔지니어링(SWE) 작업 및 도구 호출을 통해 동일한 정책을 훈련하는 데 사용할 수 있는 상호작용으로 간주합니다. 다음 상태 신호는 행동의 성과를 나타내는 평가 신호와 행동이 어떻게 달라져야 했는지를 나타내는 지시 신호 두 가지 형태의 정보를 포함합니다. 이 프레임워크는 비동기 설계를 통해 모델이 실시간 요청을 처리하고, 평가자가 상호작용을 판단하며, 훈련자가 정책을 업데이트하는 과정에서 조정 오버헤드가 발생하지 않습니다. 개인 에이전트에 적용할 경우, OpenClaw-RL은 사용자 재질문, 수정 및 명시적 피드백에서 대화 신호를 회수하여 에이전트의 개선을 가능하게 합니다. 일반 에이전트에 적용하면 터미널, GUI, SWE 및 도구 호출 환경 전반에 걸쳐 확장 가능한 RL을 지원하며, 과정 보상의 유용성도 입증합니다.

논문 초록(Abstract)

모든 에이전트 상호작용은 다음 상태 신호, 즉 사용자 응답, 도구 출력, 각 행동 후에 발생하는 터미널 또는 GUI 상태 변화를 생성하지만, 기존의 에이전틱 강화학습(RL) 시스템은 이를 실시간 온라인 학습 소스로 회복하지 않습니다. 우리는 다음 상태 신호가 보편적이며 정책이 이를 동시에 학습할 수 있다는 간단한 관찰에 기반한 OpenClaw-RL 프레임워크를 제시합니다. 개인 대화, 터미널 실행, GUI 상호작용, 소프트웨어 엔지니어링(SWE) 작업 및 도구 호출 흔적은 별개의 학습 문제가 아닙니다. 이들은 모두 같은 루프에서 동일한 정책을 학습하는 데 사용할 수 있는 상호작용입니다. 다음 상태 신호는 두 가지 형태의 정보를 인코딩합니다: 행동이 얼마나 잘 수행되었는지를 나타내는 평가 신호는 PRM 판단자를 통해 스칼라 보상으로 추출되며; 행동이 어떻게 달라져야 했는지를 나타내는 지시 신호는 Hindsight-Guided On-Policy Distillation(OPD)을 통해 회복됩니다. 우리는 다음 상태에서 텍스트 힌트를 추출하고, 향상된 교사 컨텍스트를 구성하며, 스칼라 보상보다 풍부한 토큰 수준의 방향성 이점 감독을 제공합니다. 비동기 설계 덕분에 모델은 실시간 요청을 수행하고, PRM은 진행 중인 상호작용을 판단하며, 트레이너는 정책을 동시에 업데이트하며, 이들 간의 조정 오버헤드는 전혀 없습니다. 개인 에이전트에 적용할 경우, OpenClaw-RL은 사용됨으로써 에이전트가 개선될 수 있도록 하며, 사용자 재질문, 수정 및 명시적 피드백으로부터 대화 신호를 회복합니다. 일반 에이전트에 적용할 경우, 동일한 인프라는 터미널, GUI, SWE 및 도구 호출 환경에서 확장 가능한 강화학습을 지원하며, 여기서 우리는 추가로 과정 보상의 유용성을 입증합니다. 코드: GitHub - Gen-Verse/OpenClaw-RL: OpenClaw-RL: Train any agent simply by talking · GitHub

Every agent interaction generates a next-state signal, namely the user reply, tool output, terminal or GUI state change that follows each action, yet no existing agentic RL system recovers it as a live, online learning source. We present OpenClaw-RL, a framework built on a simple observation: next-state signals are universal, and policy can learn from all of them simultaneously. Personal conversations, terminal executions, GUI interactions, SWE tasks, and tool-call traces are not separate training problems. They are all interactions that can be used to train the same policy in the same loop. Next-state signals encode two forms of information: evaluative signals, which indicate how well the action performed and are extracted as scalar rewards via a PRM judge; and directive signals, which indicate how the action should have been different and are recovered through Hindsight-Guided On-Policy Distillation (OPD). We extract textual hints from the next state, construct an enhanced teacher context, and provide token-level directional advantage supervision that is richer than any scalar reward. Due to the asynchronous design, the model serves live requests, the PRM judges ongoing interactions, and the trainer updates the policy at the same time, with zero coordination overhead between them. Applied to personal agents, OpenClaw-RL enables an agent to improve simply by being used, recovering conversational signals from user re-queries, corrections, and explicit feedback. Applied to general agents, the same infrastructure supports scalable RL across terminal, GUI, SWE, and tool-call settings, where we additionally demonstrate the utility of process rewards. Code: GitHub - Gen-Verse/OpenClaw-RL: OpenClaw-RL: Train any agent simply by talking · GitHub

논문 링크

더 읽어보기


Doc-to-LoRA: 즉시 맥락을 내재화하는 학습 / Doc-to-LoRA: Learning to Instantly Internalize Contexts

논문 소개

긴 입력 시퀀스는 대규모 언어 모델(LLM)의 문서 이해 및 다단계 추론에서 핵심적인 요소입니다. 그러나 트랜스포머의 제곱 오차 어텐션 비용은 추론을 메모리 집약적이고 느리게 만듭니다. 컨텍스트 증류(CD)는 정보를 모델 매개변수로 전이할 수 있지만, 프롬프트별 증류는 훈련 비용과 지연으로 인해 비현실적입니다. 이러한 한계를 해결하기 위해, 우리는 Doc-to-LoRA(D2L)라는 경량 하이퍼네트워크를 제안하며, 이는 단일 전방 패스 내에서 근사 CD를 수행하도록 메타 학습합니다. D2L은 보지 않은 프롬프트를 기반으로 LLM을 위한 LoRA 어댑터를 생성하여 원래 컨텍스트를 재사용하지 않고도 후속 쿼리를 응답할 수 있게 하여 지연 및 KV 캐시 메모리 소비를 줄입니다. 긴 컨텍스트에서 D2L은 어댑터에 정보를 저장하는 방식으로 컨텍스트를 매핑하는 데 성공하며, 목표 LLM의 기본 컨텍스트 창보다 4배 이상 긴 시퀀스에서도 거의 완벽한 제로샷 정확도를 달성했습니다. 실제 QA 데이터셋에서도 D2L은 표준 CD를 초월하여 피크 메모리 소비와 업데이트 지연을 크게 줄였습니다. D2L은 LLM의 신속한 적응을 촉진할 수 있으며, 빈번한 지식 업데이트와 개인화된 채팅 행동의 가능성을 열어줄 것으로 기대됩니다.

논문 초록(Abstract)

긴 입력 시퀀스는 문맥 내 학습, 문서 이해 및 대규모 언어 모델(LLM)의 다단계 추론에 중심적인 역할을 합니다. 그러나 트랜스포머의 제곱 비례 어텐션 비용은 추론을 메모리 집약적이고 느리게 만듭니다. 문맥 증류(CD)는 정보를 모델 매개변수로 전이할 수 있지만, 프롬프트별 증류는 훈련 비용과 지연 시간 때문에 비현실적입니다. 이러한 한계를 해결하기 위해, 우리는 Doc-to-LoRA(D2L)를 제안합니다. D2L은 경량 하이퍼네트워크로, 단일 순전파 내에서 근사 CD를 수행할 수 있도록 메타 학습합니다. 보이지 않는 프롬프트가 주어지면, D2L은 목표 LLM에 대한 LoRA 어댑터를 생성하여, 이후 쿼리가 원래의 문맥을 다시 소모하지 않고도 답변될 수 있게 하여, 목표 LLM의 추론 중 지연 시간과 KV 캐시 메모리 소비를 줄입니다. 긴 문맥의 바늘 찾기 작업에서, D2L은 문맥을 바늘 정보를 저장하는 어댑터로 매핑하는 방법을 성공적으로 학습하여, 목표 LLM의 고유 문맥 창을 4배 이상 초과하는 시퀀스 길이에서 거의 완벽한 제로샷 정확도를 달성했습니다. 제한된 컴퓨팅 환경의 실제 QA 데이터셋에서도 D2L은 표준 CD보다 성능이 우수하며, 피크 메모리 소비와 업데이트 지연 시간을 크게 줄였습니다. 우리는 D2L이 LLM의 빠른 적응을 촉진할 수 있으며, 빈번한 지식 업데이트와 개인화된 채팅 행동의 가능성을 열어줄 것으로 기대합니다.

Long input sequences are central to in-context learning, document understanding, and multi-step reasoning of Large Language Models (LLMs). However, the quadratic attention cost of Transformers makes inference memory-intensive and slow. While context distillation (CD) can transfer information into model parameters, per-prompt distillation is impractical due to training costs and latency. To address these limitations, we propose Doc-to-LoRA (D2L), a lightweight hypernetwork that meta-learns to perform approximate CD within a single forward pass. Given an unseen prompt, D2L generates a LoRA adapter for a target LLM, enabling subsequent queries to be answered without re-consuming the original context, reducing latency and KV-cache memory consumption during inference of the target LLM. On a long-context needle-in-a-haystack task, D2L successfully learns to map contexts into adapters that store the needle information, achieving near-perfect zero-shot accuracy at sequence lengths exceeding the target LLM's native context window by more than 4x. On real-world QA datasets with limited compute, D2L outperforms standard CD while significantly reducing peak memory consumption and update latency. We envision that D2L can facilitate rapid adaptation of LLMs, opening up the possibility of frequent knowledge updates and personalized chat behavior.

논문 링크

더 읽어보기


InftyThink+: 강화학습을 통한 효과적이고 효율적인 무한 지평선 추론 / InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

논문 소개

대규모 추론 모델은 추론 시간 CoT(Chain-of-Thought)을 확장함으로써 강력한 성능을 달성하지만, 이 패러다임은 이차 비용, 문맥 길이 제한 및 중간에서의 손실 효과로 인한 추론 저하와 같은 문제에 직면해 있습니다. 반복적 추론은 중간 생각을 주기적으로 요약함으로써 이러한 문제를 완화하지만, 기존 방법은 감독 학습이나 고정 휴리스틱에 의존하여 요약 시점, 보존할 내용 및 추론 재개 방법을 최적화하지 못합니다. 우리는 전체 반복적 추론 경로를 최적화하는 엔드-투-엔드 강화학습 프레임워크인 InftyThink+를 제안합니다. InftyThink+는 모델 제어 반복 경계 및 명시적 요약을 기반으로 하는 두 단계의 학습 체계를 채택하여 전략적 요약 및 지속 결정 학습을 가능하게 합니다. DeepSeek-R1-Distill-Qwen-1.5B에서의 실험 결과, InftyThink+는 AIME24에서 정확도를 21% 향상시키고 기존의 긴 체인-오브-쏫 강화학습 방법보다 명확한 차이로 성능을 초월하며, 분포 외 벤치마크에 대한 일반화도 뛰어납니다. 또한, InftyThink+는 추론 지연 시간을 크게 줄이고 강화학습 훈련을 가속화하여 더 강력한 성능과 함께 개선된 추론 효율성을 보여줍니다.

논문 초록(Abstract)

대규모 추론 모델은 추론 시 사고의 연쇄를 확장하여 강력한 성능을 달성하지만, 이 패러다임은 제곱 비용, 컨텍스트 길이 제한, 그리고 중간에서 잃어버리는 효과로 인해 열악한 추론을 초래하는 문제를 안고 있습니다. 반복적 추론은 중간 생각을 주기적으로 요약함으로써 이러한 문제를 완화하지만, 기존 방법은 감독 학습이나 고정된 휴리스틱에 의존하여 요약 시점, 보존할 내용, 그리고 추론을 재개하는 방법을 최적화하지 못합니다. 우리는 전체 반복적 추론 경로를 최적화하는 종단 간 강화 학습 프레임워크인 InftyThink+를 제안합니다. 이는 모델 제어 반복 경계와 명시적 요약을 기반으로 합니다. InftyThink+는 감독에 의한 콜드 스타트 후 경로 수준 강화 학습을 포함하는 두 단계의 학습 계획을 채택하여 모델이 전략적 요약 및 지속 결정 학습을 가능하게 합니다. DeepSeek-R1-Distill-Qwen-1.5B에 대한 실험 결과, InftyThink+는 AIME24에서 정확도를 21% 향상시키고, 기존의 긴 사고의 연쇄 강화 학습에 비해 명확한 차이로 성능을 초월하며, 배포 외 벤치마크에 대해서도 더 잘 일반화됩니다. 더욱이, InftyThink+는 추론 지연 시간을 크게 줄이고 강화 학습 훈련을 가속화하여 향상된 성능과 함께 더 나은 추론 효율성을 입증합니다.

Large reasoning models achieve strong performance by scaling inference-time chain-of-thought, but this paradigm suffers from quadratic cost, context length limits, and degraded reasoning due to lost-in-the-middle effects. Iterative reasoning mitigates these issues by periodically summarizing intermediate thoughts, yet existing methods rely on supervised learning or fixed heuristics and fail to optimize when to summarize, what to preserve, and how to resume reasoning. We propose InftyThink+, an end-to-end reinforcement learning framework that optimizes the entire iterative reasoning trajectory, building on model-controlled iteration boundaries and explicit summarization. InftyThink+ adopts a two-stage training scheme with supervised cold-start followed by trajectory-level reinforcement learning, enabling the model to learn strategic summarization and continuation decisions. Experiments on DeepSeek-R1-Distill-Qwen-1.5B show that InftyThink+ improves accuracy by 21% on AIME24 and outperforms conventional long chain-of-thought reinforcement learning by a clear margin, while also generalizing better to out-of-distribution benchmarks. Moreover, InftyThink+ significantly reduces inference latency and accelerates reinforcement learning training, demonstrating improved reasoning efficiency alongside stronger performance.

논문 링크

더 읽어보기


OpenDev, 터미널을 위한 AI 코딩 에이전트 구축: 스캐폴딩, 활용, 컨텍스트 엔지니어링 및 학습한 교훈 / Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

논문 소개

AI 코딩 지원의 환경은 복잡한 통합 개발 환경(IDE) 플러그인에서 다용도의 터미널 네이티브 에이전트로의 혁신적인 변화를 겪고 있습니다. 이 연구는 특히 개발자들이 소스 제어를 관리하고, 빌드를 실행하며, 환경을 배포하는 터미널에서 직접 작동하는 커맨드라인 인터페이스(CLI) 기반 에이전트의 중요성을 강조합니다. 이러한 새로운 패러다임에 적합하도록 설계된 오픈소스 명령행 코딩 에이전트인 OPENDEV는 효과적인 자율 지원을 위한 안전한 제어 및 효율적인 컨텍스트 관리의 필요성을 다루고 있습니다.

OPENDEV는 복합 AI 시스템 아키텍처를 기반으로 하여, 작업 부하 전용 모델 라우팅, 계획과 실행을 분리하는 이중 에이전트 아키텍처, 지연 도구 발견, 그리고 적응형 컨텍스트 압축과 같은 다양한 혁신적 기술을 통해 컨텍스트 과부하 및 추론 저하 문제를 해결합니다. 특히, 이 시스템은 프로젝트 특화 지식을 세션 간에 축적할 수 있는 자동화된 메모리 시스템을 활용하며, 이벤트 기반 알림을 통해 지시 사항의 소멸을 방지합니다. 명시적인 추론 단계와 컨텍스트 효율성을 우선시함으로써, OPENDEV는 터미널 중심의 AI 지원 환경을 위한 안전하고 확장 가능한 기초를 제공합니다.

본 연구는 OPENDEV의 기술적 아키텍처와 기능을 통해 향후 AI 코딩 지원 시스템의 발전에 기여할 수 있는 가능성을 제시합니다. 또한, OPENDEV의 성능을 다양한 환경에서 평가하여 그 유효성을 입증하였으며, 이는 자율 소프트웨어 개발의 새로운 장을 여는 데 중요한 기초가 될 것입니다. 이러한 기여들은 AI 코딩 에이전트 분야에서의 연구와 실용적 응용의 발전을 촉진할 것으로 기대됩니다.

논문 초록(Abstract)

AI 코딩 지원의 환경은 복잡한 IDE 플러그인에서 다재다능한 터미널 네이티브 에이전트로 근본적인 변화를 겪고 있습니다. 개발자가 소스 제어를 관리하고, 빌드를 실행하며, 환경을 배포하는 바로 그 장소에서 직접 운영되는 CLI 기반 에이전트는 장기적인 개발 작업을 위한 전례 없는 자율성을 제공합니다. 본 논문에서는 이러한 새로운 패러다임을 위해 특별히 설계된 오픈 소스 커맨드라인 코딩 에이전트인 OPENDEV를 소개합니다. 효과적인 자율 지원을 위해서는 엄격한 안전 제어와 높은 효율의 컨텍스트 관리가 필요하며, 이를 통해 컨텍스트 팽창과 추론 저하를 방지해야 합니다. OPENDEV는 작업 부하에 특화된 모델 라우팅, 계획과 실행을 분리하는 이중 에이전트 아키텍처, 지연된 도구 발견, 오래된 관찰을 점진적으로 축소하는 적응형 컨텍스트 압축을 통해 이러한 문제를 극복합니다. 또한, 세션 간 프로젝트 특정 지식을 축적하기 위해 자동화된 메모리 시스템을 사용하고, 이벤트 기반 시스템 알림을 통해 지시 사항의 소멸을 방지합니다. 명시적인 추론 단계를 시행하고 컨텍스트 효율성을 우선시함으로써, OPENDEV는 터미널 중심 AI 지원을 위한 안전하고 확장 가능한 기반을 제공하며, 강력한 자율 소프트웨어 공학을 위한 청사진을 제시합니다.

The landscape of AI coding assistance is undergoing a fundamental shift from complex IDE plugins to versatile, terminal-native agents. Operating directly where developers manage source control, execute builds, and deploy environments, CLI-based agents offer unprecedented autonomy for long-horizon development tasks. In this paper, we present OPENDEV, an open-source, command-line coding agent engineered specifically for this new paradigm. Effective autonomous assistance requires strict safety controls and highly efficient context management to prevent context bloat and reasoning degradation. OPENDEV overcomes these challenges through a compound AI system architecture with workload-specialized model routing, a dual-agent architecture separating planning from execution, lazy tool discovery, and adaptive context compaction that progressively reduces older observations. Furthermore, it employs an automated memory system to accumulate project-specific knowledge across sessions and counteracts instruction fade-out through event-driven system reminders. By enforcing explicit reasoning phases and prioritizing context efficiency, OPENDEV provides a secure, extensible foundation for terminal-first AI assistance, offering a blueprint for robust autonomous software engineering.

논문 링크

더 읽어보기


EvoSkill: 다중 에이전트 시스템을 위한 자동화된 기술 발견 / EvoSkill: Automated Skill Discovery for Multi-Agent Systems

논문 소개

EvoSkill은 멀티 에이전트 시스템에서 스킬 발견을 자동화하기 위한 자가 진화 프레임워크로, 도메인 전문 지식이 필요한 특정 작업을 수행하기 위해 에이전트의 능력을 향상시키는 독창적인 접근법을 제시합니다. 기존의 스킬들은 대개 수작업으로 제작되어 도메인 특화 능력을 제공하는 데 한계가 있으며, 진화적 접근법은低 수준의 산물을 최적화하는 데 중점을 두었습니다. 이에 반해, EvoSkill은 반복적인 실패 분석을 통해 에이전트의 실행 실패 원인을 분석하고, 이를 기반으로 새로운 스킬을 제안하거나 기존의 스킬을 수정하여 구조화된 재사용 가능한 스킬 폴더를 생성합니다.

EvoSkill의 핵심 혁신은 Pareto 프론티어를 활용하여 성능이 향상된 스킬만을 선택하고 유지하는 과정입니다. 이러한 접근은 에이전트가 특정 작업에 대한 성능을 지속적으로 개선할 수 있도록 돕습니다. 본 연구에서는 EvoSkill을 두 가지 벤치마크, 즉 U.S. Treasury 데이터 기반의 OfficeQA와 노이즈가 있는 검색 증강 QA 벤치마크인 SealQA에서 평가하였으며, 각각 7.3%와 12.1%의 정확도 향상을 달성하였습니다.

또한, EvoSkill은 제로샷 전이 능력에 대한 가능성도 탐구하였습니다. SealQA에서 진화된 스킬이 BrowseComp로 전이되면서 5.3%의 정확도 향상을 이루어내어, 스킬 수준의 최적화가 훈련 작업을 넘어 전이 가능한 능력을 생성할 수 있음을 입증하였습니다. 이러한 결과는 EvoSkill이 에이전트 시스템의 도메인 전문성을 향상시키는 데 기여할 수 있는 혁신적인 방법임을 보여줍니다.

이 연구는 멀티 에이전트 시스템의 성능 향상에 새로운 방향을 제시하며, 자동화된 스킬 발견과 최적화를 통해 에이전트의 능력을 한 차원 끌어올리는 데 중요한 기여를 하고 있습니다. EvoSkill은 향후 다양한 도메인에 적용될 수 있는 가능성을 지니고 있으며, 에이전트의 능력 향상에 대한 연구에 중요한 발판이 될 것으로 기대됩니다.

논문 초록(Abstract)

코딩 에이전트는 일반적인 문제 해결사로 점점 더 많이 사용되고 있지만, 그들의 유연성만으로는 전문적인 작업에 필요한 도메인 전문성을 부여하지는 않습니다. 최근 연구에서는 이를 \textit{에이전트 스킬}을 통해 해결하고 있습니다: 도메인 특화 기능을 갖춘 에이전트를 보강하는 재사용 가능한 워크플로우와 코드입니다. 현재 대부분의 스킬은 수작업으로 제작되며, 기존의 진화적 접근법은 특정 모델과 작업에 밀접하게 결합된 저수준 인공물(예: 프롬프트 및 코드)을 최적화합니다. 우리는 \textbf{EvoSkill}을 도입합니다. EvoSkill은 반복적인 실패 분석을 통해 에이전트 스킬을 자동으로 발견하고 다듬는 자기 진화 프레임워크입니다. EvoSkill은 실행 실패를 분석하고, 새로운 스킬이나 기존 스킬에 대한 수정을 제안하며, 이를 구조화된 재사용 가능한 스킬 폴더로 구체화합니다. 에이전트 프로그램의 파레토 프론티어가 선택을 관리하여, 기본 모델이 고정된 상태에서 유지된 검증 성능을 향상시키는 스킬만을 유지합니다. 우리는 EvoSkill을 두 가지 벤치마크에서 평가했습니다: 미국 재무부 데이터에 대한 근거 있는 추론 벤치마크인 OfficeQA에서는 정확한 일치율을 \textbf{7.3%} 개선(60.6% \to 67.9%)하였고, 잡음이 있는 검색을 통한 QA 벤치마크인 SealQA에서는 \textbf{12.1%}의 이득(26.6% \to 38.7%)을 얻었습니다. 또한, 한 작업에서 진화한 스킬이 다른 작업으로 제로샷 전이 능력을 갖는지 조사했습니다; 특히, SealQA에서 진화한 스킬은 BrowseComp로 제로샷 전이되어 수정 없이 정확도를 \textbf{5.3%} 향상시켰으며, 이는 스킬 수준 최적화가 훈련 작업을 넘어 전이 가능한 능력을 생성함을 보여줍니다.

Coding agents are increasingly used as general-purpose problem solvers, but their flexibility does not by itself confer the domain expertise needed for specialized tasks. Recent work addresses this through \textit{agent skills}: reusable workflows, and code, that augment agents with domain-specific capabilities. Most skills today are hand-crafted, and existing evolutionary approaches optimize low-level artifacts (e.g. prompts & code) that are tightly coupled to specific models and tasks. We introduce \textbf{EvoSkill}, a self-evolving framework that automatically discovers and refines agent skills through iterative failure analysis. EvoSkill analyzes execution failures, proposes new skills or edits to existing ones, and materializes them into structured, reusable skill folders. A Pareto frontier of agent programs governs selection, retaining only skills that improve held-out validation performance while the underlying model remains frozen. We evaluate EvoSkill on two benchmarks: OfficeQA, a grounded reasoning benchmark over U.S.\ Treasury data, where it improves exact-match accuracy by \textbf{7.3%} (60.6% \to 67.9%); and SealQA, a search-augmented QA benchmark with noisy retrieval, where it yields a \textbf{12.1%} gain (26.6% \to 38.7%). We also investigate the zero-shot transfer capabilties of skills evolved on one task to the other; in particular: skills evolved from SealQA transfers zero-shot to BrowseComp, improving accuracy by \textbf{5.3%} without modification demonstrating that skill-level optimization produces transferable capabilities beyond the training task.

논문 링크

더 읽어보기


기억을 위한 사고: 추론이 대규모 언어 모델의 매개 지식 회수를 여는 방법 / Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

논문 소개

대규모 언어 모델(LLM)에서의 추론(reasoning)의 역할은 다양한 복잡한 작업에서 입증되었으나, 단순한 단일 홉 사실 질문에 대한 그 효과는 상대적으로 미비하게 연구되어 왔다. 본 연구는 이러한 단순한 질문에서도 추론이 어떻게 모델의 매개 지식 회수를 증대시킬 수 있는지를 탐구하였다. 연구자들은 첫째로, 추론이 단순 사실 질문의 정답을 도출하는 데 있어 어떤 방식으로 기여하는지를 명확히 하기 위해 가설 기반의 제어된 실험을 설계하였다. 이 과정에서 두 가지 주요 메커니즘, 즉 계산 버퍼 효과(computational buffer effect)와 사실 프라이밍(factual priming)을 밝혀냈다.

계산 버퍼 효과는 모델이 생성된 추론 토큰을 사용하여 의미적 내용과 무관하게 잠재적 계산을 수행하는 현상을 설명한다. 반면, 사실 프라이밍은 주제적으로 관련된 사실을 생성하여 정답 검색을 촉진하는 역할을 한다. 이러한 메커니즘은 단순한 질문에서도 추론이 유용할 수 있음을 보여주며, 그 과정에서 발생할 수 있는 환각 현상(hallucination)과 관련된 위험성도 경고하고 있다. 연구자들은 환각이 모델의 최종 응답에 미치는 부정적인 영향을 분석하고, 이러한 문제를 해결하기 위해 환각이 없는 사실 진술을 포함하는 추론 경로를 우선시할 필요성을 강조하였다.

이 연구는 LLM의 성능 향상에 기여할 수 있는 새로운 방법론을 제시하며, 추론 과정에서 발생할 수 있는 문제들을 관리할 수 있는 기초를 제공한다. 나아가, 본 연구는 LLM의 매개 지식 회수의 한계를 극복하기 위한 중요한 통찰력을 제공하며, 향후 연구 방향에 대한 제언을 통해 지속적인 발전 가능성을 모색하는 데 기여할 것으로 기대된다. 이러한 점에서 본 연구는 LLM을 활용한 다양한 응용 분야에서의 성과를 극대화하는 데 중요한 기초 자료가 될 것이다.

논문 초록(Abstract)

LLM에서의 추론이 수학, 코드 생성 및 다중 단계 사실 질문에서 자연스러운 역할을 하지만, 단순한 단일 단계 사실 질문에 미치는 영향은 여전히 불확실합니다. 이러한 질문은 단계별 논리적 분해를 요구하지 않기 때문에 추론의 유용성이 매우 직관적이지 않습니다. 그럼에도 불구하고, 우리는 추론을 가능하게 함으로써 모델의 매개변수적 지식 회상의 능력 경계를 상당히 확장하여, 그렇지 않으면 효과적으로 도달할 수 없는 올바른 답변을 열 수 있음을 발견했습니다. 복잡한 추론 단계가 필요하지 않을 때 추론이 매개변수적 지식 회상을 돕는 이유는 무엇일까요? 이를 해결하기 위해 우리는 가설 기반의 통제된 실험을 설계하고 두 가지 주요 작동 메커니즘을 확인했습니다: (1) 생성된 추론 토큰을 사용하여 의미적 내용과 무관하게 잠재적 계산을 수행하는 계산 버퍼 효과; (2) 주제와 관련된 사실을 생성함으로써 올바른 답변 검색을 용이하게 하는 의미적 다리 역할을 하는 사실 프라이밍. 특히, 후자의 생성적 자기 검색 메커니즘은 고유한 위험을 내포하고 있습니다: 우리는 추론 중 중간 사실을 환각하는 것이 최종 답변에서 환각이 발생할 가능성을 증가시킨다는 것을 보여줍니다. 마지막으로, 우리는 우리의 통찰이 환각이 없는 사실 진술을 포함하는 추론 경로에 우선순위를 두어 모델의 정확성을 직접 개선하는 데 활용될 수 있음을 보여줍니다.

While reasoning in LLMs plays a natural role in math, code generation, and multi-hop factual questions, its effect on simple, single-hop factual questions remains unclear. Such questions do not require step-by-step logical decomposition, making the utility of reasoning highly counterintuitive. Nevertheless, we find that enabling reasoning substantially expands the capability boundary of the model's parametric knowledge recall, unlocking correct answers that are otherwise effectively unreachable. Why does reasoning aid parametric knowledge recall when there are no complex reasoning steps to be done? To answer this, we design a series of hypothesis-driven controlled experiments, and identify two key driving mechanisms: (1) a computational buffer effect, where the model uses the generated reasoning tokens to perform latent computation independent of their semantic content; and (2) factual priming, where generating topically related facts acts as a semantic bridge that facilitates correct answer retrieval. Importantly, this latter generative self-retrieval mechanism carries inherent risks: we demonstrate that hallucinating intermediate facts during reasoning increases the likelihood of hallucinations in the final answer. Finally, we show that our insights can be harnessed to directly improve model accuracy by prioritizing reasoning trajectories that contain hallucination-free factual statements.

논문 링크


CUDA 에이전트: 고성능 CUDA 커널 생성을 위한 대규모 에이전틱 강화학습 / CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

논문 소개

GPU 커널 최적화는 현대 딥러닝의 성능을 결정짓는 중요한 요소로, 깊은 하드웨어 전문 지식을 필요로 하는 복잡한 작업이다. 기존의 CUDA 코드 생성 방법은 훈련 없는 정제 방식이나 고정된 다회전 실행-피드백 루프에 의존하여, 모델의 내재된 CUDA 최적화 능력을 실질적으로 개선하지 못하는 한계를 드러냈다. 이에 대한 해결책으로 제안되는 CUDA Agent는 대규모 에이전트 강화학습 시스템으로, CUDA 커널 최적화를 위한 세 가지 주요 구성 요소를 갖추고 있다.

첫째, 확장 가능한 데이터 합성 파이프라인을 통해 다양한 CUDA 커널을 생성하는 데 필요한 데이터를 효과적으로 합성한다. 둘째, 기술 지원 CUDA 개발 환경은 자동화된 검증 및 프로파일링 시스템을 도입하여 신뢰할 수 있는 보상 신호를 제공함으로써 모델의 학습 질을 향상시킨다. 마지막으로, 강화학습 알고리즘 기법을 통해 안정적인 학습을 지원하며, 이러한 혁신적인 접근 방식은 CUDA 커널 최적화 분야에서 새로운 기준을 설정할 수 있는 잠재력을 지닌다.

CUDA Agent는 KernelBench를 통해 실험을 수행하여, 기존의 torch.compile에 비해 Level-1, Level-2, Level-3에서 각각 100%, 100%, 92%의 성능 향상을 기록하였다. 특히, 가장 어려운 Level-3 설정에서는 Claude Opus 4.5와 Gemini 3 Pro와 같은 강력한 상용 모델보다 약 40% 더 나은 성능을 보여주었다. 이러한 결과는 CUDA Agent가 CUDA 커널 최적화를 위한 새로운 패러다임을 제시할 수 있음을 시사한다. 이 연구는 CUDA 개발자들에게 실질적인 혜택을 제공할 수 있는 중요한 기여를 하고 있으며, 향후 딥러닝의 발전에도 큰 영향을 미칠 것으로 기대된다.

논문 초록(Abstract)

GPU 커널 최적화는 현대 딥러닝의 기본 요소이지만, 깊은 하드웨어 전문 지식을 요구하는 매우 전문화된 작업으로 남아 있습니다. 일반 프로그래밍에서 강력한 성능을 보이는 대규모 언어 모델(LLM)들은 CUDA 커널 생성을 위한 torch.compile과 같은 컴파일러 기반 시스템과 비교했을 때 경쟁력이 떨어집니다. 기존의 CUDA 코드 생성 접근법은 훈련이 필요 없는 정제를 의존하거나 고정된 다중 턴 실행-피드백 루프 내에서 모델을 미세 조정하지만, 두 가지 패러다임 모두 모델의 본질적인 CUDA 최적화 능력을 근본적으로 개선하지 못하여 제한된 성능 향상을 초래합니다. 우리는 CUDA Agent를 소개하며, 이는 세 가지 구성 요소를 통해 CUDA 커널 전문성을 개발하는 대규모 에이전틱 강화학습 시스템입니다: 확장 가능한 데이터 합성 파이프라인, 신뢰할 수 있는 보상 신호를 제공하기 위한 자동 검증 및 프로파일링 기능이 있는 기술 증강 CUDA 개발 환경, 그리고 안정적인 훈련을 가능하게 하는 강화학습 알고리즘 기술입니다. CUDA Agent는 KernelBench에서 최첨단 결과를 달성하며, KernelBench Level-1, Level-2, Level-3 분할에서 각각 torch.compile보다 100%, 100%, 92% 더 빠른 속도를 제공하고, 가장 어려운 Level-3 설정에서 Claude Opus 4.5 및 Gemini 3 Pro와 같은 가장 강력한 상용 모델을 약 40% 초월합니다.

GPU kernel optimization is fundamental to modern deep learning but remains a highly specialized task requiring deep hardware expertise. Despite strong performance in general programming, large language models (LLMs) remain uncompetitive with compiler-based systems such as torch.compile for CUDA kernel generation. Existing CUDA code generation approaches either rely on training-free refinement or fine-tune models within fixed multi-turn execution-feedback loops, but both paradigms fail to fundamentally improve the model's intrinsic CUDA optimization ability, resulting in limited performance gains. We present CUDA Agent, a large-scale agentic reinforcement learning system that develops CUDA kernel expertise through three components: a scalable data synthesis pipeline, a skill-augmented CUDA development environment with automated verification and profiling to provide reliable reward signals, and reinforcement learning algorithmic techniques enabling stable training. CUDA Agent achieves state-of-the-art results on KernelBench, delivering 100%, 100%, and 92% faster rate over torch.compile on KernelBench Level-1, Level-2, and Level-3 splits, outperforming the strongest proprietary models such as Claude Opus 4.5 and Gemini 3 Pro by about 40% on the hardest Level-3 setting.

논문 링크

더 읽어보기


dLLM: 간단한 디퓨전 언어 모델링 / dLLM: Simple Diffusion Language Modeling

논문 소개

디퓨전 언어 모델(Diffusion Language Model, DLM)의 발전은 최근 몇 년 간 급격히 이루어졌으나, 기존 모델들이 공유하는 핵심 구성 요소가 여러 연구 코드베이스에 분산되어 있어 재현성과 확장이 어렵다는 문제가 있었다. 이러한 문제를 해결하기 위해 개발된 dLLM은 오픈소스 프레임워크로, 디퓨전 언어 모델링의 핵심 구성 요소인 학습, 추론, 평가를 통합하여 사용자에게 맞춤형 설계를 지원한다. dLLM을 활용하면 사용자는 LLaDA와 Dream과 같은 대규모 DLM을 표준화된 파이프라인을 통해 재현, 파인튜닝 및 배포할 수 있으며, 기존 모델로부터 쉽게 학습할 수 있는 사용자 친화적인 학습 파이프라인을 제공받는다.

이 프레임워크의 혁신적인 특징은 모든 BERT 스타일 인코더나 오토회귀 언어 모델을 DLM으로 변환할 수 있는 최소한의 재현 가능한 레시피를 제공하여, 작은 DLM을 쉽게 구축할 수 있도록 돕는 것이다. 이를 통해 사용자는 디퓨전 모델링의 접근성을 높이고 향후 연구를 가속화할 수 있는 기회를 제공받는다. dLLM은 다양한 모델 아키텍처에 대한 호환성을 유지하며, 통일된 평가 메트릭을 통해 모델 성능을 객관적으로 비교할 수 있도록 설계되었다.

이러한 접근은 디퓨전 언어 모델 분야의 표준화를 촉진하고 연구자들이 새로운 방법론과 아키텍처를 쉽게 통합할 수 있도록 유연성을 제공하는 데 기여한다. 실험 결과는 dLLM이 대규모 DLM을 효과적으로 재현하고 파인튜닝할 수 있음을 보여주며, 연구자들이 쉽게 새로운 DLM을 구축하고 평가할 수 있는 강력한 도구로 자리잡을 것을 기대하게 한다. dLLM은 디퓨전 언어 모델링의 발전에 중요한 기여를 하며, 이를 통해 더 많은 연구자들이 이 분야에 참여할 수 있도록 하는 계기를 마련할 것이다.

논문 초록(Abstract)

확산 언어 모델(Distribution Language Models, DLM)은 빠르게 발전하고 있지만, 많은 최신 모델들이 공유 구성 요소 세트에 수렴하고 있습니다. 그러나 이러한 구성 요소는 임의의 연구 코드베이스에 분산되어 있거나 투명한 구현이 부족하여 재현하거나 확장하기 어렵습니다. 분야가 가속화됨에 따라, 이러한 공통 구성 요소를 표준화하면서도 새로운 방법과 아키텍처를 지원할 수 있는 유연한 통합 프레임워크에 대한 명확한 필요성이 있습니다. 이 간극을 해결하기 위해, 우리는 확산 언어 모델링의 핵심 구성 요소인 학습, 추론 및 평가를 통합하고 새로운 설계를 쉽게 사용자 정의할 수 있게 해주는 오픈소스 프레임워크인 dLLM을 소개합니다. dLLM을 통해 사용자는 LLaDA 및 Dream과 같은 오픈소스 대규모 DLM을 표준화된 파이프라인을 통해 재현하고, 파인튜닝하며, 배포하고 평가할 수 있습니다. 이 프레임워크는 또한 접근 가능한 계산 자원을 사용하여 작은 DLM을 처음부터 구축할 수 있는 최소한의 재현 가능한 레시피를 제공합니다. 여기에는 어떤 BERT 스타일의 인코더나 자동 회귀 언어 모델을 DLM으로 변환하는 것도 포함됩니다. 우리는 또한 이러한 작은 DLM의 체크포인트를 공개하여 DLM을 보다 접근 가능하게 하고 향후 연구를 가속화하고자 합니다.

Although diffusion language models (DLMs) are evolving quickly, many recent models converge on a set of shared components. These components, however, are distributed across ad-hoc research codebases or lack transparent implementations, making them difficult to reproduce or extend. As the field accelerates, there is a clear need for a unified framework that standardizes these common components while remaining flexible enough to support new methods and architectures. To address this gap, we introduce dLLM, an open-source framework that unifies the core components of diffusion language modeling -- training, inference, and evaluation -- and makes them easy to customize for new designs. With dLLM, users can reproduce, finetune, deploy, and evaluate open-source large DLMs such as LLaDA and Dream through a standardized pipeline. The framework also provides minimal, reproducible recipes for building small DLMs from scratch with accessible compute, including converting any BERT-style encoder or autoregressive LM into a DLM. We also release the checkpoints of these small DLMs to make DLMs more accessible and accelerate future research.

논문 링크

더 읽어보기


대규모 언어 모델을 위한 에이전틱 강화학습의 경향: 서베이 / The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

논문 소개

에이전틱 강화학습(Agentic Reinforcement Learning, Agentic RL)의 발전은 대규모 언어 모델(LLM)을 활용한 기존의 강화학습 접근 방식을 혁신적으로 변화시키고 있다. 이 연구는 LLM을 단순한 시퀀스 생성기에서 복잡한 환경 내에서 자율적으로 결정을 내릴 수 있는 에이전트로 재구성하는 새로운 패러다임을 제시한다. 에이전틱 RL은 시간적으로 확장된 부분 관찰 가능 마르코프 결정 과정(Partially Observable Markov Decision Processes, POMDP)을 기반으로 하여, 기존의 단일 단계 마르코프 결정 과정(Markov Decision Processes, MDP)의 한계를 극복하고 다양한 에이전틱 능력을 개발하는 데 중점을 두고 있다.

본 연구는 에이전틱 RL의 핵심 능력인 계획, 도구 사용, 기억, 추론, 자기 개선 및 인식을 중심으로 한 이중 분류법을 제안하며, 이를 다양한 작업 도메인에 적용할 수 있는 방법을 탐구한다. 강화학습은 이러한 능력을 정적이고 휴리스틱한 모듈에서 적응적이고 강력한 에이전틱 행동으로 전환하는 데 중요한 역할을 한다. 연구자들은 오픈 소스 환경, 벤치마크 및 프레임워크를 통합하여 에이전틱 RL의 발전을 촉진할 수 있는 실용적인 자료를 제공한다.

500편 이상의 최신 연구를 종합하여 에이전틱 RL의 진화하는 경관을 제시하며, 이 분야에서의 기회와 도전 과제를 강조한다. 이를 통해 LLM의 활용 가능성을 확대하고, 확장 가능하며 일반 목적의 인공지능(AI) 에이전트 개발에 기여할 수 있는 방향성을 제시하고 있다. 연구는 에이전틱 RL의 중요성과 미래 연구의 방향성을 명확히 하며, 이 분야에서의 지속적인 연구 필요성을 강조한다. 이러한 기여는 에이전틱 RL이 LLM의 발전에 중대한 역할을 할 것임을 시사하며, 향후 연구에서 다루어야 할 여러 주제와 문제를 제안한다.

논문 초록(Abstract)

에이전틱 강화학습(Agentic RL)의 출현은 대규모 언어 모델에 적용된 기존의 강화학습(LLM RL)에서 패러다임의 전환을 나타내며, 대규모 언어 모델을 수동적인 시퀀스 생성기에서 복잡하고 동적인 세계에 내재된 자율적 의사결정 에이전트로 재구성합니다. 본 서베이는 에이전틱 RL을 정의하는 시간적으로 확장된 부분 관찰 마르코프 결정 과정(POMDP)과 LLM-RL의 퇴화된 단일 단계 마르코프 결정 과정(MDP)을 대조하여 이 개념적 전환을 형식화합니다. 이러한 기초 위에, 우리는 계획, 도구 사용, 기억, 추론, 자기 개선 및 지각을 포함하는 핵심 에이전틱 역량을 중심으로 한 분류 체계와 다양한 작업 도메인에서의 적용을 중심으로 한 분류 체계를 제안합니다. 우리의 주장의 핵심은 강화학습이 이러한 역량을 정적이고 휴리스틱한 모듈에서 적응적이고 강력한 에이전틱 행동으로 변환하는 중요한 메커니즘 역할을 한다는 것입니다. 미래 연구를 지원하고 가속화하기 위해, 우리는 오픈 소스 환경, 벤치마크 및 프레임워크의 전반적인 경관을 실용적인 요약으로 통합합니다. 500편 이상의 최근 연구를 종합하여, 본 서베이는 이 빠르게 진화하는 분야의 윤곽을 그리며 확장 가능하고 범용적인 AI 에이전트 개발에 영향을 미칠 기회와 도전을 강조합니다.

The emergence of agentic reinforcement learning (Agentic RL) marks a paradigm shift from conventional reinforcement learning applied to large language models (LLM RL), reframing LLMs from passive sequence generators into autonomous, decision-making agents embedded in complex, dynamic worlds. This survey formalizes this conceptual shift by contrasting the degenerate single-step Markov Decision Processes (MDPs) of LLM-RL with the temporally extended, partially observable Markov decision processes (POMDPs) that define Agentic RL. Building on this foundation, we propose a comprehensive twofold taxonomy: one organized around core agentic capabilities, including planning, tool use, memory, reasoning, self-improvement, and perception, and the other around their applications across diverse task domains. Central to our thesis is that reinforcement learning serves as the critical mechanism for transforming these capabilities from static, heuristic modules into adaptive, robust agentic behavior. To support and accelerate future research, we consolidate the landscape of open-source environments, benchmarks, and frameworks into a practical compendium. By synthesizing over five hundred recent works, this survey charts the contours of this rapidly evolving field and highlights the opportunities and challenges that will shape the development of scalable, general-purpose AI agents.

논문 링크


:fire:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: