[2026/02/02 ~ 08] 이번 주에 살펴볼 만한 AI/ML 논문 모음

[2026/02/02 ~ 08] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR​:fire::south_korea: :thinking::thought_balloon:

:one: 데이터 의존도를 낮추는 "자체 진화(Self-Evolution)"와 "자기 교정": 외부의 고품질 데이터에만 의존하던 기존 학습 방식에서 벗어나, 모델 스스로 데이터를 생성하고 오류를 수정하며 성장하는 연구들이 두각을 나타내고 있습니다. Dr. Zero는 훈련 데이터 없이 제안자(Proposer)와 해결자(Solver) 에이전트 간의 상호작용만으로 검색 능력을 스스로 진화시키는 프레임워크를 선보였고, SDPO는 외부 정답지 없이 모델 자신의 산출물을 '자기 교사(Self-teacher)'로 삼아 코딩과 수학 능력을 강화했습니다. 또한 SALE은 테스트 단계에서 스스로 전략을 수정하는 자기 개선(Self-improvement) 메커니즘을 도입했습니다. 이는 데이터 부족 문제를 해결하고 모델의 자생력을 높이려는 시도로 해석됩니다.

:two: 단일 모델을 넘어선 "구조적 효율성"과 "에이전트 협업": 모델의 크기(Depth)를 키우는 경쟁보다, 에이전트 간의 협업 방식(Width)이나 정보 처리 구조를 최적화하여 효율을 높이는 접근이 강세입니다. WideSeek-R1은 단일 에이전트의 한계를 극복하기 위해 작업을 병렬로 수행하는 '폭 확장(Width scaling)'을 제안했고, DeepRead는 문서를 단순히 읽는 것이 아니라 구조적 좌표를 인식해 필요한 부분만 찾아 읽는 효율적인 방식을 택했습니다. 또한 Idea2Story는 실시간 추론의 부하를 줄이기 위해 오프라인에서 미리 지식 그래프를 구축하는 방식을 사용하여, 무거운 연산 비용을 줄이면서도 복잡한 과학적 발견을 가능하게 했습니다.

:three: "고차원적 지능" 검증과 인간 중심의 "영향력 평가": 평가의 기준이 단순한 정답 맞히기를 넘어, 실제 연구 수준의 문제 해결 능력이나 물리적/공간적 이해도, 그리고 인간에게 미치는 영향까지 확장되고 있습니다. First Proof는 AI가 인터넷에 없는 미공개 수학 난제를 풀 수 있는지 검증하며 진정한 '연구 능력'을 시험대에 올렸고, SpatialGenEval은 이미지 생성 모델이 단순 묘사를 넘어 복잡한 공간 관계를 이해하는지 평가합니다. 특히 AI Impacts Skill Formation은 AI가 초보 개발자의 생산성은 높여주지만 학습 기회를 박탈해 기술 형성을 저해할 수 있음을 경고하며, 기술적 성능을 넘어선 교육적/사회적 영향력까지 고찰하고 있습니다.


DeepRead: 에이전트 검색을 향상시키기 위한 문서 구조 인식 추론 / DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search


논문 소개

DeepRead는 긴 문서에서 질문 응답의 효율성을 높이기 위해 문서 구조를 인식하는 다단계 추론 에이전트를 제안합니다. 기존의 Retrieval-Augmented Generation (RAG) 시스템은 긴 문서를 평면적으로 처리하여 문서의 고유한 계층적 조직 및 담론 구조를 충분히 활용하지 못했습니다. 이를 해결하기 위해 DeepRead는 LLM(대형 언어 모델) 기반의 OCR(광학 문자 인식) 모델을 활용하여 PDF 문서를 구조화된 Markdown 형식으로 변환하고, 각 단락에 섹션 정체성과 순서를 인코딩하는 좌표 스타일의 메타데이터를 할당합니다. 이러한 구조적 표현을 바탕으로 DeepRead는 Retrieve와 ReadSection이라는 두 가지 보완적인 도구를 LLM에 통합하여, 문서 내에서 관련 단락을 효과적으로 검색하고, 지정된 섹션 및 단락 범위 내에서 연속적으로 읽을 수 있는 기능을 제공합니다.

DeepRead의 혁신적인 접근 방식은 문서의 계층 구조와 순차적 선행 지식을 활용하여, 인간과 유사한 "위치 확인 후 읽기" 행동 패턴을 구현합니다. 실험 결과, DeepRead는 기존의 Search-o1 스타일 에이전틱 검색보다 문서 질문 응답에서 유의미한 성과를 보여주었으며, 검색과 읽기 도구 간의 시너지 효과도 검증되었습니다. 이러한 성과는 긴 문서와 다단계 시나리오에서 정보 검색의 비효율성을 극복하는 데 기여합니다.

DeepRead의 주요 기여는 구조 인식 문서 추론 프레임워크를 통해 문서 질문 응답의 효율성을 크게 향상시킨 점입니다. 이 시스템은 다양한 벤치마크에서 일관된 성과를 달성하며, 세밀한 행동 분석을 통해 구조적 선행 지식과 에이전틱 도구 간의 상호작용을 입증합니다. 이러한 연구는 정보 검색의 새로운 가능성을 열어주며, 향후 다양한 도메인에서의 적용 가능성과 구조적 인식 능력의 발전을 위한 기초를 마련합니다.

논문 초록(Abstract)

도구 사용 및 주체적인 대규모 언어 모델(LLM)의 급속한 발전과 함께, 검색-증강 생성(RAG)은 일회성의 수동 검색에서 다회성의 결정 기반 증거 획득으로 진화하고 있습니다. 개방형 도메인 환경에서 강력한 결과에도 불구하고, 기존의 주체적 검색 프레임워크는 긴 문서를 조각의 평면적 집합으로 취급하여, 계층적 조직 및 순차적 담화 구조와 같은 문서 고유의 선험적 정보를 충분히 활용하지 못하고 있습니다. 우리는 긴 문서 질문 응답을 위해 이러한 선험적 정보를 명시적으로 활용하는 구조 인식 다회성 문서 추론 에이전트인 DeepRead를 소개합니다. DeepRead는 LLM 기반의 OCR 모델을 활용하여 PDF를 제목과 단락 경계를 보존하는 구조화된 Markdown으로 변환합니다. 그런 다음 문서를 단락 수준에서 색인화하고, 각 단락에 섹션 정체성과 섹션 내 순서를 인코딩하는 좌표 스타일의 메타데이터 키를 할당합니다. 이러한 표현을 바탕으로, DeepRead는 LLM에 두 가지 보완 도구를 제공합니다: 관련 단락을 지역화하면서 그 구조적 좌표를 노출하는 Retrieve 도구(경량 스캔 컨텍스트 포함)와 지정된 섹션 및 단락 범위 내에서 연속적이고 순서를 보존하는 독서를 가능하게 하는 ReadSection 도구입니다. 우리의 실험 결과, DeepRead는 문서 질문 응답에서 Search-o1 스타일의 주체적 검색에 비해 상당한 개선을 달성함을 보여줍니다. 검색 도구와 독서 도구 간의 시너지 효과도 검증되었습니다. 우리의 세분화된 행동 분석은 인간과 유사한 "찾고 읽기" 행동을 닮은 독서 및 추론 패러다임을 드러냅니다.

With the rapid progress of tool-using and agentic large language models (LLMs), Retrieval-Augmented Generation (RAG) is evolving from one-shot, passive retrieval into multi-turn, decision-driven evidence acquisition. Despite strong results in open-domain settings, existing agentic search frameworks commonly treat long documents as flat collections of chunks, underutilizing document-native priors such as hierarchical organization and sequential discourse structure. We introduce DeepRead, a structure-aware, multi-turn document reasoning agent that explicitly operationalizes these priors for long-document question answering. DeepRead leverages LLM-based OCR model to convert PDFs into structured Markdown that preserves headings and paragraph boundaries. It then indexes documents at the paragraph level and assigns each paragraph a coordinate-style metadata key encoding its section identity and in-section order. Building on this representation, DeepRead equips the LLM with two complementary tools: a Retrieve tool that localizes relevant paragraphs while exposing their structural coordinates (with lightweight scanning context), and a ReadSection tool that enables contiguous, order-preserving reading within a specified section and paragraph range. Our experiments demonstrate that DeepRead achieves significant improvements over Search-o1-style agentic search in document question answering. The synergistic effect between retrieval and reading tools is also validated. Our fine-grained behavioral analysis reveals a reading and reasoning paradigm resembling human-like ``locate then read'' behavior.

논문 링크


SALE: 전략 경매를 통한 소형 에이전트의 확장 / Scaling Small Agents Through Strategy Auctions

논문 소개

작은 언어 모델은 에이전트 AI에 대한 유망하고 비용 효율적인 접근 방식으로 점점 더 주목받고 있다. 그러나 작은 에이전트는 단순한 작업에서는 큰 모델과 유사한 성능을 보이지만, 작업 복잡성이 증가할수록 성능이 어떻게 변화하는지에 대한 명확한 이해가 부족하다. 본 연구에서는 작은 에이전트의 성능이 깊은 검색 및 코딩 작업의 복잡성에 따라 확장되지 않음을 실증적으로 보여주고, 작업 효율성을 위한 전략 경매 프레임워크인 SALE을 소개한다. SALE에서는 에이전트가 짧은 전략 계획으로 입찰하며, 체계적인 비용-가치 메커니즘에 의해 점수가 매겨지고 공유된 경매 메모리를 통해 개선된다. 이를 통해 각 작업에 대한 경로 설정과 지속적인 자기 개선이 가능해지며, 큰 에이전트에 대한 의존도를 53% 줄이고 전체 비용을 35% 낮추는 결과를 얻었다. 기존의 라우터는 작업 설명에 의존하여 성능이 저하되거나 비용 절감에 실패하는 경우가 많아 에이전트 워크플로우에 적합하지 않음을 보여준다. 이러한 결과는 작은 에이전트가 복잡한 작업에 부족할 수 있지만, 협조적인 작업 할당과 테스트 시 자기 개선을 통해 효과적으로 "확장"될 수 있음을 시사한다. 더 나아가, 성능 향상이 개별 모델의 크기 증가에서 오는 것이 아니라 이질적인 에이전트를 효율적이고 적응 가능한 생태계로 조직하는 시장 기반의 조정 메커니즘에서 온다는 시스템적 관점을 제안한다.

논문 초록(Abstract)

소형 언어 모델은 에이전틱 AI에 대한 유망하고 비용 효율적인 접근 방식으로 점점 더 인식되고 있으며, 지지자들은 이들이 에이전틱 워크플로우에 충분히 능력이 있다고 주장합니다. 그러나 소형 에이전트가 간단한 작업에서는 대형 에이전트와 밀접하게 일치할 수 있지만, 작업 복잡성에 따라 성능이 어떻게 변화하는지, 대형 모델이 언제 필요한지, 그리고 소형 에이전트를 장기 작업에 어떻게 더 잘 활용할 수 있는지는 여전히 불확실합니다. 본 연구에서는 소형 에이전트의 성능이 심층 검색 및 코딩 작업의 작업 복잡성에 따라 확장되지 않음을 경험적으로 보여주고, 프리랜서 마켓플레이스에서 영감을 받은 에이전트 프레임워크인 전략 경매를 통한 작업 효율성(Strategy Auctions for Workload Efficiency, SALE)을 소개합니다. SALE에서는 에이전트가 짧은 전략 계획으로 입찰하며, 이는 체계적인 비용-가치 메커니즘에 의해 평가되고 공유 경매 메모리를 통해 다듬어져, 별도의 라우터를 훈련하거나 모든 모델을 완료할 필요 없이 작업별 라우팅 및 지속적인 자기 개선을 가능하게 합니다. 다양한 복잡성의 심층 검색 및 코딩 작업에서 SALE은 가장 큰 에이전트에 대한 의존도를 53% 줄이고, 전체 비용을 35% 낮추며, 최종 추적을 실행하는 것 외에는 미미한 오버헤드로 가장 큰 에이전트의 pass@1을 지속적으로 개선합니다. 반면, 작업 설명에 의존하는 기존 라우터는 가장 큰 에이전트보다 성능이 떨어지거나 비용을 줄이지 못하는 경우가 많아, 종종 두 가지 모두에 해당하여 에이전틱 워크플로우에 적합하지 않음을 강조합니다. 이러한 결과는 소형 에이전트가 복잡한 작업에 대해 불충분할 수 있지만, 협조적인 작업 할당 및 테스트 시간 자기 개선을 통해 효과적으로 "확장"될 수 있음을 시사합니다. 더 넓게는, 이는 성능 향상이 개별 모델의 크기가 커지는 것에서 비롯되기보다는 이질적인 에이전트를 효율적이고 적응적인 생태계로 조직하는 시장에서 영감을 받은 조정 메커니즘에서 비롯되는 에이전틱 AI의 시스템 수준 관점을 촉진합니다.

Small language models are increasingly viewed as a promising, cost-effective approach to agentic AI, with proponents claiming they are sufficiently capable for agentic workflows. However, while smaller agents can closely match larger ones on simple tasks, it remains unclear how their performance scales with task complexity, when large models become necessary, and how to better leverage small agents for long-horizon workloads. In this work, we empirically show that small agents' performance fails to scale with task complexity on deep search and coding tasks, and we introduce Strategy Auctions for Workload Efficiency (SALE), an agent framework inspired by freelancer marketplaces. In SALE, agents bid with short strategic plans, which are scored by a systematic cost-value mechanism and refined via a shared auction memory, enabling per-task routing and continual self-improvement without training a separate router or running all models to completion. Across deep search and coding tasks of varying complexity, SALE reduces reliance on the largest agent by 53%, lowers overall cost by 35%, and consistently improves upon the largest agent's pass@1 with only a negligible overhead beyond executing the final trace. In contrast, established routers that rely on task descriptions either underperform the largest agent or fail to reduce cost -- often both -- underscoring their poor fit for agentic workflows. These results suggest that while small agents may be insufficient for complex workloads, they can be effectively "scaled up" through coordinated task allocation and test-time self-improvement. More broadly, they motivate a systems-level view of agentic AI in which performance gains come less from ever-larger individual models and more from market-inspired coordination mechanisms that organize heterogeneous agents into efficient, adaptive ecosystems.

논문 링크


첫 번째 증명 / First Proof

논문 소개

현재 인공지능(AI) 시스템이 연구 수준의 수학 문제를 해결할 수 있는 능력을 평가하기 위한 초기 연구가 진행되고 있다. 저자들은 연구 과정에서 자연스럽게 발생한 10개의 수학 문제를 제시하며, 이 문제들은 그동안 공개되지 않았고 저자들만 정답을 알고 있다. 이 연구의 주요 목표는 AI 도구가 전문 수학자들의 작업 흐름에서 어떤 역할을 할 수 있는지를 깊이 이해하는 것이다. 현재 상용 AI 시스템은 수학자들에게 유용한 도구로 자리 잡고 있지만, 연구 수준의 문제를 스스로 해결할 수 있는 능력은 아직 명확하지 않다. 기존의 수학 벤치마크는 AI 시스템의 성능을 수학 경시대회 문제에 한정하고 있어, 연구자들이 수행하는 창의적 수학의 실제를 반영하지 못하고 있다.

연구 능력의 평가는 도전적인 과제이다. 최신 AI 시스템이 문헌 검색과 문제 변환에 능숙해짐에 따라, 문제 해결 능력과 검색 능력을 분리하는 것이 어려워졌다. 저자들은 이상적인 테스트가 수학자의 연구 과정에서 자연스럽게 발생한 문제를 포함해야 한다고 주장하며, 이러한 문제들은 수학자가 해결했지만 인터넷에 게시되지 않은 것들이다. 제시된 10개의 문제는 대수 조합론, 스펙트럴 그래프 이론, 대수적 위상수학 등 다양한 수학 분야에서 발생한 연구 수준의 문제들로, 각 문제는 저자들에 의해 해결되었으며 증명은 약 5페이지 이내로 제한되어 있다. 이러한 페이지 제한은 현재 AI 시스템의 기술적 한계를 반영하며, 많은 질문들이 독립적으로 출판 가능한 연구로서의 중요성이 부족하다는 점을 시사한다.

저자들은 '첫 증명' 실험이 수학 연구의 최종적이고 가장 잘 정의된 단계에 초점을 맞추고 있음을 강조하며, 질문의 선택이나 새로운 이론의 개발은 다루지 않음을 명확히 한다. 이 연구는 AI 시스템이 수학 문제를 해결하는 능력을 평가하기 위한 새로운 벤치마크의 기초가 될 것으로 기대되며, 커뮤니티가 이 질문들로 실험하고 결과를 공유할 것을 초대하고 있다. 이러한 접근은 AI의 수학적 문제 해결 능력을 평가하는 데 있어 중요한 기여를 할 것으로 보인다.

논문 초록(Abstract)

현재 AI 시스템이 연구 수준의 수학 질문에 올바르게 답변할 수 있는 능력을 평가하기 위해, 저자들의 연구 과정에서 자연스럽게 발생한 10개의 수학 질문 세트를 공유합니다. 이 질문들은 지금까지 공개되지 않았으며, 질문의 저자들은 답변을 알고 있지만, 답변은 짧은 시간 동안 암호화된 상태로 유지될 것입니다.

To assess the ability of current AI systems to correctly answer research-level mathematics questions, we share a set of ten math questions which have arisen naturally in the research process of the authors. The questions had not been shared publicly until now; the answers are known to the authors of the questions but will remain encrypted for a short time.

논문 링크


WideSeek-R1: 다중 에이전트 강화학습을 통한 폭넓은 정보 탐색을 위한 폭 확장 탐구 / WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

논문 소개

폭넓은 정보 탐색을 위한 혁신적인 접근 방식인 WideSeek-R1은 다중 에이전트 강화 학습(Multi-Agent Reinforcement Learning, MARL)을 활용하여 리드-에이전트-서브에이전트 시스템을 구현한다. 기존의 다중 에이전트 시스템은 수작업으로 설계된 워크플로에 의존하여 병렬 작업을 효과적으로 수행하지 못하는 한계를 가지고 있다. 이에 반해, WideSeek-R1은 리드 에이전트가 폭넓은 작업을 병렬화 가능한 하위 작업으로 분해하고, 각 서브에이전트가 독립적으로 실행할 수 있도록 최적화된 구조를 제공한다.

리드 에이전트는 각 턴에서 명확한 프롬프트와 함께 하위 작업 세트를 생성하고 이를 서브에이전트에 할당하여 병렬 실행을 유도한다. 이러한 방식은 리드 에이전트가 서브에이전트의 작업을 관리하고 조정하는 데 있어 유연성을 제공하며, 정보 탐색의 효율성을 높인다. 또한, WideSeek-R1은 공유된 대형 언어 모델(Large Language Model, LLM)을 사용하여 각 에이전트가 독립적인 맥락을 유지하면서도 협력할 수 있도록 설계되었다.

훈련 과정에서는 엔드-투-엔드 다중 에이전트 강화 학습을 통해 리드 에이전트와 서브에이전트를 동시에 최적화한다. 이 과정에서 이중 수준 이점 재가중 메커니즘을 도입하여 훈련의 안정성을 높이고 보상 해킹을 방지하는 효과를 얻는다. 실험 결과, WideSeek-R1-4B는 WideSearch 벤치마크에서 40.0%의 아이템 F1 점수를 기록하며, 단일 에이전트 시스템인 DeepSeek-R1-671B와 유사한 성능을 보였다.

이러한 성과는 병렬 서브에이전트 수가 증가함에 따라 지속적인 성능 향상을 보여주며, 폭 확장(width scaling)의 효과를 입증한다. WideSeek-R1은 폭넓은 정보 탐색을 위한 새로운 패러다임을 제시하며, 다중 에이전트 시스템의 효율성을 극대화하는 데 기여하고 있다.

논문 초록(Abstract)

최근 대규모 언어 모델(LLM)의 발전은 주로 깊이 확장에 초점을 맞추어, 단일 에이전트가 다단계 추론 및 도구 사용을 통해 장기 문제를 해결하는 방식으로 진행되었습니다. 그러나 작업의 범위가 넓어짐에 따라 주요 병목 현상은 개별 역량에서 조직 능력으로 전환됩니다. 본 연구에서는 광범위한 정보 탐색을 다루기 위해 다중 에이전트 시스템을 활용한 폭 확장의 보완적 차원을 탐구합니다. 기존의 다중 에이전트 시스템은 종종 수작업으로 제작된 워크플로우와 차례로 진행되는 상호작용에 의존하여 작업을 효과적으로 병렬화하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 확장 가능한 오케스트레이션과 병렬 실행을 시너지 효과를 내도록 훈련된 다중 에이전트 강화학습(MARL) 기반의 리드-에이전트-서브에이전트 프레임워크인 WideSeek-R1을 제안합니다. WideSeek-R1은 격리된 컨텍스트와 전문화된 도구를 갖춘 공유 LLM을 활용하여, 20,000개의 광범위한 정보 탐색 작업으로 구성된 데이터셋에서 리드 에이전트와 병렬 서브 에이전트를 공동 최적화합니다. 광범위한 실험 결과, WideSeek-R1-4B는 WideSearch 벤치마크에서 40.0%의 아이템 F1 점수를 달성하며, 이는 단일 에이전트 DeepSeek-R1-671B의 성능과 유사합니다. 또한, WideSeek-R1-4B는 병렬 서브 에이전트의 수가 증가함에 따라 일관된 성능 향상을 보여주어 폭 확장의 효과성을 강조합니다.

Recent advancements in Large Language Models (LLMs) have largely focused on depth scaling, where a single agent solves long-horizon problems with multi-turn reasoning and tool use. However, as tasks grow broader, the key bottleneck shifts from individual competence to organizational capability. In this work, we explore a complementary dimension of width scaling with multi-agent systems to address broad information seeking. Existing multi-agent systems often rely on hand-crafted workflows and turn-taking interactions that fail to parallelize work effectively. To bridge this gap, we propose WideSeek-R1, a lead-agent-subagent framework trained via multi-agent reinforcement learning (MARL) to synergize scalable orchestration and parallel execution. By utilizing a shared LLM with isolated contexts and specialized tools, WideSeek-R1 jointly optimizes the lead agent and parallel subagents on a curated dataset of 20k broad information-seeking tasks. Extensive experiments show that WideSeek-R1-4B achieves an item F1 score of 40.0% on the WideSearch benchmark, which is comparable to the performance of single-agent DeepSeek-R1-671B. Furthermore, WideSeek-R1-4B exhibits consistent performance gains as the number of parallel subagents increases, highlighting the effectiveness of width scaling.

논문 링크

더 읽어보기

https://wideseek-r1.github.io/


페이퍼바나나: AI 과학자를 위한 학술 일러스트 자동화 / PaperBanana: Automating Academic Illustration for AI Scientists

논문 소개

PaperBanana는 언어 모델에 의해 구동되는 자율 AI 과학자들이 빠르게 발전하고 있는 가운데, 출판 준비가 완료된 일러스트레이션을 생성하는 과정이 연구 워크플로우에서 노동 집약적인 병목 현상으로 남아 있음을 지적합니다. 이를 해결하기 위해 PaperBanana라는 자동화된 학술 일러스트레이션 생성 프레임워크를 소개합니다. 이 프레임워크는 최신 비주얼 언어 모델(VLM)과 이미지 생성 모델을 활용하여, 전문화된 에이전트를 통해 참조를 검색하고, 콘텐츠와 스타일을 계획하며, 이미지를 렌더링하고, 자기 비판을 통해 반복적으로 수정합니다. PaperBanana의 평가를 위해 NeurIPS 2025 출판물에서 수집된 292개의 테스트 케이스로 구성된 PaperBananaBench를 도입하였습니다. 실험 결과, PaperBanana는 충실도, 간결성, 가독성 및 미적 측면에서 기존의 주요 기준을 지속적으로 초월하는 성능을 보여주었습니다. 또한, 이 방법은 고품질 통계 그래프 생성에도 효과적으로 확장될 수 있음을 입증하였습니다. 종합적으로, PaperBanana는 출판 준비가 완료된 일러스트레이션의 자동 생성을 위한 새로운 길을 열어줍니다.

논문 초록(Abstract)

빠른 발전을 이루고 있는 언어 모델 기반의 자율 AI 과학자에도 불구하고, 출판 준비가 완료된 일러스트레이션을 생성하는 것은 연구 작업 흐름에서 여전히 노동 집약적인 병목 현상으로 남아 있습니다. 이러한 부담을 덜기 위해, 우리는 출판 준비가 완료된 학술 일러스트레이션을 자동으로 생성하기 위한 에이전틱 프레임워크인 PaperBanana를 소개합니다. 최첨단 VLM(비주얼 언어 모델)과 이미지 생성 모델을 기반으로 하는 PaperBanana는 전문화된 에이전트를 조율하여 참고 자료를 검색하고, 내용과 스타일을 계획하며, 이미지를 렌더링하고, 자기 비판을 통해 반복적으로 개선합니다. 우리의 프레임워크를 엄격하게 평가하기 위해, 우리는 NeurIPS 2025 출판물에서 수집한 방법론 다이어그램에 대한 292개의 테스트 사례로 구성된 PaperBananaBench를 소개하며, 다양한 연구 분야와 일러스트레이션 스타일을 포함합니다. 포괄적인 실험 결과, PaperBanana는 충실성, 간결성, 가독성 및 미적 측면에서 지속적으로 주요 기준선보다 우수한 성능을 보임을 입증하였습니다. 우리는 또한 우리의 방법이 고품질 통계 플롯 생성으로 효과적으로 확장될 수 있음을 보여줍니다. 종합적으로, PaperBanana는 출판 준비가 완료된 일러스트레이션의 자동 생성을 위한 길을 열어줍니다.

Despite rapid advances in autonomous AI scientists powered by language models, generating publication-ready illustrations remains a labor-intensive bottleneck in the research workflow. To lift this burden, we introduce PaperBanana, an agentic framework for automated generation of publication-ready academic illustrations. Powered by state-of-the-art VLMs and image generation models, PaperBanana orchestrates specialized agents to retrieve references, plan content and style, render images, and iteratively refine via self-critique. To rigorously evaluate our framework, we introduce PaperBananaBench, comprising 292 test cases for methodology diagrams curated from NeurIPS 2025 publications, covering diverse research domains and illustration styles. Comprehensive experiments demonstrate that PaperBanana consistently outperforms leading baselines in faithfulness, conciseness, readability, and aesthetics. We further show that our method effectively extends to the generation of high-quality statistical plots. Collectively, PaperBanana paves the way for the automated generation of publication-ready illustrations.

논문 링크

더 읽어보기


SDPO: 자기 증류를 통한 강화학습 / Reinforcement Learning via Self-Distillation


논문 소개

대규모 언어 모델(LLM)의 발전과 함께, 코드 및 수학과 같은 검증 가능한 도메인에서 강화학습(RL)의 활용이 증가하고 있다. 그러나 기존의 검증 가능한 보상(RLVR) 방법은 시도당 단일 스칼라 결과 보상에 의존하여 신용 할당 문제를 초래하고, 이는 모델의 학습 효율성을 저해하는 주요 원인으로 작용한다. 이러한 문제를 해결하기 위해, 본 연구에서는 풍부한 텍스트 피드백을 활용한 새로운 접근 방식인 자기 증류 정책 최적화(Self-Distillation Policy Optimization, SDPO)를 제안한다. SDPO는 외부 교사나 명시적인 보상 모델 없이, 토큰화된 피드백을 밀집 학습 신호로 변환하는 혁신적인 방법론이다.

SDPO는 현재 모델을 피드백에 조건화된 자기 교사로 간주하고, 피드백에 기반한 다음 토큰 예측을 정책으로 증류하여 학습을 진행한다. 이를 통해 모델은 자신의 실수를 회고적으로 식별하고, 이를 바탕으로 더 나은 예측을 수행할 수 있는 능력을 갖추게 된다. 본 연구는 LiveCodeBench v6와 같은 다양한 환경에서 SDPO의 성능을 평가하였으며, 과학적 추론, 도구 사용, 경쟁 프로그래밍 등 여러 분야에서 강력한 RLVR 기준보다 샘플 효율성과 최종 정확도를 개선한 결과를 보여준다.

특히, SDPO는 실패한 시도에 대해 성공적인 롤아웃을 암묵적 피드백으로 활용하여, 스칼라 피드백만 반환하는 표준 RLVR 환경에서도 성능을 향상시킨다. 또한, SDPO를 테스트 시 개별 질문에 적용함으로써 어려운 이진 보상 작업에서 발견 속도를 가속화하며, 3배 적은 시도로도 높은 발견 확률을 달성할 수 있음을 입증하였다. 이러한 결과는 SDPO가 강화학습의 새로운 가능성을 열어주고, 풍부한 피드백을 활용한 학습 방법론의 발전에 기여할 수 있음을 시사한다.

결론적으로, 본 연구는 자기 증류 정책 최적화(SDPO)를 통해 강화학습의 효율성을 극대화하고, 다양한 도메인에서의 적용 가능성을 탐색하는 중요한 기초를 마련하였다. 향후 연구에서는 SDPO의 한계를 극복하고, 더 다양한 환경에서의 적용 가능성을 모색할 필요가 있다.

논문 초록(Abstract)

대규모 언어 모델은 코드 및 수학과 같은 검증 가능한 영역에서 강화학습으로 점점 더 많이 사후 학습되고 있습니다. 그러나 검증 가능한 보상(RLVR)을 사용하는 현재의 강화학습 방법은 시도당 스칼라 결과 보상만을 학습하여 심각한 신용 할당 병목 현상을 초래합니다. 많은 검증 가능한 환경은 실제로 실행 시간 오류나 심사 평가와 같이 시도가 실패한 이유를 설명하는 풍부한 텍스트 피드백을 제공합니다. 우리는 이 설정을 풍부한 피드백을 가진 강화학습으로 형식화하고, 외부 교사나 명시적인 보상 모델 없이 토큰화된 피드백을 밀집 학습 신호로 변환하는 자기 증류 정책 최적화(Self-Distillation Policy Optimization, SDPO)를 소개합니다. SDPO는 피드백에 조건화된 현재 모델을 자기 교사로 취급하고, 피드백에 기반한 다음 토큰 예측을 정책으로 다시 증류합니다. 이러한 방식으로 SDPO는 모델이 맥락 내에서 자신의 실수를 회고적으로 식별하는 능력을 활용합니다. 과학적 추론, 도구 사용 및 LiveCodeBench v6에서의 경쟁 프로그래밍 전반에 걸쳐, SDPO는 강력한 RLVR 기준선에 비해 샘플 효율성과 최종 정확성을 향상시킵니다. 특히, SDPO는 실패한 시도에 대한 암묵적 피드백으로 성공적인 롤아웃을 사용하여 스칼라 피드백만 반환하는 표준 RLVR 환경에서도 기준선을 초과합니다. 마지막으로, 테스트 시간에 개별 질문에 SDPO를 적용하면 어려운 이진 보상 작업에서 발견 속도가 가속화되어, 3배 적은 시도로 k 중 최상의 샘플링이나 다중 턴 대화와 동일한 발견 확률을 달성합니다.

Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.

논문 링크

더 읽어보기


모든 것이 제자리에: 텍스트-이미지 모델의 공간 지능 벤치마킹(SpatialGenEval) / Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

논문 소개

텍스트-이미지 모델(Text-to-Image, T2I)은 고충실도 이미지를 생성하는 데 있어 눈에 띄는 성과를 거두었으나, 복잡한 공간 관계(spatial relationships)를 처리하는 데에는 여전히 한계가 존재한다. 이러한 문제는 공간 인식(spatial perception), 추론(reasoning), 상호작용(interaction) 등 다양한 측면에서 나타나며, 기존의 벤치마크는 정보가 부족한 짧은 프롬프트 디자인으로 인해 이러한 중요한 요소들을 간과하고 있다. 본 연구에서는 T2I 모델의 공간 지능을 체계적으로 평가하기 위해 SpatialGenEval이라는 새로운 벤치마크를 제안한다.

SpatialGenEval은 1,230개의 긴 정보 밀집 프롬프트를 통해 25개의 실제 장면을 다루며, 각 프롬프트는 10개의 공간 하위 도메인과 해당하는 10개의 다중 선택 질문-답변 쌍을 포함하고 있다. 이러한 설계는 T2I 모델의 공간 지능을 평가하는 데 필요한 다양한 측면을 포괄하며, 특히 높은 차원의 공간 추론이 여전히 주요 병목 현상으로 남아 있음을 실험을 통해 확인하였다.

또한, 본 연구에서는 단순한 평가를 넘어 SpatialT2I 데이터셋을 구축하였다. 이 데이터셋은 15,400개의 텍스트-이미지 쌍으로 구성되어 있으며, 이미지 일관성을 보장하면서 정보 밀도를 유지하는 재작성된 프롬프트를 포함하고 있다. 현재의 파운데이션 모델인 Stable Diffusion-XL, Uniworld-V1, OmniGen2에 대한 파인튜닝 결과는 각각 +4.2%, +5.7%, +4.4%의 성능 향상을 보여주며, 공간 관계에서의 더 현실적인 효과를 나타낸다.

이 연구는 T2I 모델의 공간 지능을 평가하기 위한 새로운 기준을 제시하며, 데이터 중심의 접근 방식이 T2I 모델의 성능 향상에 기여할 수 있음을 강조한다. 이러한 결과는 향후 T2I 모델의 연구와 개발에 중요한 기초 자료가 될 것으로 기대된다.

논문 초록(Abstract)

텍스트-이미지(T2I) 모델은 고충실도의 이미지를 생성하는 데 놀라운 성공을 거두었지만, 복잡한 공간 관계를 처리하는 데 종종 실패합니다. 예를 들어, 공간 인식, 추론 또는 상호작용과 같은 요소들이 이에 해당합니다. 이러한 중요한 측면은 현재의 벤치마크에서 짧거나 정보가 부족한 프롬프트 설계로 인해 대체로 간과되고 있습니다. 본 논문에서는 T2I 모델의 공간 지능을 체계적으로 평가하기 위해 설계된 새로운 벤치마크인 SpatialGenEval을 소개합니다. 이는 두 가지 주요 측면을 포함합니다: (1) SpatialGenEval은 25개의 실제 장면에 걸쳐 1,230개의 긴 정보 밀집 프롬프트를 포함합니다. 각 프롬프트는 10개의 공간 하위 도메인과 해당하는 10개의 다중 선택 질문-답변 쌍을 통합하여 객체의 위치와 배치에서부터 가림과 인과관계에 이르기까지 다양합니다. 21개의 최첨단 모델에 대한 우리의 광범위한 평가는 고차원 공간 추론이 여전히 주요 병목 현상임을 드러냅니다. (2) 우리의 정보 밀집 설계의 유용성이 단순한 평가를 넘어선다는 것을 입증하기 위해, 우리는 SpatialT2I 데이터셋도 구축했습니다. 이 데이터셋은 정보 밀도를 유지하면서 이미지 일관성을 보장하기 위해 재작성된 프롬프트를 포함한 15,400개의 텍스트-이미지 쌍을 포함합니다. 현재의 파운데이션 모델(즉, Stable Diffusion-XL, Uniworld-V1, OmniGen2)에 대한 파인튜닝 결과는 일관된 성능 향상(+4.2%, +5.7%, +4.4%)과 공간 관계에서 더욱 현실적인 효과를 나타내어 T2I 모델에서 공간 지능을 달성하기 위한 데이터 중심 패러다임을 강조합니다.

Text-to-image (T2I) models have achieved remarkable success in generating high-fidelity images, but they often fail in handling complex spatial relationships, e.g., spatial perception, reasoning, or interaction. These critical aspects are largely overlooked by current benchmarks due to their short or information-sparse prompt design. In this paper, we introduce SpatialGenEval, a new benchmark designed to systematically evaluate the spatial intelligence of T2I models, covering two key aspects: (1) SpatialGenEval involves 1,230 long, information-dense prompts across 25 real-world scenes. Each prompt integrates 10 spatial sub-domains and corresponding 10 multi-choice question-answer pairs, ranging from object position and layout to occlusion and causality. Our extensive evaluation of 21 state-of-the-art models reveals that higher-order spatial reasoning remains a primary bottleneck. (2) To demonstrate that the utility of our information-dense design goes beyond simple evaluation, we also construct the SpatialT2I dataset. It contains 15,400 text-image pairs with rewritten prompts to ensure image consistency while preserving information density. Fine-tuned results on current foundation models (i.e., Stable Diffusion-XL, Uniworld-V1, OmniGen2) yield consistent performance gains (+4.2%, +5.7%, +4.4%) and more realistic effects in spatial relations, highlighting a data-centric paradigm to achieve spatial intelligence in T2I models.

논문 링크

더 읽어보기


아이디어를 스토리로: 연구 개념을 완전한 과학적 서사로 변환하는 자동화 파이프라인 / Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

논문 소개

Idea2Story는 연구 개념을 완전한 과학적 서사로 변환하는 자동화된 파이프라인을 제안하는 혁신적인 프레임워크이다. 최근 대규모 언어 모델(LLM) 기반의 에이전트를 활용한 자율 과학 발견이 발전하고 있으나, 기존 시스템은 런타임 중심의 실행 패러다임에 의존하여 높은 계산 비용과 문맥 창의 한계로 인한 취약한 추론 문제를 겪고 있다. Idea2Story는 이러한 문제를 해결하기 위해 문헌 이해를 온라인 추론에서 오프라인 지식 구축으로 전환하는 사전 계산 중심의 접근 방식을 채택하고 있다.

이 프레임워크는 동료 검토된 논문과 그 리뷰 피드백을 지속적으로 수집하고, 핵심 방법론 단위를 추출하여 재사용 가능한 연구 패턴을 구성한다. 이러한 연구 패턴은 구조화된 방법론 지식 그래프에 조직되어, 런타임 시 불완전한 사용자 연구 의도를 확립된 연구 패러다임에 맞추어 고품질 연구 패턴을 효율적으로 검색하고 재사용할 수 있도록 한다. 이 과정은 개방형 생성 및 시행착오를 줄이며, LLM의 문맥 창 병목 현상을 완화하는 데 기여한다.

Idea2Story의 주요 기여는 오프라인 지식 구축을 통해 신뢰할 수 있는 자율 과학 발견을 위한 실용적이고 확장 가능한 기반을 제공하는 것이다. 질적 분석과 초기 경험적 연구를 통해 이 시스템이 일관되고 방법론적으로 기반이 있으며, 새로운 연구 패턴을 생성할 수 있음을 입증하였다. 이러한 결과는 연구자들이 다양한 분야에서의 방법론적 연결성을 활용하여 보다 효율적인 연구를 수행할 수 있도록 돕는 기회를 제공한다.

특히, 구축된 지식 그래프의 구조 분석은 연구 패턴과 논문 간의 관계를 명확히 하여 연구 활동의 불균형을 이해하는 데 중요한 정보를 제공한다. 고빈도 연구 분야에 의해 유도된 지식 그래프의 하위 구조는 특정 분야가 중심 허브로 기능하는 방식을 시각화하여, 연구자들이 방법론적 재사용을 극대화할 수 있는 기회를 제시한다. 이러한 구조적 분석은 Idea2Story의 효과적인 운영을 위한 기초를 제공하며, 자율 과학 발견의 미래를 위한 새로운 방향성을 제시한다.

논문 초록(Abstract)

자율적인 과학적 발견을 위한 대규모 언어 모델(LLM) 기반 에이전트는 최근에 상당한 진전을 이루었으며, 연구 워크플로우를 자동화하는 능력을 입증하였습니다. 그러나 기존 시스템은 주로 런타임 중심의 실행 패러다임에 의존하여, 온라인에서 대량의 과학 문헌을 반복적으로 읽고 요약하며 추론합니다. 이러한 즉각적인 계산 전략은 높은 계산 비용을 초래하고, 컨텍스트 윈도우의 한계로 인해 어려움을 겪으며, 종종 취약한 추론과 환각을 초래합니다. 우리는 Idea2Story를 제안합니다. Idea2Story는 자율적인 과학적 발견을 위한 사전 계산 기반 프레임워크로, 문헌 이해를 온라인 추론에서 오프라인 지식 구축으로 전환합니다. Idea2Story는 동료 검토된 논문과 그 리뷰 피드백을 지속적으로 수집하고, 핵심 방법론 단위를 추출하며, 재사용 가능한 연구 패턴을 구성하고 이를 구조화된 방법론적 지식 그래프로 조직합니다. 런타임에서는 불명확한 사용자 연구 의도가 확립된 연구 패러다임에 맞춰 조정되어, 개방형 생성 및 시행착오 대신 고품질 연구 패턴의 효율적인 검색 및 재사용을 가능하게 합니다. 연구 계획 및 실행을 사전 구축된 지식 그래프에 기반 두어, Idea2Story는 LLM의 컨텍스트 윈도우 병목 현상을 완화하고 문헌에 대한 반복적인 런타임 추론을 상당히 줄입니다. 우리는 Idea2Story가 일관되고 방법론적으로 기반이 있으며 새로운 연구 패턴을 생성할 수 있음을 보여주는 질적 분석 및 초기 실증 연구를 수행하였고, 엔드 투 엔드 설정에서 여러 고품질 연구 시연을 생성할 수 있음을 입증하였습니다. 이러한 결과는 오프라인 지식 구축이 신뢰할 수 있는 자율적 과학적 발견을 위한 실용적이고 확장 가능한 기초를 제공함을 시사합니다.

Autonomous scientific discovery with large language model (LLM)-based agents has recently made substantial progress, demonstrating the ability to automate end-to-end research workflows. However, existing systems largely rely on runtime-centric execution paradigms, repeatedly reading, summarizing, and reasoning over large volumes of scientific literature online. This on-the-spot computation strategy incurs high computational cost, suffers from context window limitations, and often leads to brittle reasoning and hallucination. We propose Idea2Story, a pre-computation-driven framework for autonomous scientific discovery that shifts literature understanding from online reasoning to offline knowledge construction. Idea2Story continuously collects peer-reviewed papers together with their review feedback, extracts core methodological units, composes reusable research patterns, and organizes them into a structured methodological knowledge graph. At runtime, underspecified user research intents are aligned to established research paradigms, enabling efficient retrieval and reuse of high-quality research patterns instead of open-ended generation and trial-and-error. By grounding research planning and execution in a pre-built knowledge graph, Idea2Story alleviates the context window bottleneck of LLMs and substantially reduces repeated runtime reasoning over literature. We conduct qualitative analyses and preliminary empirical studies demonstrating that Idea2Story can generate coherent, methodologically grounded, and novel research patterns, and can produce several high-quality research demonstrations in an end-to-end setting. These results suggest that offline knowledge construction provides a practical and scalable foundation for reliable autonomous scientific discovery.

논문 링크

더 읽어보기


AI가 기술 형성에 미치는 영향 / How AI Impacts Skill Formation

논문 소개

AI의 발전은 다양한 산업 분야에서 생산성 향상에 기여하고 있지만, 이러한 기술이 노동력의 기술 형성에 미치는 영향은 아직 명확히 이해되지 않았다. 본 연구는 AI 도구가 소프트웨어 엔지니어링 기술의 개발에 미치는 영향을 분석하고, 특히 초급 개발자들이 AI의 도움을 받을 때 기술 습득이 어떻게 변화하는지를 탐구하였다. 연구에서는 새로운 비동기 프로그래밍 라이브러리인 Trio를 활용하여 참가자들이 AI의 도움을 받으며 코딩 작업을 수행하도록 하였고, 이 과정에서 기술 형성을 평가하였다.

랜덤화 실험을 통해 AI 도구의 사용이 참가자들의 개념 이해, 코드 읽기 및 디버깅 능력에 미치는 영향을 분석한 결과, AI 보조 도구를 사용한 참가자들은 평균적으로 17%의 평가 점수 감소를 경험하였다. 특히, AI에 전적으로 의존한 참가자들은 생산성 향상을 보였으나, 라이브러리에 대한 학습은 저해되었다. 연구는 여섯 가지 AI 상호작용 패턴을 식별하였으며, 그 중 세 가지는 인지적 참여를 포함하여 AI 지원을 받더라도 학습 결과를 보존할 수 있는 가능성을 보여주었다.

이 연구의 주요 기여는 AI 도구의 사용이 초급 개발자들의 기술 형성에 미치는 부정적인 영향을 명확히 규명한 점이다. AI의 도움을 받는 것이 반드시 효율성을 높이는 것이 아니라, 오히려 기술 습득을 저해할 수 있음을 강조한다. 따라서 AI 도구의 활용은 신중하게 결정되어야 하며, 특히 안전이 중요한 분야에서는 더욱 그러하다. 이러한 결과는 AI 도구의 사용이 생산성을 높일 수 있는 잠재력을 지니고 있지만, 기술 형성을 유지하기 위한 전략적 접근이 필요함을 시사한다.

논문 초록(Abstract)

AI 지원은 특히 초보 근로자에게 전문 분야 전반에서 상당한 생산성 향상을 가져옵니다. 그러나 이러한 지원이 AI를 효과적으로 감독하는 데 필요한 기술 개발에 어떤 영향을 미치는지는 불분명합니다. 낯선 작업을 수행하기 위해 AI에 크게 의존하는 초보 근로자는 자신의 기술 습득을 저해할 수 있습니다. 우리는 AI의 도움을 받는 경우와 받지 않는 경우에 개발자들이 새로운 비동기 프로그래밍 라이브러리를 숙달하는 방식을 연구하기 위해 무작위 실험을 수행했습니다. AI 사용이 개념적 이해, 코드 읽기 및 디버깅 능력을 저해하며, 평균적으로는 상당한 효율성 향상을 제공하지 않는다는 것을 발견했습니다. 코딩 작업을 완전히 위임한 참가자들은 일부 생산성 향상을 보였지만, 라이브러리 학습의 대가를 치렀습니다. 우리는 여섯 가지의 뚜렷한 AI 상호작용 패턴을 식별했으며, 그 중 세 가지는 인지적 참여를 포함하고 참가자가 AI 지원을 받을 때에도 학습 결과를 보존합니다. 우리의 연구 결과는 AI로 향상된 생산성이 능숙함으로 가는 지름길이 아니며, AI 지원이 기술 형성을 보존하기 위해 특히 안전이 중요한 분야에서 신중하게 작업 흐름에 통합되어야 함을 시사합니다.

AI assistance produces significant productivity gains across professional domains, particularly for novice workers. Yet how this assistance affects the development of skills required to effectively supervise AI remains unclear. Novice workers who rely heavily on AI to complete unfamiliar tasks may compromise their own skill acquisition in the process. We conduct randomized experiments to study how developers gained mastery of a new asynchronous programming library with and without the assistance of AI. We find that AI use impairs conceptual understanding, code reading, and debugging abilities, without delivering significant efficiency gains on average. Participants who fully delegated coding tasks showed some productivity improvements, but at the cost of learning the library. We identify six distinct AI interaction patterns, three of which involve cognitive engagement and preserve learning outcomes even when participants receive AI assistance. Our findings suggest that AI-enhanced productivity is not a shortcut to competence and AI assistance should be carefully adopted into workflows to preserve skill formation -- particularly in safety-critical domains.

논문 링크

더 읽어보기


닥터 제로: 학습 데이터 없이 자가 진화하는 검색 에이전트 / Dr. Zero: Self-Evolving Search Agents without Training Data


논문 소개

고품질 데이터 확보가 점점 어려워짐에 따라, 데이터 없는 자기 진화(data-free self-evolution)가 유망한 패러다임으로 떠오르고 있다. 이 접근법은 대규모 언어 모델(LLM)이 자율적으로 복잡한 문제를 생성하고 해결함으로써 추론 능력을 향상시킬 수 있게 한다. 그러나 다단계 검색 에이전트는 질문 다양성이 제한되고, 다단계 추론 및 도구 사용에 필요한 컴퓨팅 자원이 상당하여 데이터 없는 자기 진화에 어려움을 겪고 있다. 본 연구에서는 Dr. Zero라는 프레임워크를 소개하여 검색 에이전트가 훈련 데이터 없이 효과적으로 자기 진화할 수 있도록 한다. 특히, 제안자가 다양한 질문을 생성하여 동일한 기본 모델에서 초기화된 해결자를 훈련하는 자기 진화 피드백 루프를 설계하였다. 해결자가 진화함에 따라, 제안자는 점점 더 어려운 해결 가능한 작업을 생성하도록 유도되어 두 에이전트를 개선하는 자동화된 커리큘럼을 구축한다. 훈련 효율성을 높이기 위해, 구조적으로 유사한 질문을 클러스터링하여 그룹 수준의 기준선을 구축하는 hop-grouped relative policy optimization (HRPO) 방법도 도입하였다. HRPO는 각 쿼리의 개별 난이도와 해결 가능성을 평가하는 샘플링 오버헤드를 최소화하여 해결자 훈련에 필요한 컴퓨팅 자원을 크게 줄이면서도 성능이나 안정성을 저하시키지 않는다. 광범위한 실험 결과는 데이터 없는 Dr. Zero가 완전 감독 검색 에이전트와 동등하거나 이를 초월하는 성능을 보여주어, 복잡한 추론 및 검색 능력이 자기 진화만으로도 나타날 수 있음을 입증한다.

논문 초록(Abstract)

고품질 데이터 확보가 점점 더 어려워짐에 따라, 데이터 없는 자기 진화(data-free self-evolution)가 유망한 패러다임으로 부상하고 있습니다. 이 접근법은 대규모 언어 모델(LLMs)이 자율적으로 복잡한 문제를 생성하고 해결할 수 있게 하여, 그들의 추론 능력을 향상시킵니다. 그러나 다중 턴 검색 에이전트는 질문의 다양성이 제한되고, 다단계 추론 및 도구 사용에 필요한 상당한 계산량 때문에 데이터 없는 자기 진화에서 어려움을 겪습니다. 본 연구에서는 검색 에이전트가 훈련 데이터 없이 효과적으로 자기 진화할 수 있도록 하는 프레임워크인 Dr. Zero를 소개합니다. 특히, 제안자가 다양한 질문을 생성하여 동일한 기본 모델에서 초기화된 해결자를 훈련시키는 자기 진화 피드백 루프를 설계합니다. 해결자가 진화함에 따라, 이는 제안자가 점점 더 어렵지만 해결 가능한 작업을 생성하도록 유도하여 두 에이전트를 모두 정제하는 자동화된 커리큘럼을 구축합니다. 훈련 효율성을 높이기 위해, 우리는 또한 홉 그룹화 상대 정책 최적화(hop-grouped relative policy optimization, HRPO)를 도입합니다. 이 방법은 구조적으로 유사한 질문들을 클러스터링하여 그룹 수준의 기준선을 구축함으로써, 각 쿼리의 개별 난이도와 해결 가능성을 평가하는 데 드는 샘플링 오버헤드를 효과적으로 최소화합니다. 결과적으로, HRPO는 성능이나 안정성을 저하시키지 않으면서 해결자 훈련에 필요한 계산 요구 사항을 크게 줄입니다. 광범위한 실험 결과는 데이터 없는 Dr. Zero가 완전 감독된 검색 에이전트와 동등하거나 이를 초월함을 보여주며, 복잡한 추론 및 검색 능력이 오직 자기 진화를 통해서만 나타날 수 있음을 입증합니다.

As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.

논문 링크

더 읽어보기


:fire:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

3개의 좋아요