[2025/10/27 ~ 11/02] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


추론 모델의 한계: 최근 연구들은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 한계를 보인다는 사실을 강조하고 있습니다. 특히, 기존 벤치마크의 복잡성이 제한적임을 보여주며, 새로운 데이터셋인 Deep Reasoning Dataset(DeepRD)을 통해 모델의 성능을 평가하고 있습니다. 이는 LLM의 성능이 실제로는 특정 복잡도 범위 내에서만 유효하다는 점을 부각시킵니다.
효율적인 모델 라우팅: 여러 모델을 활용한 효율적인 라우팅 기법이 주목받고 있습니다. Lookahead와 Dr.LLM과 같은 연구들은 입력 쿼리에 따라 가장 적합한 모델을 선택하는 방법을 제안하며, 이를 통해 응답 생성 과정에서의 맥락을 고려한 보다 정교한 라우팅을 가능하게 합니다. 이러한 접근은 복잡하거나 모호한 쿼리에 대한 성능을 개선하는 데 기여하고 있습니다.
계층적 의사결정 통합: ReCode와 같은 연구는 고수준의 계획과 저수준의 행동을 통합하여 의사결정의 유연성을 높이는 방법을 제안합니다. 이 방식은 계획과 행동 간의 경계를 허물어, 모델이 다양한 결정의 세분화 수준을 동적으로 조절할 수 있도록 합니다. 이를 통해 모델의 데이터 효율성과 추론 성능이 크게 향상되는 결과를 보여주고 있습니다.
추론 모델은 잘 추론하지만, 한계를 드러낸다 / Reasoning Models Reason Well, Until They Don't
논문 소개
대규모 언어 모델(LLMs)은 최근 몇 년 동안 추론 작업에서 상당한 발전을 이루었으나, 복잡한 문제에 대한 성능 저하가 문제로 지적되고 있다. 이러한 한계를 극복하기 위해 본 연구에서는 대규모 추론 모델(LRMs)을 제안하며, 이 모델은 단계별 논증과 자기 검증을 위한 인센티브로 파인튜닝된 LLM이다. LRM은 NLGraph와 같은 그래프 및 추론 벤치마크에서 뛰어난 성능을 보이는 것으로 알려져 있으며, 수학, 물리학, 의학, 법률 등 다양한 분야에서 일반화된 추론 가능성을 주장하고 있다.
그러나 기존 연구에서 사용된 벤치마크는 실제로 제한된 복잡성을 가지고 있음을 발견하였다. 이를 해결하기 위해 본 연구에서는 새로운 데이터셋인 Deep Reasoning Dataset(DeepRD)을 개발하고, 이 데이터셋을 통해 무한한 복잡도의 예제를 생성할 수 있는 프로세스를 제안한다. DeepRD를 활용하여 LRM의 성능을 그래프 연결성과 자연어 증명 계획에서 평가한 결과, 성능이 충분한 복잡도에서 급격히 떨어지며 일반화되지 않는 경향을 보였다.
또한, LRM의 성능을 대규모 실제 지식 그래프 및 증명 데이터셋의 복잡성 분포와 연관지어 분석한 결과, 대부분의 실제 예제가 LRM의 성공 영역에 속하지만 긴 꼬리 부분에서 상당한 실패 가능성을 드러내었다. 이러한 분석은 LRM의 단기적인 유용성을 강조하는 동시에, 훈련 데이터의 복잡성을 넘어서는 일반화 능력의 부족을 지적한다. 따라서, 향후 연구에서는 이러한 한계를 극복할 수 있는 새로운 방법론의 필요성이 강조된다.
본 연구는 LRM의 성능을 평가하고 그 한계를 명확히 하여, 향후 연구의 방향성을 제시하는 데 중요한 기여를 한다. LRM의 성능 한계를 이해하고 이를 극복하기 위한 지속적인 노력이 필요함을 시사한다.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 추론 작업에서 상당한 발전을 보여주었습니다. 그러나 최근 연구에 따르면 트랜스포머와 LLM은 추론 문제가 적당한 복잡성을 초과할 경우 치명적으로 실패합니다. 우리는 단계별 논증 및 자기 검증을 위한 인센티브로 파인튜닝된 대규모 추론 모델(LRM)의 관점에서 이러한 발견을 재조명합니다. NLGraph와 같은 그래프 및 추론 벤치마크에서 LRM의 성능은 비범해 보이며, 일부는 수학, 물리학, 의학 및 법률과 같은 추론 집약적인 분야에서 일반화된 추론 및 혁신이 가능하다고 주장합니다. 그러나 추론 문제의 복잡성을 보다 신중하게 조정함으로써 기존 벤치마크가 실제로는 제한된 복잡성을 가지고 있음을 보여줍니다. 우리는 무한한 복잡성의 예제를 생성하기 위한 생성 프로세스와 함께 새로운 데이터셋인 Deep Reasoning Dataset(DeepRD)을 개발합니다. 이 데이터셋을 사용하여 그래프 연결성과 자연어 증명 계획에 대한 모델 성능을 평가합니다. 우리는 LRM의 성능이 충분한 복잡성에서 급격히 감소하고 일반화되지 않음을 발견합니다. 또한 LRM 결과를 대규모 실제 지식 그래프, 상호작용 그래프 및 증명 데이터셋의 복잡성 분포와 관련짓습니다. 우리는 대부분의 실제 사례가 LRM의 성공 영역 내에 있지만, 긴 꼬리는 상당한 실패 가능성을 드러낸다는 것을 발견합니다. 우리의 분석은 LRM의 단기 유용성을 강조하면서도 훈련 분포의 예제 복잡성을 넘어 일반화할 수 있는 새로운 방법의 필요성을 강조합니다.
Large language models (LLMs) have shown significant progress in reasoning tasks. However, recent studies show that transformers and LLMs fail catastrophically once reasoning problems exceed modest complexity. We revisit these findings through the lens of large reasoning models (LRMs) -- LLMs fine-tuned with incentives for step-by-step argumentation and self-verification. LRM performance on graph and reasoning benchmarks such as NLGraph seem extraordinary, with some even claiming they are capable of generalized reasoning and innovation in reasoning-intensive fields such as mathematics, physics, medicine, and law. However, by more carefully scaling the complexity of reasoning problems, we show existing benchmarks actually have limited complexity. We develop a new dataset, the Deep Reasoning Dataset (DeepRD), along with a generative process for producing unlimited examples of scalable complexity. We use this dataset to evaluate model performance on graph connectivity and natural language proof planning. We find that the performance of LRMs drop abruptly at sufficient complexity and do not generalize. We also relate our LRM results to the distributions of the complexities of large, real-world knowledge graphs, interaction graphs, and proof datasets. We find the majority of real-world examples fall inside the LRMs' success regime, yet the long tails expose substantial failure potential. Our analysis highlights the near-term utility of LRMs while underscoring the need for new methods that generalize beyond the complexity of examples in the training distribution.
논문 링크
언어 모델은 단사 함수이며 따라서 가역적이다 / Language Models are Injective and Hence Invertible
논문 소개
트랜스포머 언어 모델의 비단사성에 대한 기존의 관점을 도전하는 본 연구는, 이러한 모델이 실제로 단사(injective)이며 손실이 없음을 수학적으로 증명한다. 연구의 첫 번째 단계에서는 이산 입력 시퀀스가 연속 표현으로 매핑되는 과정을 분석하여, 초기화 시점에서부터 학습 과정 동안 이 특성이 유지됨을 보인다. 두 번째 단계에서는 여섯 개의 최첨단 언어 모델에 대해 수십억 건의 충돌 테스트를 수행하여, 서로 다른 입력이 동일한 출력으로 매핑되지 않음을 실증적으로 확인하였다.
이러한 결과를 바탕으로, 연구자들은 새로운 알고리즘인 SipIt을 제안하여 숨겨진 활성화(hidden activations)로부터 정확한 입력 텍스트를 효율적으로 재구성하는 방법을 제시한다. SipIt은 선형 시간 내에 입력을 복원할 수 있는 보장을 제공하며, 실제로 가역성(invertibility)을 입증하는 데 성공하였다. 이 연구는 언어 모델의 단사성을 기본적이고 활용 가능한 특성으로 확립하며, 이는 모델의 투명성, 해석 가능성, 그리고 안전한 배포에 직접적인 영향을 미친다.
결과적으로, 본 논문은 언어 모델의 구조적 특성과 그 활용 가능성을 새롭게 조명하며, 향후 연구에서 이론적 및 실용적 측면에서 중요한 기초를 제공할 것으로 기대된다. 이러한 기여는 자연어 처리(Natural Language Processing) 분야에서의 모델 해석 및 안전한 사용에 대한 논의에 중요한 영향을 미칠 것이다.
논문 초록(Abstract)
트랜스포머 구성 요소인 비선형 활성화와 정규화는 본질적으로 비단사적(non-injective)이며, 이는 서로 다른 입력이 동일한 출력으로 매핑될 수 있음을 시사하고, 모델의 표현에서 입력을 정확히 복구하는 것을 방해할 수 있습니다. 본 논문에서는 이러한 관점을 도전합니다. 첫째, 우리는 이산 입력 시퀀스를 해당하는 연속 표현 시퀀스로 매핑하는 트랜스포머 언어 모델이 단사적(injective)이며 따라서 손실이 없음을 수학적으로 증명합니다. 이 특성은 초기화 시 확립되며 학습 과정 동안 보존됩니다. 둘째, 우리는 여섯 개의 최첨단 언어 모델에 대한 수십억 건의 충돌 테스트를 통해 이 결과를 경험적으로 확인하고 충돌이 없음을 관찰합니다. 셋째, 우리는 단사성을 운영화합니다: 숨겨진 활성화로부터 정확한 입력 텍스트를 증명 가능하고 효율적으로 재구성하는 최초의 알고리즘인 SipIt을 소개하며, 선형 시간 보장을 확립하고 실제로 정확한 가역성을 입증합니다. 전반적으로, 우리의 연구는 단사성을 언어 모델의 기본적이고 활용 가능한 특성으로 확립하며, 투명성, 해석 가능성 및 안전한 배포에 직접적인 함의를 가집니다.
Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.
논문 링크
AI, 로봇공학 및 그 이상을 위한 실질적 심층 연구 / Real Deep Research for AI, Robotics and Beyond
논문 소개
AI와 로봇 공학 분야의 연구가 급속히 발전함에 따라, 연구자들은 매년 10,000편 이상의 논문 속에서 최신 동향을 파악하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해 제안된 Real Deep Research (RDR) 프레임워크는 연구자들이 신흥 트렌드를 식별하고, 교차 도메인 기회를 발견하며, 새로운 연구의 출발점을 제공할 수 있도록 설계되었습니다. RDR은 파운데이션 모델과 로봇 공학의 발전에 중점을 두고 있으며, 이를 통해 연구자들이 다양한 분야에서의 연구를 보다 효율적으로 탐색할 수 있도록 지원합니다.
RDR 파이프라인은 데이터 준비, 콘텐츠 추론, 콘텐츠 투영, 임베딩 분석의 네 가지 주요 구성 요소로 이루어져 있습니다. 데이터 준비 단계에서는 컴퓨터 비전, 로봇 공학 및 기계 학습 분야의 최신 논문을 수집하고, 이를 통해 신흥 트렌드와 연구 우선순위를 파악합니다. 이후 콘텐츠 추론 단계에서는 필터링된 논문에 대해 심층 분석을 수행하며, 파운데이션 모델과 로봇 공학의 구조적 관점을 정의합니다. 이러한 과정은 연구자들이 각 분야의 핵심 요소를 이해하고, 새로운 연구 질문을 도출하는 데 기여합니다.
임베딩 분석 단계에서는 추출된 임베딩을 클러스터링하고, 각 클러스터의 주요 개념을 분석하여 정보 테이블을 작성합니다. 이를 통해 연구자들은 특정 연구 영역에 대한 구조화된 이해를 얻고, 관련 논문을 추적할 수 있습니다. RDR의 이러한 접근 방식은 AI와 로봇 공학 분야의 연구자들에게 유용한 통찰을 제공하며, 향후 연구 방향을 제시하는 데 중요한 역할을 할 것으로 기대됩니다.
결론적으로, RDR 프레임워크는 AI와 로봇 공학의 급변하는 환경 속에서 연구자들이 보다 효과적으로 최신 동향을 파악하고, 새로운 연구 기회를 탐색할 수 있도록 돕는 혁신적인 방법론입니다. 이 연구는 다양한 분야의 연구자들에게 실질적인 도움을 줄 수 있을 것으로 보이며, 향후 연구의 기초가 될 수 있는 중요한 기여를 하고 있습니다.
논문 초록(Abstract)
AI 및 로봇 공학 분야의 연구가 급속히 성장함에 따라 매년 10,000편 이상의 논문이 발표되고 있어 연구자들이 최신 정보를 유지하는 것이 점점 더 어려워지고 있습니다. 빠르게 진화하는 트렌드, 학제 간 작업의 증가, 그리고 자신의 전문 분야를 넘어 다양한 영역을 탐색해야 하는 필요성이 이러한 도전에 기여하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 어떤 연구 분야든 체계적으로 분석할 수 있는 일반화 가능한 파이프라인을 제안합니다: 새로운 트렌드를 식별하고, 교차 분야의 기회를 발견하며, 새로운 탐구를 위한 구체적인 출발점을 제공합니다. 본 연구에서는 AI와 로봇 공학 분야에 적용된 포괄적인 프레임워크인 Real Deep Research (RDR)를 제시하며, 특히 파운데이션 모델과 로봇 공학의 발전에 중점을 둡니다. 또한, 우리는 다른 과학 분야에 대한 분석을 간략하게 확장합니다. 본 논문은 RDR 파이프라인의 구축에 대한 세부 사항을 다루고 있으며, 부록에서는 분석된 각 주제에 대한 광범위한 결과를 제공합니다. 우리는 이 연구가 AI 분야 및 그 너머에서 활동하는 연구자들에게 통찰을 제공하기를 희망합니다.
With the rapid growth of research in AI and robotics now producing over 10,000 papers annually it has become increasingly difficult for researchers to stay up to date. Fast evolving trends, the rise of interdisciplinary work, and the need to explore domains beyond one's expertise all contribute to this challenge. To address these issues, we propose a generalizable pipeline capable of systematically analyzing any research area: identifying emerging trends, uncovering cross domain opportunities, and offering concrete starting points for new inquiry. In this work, we present Real Deep Research (RDR) a comprehensive framework applied to the domains of AI and robotics, with a particular focus on foundation models and robotics advancements. We also briefly extend our analysis to other areas of science. The main paper details the construction of the RDR pipeline, while the appendix provides extensive results across each analyzed topic. We hope this work sheds light for researchers working in the field of AI and beyond.
논문 링크
더 읽어보기
대규모 언어 모델을 활용한 바이브 코딩에 대한 서베이 / A Survey of Vibe Coding with Large Language Models
논문 소개
대규모 언어 모델(LLM)의 발전은 코드 생성 지원에서 자율 코딩 에이전트로의 패러다임 전환을 촉진하며, 이를 통해 새로운 개발 방법론인 Vibe Coding이 등장하였다. Vibe Coding은 개발자가 코드의 각 줄을 이해하는 대신, AI가 생성한 구현을 결과 관찰을 통해 검증하는 방식을 채택한다. 이러한 접근법은 혁신적이지만, 인간-AI 협업에서의 기본적인 도전과 예상치 못한 생산성 손실 등 여러 문제점이 드러나고 있다. 본 논문은 Vibe Coding에 대한 첫 번째 포괄적이고 체계적인 리뷰를 제공하며, 이 혁신적인 개발 접근법에 대한 이론적 기초와 실용적 프레임워크를 수립한다.
1000개 이상의 연구 논문을 분석하여 Vibe Coding 생태계를 조사하고, 코딩을 위한 LLM, LLM 기반 코딩 에이전트, 코딩 에이전트의 개발 환경, 피드백 메커니즘 등 주요 인프라 구성 요소를 살펴본다. Vibe Coding을 공식적인 학문으로 소개하기 위해, 인간 개발자, 소프트웨어 프로젝트, 그리고 코딩 에이전트 간의 동적 관계를 포착하는 **제약 마르코프 결정 과정(Constrained Markov Decision Process)**을 통해 이론적 기초를 구축한다.
이후, 기존의 실천을 다섯 가지 개발 모델로 통합하여 제시하며, 각 모델의 특징과 적용 가능성을 설명한다. 성공적인 Vibe Coding은 단순히 에이전트의 능력에 의존하는 것이 아니라, 체계적인 맥락 엔지니어링, 잘 확립된 개발 환경, 그리고 인간-에이전트 협업 모델에 달려 있음을 강조한다. 이러한 요소들은 Vibe Coding의 효과성을 높이는 데 필수적이다.
마지막으로, Vibe Coding 생태계의 주요 구성 요소와 이들이 어떻게 상호작용하는지를 분석하고, LLM 기반 코딩 에이전트의 기능과 역할, 개발 환경의 중요성, 그리고 피드백 메커니즘의 작용 방식을 설명한다. 본 연구는 Vibe Coding의 이론적 기초와 실용적 프레임워크를 제시하며, 이 분야의 연구자들에게 중요한 기초 자료를 제공하는 데 기여한다.
논문 초록(Abstract)
대규모 언어 모델(LLM)의 발전은 코드 생성 지원에서 자율 코딩 에이전트로의 패러다임 전환을 촉진하였으며, 개발자들이 코드의 각 줄을 이해하기보다는 결과 관찰을 통해 AI가 생성한 구현을 검증하는 새로운 개발 방법론인 "바이브 코딩(Vibe Coding)"을 가능하게 하였습니다. 이 혁신적인 패러다임은 잠재적인 변화를 가져올 수 있지만, 그 효과는 아직 충분히 탐구되지 않았으며, 경험적 증거는 예상치 못한 생산성 손실과 인간-AI 협업의 근본적인 문제를 드러내고 있습니다. 이러한 격차를 해소하기 위해, 본 서베이는 대규모 언어 모델을 활용한 바이브 코딩에 대한 최초의 포괄적이고 체계적인 검토를 제공하며, 이 변혁적 개발 접근법의 이론적 기초와 실용적 프레임워크를 확립합니다. 1000편 이상의 연구 논문에 대한 체계적인 분석을 바탕으로, 우리는 바이브 코딩 생태계를 전체적으로 조사하고, 코딩을 위한 LLM, LLM 기반 코딩 에이전트, 코딩 에이전트의 개발 환경, 피드백 메커니즘 등 주요 인프라 구성 요소를 검토합니다. 먼저, 우리는 인간 개발자, 소프트웨어 프로젝트, 코딩 에이전트 간의 동적 삼위일체 관계를 포착하는 제약 마르코프 결정 과정(Constrained Markov Decision Process)을 통해 바이브 코딩을 공식적인 학문으로 소개합니다. 이 이론적 기초를 바탕으로, 우리는 기존의 관행을 비제약 자동화(Unconstrained Automation), 반복 대화 협업(Iterative Conversational Collaboration), 계획 주도(Planning-Driven), 테스트 주도(Test-Driven), 맥락 강화(Context-Enhanced) 모델의 다섯 가지 독특한 개발 모델로 종합하여 이 분야의 최초의 포괄적 분류 체계를 제공합니다. 중요한 것은, 우리의 분석 결과 성공적인 바이브 코딩은 단순히 에이전트의 능력에 의존하는 것이 아니라, 체계적인 맥락 공학, 잘 확립된 개발 환경, 그리고 인간-에이전트 협업 개발 모델에 달려 있음을 보여줍니다.
The advancement of large language models (LLMs) has catalyzed a paradigm shift from code generation assistance to autonomous coding agents, enabling a novel development methodology termed "Vibe Coding" where developers validate AI-generated implementations through outcome observation rather than line-by-line code comprehension. Despite its transformative potential, the effectiveness of this emergent paradigm remains under-explored, with empirical evidence revealing unexpected productivity losses and fundamental challenges in human-AI collaboration. To address this gap, this survey provides the first comprehensive and systematic review of Vibe Coding with large language models, establishing both theoretical foundations and practical frameworks for this transformative development approach. Drawing from systematic analysis of over 1000 research papers, we survey the entire vibe coding ecosystem, examining critical infrastructure components including LLMs for coding, LLM-based coding agent, development environment of coding agent, and feedback mechanisms. We first introduce Vibe Coding as a formal discipline by formalizing it through a Constrained Markov Decision Process that captures the dynamic triadic relationship among human developers, software projects, and coding agents. Building upon this theoretical foundation, we then synthesize existing practices into five distinct development models: Unconstrained Automation, Iterative Conversational Collaboration, Planning-Driven, Test-Driven, and Context-Enhanced Models, thus providing the first comprehensive taxonomy in this domain. Critically, our analysis reveals that successful Vibe Coding depends not merely on agent capabilities but on systematic context engineering, well-established development environments, and human-agent collaborative development models.
논문 링크
더 읽어보기
엔트로피롱: 예측 불확실성을 통한 효과적인 장기 맥락 학습 / EntropyLong: Effective Long-Context Training via Predictive Uncertainty
논문 소개
장기 문맥 언어 모델의 학습은 장기 의존성을 포착하는 데 있어 필수적이며, 이를 위해서는 효과적인 데이터 구성 방법론이 필요하다. 기존의 접근 방식들은 일반적인 텍스트 연결이나 휴리스틱 기반 변형을 사용하여 진정한 장기 의존성을 보장하지 못하는 경우가 많았다. 이러한 문제를 해결하기 위해 제안된 EntropyLong은 예측 불확실성을 활용하여 장기 의존성의 품질을 검증하는 혁신적인 데이터 구성 방법론이다.
EntropyLong의 핵심은 문서 내에서 높은 엔트로피 위치를 식별하고, 이 위치에서 의미적으로 관련된 문맥을 대규모 말뭉치에서 검색하는 것이다. 검색된 문맥의 유용성은 예측 엔트로피가 감소하는지를 평가함으로써 검증된다. 이러한 모델-인-더-루프 검증 과정은 각 의존성이 허위 상관관계가 아닌 측정 가능한 정보 이득을 나타내도록 보장한다. 이를 통해 원본 문서와 검증된 문맥 보충을 결합하여 장기 의존성을 가진 학습 샘플을 구성하게 된다.
연구에서는 FineWebEdu와 Cosmopedia를 활용하여 128K 길이의 시퀀스 데이터셋을 생성하였으며, 이 데이터로 학습된 모델은 RULER 벤치마크에서 특히 원거리 정보가 필요한 작업에서 유의미한 성과를 보였다. 또한, 지침 파인튜닝 후 LongBenchv2에서의 성과는 장기 문맥 이해 능력이 향상되었음을 입증하였다. 광범위한 제거 연구를 통해 엔트로피 기반 검증의 필요성과 효과도 추가로 확인되었다.
이 연구는 장기 문맥 학습의 기존 한계를 극복하는 데 기여하며, EntropyLong이 장기 의존성을 효과적으로 학습할 수 있는 새로운 방법론으로 자리잡을 가능성을 제시한다. 이러한 접근 방식은 향후 연구에 중요한 기여를 할 것으로 기대된다.
논문 초록(Abstract)
긴 맥락 언어 모델을 학습하여 장기 의존성을 포착하는 데는 전문적인 데이터 구축이 필요합니다. 현재의 접근 방식인 일반 텍스트 연결 또는 휴리스틱 기반 변형은 진정한 장기 의존성을 보장하는 데 자주 실패합니다. 우리는 예측 불확실성을 활용하여 의존성 품질을 검증하는 새로운 데이터 구축 방법인 EntropyLong을 제안합니다. 우리의 접근 방식은 문서 내에서 높은 엔트로피 위치를 식별하고, 대규모 말뭉치에서 의미적으로 관련된 맥락을 검색하며, 이들이 예측 엔트로피를 감소시키는지 평가하여 유용성을 검증합니다. 이 모델-인-더-루프 검증은 각 의존성이 허위 상관관계가 아닌 측정 가능한 정보 이득을 나타내도록 보장합니다. 우리는 이러한 검증된 맥락 보충물과 원본 문서를 결합하여 장기 의존성을 가진 학습 샘플을 구축합니다. FineWebEdu와 Cosmopedia를 사용하여 검증된 의존성을 가진 128K 길이의 시퀀스 데이터셋을 생성합니다. 이 데이터로 학습된 모델은 RULER 벤치마크에서 특히 원거리 정보를 요구하는 작업에서 상당한 개선을 보여줍니다. 지침 파인튜닝 후, 우리의 모델은 LongBenchv2에서도 상당한 성과를 달성하여 향상된 긴 맥락 이해를 입증합니다. 광범위한 제거 연구는 긴 맥락 학습을 위한 엔트로피 기반 검증의 필요성과 효과성을 추가로 검증합니다.
Training long-context language models to capture long-range dependencies requires specialized data construction. Current approaches, such as generic text concatenation or heuristic-based variants, frequently fail to guarantee genuine long-range dependencies. We propose EntropyLong, a novel data construction method that leverages predictive uncertainty to verify dependency quality. Our approach identifies high-entropy positions in documents, retrieves semantically relevant contexts from large corpora, and verifies their utility by assessing whether they reduce prediction entropy. This model-in-the-loop verification ensures each dependency represents measurable information gain rather than spurious correlation. We construct training samples with long-range dependencies by combining original documents with these verified contextual supplements. Using FineWebEdu and Cosmopedia, we generate a dataset of 128K-length sequences with verified dependencies. Models trained on this data demonstrate significant improvements on RULER benchmarks, particularly in tasks requiring distant information. Following instruction fine-tuning, our models also achieve substantial gains on LongBenchv2, demonstrating enhanced long-context understanding. Extensive ablation studies further validate the necessity and effectiveness of entropybased verification for long-context training.
논문 링크
트랜스포머는 왜 곱셈을 학습할 수 없는가? 역공학을 통한 장기 의존성의 함정 발견 / Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls
논문 소개
트랜스포머(Transformer) 모델이 여러 자리의 곱셈을 학습하는 데 실패하는 이유를 분석하는 본 연구는, 암묵적 사고의 연쇄(implicit chain-of-thought) 모델을 역공학하여 세 가지 주요 발견을 도출합니다. 첫째, 로짓 기여(logit attributions)와 선형 프로브(linear probes)를 통해 모델이 다중 자리 곱셈에 필요한 장기 의존성을 인코딩하고 있음을 확인하였습니다. 둘째, 모델은 어텐션(attention) 메커니즘을 활용하여 방향 비순환 그래프(directed acyclic graph)를 구성하고, 이를 통해 쌍별 부분 곱(pairwise partial products)을 "캐시(cache)"하고 "검색(retrieve)"하는 방식으로 장기 의존성을 처리합니다. 셋째, 모델은 민코프스키 합(Minkowski sums)과 푸리에 기저(Fourier basis)를 사용하여 숫자를 표현하고, 이를 통해 부분 곱을 효율적으로 구현합니다.
이러한 통찰을 바탕으로, 표준 파인튜닝 모델의 학습 동태를 재검토한 결과, 모델이 장기 의존성이 결여된 지역 최적(local optimum)으로 수렴한다는 사실을 발견하였습니다. 이를 해결하기 위해 "러닝 합(running sum)"을 예측하는 보조 손실(auxiliary loss)을 도입하였으며, 이는 모델이 다중 자리 곱셈을 성공적으로 학습할 수 있도록 하는 귀납적 편향을 제공합니다.
결론적으로, 본 연구는 트랜스포머 모델이 장기 의존성을 학습하는 데 있어 직면하는 함정을 밝혀내고, 올바른 귀납적 편향이 이러한 문제를 해결할 수 있는 방법을 제시합니다. 이로 인해 다중 자리 곱셈과 같은 복잡한 연산을 수행하는 데 있어 트랜스포머 모델의 성능을 향상시킬 수 있는 가능성을 제시합니다.
논문 초록(Abstract)
언어 모델은 점점 더 능력이 향상되고 있지만, 여전히 다중 자리 수 곱셈이라는 겉보기에는 간단한 작업에서 실패하고 있습니다. 본 연구에서는 \emph{사고의 연쇄}를 통해 곱셈을 성공적으로 학습하는 모델을 역설계하여 그 이유를 조사하고, 세 가지 발견을 보고합니다: (1) 장기 구조의 증거: 로짓 기여도와 선형 프로브는 모델이 다중 자리 수 곱셈에 필요한 장기 의존성을 인코딩하고 있음을 나타냅니다. (2) 메커니즘: 모델은 어텐션을 사용하여 장기 의존성을 인코딩하고, 쌍별 부분 곱을 캐시''하고 검색''하기 위해 방향 비순환 그래프를 구성합니다. (3) 기하학: 모델은 쌍의 숫자 사이에서 Minkowski 합을 형성하여 어텐션 헤드에서 부분 곱을 구현하며, 숫자는 Fourier 기저를 사용하여 표현됩니다. 이 두 가지는 표준 파인튜닝 모델이 결여하고 있는 직관적이고 효율적인 표현입니다. 이러한 통찰을 바탕으로 우리는 표준 파인튜닝의 학습 역학을 재검토하고, 모델이 필요한 장기 의존성이 결여된 지역 최적점으로 수렴함을 발견했습니다. 우리는 또한 선형 회귀 프로브를 통해 누적 합''을 예측하는 보조 손실을 도입하여 이 이해를 검증하며, 이는 모델이 다중 자리 수 곱셈을 성공적으로 학습할 수 있도록 하는 귀납적 편향을 제공합니다. 요약하자면, 사고의 연쇄 모델의 메커니즘을 역설계함으로써 우리는 트랜스포머에서 장기 의존성을 학습하는 데 있어 함정을 발견하고, 올바른 귀납적 편향이 이 문제를 해결할 수 있는 방법의 예를 제시합니다.
Language models are increasingly capable, yet still fail at a seemingly simple task of multi-digit multiplication. In this work, we study why, by reverse-engineering a model that successfully learns multiplication via \emph{implicit chain-of-thought}, and report three findings: (1) Evidence of long-range structure: Logit attributions and linear probes indicate that the model encodes the necessary long-range dependencies for multi-digit multiplication. (2) Mechanism: the model encodes long-range dependencies using attention to construct a directed acyclic graph to
cache'' andretrieve'' pairwise partial products. (3) Geometry: the model implements partial products in attention heads by forming Minkowski sums between pairs of digits, and digits are represented using a Fourier basis, both of which are intuitive and efficient representations that the standard fine-tuning model lacks. With these insights, we revisit the learning dynamics of standard fine-tuning and find that the model converges to a local optimum that lacks the required long-range dependencies. We further validate this understanding by introducing an auxiliary loss that predicts the ``running sum'' via a linear regression probe, which provides an inductive bias that enables the model to successfully learn multi-digit multiplication. In summary, by reverse-engineering the mechanisms of an implicit chain-of-thought model we uncover a pitfall for learning long-range dependencies in Transformers and provide an example of how the correct inductive bias can address this issue.
논문 링크
더 읽어보기
Dr.LLM: LLM을 위한 동적 레이어 라우팅 / Dr.LLM: Dynamic Layer Routing in LLMs
논문 소개
대규모 언어 모델(LLM)은 모든 토큰을 트랜스포머 스택의 모든 레이어를 통해 처리하여 간단한 쿼리에서 불필요한 계산이 발생하고, 깊은 추론이 필요한 어려운 쿼리에는 유연성이 부족합니다. 적응 깊이 방법은 효율성을 개선할 수 있지만, 기존 접근 방식은 비싼 추론 시간 검색, 구조적 변경 또는 대규모 재학습에 의존하며, 실제로는 효율성 향상에도 불구하고 정확도가 저하되는 경우가 많습니다. Dr.LLM은 사전 학습된 모델에 경량의 레이어별 라우터를 장착하여 블록을 건너뛰거나 실행하거나 반복하도록 결정하는 프레임워크입니다. 라우터는 명시적 감독 하에 훈련되며, 몬테 카를로 트리 검색(MCTS)을 사용하여 계산 예산 내에서 정확도를 유지하거나 향상시키는 고품질 레이어 구성을 도출합니다. 우리의 설계는 안정적인 라우팅을 위한 윈도우 풀링, 클래스 균형을 고려한 포컬 손실, 병목 MLP 라우터를 포함하여 클래스 불균형과 긴 시퀀스에 대한 강건성을 보장합니다. Dr.LLM은 ARC(논리)와 DART(수학)에서 평균 5개의 레이어를 절약하면서 정확도를 최대 3.4%p 향상시킵니다. 라우터는 도메인 외 작업(MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval)에서도 0.85%의 정확도 저하로 일반화되며, 효율성을 유지하면서 이전 라우팅 방법보다 최대 7.7%p 더 나은 성능을 보입니다. 전반적으로 Dr.LLM은 명시적으로 감독된 라우터가 기본 가중치를 변경하지 않고도 예산 인식 및 정확도 중심의 추론을 위해 동결된 LLM을 재구성할 수 있음을 보여줍니다.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 모든 토큰을 트랜스포머 스택의 모든 레이어를 통해 처리하여 간단한 쿼리에 대해 계산이 낭비되고, 더 깊은 추론이 필요한 어려운 쿼리에 대해서는 유연성이 부족합니다. 적응 깊이 방법은 효율성을 개선할 수 있지만, 이전 접근 방식은 비용이 많이 드는 추론 시간 검색, 구조적 변경 또는 대규모 재학습에 의존하며, 실제로는 효율성 향상에도 불구하고 정확도가 저하되는 경우가 많습니다. 우리는 Dr.LLM, 즉 LLM을 위한 레이어의 동적 라우팅을 소개합니다. 이는 사전 학습된 모델에 경량의 레이어별 라우터를 장착하여 블록을 건너뛰거나 실행하거나 반복할지를 결정하는 리트로핏 가능한 프레임워크입니다. 라우터는 명시적 감독 하에 훈련됩니다: 몬테 카를로 트리 검색(MCTS)을 사용하여 계산 예산 하에서 정확도를 유지하거나 향상시키는 고품질 레이어 구성을 도출합니다. 우리의 설계인 안정적인 라우팅을 위한 윈도우 풀링, 클래스 균형을 갖춘 포컬 손실, 그리고 병목 MLP 라우터는 클래스 불균형과 긴 시퀀스에서도 강건성을 보장합니다. ARC(논리)와 DART(수학)에서 Dr.LLM은 평균적으로 예제당 5개의 레이어를 절약하면서 최대 +3.4%p의 정확도 향상을 보여줍니다. 라우터는 효율성을 유지하면서도 0.85%의 정확도 하락만으로 도메인 외 작업(MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval)에 일반화되며, 이전 라우팅 방법보다 최대 +7.7%p 더 우수한 성능을 발휘합니다. 전반적으로 Dr.LLM은 명시적으로 감독된 라우터가 기본 가중치를 변경하지 않고도 예산을 고려한 정확도 중심의 추론을 위해 동결된 LLM을 리트로핏할 수 있음을 보여줍니다.
Large Language Models (LLMs) process every token through all layers of a transformer stack, causing wasted computation on simple queries and insufficient flexibility for harder ones that need deeper reasoning. Adaptive-depth methods can improve efficiency, but prior approaches rely on costly inference-time search, architectural changes, or large-scale retraining, and in practice often degrade accuracy despite efficiency gains. We introduce Dr.LLM, Dynamic routing of Layers for LLMs, a retrofittable framework that equips pretrained models with lightweight per-layer routers deciding to skip, execute, or repeat a block. Routers are trained with explicit supervision: using Monte Carlo Tree Search (MCTS), we derive high-quality layer configurations that preserve or improve accuracy under a compute budget. Our design, windowed pooling for stable routing, focal loss with class balancing, and bottleneck MLP routers, ensures robustness under class imbalance and long sequences. On ARC (logic) and DART (math), Dr.LLM improves accuracy by up to +3.4%p while saving 5 layers per example on average. Routers generalize to out-of-domain tasks (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) with only 0.85% accuracy drop while retaining efficiency, and outperform prior routing methods by up to +7.7%p. Overall, Dr.LLM shows that explicitly supervised routers retrofit frozen LLMs for budget-aware, accuracy-driven inference without altering base weights.
논문 링크
대규모 언어 모델을 위한 선견지명 라우팅 / Lookahead Routing for Large Language Models
논문 소개
대규모 언어 모델(LLM) 라우터는 다중 모델 시스템의 효율성을 극대화하기 위해 설계되었으며, 각 쿼리를 가장 적합한 모델로 유도하여 이질적인 LLM의 강점을 활용합니다. 기존의 라우팅 접근 방식은 주로 입력 쿼리를 기반으로 한 분류 문제로 설정되어, 모델의 실제 응답을 고려하지 않는 한계를 지니고 있습니다. 이러한 방식은 복잡하거나 모호한 쿼리에 대한 최적의 라우팅 결정을 내리지 못할 수 있으며, 이는 응답 생성 과정에서 나타나는 의미적 의도나 맥락적 뉘앙스를 포착하지 못하기 때문입니다.
이러한 문제를 해결하기 위해 제안된 Lookahead 라우팅 프레임워크는 모델의 잠재적 출력을 예측하여 라우팅 결정을 지원합니다. Lookahead는 모델 선택을 위해 각 후보 LLM의 잠재 표현을 추정함으로써, 전체 추론 없이도 더 정보에 기반한 라우팅이 가능하도록 합니다. 이 프레임워크는 인과 언어 모델(Causal Language Model)과 마스킹된 언어 모델(Masked Language Model)을 기반으로 한 두 가지 접근 방식을 구현하여, 응답 수준의 정보에 접근할 수 있는 기능을 제공합니다.
Lookahead의 주요 혁신은 라우터가 전체 응답을 생성하는 대신, 잠재적 응답의 특성을 예측하도록 훈련된다는 점입니다. 이를 통해 라우터는 입력 쿼리와 가능한 응답 간의 주요 신호를 식별할 수 있으며, 이는 복잡한 쿼리에 대한 라우팅 성능을 향상시키는 데 기여합니다. 실증 연구 결과, Lookahead는 일곱 개의 공개 벤치마크에서 기존 라우팅 기준을 초과 달성하며, 평균 7.7%의 성능 향상을 보여주었습니다.
결론적으로, Lookahead는 쿼리 전용 라우팅의 비효율성을 극복하고, 응답 인식 기반의 라우팅 전략을 통해 더 정확하고 맥락적으로 적절한 라우팅 결정을 가능하게 합니다. 이 연구는 LLM 라우팅의 새로운 방향을 제시하며, 다양한 작업에서의 성능 향상을 통해 그 가치를 입증하고 있습니다.
논문 초록(Abstract)
대규모 언어 모델(LLM) 라우터는 이질적인 LLM의 다양한 강점을 활용하면서 각 쿼리를 가장 적합한 모델로 유도하여 다중 모델 시스템의 효율성을 개선합니다. 기존의 대부분 접근 방식은 라우팅을 입력 쿼리에만 기반한 분류 문제로 설정합니다. 이는 모든 모델에 대한 추론을 피함으로써 오버헤드를 줄이지만, 잠재적인 출력에서 얻을 수 있는 귀중한 정보를 간과하고, 응답 생성 중에만 나타나는 암묵적인 의도나 맥락적 뉘앙스를 포착하지 못합니다. 이러한 한계는 깊은 의미 이해가 필요한 복잡하거나 모호한 쿼리에 대해 최적이 아닌 라우팅 결정을 초래할 수 있습니다. 이 문제를 해결하기 위해, 우리는 잠재 표현을 예측하여 잠재적인 모델 출력을 "예견"하는 라우팅 프레임워크인 Lookahead를 제안하며, 이러한 예측을 사용하여 모델 선택을 안내함으로써 전체 추론 없이 더 정보에 기반한 라우팅을 가능하게 합니다. 이 프레임워크 내에서 우리는 인과적 및 마스킹된 언어 모델에 기반한 두 가지 접근 방식을 구현합니다. 지침 따르기, 수학적 추론, 코드 생성 등 7개의 공개 벤치마크에 대한 실증 평가 결과, Lookahead는 기존 라우팅 기준선을 지속적으로 초월하며, 최첨단 기술 대비 평균 7.7%의 성능 향상을 달성했습니다. 우리의 코드는 GitHub - huangcb01/lookahead-routing: Official Implementation of NeurIPS 2025 paper "Lookahead Routing for Large Language Models". 에서 확인할 수 있습니다.
Large language model (LLM) routers improve the efficiency of multi-model systems by directing each query to the most appropriate model while leveraging the diverse strengths of heterogeneous LLMs. Most existing approaches frame routing as a classification problem based solely on the input query. While this reduces overhead by avoiding inference across all models, it overlooks valuable information that could be gleaned from potential outputs and fails to capture implicit intent or contextual nuances that often emerge only during response generation. These limitations can result in suboptimal routing decisions, particularly for complex or ambiguous queries that require deeper semantic understanding. To address this challenge, we propose Lookahead, a routing framework that "foresees" potential model outputs by predicting their latent representations and uses these predictions to guide model selection, thus enabling more informed routing without full inference. Within this framework, we implement two approaches based on causal and masked language models. Empirical evaluations across seven public benchmarks - spanning instruction following, mathematical reasoning, and code generation - show that Lookahead consistently outperforms existing routing baselines, achieving an average performance gain of 7.7% over the state-of-the-art. Our code is available at GitHub - huangcb01/lookahead-routing: Official Implementation of NeurIPS 2025 paper "Lookahead Routing for Large Language Models"..
논문 링크
더 읽어보기
Fast-dLLM v2: 효율적인 블록 디퓨전 대규모 언어 모델 / Fast-dLLM v2: Efficient Block-Diffusion LLM
논문 소개
자기 회귀(AR) 대규모 언어 모델(LLM)은 자연어 처리 분야에서 뛰어난 성능을 발휘하고 있지만, 순차적인 디코딩 방식으로 인해 추론 효율성이 제한되는 문제를 안고 있다. 이러한 한계를 극복하기 위해 제안된 Fast-dLLM v2는 블록 디퓨전 언어 모델(dLLM)로, 사전 학습된 AR 모델을 효과적으로 변환하여 병렬 텍스트 생성을 가능하게 한다. 이 모델은 약 10억 개의 토큰으로 파인튜닝이 이루어지며, 이는 기존의 전체 어텐션 디퓨전 모델인 Dream이 요구하는 5800억 개의 토큰에 비해 500배의 데이터 감소를 나타낸다.
Fast-dLLM v2의 핵심 혁신은 블록 디퓨전 메커니즘과 보완적인 어텐션 마스크를 결합한 새로운 학습 레시피에 있다. 이를 통해 블록 단위의 양방향 컨텍스트 모델링이 가능해지며, AR 학습 목표를 유지하면서도 효율적인 디코딩을 실현할 수 있다. 또한, 블록 수준 캐시와 서브 블록 캐시를 설계하여, 각 블록 간의 역사적 컨텍스트를 저장하고 부분적으로 디코딩된 블록 내에서 효율적인 병렬 생성을 지원한다. 이러한 구조는 디코딩 속도를 최대 2.5배 향상시키면서도 생성 품질을 유지하는 데 기여한다.
다양한 벤치마크에 대한 실험 결과, Fast-dLLM v2는 AR 기준선과 비교하여 정확도에서 동등하거나 우수한 성능을 보이며, dLLM 중에서도 최첨단의 효율성을 제공한다. 본 연구는 AR 모델과 dLLM 간의 간극을 메우는 중요한 기여를 하며, 빠르고 정확한 LLM의 실제 배포를 위한 새로운 가능성을 제시한다. 이러한 접근은 대규모 LLM의 활용을 더욱 촉진할 것으로 기대된다.
논문 초록(Abstract)
자기 회귀(AR) 대규모 언어 모델(LLM)은 다양한 자연어 작업에서 뛰어난 성능을 달성했지만, 그 고유한 순차적 디코딩은 추론 효율성을 제한합니다. 본 연구에서는 사전 학습된 AR 모델을 효율적으로 dLLM으로 변환하여 병렬 텍스트 생성을 가능하게 하는 정교하게 설계된 블록 디퓨전 언어 모델(dLLM)인 Fast-dLLM v2를 제안합니다. 이는 전체 어텐션 디퓨전 LLM인 Dream(580B 토큰)과 비교하여 약 1B 토큰의 파인튜닝만으로도 훈련 데이터가 500배 줄어들면서 원래 모델의 성능을 유지합니다. 우리의 접근법은 블록 디퓨전 메커니즘과 보완적인 어텐션 마스크를 결합한 새로운 학습 레시피를 도입하여 AR 학습 목표를 희생하지 않으면서 블록 단위의 양방향 컨텍스트 모델링을 가능하게 합니다. 디코딩을 더욱 가속화하기 위해, 우리는 블록 간의 역사적 컨텍스트 표현을 저장하는 블록 수준 캐시와 부분적으로 디코딩된 블록 내에서 효율적인 병렬 생성을 가능하게 하는 서브 블록 캐시를 설계한 계층적 캐싱 메커니즘을 개발했습니다. 우리의 병렬 디코딩 파이프라인과 결합된 Fast-dLLM v2는 생성 품질을 저하시키지 않으면서 표준 AR 디코딩에 비해 최대 2.5배의 속도 향상을 달성합니다. 다양한 벤치마크에 대한 광범위한 실험 결과, Fast-dLLM v2는 정확도에서 AR 기준을 일치시키거나 초과하며, dLLM 중에서 최첨단 효율성을 제공하여 빠르고 정확한 LLM의 실용적 배포를 위한 중요한 진전을 나타냅니다. 코드와 모델은 공개될 예정입니다.
Autoregressive (AR) large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks, yet their inherent sequential decoding limits inference efficiency. In this work, we propose Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that efficiently adapts pretrained AR models into dLLMs for parallel text generation, requiring only approximately 1B tokens of fine-tuning. This represents a 500x reduction in training data compared to full-attention diffusion LLMs such as Dream (580B tokens), while preserving the original model's performance. Our approach introduces a novel training recipe that combines a block diffusion mechanism with a complementary attention mask, enabling blockwise bidirectional context modeling without sacrificing AR training objectives. To further accelerate decoding, we design a hierarchical caching mechanism: a block-level cache that stores historical context representations across blocks, and a sub-block cache that enables efficient parallel generation within partially decoded blocks. Coupled with our parallel decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR decoding without compromising generation quality. Extensive experiments across diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs - marking a significant step toward the practical deployment of fast and accurate LLMs. Code and model will be publicly released.
논문 링크
더 읽어보기
ReCode: 계획과 행동을 통합한 보편적 세분화 제어 / ReCode: Unify Plan and Action for Universal Granularity Control
논문 소개
ReCode는 계획과 행동을 통합하여 대규모 언어 모델(LLM) 기반 에이전트의 의사결정 능력을 혁신적으로 향상시키는 방법론을 제시한다. 인간은 다양한 세부 수준에서 의사결정을 수행하는 데 뛰어난 능력을 보이며, 이러한 능력은 고수준의 계획과 저수준의 행동을 통합하는 인지적 표현에 기반한다. 그러나 기존의 LLM 기반 에이전트는 이러한 유연성을 결여하고 있으며, 이는 고수준 계획과 저수준 행동 간의 경직된 분리에 기인한다. ReCode는 이러한 한계를 극복하기 위해 고안된 새로운 패러다임으로, 계획을 추상적인 자리 표시자 함수로 취급하고 이를 재귀적으로 세부 함수로 분해하여 원시 행동에 도달하는 구조를 갖는다.
이 재귀적 접근 방식은 계획과 행동 간의 경계를 허물어 에이전트가 동적으로 의사결정의 세부 수준을 조절할 수 있도록 한다. 또한, ReCode는 풍부한 다중 세부 수준의 학습 데이터를 생성하여 모델이 계층적 의사결정 과정을 효과적으로 학습할 수 있게 한다. 실험 결과, ReCode는 기존의 고급 기준을 초과하는 추론 성능을 보여주며, 데이터 효율성에서도 뛰어난 성과를 기록하였다. 이는 계획과 행동의 통합이 보편적인 세부 수준 제어를 달성하는 강력한 접근법임을 입증한다.
ReCode의 구현은 자연어 작업 지시를 루트 자리 표시자 함수로 변환하는 방식으로 시작되며, 이를 통해 에이전트는 통합된 변수 네임스페이스를 관리하고 오류 처리 및 재귀 제어를 수행한다. 다양한 실험 환경에서 ReCode는 기존의 ReAct 및 CodeAct와 비교하여 평균 보상에서 유의미한 성과 향상을 보였으며, 이는 ReCode의 계층적 구조가 각 훈련 예제에서 더 풍부한 학습 신호를 제공함을 나타낸다. 이러한 결과는 ReCode가 LLM 기반 에이전트의 의사결정 과정에서 중요한 역할을 할 것으로 기대되며, 향후 AI 시스템의 발전에 기여할 것으로 전망된다.
논문 초록(Abstract)
현실 세계의 작업은 다양한 세분화 수준에서 결정을 요구하며, 인간은 계획을 본질적으로 고차원적인 행동 형태로 이해하는 통합된 인지 표현을 활용하여 이 작업을 잘 수행합니다. 그러나 현재의 대규모 언어 모델(LLM) 기반 에이전트는 이러한 결정 세분화 수준을 유연하게 운영할 수 있는 중요한 능력이 부족합니다. 이러한 제한은 고차원 계획과 저차원 행동 간의 경직된 분리를 강요하는 기존 패러다임에서 비롯되며, 이는 동적 적응성을 저해하고 일반화를 제한합니다. 우리는 계획과 행동을 단일 코드 표현 내에서 통합하여 이러한 제한을 해결하는 새로운 패러다임인 ReCode(재귀적 코드 생성)를 제안합니다. 이 표현에서 ReCode는 고차원 계획을 추상적인 자리 표시자 함수로 취급하며, 에이전트는 이를 재귀적으로 세분화된 하위 함수로 분해하여 원시 행동에 도달합니다. 이 재귀적 접근 방식은 계획과 행동 간의 경직된 경계를 허물어 에이전트가 동적으로 결정 세분화 수준을 제어할 수 있게 합니다. 더욱이, 재귀적 구조는 본질적으로 풍부하고 다중 세분화 훈련 데이터를 생성하여 모델이 계층적 의사 결정 프로세스를 학습할 수 있도록 합니다. 광범위한 실험 결과, ReCode는 추론 성능에서 고급 기준선을 크게 초월하며, 훈련에서 뛰어난 데이터 효율성을 보여주어 재귀적 코드 생성을 통해 계획과 행동을 통합하는 것이 보편적인 세분화 제어를 달성하는 강력하고 효과적인 접근 방식이라는 우리의 핵심 통찰을 검증합니다. 코드는 GitHub - FoundationAgents/ReCode: Next paradigm for LLM Agent. Unify plan and action through recursive code generation for adaptive, human-like decision-making. 에서 확인할 수 있습니다.
Real-world tasks require decisions at varying granularities, and humans excel at this by leveraging a unified cognitive representation where planning is fundamentally understood as a high-level form of action. However, current Large Language Model (LLM)-based agents lack this crucial capability to operate fluidly across decision granularities. This limitation stems from existing paradigms that enforce a rigid separation between high-level planning and low-level action, which impairs dynamic adaptability and limits generalization. We propose ReCode (Recursive Code Generation), a novel paradigm that addresses this limitation by unifying planning and action within a single code representation. In this representation, ReCode treats high-level plans as abstract placeholder functions, which the agent then recursively decomposes into finer-grained sub-functions until reaching primitive actions. This recursive approach dissolves the rigid boundary between plan and action, enabling the agent to dynamically control its decision granularity. Furthermore, the recursive structure inherently generates rich, multi-granularity training data, enabling models to learn hierarchical decision-making processes. Extensive experiments show ReCode significantly surpasses advanced baselines in inference performance and demonstrates exceptional data efficiency in training, validating our core insight that unifying planning and action through recursive code generation is a powerful and effective approach to achieving universal granularity control. The code is available at GitHub - FoundationAgents/ReCode: Next paradigm for LLM Agent. Unify plan and action through recursive code generation for adaptive, human-like decision-making..
논문 링크
더 읽어보기
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~ ![]()













