[2026/05/18 ~ 24] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


이번 주 선정된 10편의 논문들을 살펴보면, 단순히 모델의 크기를 키우는 것을 넘어 시스템의 근본적인 구조를 혁신하고 자율성을 부여하는 방향으로 연구가 진행되고 있음을 확인할 수 있습니다.
단순 생성을 넘어선 에이전트의 자기 진화 및 인프라화: 이번 주 연구들은 AI 에이전트가 단순히 텍스트를 생성하는 도구를 넘어, 시스템의 핵심 인프라로 자리 잡고 스스로 발전하는 모습을 보여줍니다. AIRA와 EvolveMem은 에이전트가 스스로 신경망 아키텍처를 설계하거나 메모리 검색 파이프라인을 자율적으로 진화시키는 AutoResearch의 가능성을 성공적으로 입증했습니다. 또한 에이전트 하니스로서의 코드 논문은 코드가 에이전트의 단순한 결과물이 아니라 추론, 행동, 검증을 지탱하는 운영 기반이 되어야 함을 역설합니다. 이는 에이전트가 외부 환경과 상호작용하며 스스로 성능을 개선하는 독립적이고 신뢰할 수 있는 시스템으로 도약하고 있음을 시사합니다.
연산 및 구조적 병목 현상의 근본적 재설계: 파라미터 규모를 무작정 키우기보다 데이터 흐름과 연산 구조의 병목을 해소하여 하드웨어 및 추론 효율을 극대화하려는 시도도 돋보입니다. 멀티스트림 LLMs는 읽기, 생각, 출력 과정을 병렬로 분리해 기존 언어 모델의 단일 스트림 한계를 극복했고, CODA는 트랜스포머의 메모리 이동 병목을 줄이기 위해 자잘한 연산들을 GPU 커널의 단일 흐름으로 묶어냈습니다. 아울러 SlimQwen은 대규모 전문가 혼합 모델의 사전학습 단계에서부터 가지치기와 지식 증류를 적용해 실용적인 수준으로 압축하는 최적의 궤적을 제시했습니다. 이러한 접근은 아키텍처의 혁신을 통해 모델의 실질적인 훈련 및 배포 비용을 획기적으로 낮추는 데 기여하고 있습니다.
모델 주변부 인터페이스와 표현 공간의 시스템적 최적화: 모델 내부의 가중치뿐만 아니라, 모델에 입력이 주어지고 결과가 해석되는 외부 환경과 표현 방식을 최적화하는 연구들이 주목받았습니다. ReElicit은 제한된 피드백만 주어지는 상황에서 LLM이 시스템 프롬프트의 의미적 특징 공간을 스스로 유도하여 최적화하는 베이지안 접근법을 선보였습니다. 또한 Grep만으로 충분한가? 연구는 검색-증강 생성 환경에서 검색기 자체의 성능 못지않게 도구의 결과가 에이전트에게 제시되는 하니스 구조가 정확도에 결정적임을 밝혔으며, 토큰화에 길을 잃다 논문은 그래프 학습에서 입력 토큰화 방식의 선택이 모델의 표현력과 계산 한계를 근본적으로 결정함을 증명했습니다. 이는 지능형 시스템의 궁극적인 성능이 단일 모델의 능력을 넘어 시스템 통합 및 입력 인터페이스의 정교함에 달려 있음을 명확히 보여줍니다.
논문 한 줄 요약
-
Multi-Stream LLMs: 읽기, 사고, 행동을 하나의 단일 스트림에 묶던 기존 LLM 구조의 병목을 분리해, 병렬 스트림 기반 에이전트 추론 구조를 제안합니다.
-
Billion-Scale Graph Foundation Models: 대규모 이종 그래프를 위한 그래프 파운데이션 모델(Graph Foundation Model, GFM) 레시피를 제시하며, 스케일링 법칙과 안정적인 학습·파인튜닝 전략을 보여 줍니다.
-
SlimQwen: 대규모 혼합 전문가(mixture-of-experts, MoE) 모델의 사전학습 단계에서 구조적 가지치기와 지식 증류가 어떻게 가장 효과적으로 결합되는지 체계적으로 분석합니다.
-
Embedding by Elicitation: 시스템 프롬프트를 점수 기반 블랙박스 최적화 문제로 보고, LLM이 해석 가능한 특징 공간을 유도하도록 해 베이지안 최적화를 수행합니다.
-
Code as Agent Harness: 코드를 단순한 출력물이 아니라 에이전트의 추론, 행동, 메모리, 검증을 연결하는 운영 기반으로 보는 관점을 정리한 서베이입니다.
-
Agentic Discovery of Neural Architectures: LLM 에이전트가 트랜스포머를 넘어 새로운 신경망 아키텍처와 학습 메커니즘을 자율적으로 발견할 수 있음을 보입니다.
-
Is Grep All You Need?: 에이전트 검색에서 벡터 검색보다 grep 같은 렉시컬 검색이 더 잘 작동할 수 있음을 보이며, 검색기보다 하니스와 결과 전달 방식이 성능을 좌우할 수 있음을 강조합니다.
-
CODA: 트랜스포머의 비어텐션 연산을 GEMM의 epilogue로 재작성해, 메모리 이동 병목을 줄이고 학습 커널을 더 효율적으로 만드는 GPU 커널 추상화를 제안합니다.
-
Lost in Tokenization: 그래프 토큰화 방식이 트랜스포머의 표현력과 깊이 요구를 근본적으로 바꾼다는 이론을 제시하며, 랜덤 워크·스펙트럴 토큰화의 한계를 분석합니다.
-
EvolveMem: 장기 기억 시스템에서 저장 내용뿐 아니라 검색 점수 함수와 융합 전략까지 함께 진화시키는 자기진화형 메모리 아키텍처를 제안합니다.
멀티스트림 대규모 언어 모델(LLM): 생각, 입력, 출력의 병렬 스트림으로 언어 모델의 병목 해소 / Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
논문 소개
대규모 언어 모델(LLM)이 자율 에이전트의 핵심 추론 엔진으로 널리 활용되고 있음에도, 기존 채팅형 구조는 사용자 입력을 읽고, 사고의 연쇄(Chain-of-Thought, CoT)를 전개하고, 도구를 호출하며, 최종 출력을 생성하는 모든 과정을 하나의 단일 스트림에 순차적으로 묶어 두는 한계를 안고 있습니다. 이 논문은 바로 그 단일 스트림 병목을 문제의 출발점으로 삼아, 읽기와 생각하기, 행동하기를 서로 분리된 병렬 계산 흐름으로 재구성하는 멀티스트림 LLMs를 제안합니다. 핵심 방법론은 지시 미세조정(instruction tuning)의 대상 자체를 순차적 메시지 형식에서 여러 개의 병렬 스트림으로 전환하는 데 있으며, 각 순전파(forward pass)마다 모델이 여러 입력 스트림을 동시에 읽고 여러 출력 스트림에 토큰을 생성하도록 설계합니다. 이때 모든 스트림은 이전 시점의 상태에 인과적으로 의존하므로, 기존 언어 모델이 지닌 시간적 일관성과 자기회귀적 특성은 유지하면서도, 읽는 동안에는 행동할 수 없고 쓰는 동안에는 새로운 정보를 반영할 수 없다는 제약을 완화합니다. 다시 말해, 이 접근은 단순한 구조 변경이 아니라 언어 모델의 계산 조직을 재배치하여, 사고와 실행을 동시에 조율할 수 있는 에이전트형 추론 체계를 만드는 데 목적이 있습니다.
이러한 설계는 수리 추론, 논리 추론, 독해, 생의학 질의응답, 인스트럭션 준수, 그리고 프롬프트 인젝션 방어까지 포괄하는 폭넓은 데이터셋과 벤치마크를 통해 검증됩니다. GSM8K와 MATH-500은 다단계 수리 추론 능력을, MetaMathQA와 ProofWriter는 기호적 추론과 명시적 추론 체인의 안정성을, LogicNLI와 PubMedQA는 형식 논리와 사실 기반 판단 능력을 점검하는 데 사용됩니다. 동시에 SQuAD와 Alpaca는 독해와 인스트럭션 튜닝의 일반화를, Structured Query, Gandalf, TensorTrust, Purple, RuLES, NESSiE는 직접적·간접적 프롬프트 인젝션에 대한 견고성과 안전성-유용성 균형을 평가합니다. 평가 지표 역시 정확도(Accuracy)만이 아니라, 첫 목표 토큰까지 필요한 토큰 수(TNFT), 실제 응답 지연(Delay), 가장 긴 개별 스트림 길이(MSL), 공격 성공률, Safe & Helpful 점수, 그리고 프롬프트 및 지시 수준의 인스트럭션 준수 정확도를 함께 사용하여 멀티스트림 구조의 효과를 다각도로 측정합니다. 이러한 다면적 평가는 이 모델이 단지 더 많은 답을 맞히는지를 넘어서, 얼마나 빨리 반응하고, 얼마나 효율적으로 계산하며, 얼마나 안전하게 역할을 분리해 행동하는지를 보여주도록 설계되어 있습니다. 결과적으로 이 연구는 병렬 스트림 기반의 언어 모델링이 효율성과 보안성, 그리고 시스템의 감시 가능성을 함께 향상시킬 수 있음을 제시하며, 향후 에이전트형 대규모 언어 모델의 구조적 대안으로서 중요한 방향성을 제공합니다.
초록(Abstract)
언어 모델 성능의 지속적인 향상은 예를 들어 코딩이나 컴퓨터 사용 애플리케이션에서 자율 에이전트의 구동 수단으로 널리 활용될 수 있게 했다. 그러나 이러한 시스템의 핵심은 ChatGPT와 같은 초기 인스트럭션 튜닝 모델 이후로 크게 달라지지 않았다. 고도화된 AI 에이전트조차도 단일 계산 스트림에서 사용자, 시스템, 자기 자신(즉, 사고의 연쇄(CoT)), 그리고 도구와 메시지를 순차적으로 주고받는 메시지 교환 형식에 기반해 동작한다. 채팅 모델에서 이러한 단일 스트림 병목은 여러 한계를 초래한다. 에이전트는 읽는 동안 행동(출력 생성)할 수 없고, 반대로 쓰는 동안 새로운 정보에 반응할 수 없다. 마찬가지로, 에이전트는 생각하는 동안 행동할 수 없고, 정보를 읽거나 처리하는 동안 생각할 수 없다. 본 연구에서는 순차적 메시지 형식에 대한 인스트럭션 튜닝에서 각 역할을 별도의 스트림으로 분리한 여러 개의 병렬 계산 스트림에 대한 인스트럭션 튜닝으로 전환함으로써 모델의 이러한 제약을 해소할 수 있음을 보인다. 그러면 언어 모델의 각 순전파는 여러 입력 스트림에서 동시에 읽고 여러 출력 스트림에서 토큰을 생성하며, 이 모든 것은 이전 타임스텝에 인과적으로 의존한다. 우리는 이러한 데이터 기반 변화가 앞서 언급한 여러 사용성 한계를 개선하고, 병렬화를 통해 모델 효율성을 높이며, 관심사의 분리 개선을 통해 모델 보안을 강화하고, 나아가 모델의 모니터링 가능성을 향상시킬 수 있다고 주장한다.
The continued improvements in language model capability have unlocked their widespread use as drivers of autonomous agents, for example in coding or computer use applications. However, the core of these systems has not changed much since early instruction-tuned models like ChatGPT. Even advanced AI agents function on message exchange formats, successively exchanging messages with users, systems, with itself (i.e. chain-of-thought) and tools in a single stream of computation. This bottleneck to a single stream in chat models leads to a number of limitations: the agent cannot act (generate output) while reading, and in reverse, cannot react to new information while writing. Similarly, the agent cannot act while thinking and cannot think while reading or acting on information. In this work, we show that models can be unblocked by switching from instruction-tuning for sequential message formats to instruction-tuning for multiple, parallel streams of computation, splitting each role into a separate stream. Every forward pass of the language model then simultaneously reads from multiple input streams and generates tokens in multiple output streams, all of which causally depend on earlier timesteps. We argue that this data-driven change remedies a number of usability limitations as outlined above, improves model efficiency through parallelization, improves model security through better separation of concerns and can further improve model monitorability.
논문 링크
더 읽어보기
수십억 규모의 그래프 파운데이션 모델 / Billion-Scale Graph Foundation Models
논문 소개
대규모 이종 그래프를 위한 그래프 파운데이션 모델(Graph Foundation Model, GFM)을 실용적으로 구축하려는 문제의식에서 출발한 Graph Billion-Foundation-Fusion(GraphBFF)은, 수십억 개의 매개변수를 갖는 모델을 단순히 키우는 데서 멈추지 않고 학습 데이터 구성, 사전학습, 파인튜닝을 하나의 end-to-end 레시피로 정식화한다. 핵심 아키텍처인 GraphBFF Transformer는 그래프의 타입 이질성과 희소한 연결 구조를 동시에 다루기 위해 두 가지 상보적인 어텐션 메커니즘을 결합하는데, 하나는 타입 조건부 어텐션(Type-Conditioned Attention, TCA)으로 관계 타입별 신호를 정밀하게 포착하고, 다른 하나는 타입 비의존 어텐션(Type-Agnostic Attention, TAA)으로 타입 간 공유 표현을 학습한다. 이러한 결합은 단순한 효율화 기법이 아니라, 서로 다른 종류의 그래프 정보를 보완적으로 통합해 표현력의 범위를 넓히는 설계라는 점에서 의미가 크다. 또한 논문은 이 구조가 대규모 이종 그래프에서 손실을 안정적으로 낮추며, 모델 용량이나 학습 데이터가 커질수록 성능이 예측 가능한 방식으로 향상된다는 신경 스케일링 법칙(neural scaling laws)을 제시함으로써, 그래프 학습에서도 규모 확장이 원칙적으로 작동할 수 있음을 보여 준다.
학습 절차 측면에서 GraphBFF는 billion-scale 환경의 병목을 직접 겨냥한다. 먼저 쿨백-라이블러 발산(Kullback-Leibler divergence, KL)을 활용한 KL-Batching으로 전체 그래프의 타입 분포를 대표하는 배치를 구성하고, 이어서 라운드로빈 배칭(Round-Robin Batching, RRB)으로 GPU 수준의 미니배치에서 희귀 관계가 소외되지 않도록 균형을 맞춘다. 사전학습 목적은 마스킹된 링크 예측(masked link prediction)으로 단순화되어 있지만, 대규모 데이터와 정교한 배칭 전략이 결합되면서 그래프 구조 복원 능력을 강하게 끌어올린다. 파인튜닝 단계에서는 노드와 엣지 수준의 다양한 하위 과제에 맞추어 파라미터 효율적 적응을 허용하고, 필요할 경우 새로운 타입을 포함한 그래프 집합으로 자연스럽게 확장할 수 있도록 설계되었다.
실험 결과는 이러한 방법론적 선택이 실제로 유효함을 뒷받침한다. 학습에 사용되지 않은 산업 규모의 이종 그래프에서 10개의 서로 다른 다운스트림 과제를 평가한 결과, GraphBFF는 노드 분류와 링크 예측, 분류와 회귀를 가리지 않고 기준선보다 일관되게 우수한 성능을 보였으며, 일부 과제에서는 정밀도-재현율 곡선 아래 면적(Precision-Recall Area Under the Curve, PRAUC)이 최대 31포인트까지 향상되었다. 특히 적은 표본(few-shot) 조건에서도 강한 전이 성능을 유지했다는 점은, 이 모델이 단순히 대규모 데이터에 과적합한 것이 아니라 보편적인 그래프 표현을 학습했음을 시사한다. 더 나아가 스케일링 분석은 데이터와 매개변수 중 어느 쪽이 병목인지에 따라 손실 감소 양상이 달라진다는 점을 보여 주어, 실무에서 그래프 파운데이션 모델을 설계할 때 어떤 축을 우선적으로 확장해야 하는지에 대한 기준을 제공한다. 결국 GraphBFF는 그래프 파운데이션 모델을 “가능한가”의 차원을 넘어, 실제 산업 규모에서 어떻게 안정적으로 구축하고 전이시킬 것인가를 구체적으로 제시한 연구로 볼 수 있다.
초록(Abstract)
그래프 구조 데이터는 수많은 핵심 응용의 기반이 됩니다. 파운데이션 모델은 대규모 사전학습과 경량 적응을 통해 언어와 비전을 혁신했지만, 이 패러다임을 일반적인 실제 그래프로 확장하는 것은 어렵습니다. 본 연구에서는 Graph Billion-Foundation-Fusion(GraphBFF)을 제안합니다. 이는 대규모 이종 그래프를 위한 10억 파라미터 규모 그래프 파운데이션 모델(GFM)을 구축하기 위한 엔드투엔드 레시피입니다. 이 레시피의 핵심은 GraphBFF Transformer로, 실용적인 10억 규모 GFM을 위해 설계된 유연하고 확장 가능한 아키텍처입니다. GraphBFF를 사용해 이종 그래프에 대한 신경 스케일링 법칙을 제시하고, 병목이 되는 요인에 따라 모델 용량 또는 학습 데이터의 규모가 커질수록 손실이 예측 가능하게 감소함을 보입니다. GraphBFF 프레임워크는 대규모로 GFM을 구축하기 위한 데이터 배치, 사전학습, 파인튜닝에 대한 구체적인 방법론을 제공합니다. 우리는 제안한 레시피를 따르는 10억 파라미터 GraphBFF Transformer를 실제 10억 규모 그래프에 대해 평가하여 이 프레임워크의 효과를 입증합니다. 학습 중 보지 못한 그래프에서 수행한 10개의 다양한 실제 다운스트림 태스크 전반에서, 노드 수준 및 링크 수준 분류와 회귀를 아우르며, GraphBFF는 퓨샷 설정을 포함해 최대 31 PRAUC 포인트의 큰 격차로 기준 방법들을 일관되게 능가합니다. 마지막으로, 산업 규모의 그래프 학습을 위한 실용적이고 원칙적인 기반으로서 GFM을 만들기 위해 남아 있는 핵심 과제와 열린 기회를 논의합니다.
Graph-structured data underpins many critical applications. While foundation models have transformed language and vision via large-scale pretraining and lightweight adaptation, extending this paradigm to general, real-world graphs is challenging. In this work, we present Graph Billion-Foundation-Fusion (GraphBFF): an end-to-end recipe for building billion-parameter Graph Foundation Models (GFMs) for large-scale heterogeneous graphs. Central to the recipe is the GraphBFF Transformer, a flexible and scalable architecture designed for practical billion-scale GFMs. Using the GraphBFF, we present neural scaling laws for heterogeneous graphs and show that loss decreases predictably as either model capacity or training data scales, depending on which factor is the bottleneck. The GraphBFF framework provides concrete methodologies for data batching, pretraining, and fine-tuning for building GFMs at scale. We demonstrate the effectiveness of the framework over a real-world billion-scale graph, with an evaluation of a billion-parameter GraphBFF Transformer following the proposed recipe. Across ten diverse, real-world downstream tasks on graphs unseen during training, spanning node- and link-level classification and regression, GraphBFF consistently outperforms baselines, with large margins of up to 31 PRAUC points, including in few-shot settings. Finally, we discuss key challenges and open opportunities for making GFMs a practical and principled foundation for graph learning at industrial scale.
논문 링크
SlimQwen: 대규모 전문가 혼합(MoE) 모델 사전학습에서의 가지치기와 지식 증류 탐구 / SlimQwen: Exploring the Pruning and Distillation in Large MoE Model Pre-training
논문 소개
대규모 혼합 전문가(mixture-of-experts, MoE) 언어모델을 효율적으로 압축하기 위해 구조적 가지치기(structured pruning)와 지식 증류(knowledge distillation, KD)를 프리트레이닝 규모에서 어떻게 적용해야 하는지를 체계적으로 탐구한 연구이다. 최근 MoE 모델은 높은 성능을 보이지만, 학습과 배포 비용이 매우 크기 때문에 이를 더 작은 모델로 전환하는 과정에서 어떤 압축 전략이 최적의 초기화와 학습 경로를 제공하는지가 중요한 문제로 떠오르고 있다. 저자들은 먼저 프리트레이닝된 MoE를 가지치기한 뒤 계속 학습하는 방식이, 동일한 학습 예산에서 목표 아키텍처를 처음부터 학습하는 방식보다 일관되게 우수한지 검증한다. 그 결과 깊이, 너비, 전문가 수를 줄이는 다양한 압축 설정에서 사전학습 모델을 기반으로 한 가지치기가 더 나은 출발점을 제공하며, 대규모 연속 학습을 거칠수록 이러한 이점이 더욱 분명해진다는 점을 보인다. 또한 전문가를 줄이는 여러 일회성(one-shot) 압축 방법이 최종적으로는 비슷한 수준에 수렴한다는 관찰을 바탕으로, 일부 전문가의 표현을 보존하면서 나머지를 병합하는 단순한 부분 보존(partial-preservation) 전문가 병합 전략을 제안하고, 이를 통해 다양한 다운스트림 벤치마크에서 성능 향상을 확인한다.
지식 증류 측면에서는 언어 모델링(language modeling) 손실을 함께 사용하는 것이 지식 증류 단독보다 더 효과적이며, 특히 지식 집약적 과제에서 그 차이가 두드러진다는 점을 밝힌다. 여기에 더해 다중 토큰 예측(multi-token prediction, MTP) 기반의 증류를 도입하여, 압축 이후에도 일관된 성능 이득을 얻을 수 있음을 입증한다. 학습 전략에 대한 분석에서는 동일한 토큰 수를 사용할 때 한 번에 구조를 바꾸는 방식보다 점진적으로 가지치기를 진행하는 점진적 압축(progressive pruning) 스케줄이 더 우수한 최적화 궤적을 제공한다는 사실을 보여준다. 이는 MoE 압축에서 단순히 최종 아키텍처의 크기만 줄이는 것이 아니라, 구조 전이의 속도와 학습 신호의 유지 방식이 성능에 결정적이라는 점을 시사한다. 이러한 결과를 종합하면, 압축 초기화, 전문가 병합, 증류 목표, 점진적 스케줄이라는 네 요소가 상호작용하며 효율적인 대규모 MoE 압축을 좌우한다는 사실을 정리할 수 있다. 최종적으로 저자들은 Qwen3-Next-80A3B를 23A2B 모델로 압축하면서도 경쟁력 있는 성능을 유지함으로써, 실용적 배포가 가능한 압축 경로를 제시한다. 따라서 SlimQwen은 대규모 MoE 사전학습 모델을 더 작고 효율적인 형태로 전환하기 위한 방법론적 기준을 제공하며, 향후 초대형 언어모델 경량화 연구에 중요한 방향성을 제시한다.
초록(Abstract)
구조적 가지치기와 지식 증류(KD)는 대규모 언어 모델을 압축하는 대표적인 기법이지만, 특히 최근의 전문가 혼합(MoE) 모델에 대해 이를 사전학습 규모에서 어떻게 적용해야 하는지는 여전히 명확하지 않습니다. 본 연구에서는 대규모 사전학습에서의 MoE 압축을 체계적으로 연구하며, 세 가지 핵심 질문에 초점을 맞춥니다. 즉, 가지치기가 처음부터 학습하는 것보다 더 나은 초기화를 제공하는지, 전문가 압축 방식의 선택이 이후 지속 학습 후 최종 모델에 어떤 영향을 미치는지, 그리고 어떤 학습 전략이 가장 효과적인지입니다.
우리의 발견은 다음과 같습니다. 첫째, 깊이, 너비, 전문가 압축 전반에 걸쳐, 사전학습된 MoE를 가지치기하는 방식은 동일한 학습 예산 하에서 목표 아키텍처를 처음부터 학습하는 것보다 일관되게 더 우수합니다. 둘째, 서로 다른 원샷 전문가 압축 방법들은 대규모 지속 사전학습 이후 유사한 최종 성능에 수렴합니다. 이를 바탕으로, 우리는 대부분의 벤치마크에서 다운스트림 성능을 개선하는 간단한 부분 보존 전문가 병합 전략을 제안합니다. 셋째, 지식 증류를 언어 모델링 손실과 결합하면 지식 집약적 작업에서 특히 지식 증류 단독보다 더 좋은 성능을 보입니다. 또한 우리는 여러 토큰 예측(MTP) 증류를 제안하며, 이는 일관된 성능 향상을 가져옵니다. 마지막으로, 동일한 학습 토큰 수를 기준으로 할 때 점진적 가지치기 스케줄은 원샷 압축보다 더 우수하며, 이는 아키텍처를 점진적으로 전환하는 방식이 더 나은 최적화 궤적을 만든다는 점을 시사합니다.
이 모든 결과를 종합하여, 우리는 Qwen3-Next-80A3B를 경쟁력 있는 성능을 유지하는 23A2B 모델로 압축합니다. 이러한 결과는 대규모 MoE 압축을 효율적으로 수행하기 위한 실용적인 지침을 제공합니다.
Structured pruning and knowledge distillation (KD) are typical techniques for compressing large language models, but it remains unclear how they should be applied at pretraining scale, especially to recent mixture-of-experts (MoE) models. In this work, we systematically study MoE compression in large-scale pretraining, focusing on three key questions: whether pruning provides a better initialization than training from scratch, how expert compression choices affect the final model after continued training, and which training strategy is most effective. We have the following findings: First, across depth, width, and expert compression, pruning a pretrained MoE consistently outperforms training the target architecture from scratch under the same training budget. Second, different one-shot expert compression methods converge to similar final performance after large-scale continual pretraining. Motivated by this, we introduce a simple partial-preservation expert merging strategy that improves downstream performance across most benchmarks. Third, combining KD with the language modeling loss outperforms KD alone, particularly on knowledge-intensive tasks. We further propose multi-token prediction (MTP) distillation, which yields consistent gains. Finally, given the same training tokens, progressive pruning schedules outperform one-shot compression, suggesting that gradual architecture transitions lead to better optimization trajectories. Putting it all together, we compress Qwen3-Next-80A3B to a 23A2B model that retains competitive performance. These results offer practical guidance for efficient MoE compression at scale.
논문 링크
유도 기반 임베딩: 시스템 프롬프트의 베이지안 최적화를 위한 동적 표현 / Embedding by Elicitation: Dynamic Representations for Bayesian Optimization of System Prompts
논문 소개
현대의 시스템 프롬프트는 대화형 인공지능의 행동 양식을 좌우하는 핵심 제어 장치이지만, 실제 환경에서는 개별 예시의 정답 여부나 오류 원인보다 집계된 하나의 점수만 주어지는 경우가 많아 정교하게 조정하기 어렵다. 이러한 제약을 다루기 위해 제안된 ReElicit는 시스템 프롬프트 최적화를 이산적이고 길이가 가변적인 자연어 아티팩트에 대한 샘플 제약 블랙박스 최적화 문제로 보고, 대규모 언어 모델(large language model, LLM)이 단순히 문장을 생성하는 역할을 넘어 의미적 표현 공간 자체를 구성하도록 유도한다. 구체적으로는 과제 설명, 기존에 평가된 프롬프트, 그리고 각 프롬프트의 스칼라 점수만을 입력으로 받아, LLM이 간결하고 해석 가능한 특징 공간(feature space)을 먼저 추출하고 그 공간 안에 프롬프트를 사상하는 방식을 취한다. 이렇게 만들어진 표현 위에서는 가우시안 프로세스(Gaussian process) 대리 모델이 점수 분포를 근사하고, 베이지안 최적화(Bayesian optimization)의 획득 함수(acquisition function)가 다음에 탐색할 타깃 특징 벡터를 선택함으로써 탐색과 활용의 균형을 체계적으로 조정한다. 이후 LLM은 선택된 특징 벡터를 실제 배포 가능한 시스템 프롬프트로 구체화하며, 새 평가 결과가 들어올 때마다 특징 공간을 다시 유도하는 재귀적 갱신 과정을 통해 표현 자체를 관측 이력에 맞게 적응시킨다.
이 접근의 중요한 기여는 프롬프트를 직접 미세조정하는 대신, 프롬프트를 설명하는 좌표축을 동적으로 재구성한다는 점에 있다. 전통적인 프롬프트 탐색이 텍스트 표면형의 변형에 머무른다면, ReElicit는 어떤 의미적 속성이 성능을 설명하는지부터 다시 묻고, 그 의미 축을 바탕으로 최적화를 수행한다. 따라서 해석 가능성이 유지되면서도, 사람이 미리 특징을 설계하지 않아도 되는 장점이 생긴다. 실험은 예시별 라벨이나 오류 설명이 전혀 없는 집계 피드백 환경을 가정하고, 오프라인 벤치마크 정확도를 하나의 스칼라 신호로만 활용하여 현실적인 제약을 엄격하게 모사했다. 10개의 시스템 프롬프트 최적화 과제에서 총 30회의 평가 예산만 허용된 조건에서도 ReElicit는 대표적인 집계 피드백 기반 기준선들 가운데 가장 강한 전체 성능을 보였으며, 이는 적은 관측만으로도 적응적 의미 표현을 구축하는 전략이 유효함을 시사한다. 특히 반복이 진행될수록 유도된 특징 공간의 적합도가 높아지는 사례는, 초기의 거친 의미 축이 점차 더 정교한 축으로 수렴하면서 최적화 효율이 개선된다는 점을 잘 보여준다. 결국 이 논문은 LLM을 프롬프트 생성기뿐 아니라 자연어 아티팩트의 의미 공간을 설계하는 적응적 표현 구성기로 재해석하며, 제한된 피드백만 존재하는 환경에서도 베이지안 최적화를 효과적으로 적용할 수 있는 새로운 방법론을 제시한다. 이러한 관점은 시스템 프롬프트 튜닝을 넘어, 정책 문구나 응답 지침처럼 평가 신호가 희소한 다양한 자연어 최적화 문제로 확장될 가능성을 열어준다.
초록(Abstract)
시스템 프롬프트는 현대 AI 시스템의 중심 제어 메커니즘으로, 대화, 작업, 사용자 집단 전반에 걸쳐 행동을 형성합니다. 그러나 피드백이 개별 예시별 레이블, 실패 사례, 또는 비평이 아니라 집계 메트릭만으로 제공될 때는 이를 조정하기가 어렵습니다. 우리는 이러한 집계 피드백 설정을 이산적이고 가변 길이인 텍스트에 대한 샘플 제약이 있는 블랙박스 최적화로 연구합니다. 우리는 \emph{elicitation을 통한 임베딩(embedding by elicitation)}에 기반한 베이지안 최적화 프레임워크인 ReElicit를 제안합니다. 작업 설명, 이전에 평가된 프롬프트, 그리고 스칼라 점수가 주어지면, LLM은 간결하고 해석 가능한 특징 공간을 유도하고 프롬프트를 그 공간에 매핑합니다. 확률적 가우시안 프로세스 대리모형을 활용하여, 획득 함수는 목표 특징 벡터를 선택하고, LLM은 이를 구현하여 배포 가능한 시스템 프롬프트로 정제합니다. 새로운 평가가 도착할 때마다 특징 공간을 다시 유도함으로써, 표현은 관측된 프롬프트-점수 이력에 맞게 적응할 수 있습니다. 우리는 오프라인 벤치마크 정확도를 통제된 집계 대리 지표로 사용하여 이 설정을 평가합니다. 최적화기는 프롬프트당 하나의 스칼라 점수만 관측하며, 개별 예시별 레이블, 오류, 또는 비평은 관측하지 않습니다. 총 30회의 평가 예산으로 수행한 10개의 시스템 프롬프트 최적화 작업에서, ReElicit는 대표적인 집계 전용 프롬프트 최적화 기준선들 중에서 가장 강한 집계 성능 프로파일을 달성합니다. 이러한 결과는 LLM이 자연어 인공물에 대한 베이지안 최적화에서 프롬프트 생성기일 뿐 아니라, 적응형 의미 표현 구축기 역할도 할 수 있음을 시사합니다.
System prompts are a central control mechanism in modern AI systems, shaping behavior across conversations, tasks, and user populations. Yet they are difficult to tune when feedback is available only as aggregate metrics rather than per-example labels, failures, or critiques. We study this aggregate feedback setting as sample-constrained black-box optimization over discrete, variable-length text. We introduce ReElicit, a Bayesian optimization framework based on \emph{embedding by elicitation}. Given a task description, previously evaluated prompts, and scalar scores, an LLM elicits a compact, interpretable feature space and maps prompts into it. Leveraging a probabilistic Gaussian process surrogate, an acquisition function then selects target feature vectors, which the LLM realizes and refines into deployable system prompts. Re-eliciting the feature space as new evaluations arrive lets the representation adapt to the observed prompt-score history. We evaluate the setting using offline benchmark accuracy as a controlled aggregate proxy: the optimizer observes one scalar score per prompt and no per-example labels, errors, or critiques. Across ten system prompt optimization tasks with a 30 total evaluation budget, ReElicit achieves the strongest aggregate performance profile among representative aggregate-only prompt-optimization baselines. These results suggest that LLMs can serve as adaptive semantic representation builders, not only prompt generators, for Bayesian optimization over natural-language artifacts.
논문 링크
에이전트 하네스로서의 코드 / Code as Agent Harness
논문 소개
최근 대규모 언어 모델(Large Language Model, LLM)의 코드 이해·생성 능력은 단순히 정답 코드를 만들어 내는 수준을 넘어, 에이전트가 추론하고 행동하며 환경을 모델링하고 실행 결과를 검증하는 기반으로 확장되고 있습니다. 이러한 변화 속에서 저자들은 코드를 에이전트 인프라의 중심에 두는 관점인 코드 as 에이전트 하니스(code as agent harness)를 제안하며, 코드가 더 이상 최종 산출물에 머무르지 않고 장기적 과업을 지탱하는 운영 매체가 되어야 한다고 설명합니다. 이 관점의 핵심은 모델 자체의 능력만이 아니라, 그 출력을 안정적으로 실행 가능한 행동과 지속 상태로 연결하는 하니스(harness)의 설계가 에이전트 성능을 좌우한다는 점에 있습니다. 논문은 이러한 문제를 하니스 인터페이스, 하니스 메커니즘, 하니스 확장이라는 세 층위로 체계화하여, 코드가 추론·행동·환경 표현과 만나는 접점부터 시작해 장기 실행을 위한 계획, 메모리, 도구 사용, 피드백 제어를 거쳐 다중 에이전트 협업과 검증으로 이어지는 흐름을 일관되게 정리합니다.
먼저 하니스 인터페이스는 코드가 에이전트의 사고와 행동을 외부 세계에 연결하는 접점으로서, 코드베이스나 실행 흔적, 테스트 결과와 같은 구조화된 신호를 환경의 일부로 다룹니다. 이어서 하니스 메커니즘은 장기 과업 수행을 가능하게 하는 핵심 제어 장치로서, 계획(planning), 메모리(memory), 도구 사용(tool use)을 중심에 놓고, 실행 중 들어오는 피드백을 반영해 경로를 수정하는 적응적 제어를 강조합니다. 특히 계획은 단순한 내부 사고가 아니라 자연어 목표를 실행 가능한 단계로 외재화하고, 코드 아티팩트와 도구 호출을 조율하는 제어층으로 정의되며, 메모리는 현재 컨텍스트 유지, 저장소 근거 검색, 경험 재사용, 장기 상태 보존, 다중 에이전트 간 상태 동기화를 담당하는 통합 상태 관리 계층으로 설명됩니다. 도구 사용 역시 API 호출을 넘어 파일 편집, 셸 실행, 테스트, 정적 분석, 검증기와의 상호작용을 포괄하는 관리된 행동 인터페이스로 확장되며, 이는 에이전트가 실제 소프트웨어 환경 안에서 안전하고 추적 가능하게 작업하도록 만드는 핵심 수단이 됩니다.
논문에서는 이러한 요소들을 Plan-Execute-Verify(PEV) 루프로 통합하여, 의도를 명시적으로 계획하고 샌드박스 환경에서 실행한 뒤 결정론적 센서와 인간 검토를 통해 검증하는 폐루프 구조를 제시합니다. 이 루프는 디버깅을 사후 수정이 아니라 상태 전이에 대한 제어 문제로 재해석하게 하며, 회귀 없는(regression-free) 개선과 권한 경계, 관찰성, 감사 가능성을 함께 고려하도록 만듭니다. 또한 Agentic Harness Engineering(AHE) 관점에서 하니스 자체를 측정·진단·수정·평가·승격하는 적응형 최적화 경로를 제안함으로써, 모델을 다시 학습하지 않고도 시스템 수준에서 신뢰성과 효율성을 높일 수 있음을 보여 줍니다. 결과적으로 이 서베이는 코드 중심 에이전트가 단발성 생성 시스템을 넘어, 실행 가능하고 검증 가능하며 상태를 유지하는 AI 에이전트 시스템으로 발전하기 위한 통합 로드맵을 제시한다는 점에서 중요한 의미를 갖습니다.
초록(Abstract)
최근 대규모 언어 모델(LLM)은 경쟁 프로그래밍부터 저장소 수준의 소프트웨어 공학에 이르기까지 코드 이해와 생성에서 강력한 역량을 보여주었습니다. 새롭게 부상하는 에이전트형 시스템에서 코드는 더 이상 단순한 목표 출력만이 아닙니다. 코드는 점점 에이전트의 추론, 행동, 환경 모델링, 그리고 실행 기반 검증을 위한 운영 기반으로서 기능하고 있습니다. 우리는 이러한 변화를 에이전트 하니스(agent harness)의 관점에서 해석하고, 코드를 에이전트 인프라의 기반으로 중심에 두는 통합적 관점인 “에이전트 하니스로서의 코드(code as agent harness)”를 제안합니다. 이 관점을 체계적으로 살펴보기 위해, 본 서베이는 서로 연결된 세 가지 계층으로 구성됩니다. 첫째, 하니스 인터페이스를 다루며, 여기서 코드는 에이전트를 추론, 행동, 환경 모델링과 연결합니다. 둘째, 하니스 메커니즘을 검토하며, 장기 실행을 위한 계획, 메모리, 도구 사용과 함께 하니스를 신뢰할 수 있고 적응적으로 만드는 피드백 기반 제어와 최적화를 살펴봅니다. 셋째, 하니스를 단일 에이전트 시스템에서 멀티에이전트 설정으로 확장하는 문제를 논의하며, 이때 공유 코드 아티팩트는 멀티에이전트 조정, 검토, 검증을 지원합니다. 이러한 각 계층 전반에서, 우리는 코드를 에이전트 하니스로 활용하는 대표적인 방법과 실제 응용을 요약합니다. 그 범위에는 코딩 어시스턴트, GUI/OS 자동화, 임바디드 에이전트, 과학적 발견, 개인화 및 추천, DevOps, 엔터프라이즈 워크플로우가 포함됩니다. 또한 최종 과제 성공을 넘어서는 평가, 불완전한 피드백 하에서의 검증, 회귀 없는 하니스 개선, 여러 에이전트 간 일관된 공유 상태, 안전이 중요한 행동에 대한 인간의 감독, 멀티모달 환경으로의 확장 등을 포함한 하니스 엔지니어링의 열린 과제도 제시합니다. 에이전트형 AI의 하니스로 코드를 중심에 둠으로써, 본 서베이는 실행 가능하고 검증 가능하며 상태를 유지하는 AI 에이전트 시스템을 향한 통합된 로드맵을 제공합니다.
Recent large language models (LLMs) have demonstrated strong capabilities in understanding and generating code, from competitive programming to repository-level software engineering. In emerging agentic systems, code is no longer only a target output. It increasingly serves as an operational substrate for agent reasoning, acting, environment modeling, and execution-based verification. We frame this shift through the lens of agent harnesses and introduce code as agent harness: a unified view that centers code as the basis for agent infrastructure. To systematically study this perspective, we organize the survey around three connected layers. First, we study the harness interface, where code connects agents to reasoning, action, and environment modeling. Second, we examine harness mechanisms: planning, memory, and tool use for long-horizon execution, together with feedback-driven control and optimization that make harness reliable and adaptive. Third, we discuss scaling the harness from single-agent systems to multi-agent settings, where shared code artifacts support multi-agent coordination, review, and verification. Across these layers, we summarize representative methods and practical applications of code as agent harness, spanning coding assistants, GUI/OS automation, embodied agents, scientific discovery, personalization and recommendation, DevOps, and enterprise workflows. We further outline open challenges for harness engineering, including evaluation beyond final task success, verification under incomplete feedback, regression-free harness improvement, consistent shared state across multiple agents, human oversight for safety-critical actions, and extensions to multimodal environments. By centering code as the harness of agentic AI, this survey provides a unified roadmap toward executable, verifiable, and stateful AI agent systems.
논문 링크
더 읽어보기
에이전트 기반 신경 아키텍처 발견: AIRA-Compose와 AIRA-Design / Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design
논문 소개
대규모 언어 모델(LLM)의 발전이 가속화되었음에도, 핵심 설계가 여전히 인간이 정한 트랜스포머(Transformer) 틀에 크게 의존한다는 문제의식에서 출발한 이 연구는, 에이전트가 파운데이션 모델의 구조와 학습 절차를 스스로 발견할 수 있는지 탐색합니다. 이를 위해 저자들은 고수준 아키텍처 탐색을 담당하는 AIRA-Compose와 저수준 메커니즘 및 구현 최적화를 담당하는 AIRA-Design이라는 이중 프레임워크를 제안하여, 모델 설계의 서로 다른 층위를 분리된 탐색 문제로 다룹니다. AIRA-Compose는 11개의 에이전트를 활용해 24시간 예산 안에서 백만 개 파라미터 규모의 후보를 평가하고, 유망한 설계를 350M, 1B, 3B 규모로 외삽함으로써 AIRAformers와 AIRAhybrids라는 두 계열의 14개 아키텍처를 도출합니다. 이 과정은 단순한 자동화가 아니라, 기본 계산 원리를 찾고 스케일링 효율이 우수한 구조를 선별하는 탐색 전략이라는 점에서 의미가 큽니다. 사전학습된 1B 규모 모델이 Llama 3.2와 기존 Composer 기반 기준선을 일관되게 앞섰다는 결과는, 에이전트가 발견한 구조가 실제 범용 언어 이해와 생성에서도 유효함을 보여줍니다. 특히 하위 과제에서 정확도가 각각 2.4%와 3.8% 향상되었고, 더 중요한 점은 성능 자체뿐 아니라 스케일링 전선이 더 유리하게 형성되었다는 사실입니다. AIRAformer-C와 AIRAhybrid-C가 각각 더 빠른 확장 효율을 보였다는 점은, 동일한 자원으로 더 높은 성능을 얻는 방향의 설계가 가능함을 시사합니다.
AIRA-Design은 한 걸음 더 나아가 20개의 에이전트에게 장거리 의존성을 처리하는 새로운 어텐션 메커니즘과 고성능 학습 스크립트를 작성하게 하며, 아키텍처 이후의 구현 수준까지 탐색 대상으로 확장합니다. 코드와 요약에서 드러나듯, 이 접근은 로터리 임베딩(rotary embedding), 창(window) 기반 어텐션, 선택적 값 임베딩(value embedding), 입력 상태의 재주입, 그리고 비선형 활성화와 손실 함수의 변형을 결합해 긴 문맥 처리와 학습 안정성을 함께 겨냥합니다. 또한 표준 AdamW(Adaptive Moment Estimation with Weight Decay)와 구분되는 행렬 지향 최적화 경로를 도입하여, 파라미터의 구조에 따라 서로 다른 업데이트 규칙을 적용하는 점도 인상적입니다. 이러한 설계는 모델 구조와 옵티마이저를 분리된 부차 요소가 아니라, 함께 최적화되어야 하는 공동 설계 문제로 본다는 점에서 방법론적 깊이를 지닙니다. 그 결과 Long Range Arena와 Autoresearch 같은 벤치마크에서 인간 최고 수준과의 격차를 크게 줄이거나, 고정 시간 예산 내에서 기존 공개 최소값을 넘어서는 성능을 달성했습니다. 종합하면, 이 연구는 에이전트가 모델 아키텍처와 학습 알고리즘을 자율적으로 발견하여 인간이 설계한 기준선을 추월할 수 있음을 실증하며, 차세대 파운데이션 모델 탐색이 재귀적 자기개선(recursive self-improvement)으로 이어질 수 있다는 중요한 가능성을 제시합니다.
초록(Abstract)
재귀적 자기개선을 향해, 우리는 대규모 언어 모델(LLM) 에이전트가 표준 트랜스포머(Transformer)를 넘어서는 파운데이션 모델을 자율적으로 설계하는 방식을 연구한다. 우리는 이중 프레임워크 접근법을 제안한다. 상위 수준 아키텍처 탐색을 위한 AIRA-Compose와 하위 수준의 기계적 구현을 위한 AIRA-Design이다. AIRA-Compose는 24시간의 예산 하에서 11개의 에이전트를 사용해 기본 계산 프리미티브를 탐색한다. 에이전트들은 백만 개 매개변수 규모의 후보를 평가하고, 상위 설계를 350M, 1B, 3B 규모로 외삽한다. 그 결과 두 계열에 걸쳐 14개의 아키텍처가 도출되는데, 각각 Transformer 기반의 AIRAformers와 Transformer-Mamba 기반의 AIRAhybrids이다. 1B 규모로 사전학습된 이 모델들은 Llama 3.2와 Composer가 찾아낸 기준선 모델들을 일관되게 능가한다. 하위 작업에서는 AIRAformer-D와 AIRAhybrid-D가 Llama 3.2 대비 정확도를 각각 2.4%와 3.8% 향상시킨다. 더 나아가 AIRA-Compose는 매우 효율적인 스케일링 경계를 가진 모델도 찾아낸다. AIRAformer-C는 Llama 3.2와 Composer의 최고 트랜스포머보다 각각 54%와 71% 더 빠르게 스케일링하며, AIRAhybrid-C는 Nemotron-2보다 23%, Composer의 최고 하이브리드보다 37% 더 높은 스케일링 성능을 보인다. AIRA-Design은 20개의 에이전트에게 장거리 의존성을 위한 새로운 어텐션 메커니즘과 고성능 학습 스크립트 작성을 맡긴다. Long Range Arena 벤치마크에서 에이전트가 설계한 아키텍처는 문서 매칭과 텍스트 분류에서 인간의 최신 최고 성능에 각각 2.3%와 2.6% 이내로 근접한다. Autoresearch 벤치마크에서는 Greedy Opus 4.5가 고정된 시간 예산 하에 검증 bits-per-byte 0.968을 달성하여, 공개된 최소치를 능가한다. 종합하면, 이들 프레임워크는 AI 에이전트가 수작업으로 설계한 기준선과 맞먹거나 이를 능가하는 아키텍처와 알고리즘 최적화를 자율적으로 발견할 수 있음을 보여준다. 이는 차세대 파운데이션 모델을 발견하기 위한 강력한 패러다임을 확립하며, 재귀적 자기개선을 향한 분명한 진전을 의미한다.
Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.
논문 링크
Grep만으로 충분한가? 에이전트 하니스가 에이전틱 검색을 어떻게 재구성하는가 / Is Grep All You Need? How Agent Harnesses Reshape Agentic Search
논문 소개
대규모 언어 모델(large language model, LLM) 에이전트가 외부 지식을 활용해 복잡한 과업을 수행하는 방식이 보편화되면서, 검색-증강 생성(retrieval-augmented generation, RAG)은 에이전틱 검색(agentic search)의 핵심 구성 요소로 자리 잡았습니다. 그러나 실제 시스템에서는 어떤 검색기를 쓰느냐 못지않게, 그 검색 결과가 어떤 에이전트 하니스(agent harness) 위에서 어떤 형식으로 전달되고 해석되는지가 성능을 크게 바꿀 수 있음에도, 이러한 상호작용은 충분히 체계적으로 분석되지 않았습니다. 이 논문은 바로 이 공백을 겨냥해, 렉시컬 검색의 대표 사례인 grep과 의미 기반 벡터 검색을 에이전트 환경에서 직접 비교하고, 검색 전략과 실행 구조의 결합이 최종 정확도에 어떤 영향을 미치는지 실증적으로 살펴봅니다. 연구진은 116개 질문으로 구성된 LongMemEval 샘플을 사용하여, 자체 제작한 Chronos 하니스와 Claude Code, Codex, Gemini CLI 같은 제공자 내장형 CLI 하니스에서 동일한 질문을 수행하게 하고, 검색 결과를 인라인으로 주는 방식과 파일로 분리해 읽게 하는 방식을 함께 비교했습니다. 이 설계는 단순히 검색기의 우열을 가리는 데서 그치지 않고, 모델이 툴 출력을 마주하는 인터페이스 자체가 추론 과정에 어떤 차이를 만드는지 드러내도록 고안되었습니다.
특히 이 연구의 방법론적 강점은 검색기 자체를 독립 변수로 두는 대신, 에이전트 루프 전체를 하나의 시스템으로 보고 분해해서 평가했다는 점에 있습니다. 벡터 검색은 질의와 문서를 임베딩 공간에서 비교해 관련 문서를 찾는 반면, grep은 원문 텍스트에서 직접 패턴을 찾기 때문에 구현이 단순하고 키워드 일치 상황에서 매우 강력할 수 있습니다. 저자들은 이러한 대비를 실제 에이전트 실행 맥락에 넣어 검증함으로써, 흔히 “더 현대적인” 방식으로 여겨지는 벡터 검색이 항상 우월하다고 가정할 수 없음을 보여줍니다. 또한 실험 2에서는 grep-only와 vector-only 설정을 유지한 채, 무관한 대화 이력을 점점 더 많이 섞어 넣어 검색 대상 주변의 잡음이 커질 때 성능이 어떻게 변하는지도 관찰했습니다. 이 접근은 에이전틱 검색이 단순한 정답 문서 회수 문제가 아니라, 긴 문맥 속에서 중요한 단서를 얼마나 안정적으로 유지하고 재활용할 수 있는지의 문제임을 강조합니다.
결과적으로, Chronos와 각 CLI 하니스 전반에서 grep이 벡터 검색보다 대체로 더 높은 정확도를 보였다는 점은 매우 시사적입니다. 다만 더 중요한 결론은, 같은 대화 데이터와 같은 검색 목표를 사용하더라도 하니스의 구조와 툴 호출 스타일이 전체 성능을 강하게 좌우한다는 사실입니다. 이는 검색기의 성능을 따로 떼어 보는 전통적인 정보검색 평가만으로는 에이전트 시스템의 실제 동작을 충분히 설명할 수 없다는 뜻이며, 검색기, 하니스, 결과 제시 방식이 함께 설계되어야 한다는 점을 분명히 합니다. 따라서 이 논문은 RAG를 단순한 보조 검색 기술이 아니라, 에이전트의 추론 경로와 실행 인터페이스를 함께 규정하는 시스템적 문제로 재해석합니다. 이러한 관점은 장기 문맥을 다루는 지능형 비서, 셸 기반 코딩 에이전트, 그리고 대규모 문서 집합을 탐색하는 실무형 자동화 시스템 전반에 폭넓은 함의를 제공합니다.
초록(Abstract)
대규모 언어 모델(LLM) 에이전트의 최근 발전은 모델이 사용자를 대신해 작업을 완료하기 위해 정보를 자율적으로 검색하고, 도구를 호출하며, 대규모 코퍼스에 대해 추론하는 복잡한 에이전틱 워크플로우를 가능하게 했습니다. 검색-증강 생성(RAG)이 에이전틱 검색 시스템에서 점점 더 널리 채택되고 있음에도 불구하고, 기존 문헌은 검색 전략의 선택이 에이전트 아키텍처 및 도구 호출 패러다임과 어떻게 상호작용하는지에 대한 체계적인 비교를 제공하지 못하고 있습니다. 도구 출력이 모델에 어떻게 제시되는지, 그리고 검색이 더 많은 무관한 주변 텍스트를 함께 처리해야 할 때 성능이 어떻게 변하는지와 같은 중요한 실무적 차원은 에이전트 루프에서 여전히 충분히 탐구되지 않았습니다. 본 논문은 두 개의 실험으로 구성된 실증 연구를 보고합니다. 실험 1에서는 Chronos라는 맞춤형 에이전트 하네스와 제공자 기본 CLI 하네스인 Claude Code, Codex, Gemini CLI를 사용해 LongMemEval의 116개 질문 표본을 대상으로 grep 검색과 벡터 검색을 비교했으며, 모델이 별도로 읽는 파일 기반 도구 결과와 인라인 도구 결과를 모두 평가했습니다. 실험 2에서는 grep 전용 검색과 벡터 전용 검색을 비교하는 동시에 추가적인 무관한 대화 이력을 점진적으로 섞어 넣어, 각 질의가 핵심이 되는 구절들과 함께 더 많은 방해 요소를 포함한 자료 속에 배치되도록 했습니다. Chronos와 제공자 CLI 전반에서, 실험 1의 비교에서는 일반적으로 grep이 벡터 검색보다 더 높은 정확도를 보였으며, 동시에 기반이 되는 대화 데이터가 동일하더라도 전체 점수는 어떤 하네스와 도구 호출 스타일이 사용되느냐에 강하게 좌우되었습니다.
Recent advances in Large Language Model (LLM) agents have enabled complex agentic workflows where models autonomously retrieve information, call tools, and reason over large corpora to complete tasks on behalf of users. Despite the growing adoption of retrieval-augmented generation (RAG) in agentic search systems, existing literature lacks a systematic comparison of how retrieval strategy choice interacts with agent architecture and tool-calling paradigm. Important practical dimensions, including how tool outputs are presented to the model and how performance changes when searches must cope with more irrelevant surrounding text, remain under-explored in agent loops. This paper reports an empirical study organized into two experiments. Experiment 1 compares grep and vector retrieval on a 116-question sample from LongMemEval, using a custom agent harness (Chronos) and provider-native CLI harnesses (Claude Code, Codex, and Gemini CLI), for both inline tool results and file-based tool results that the model reads separately. Experiment 2 compares grep-only and vector-only retrieval while progressively mixing in additional unrelated conversation history, so that each query is embedded in more distracting material alongside the passages that matter. Across Chronos and the provider CLIs, grep generally yields higher accuracy than vector retrieval in our comparisons in experiment 1; at the same time, overall scores still depend strongly on which harness and tool-calling style is used, even when the underlying conversation data are the same.
논문 링크
CODA: 트랜스포머 블록을 GEMM-에필로그 프로그램으로 재작성하기 / CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
논문 소개
트랜스포머(Transformer) 학습 시스템은 대규모 행렬 연산을 중심으로 구성되어 있지만, 실제 전체 실행 시간의 적지 않은 부분은 정규화, 활성화 함수, residual 갱신, reduction처럼 계산량은 작지만 메모리 이동이 많은 연산들에서 소모됩니다. 이러한 연산들은 중간 텐서를 글로벌 메모리로 반복해서 내리고 다시 읽는 과정에서 병목을 일으키며, 결국 잘 최적화된 GEMM(General Matrix-Matrix Multiplication)의 이점을 상당 부분 잠식합니다. CODA는 바로 이 문제를 데이터 이동 관점에서 다시 정의하고, 많은 비어텐션(non-attention) 연산을 GEMM의 결과가 아직 칩 내부에 머물러 있는 시점에 함께 처리하도록 만드는 GPU(Graphics Processing Unit) 커널 추상화를 제안합니다. 핵심 아이디어는 GEMM의 mainloop는 그대로 유지하되, 출력이 메모리에 기록되기 직전의 epilogue를 조합 가능한 프로그램으로 노출하여 스케일링, reduction, pairwise transformation, accumulation 같은 후처리를 한 흐름 안에 묶는 것입니다. 이렇게 하면 전문가가 작성한 고성능 GEMM 구조를 해치지 않으면서도, 프레임워크 수준에서 분리되어 있던 여러 연산을 하나의 커널로 재표현할 수 있습니다.
이 접근의 장점은 단순한 연산 융합에 그치지 않고, Transformer 블록의 forward와 backward 전반에서 반복되는 계산 패턴을 하나의 실행 모델로 통합한다는 데 있습니다. 예를 들어 residual 추가는 accumulation으로, 통계 계산은 reduction으로, 활성화와 스케일링은 원소별 변환과 곱셈으로 자연스럽게 표현되며, 이 모든 처리는 출력 타일이 아직 레지스터나 shared memory에 있을 때 수행됩니다. 논문은 이러한 제한된 인터페이스가 오히려 강점이 되어, 성능에 민감한 타일링과 메모리 재사용 구조를 유지하면서도 거의 모든 비어텐션 계산을 포괄할 수 있음을 보여줍니다. 구현 측면에서도 CODA는 TMA(Tensor Memory Accelerator), cp.async, shared memory, barrier 동기화를 세밀하게 엮어 epilogue를 단순한 후처리가 아니라 온칩 데이터플로우 프로그램처럼 다룹니다. 특히 RMSNorm(Root Mean Square Normalization) 계열 계산에서 필요한 mean-of-squares reduction을, 스케일이 적용되기 전의 원본 출력 기준으로 정확히 계산하도록 설계한 점은 성능 최적화와 수치적 의미 보존을 동시에 달성한 사례로 볼 수 있습니다. 실험적으로는 인간이 작성한 커널뿐 아니라 대규모 언어 모델(Large Language Model)이 생성한 CODA 커널도 높은 성능을 보였다고 보고되어, 이 추상화가 단지 이론적으로 우아한 제안이 아니라 실제 생산성과 효율을 함께 만족시키는 실용적 경로임을 시사합니다. 결국 CODA는 Transformer 학습 최적화의 초점을 더 큰 GEMM을 만드는 데서, GEMM 주변의 메모리 바운드 연산을 얼마나 정교하게 흡수하느냐로 옮기며, 프레임워크의 생산성과 하드웨어 수준 효율을 동시에 겨냥한 새로운 방향을 제시합니다.
초록(Abstract)
트랜스포머(Transformer) 학습 시스템은 밀집 선형대수(dense linear algebra)를 중심으로 구축되지만, 종단 간(end-to-end) 시간의 적지 않은 부분은 주변의 메모리 바운드(memory-bound) 연산자에 사용됩니다. 정규화, 활성화, 잔차 업데이트, 리덕션(reduction), 그리고 이와 관련된 계산들은 많은 중간 텐서를 글로벌 메모리로 반복해서 이동시키는 반면, 수행하는 산술 연산은 거의 없기 때문에, 이미 고도로 최적화된 학습 스택에서도 데이터 이동이 점점 더 중요한 병목이 되고 있습니다. 우리는 이러한 계산을 GEMM-플러스-에필로그(epilogue) 프로그램으로 표현하는 GPU 커널 추상화인 CODA를 소개합니다. CODA는 많은 트랜스포머 연산자들이 프레임워크 커널로는 분리되어 노출되지만, GEMM 출력 타일이 메모리에 기록되기 전에 칩 위에 남아 있는 동안 대수적으로 재매개변수화되어 실행될 수 있다는 관찰에 기반합니다. 이 추상화는 GEMM 메인루프를 고정하고, 스케일링, 리덕션, 쌍별 변환(pairwise transformation), 누적을 위한 작고 조합 가능한 에필로그 기본 요소들을 노출합니다. 이처럼 제약된 인터페이스는 전문가가 작성한 GEMM의 성능 구조를 보존하면서도, 표준 트랜스포머 블록의 순전파와 역전파에서 어텐션 외(non-attention) 계산의 거의 전부를 포괄할 수 있을 만큼 충분히 표현적입니다. 대표적인 트랜스포머 워크로드 전반에서, 인간과 대규모 언어 모델(LLM)이 작성한 CODA 커널 모두 높은 성능을 달성했으며, 이는 GEMM-플러스-에필로그 프로그래밍이 프레임워크 수준의 생산성과 하드웨어 수준의 효율성을 결합하는 실용적인 경로임을 시사합니다.
Transformer training systems are built around dense linear algebra, yet a nontrivial fraction of end-to-end time is spent on surrounding memory-bound operators. Normalization, activations, residual updates, reductions, and related computations repeatedly move large intermediate tensors through global memory while performing little arithmetic, making data movement an increasingly important bottleneck in otherwise highly optimized training stacks. We introduce CODA, a GPU kernel abstraction that expresses these computations as GEMM-plus-epilogue programs. CODA is based on the observation that many Transformer operators exposed as separate framework kernels can be algebraically reparameterized to execute while a GEMM output tile remains on chip, before it is written to memory. The abstraction fixes the GEMM mainloop and exposes a small set of composable epilogue primitives for scaling, reductions, pairwise transformations, and accumulation. This constrained interface preserves the performance structure of expert-written GEMMs while remaining expressive enough to cover nearly all non-attention computation in the forward and backward pass of a standard Transformer block. Across representative Transformer workloads, both human- and LLM-authored CODA kernels achieve high performance, suggesting that GEMM-plus-epilogue programming offers a practical path toward combining framework-level productivity with hardware-level efficiency.
논문 링크
더 읽어보기
토큰화에 길을 잃다: 트랜스포머를 위한 그래프 토큰화의 근본적 트레이드오프 / Lost in Tokenization: Fundamental Trade-offs in Graph Tokenization for Transformers
논문 소개
그래프 학습에 트랜스포머(Transformer)를 적용할 때 성능을 좌우하는 핵심 요소는 단순히 모델의 크기나 깊이가 아니라, 그래프를 어떤 토큰화(tokenization)로 입력에 노출하느냐에 있습니다. 이 논문은 그래프-토큰 사상(graph-to-token map)이 전처리 단계에 머무는 선택이 아니라, 모델의 표현력(expressivity)과 필요한 깊이(depth regime)를 근본적으로 바꾸는 구조적 설계 변수임을 이론적으로 밝힙니다. 이를 위해 스펙트럴(spectral), 랜덤 워크(random-walk), 인접(adjacency) 토큰화를 대표적인 기저 표현으로 삼아, 서로 다른 토큰화가 동일한 그래프 계산을 전혀 다른 난이도로 만들 수 있음을 정식화합니다. 특히 어떤 표현에서는 얕은 트랜스포머로 가능한 계산이 다른 표현에서는 훨씬 더 깊은 네트워크를 요구할 수 있으며, 이러한 차이는 경험적 관찰이 아니라 증명 가능한 하한(lower bound)과 불가능성 결과로 뒷받침됩니다. 다시 말해, 토큰화는 모델이 무엇을 배울 수 있는지뿐 아니라, 그 지식을 얼마나 효율적으로 회복할 수 있는지도 함께 결정합니다.
저자들은 먼저 랜덤 워크 토큰화가 어떤 walk 길이를 사용하더라도 일반적으로 그래프를 완전히 복원할 수 없는 손실성(lossiness)을 지닌다는 점을 보입니다. 이는 랜덤 워크 표현이 일부 구조 통계는 담고 있어도 원래 그래프의 전체 정보를 되돌리는 데에는 본질적 한계가 있음을 의미합니다. 반면 스펙트럴 토큰화는 이론적으로 정보 손실이 없을 수 있지만, 국소적(local) 구조를 복원하는 데에는 조건이 나쁘고 매우 불리할 수 있다는 점이 드러납니다. 논문은 라플라시안(Laplacian)의 고유벡터(eigenvector)와 고유값(eigenvalue)로 이루어진 스펙트럴 표현에서 간선 복원이 고유값 가중 이차형식의 형태로 강제되며, 이를 정확히 구현하려면 차수에 따라 빠르게 커지는 민감도(sensitivity)가 필요하다는 사실을 보입니다. 그러나 1층 트랜스포머의 그래디언트 상한은 이러한 요구를 충분히 감당하지 못할 수 있으므로, 전역 구조를 담는 표현이 반드시 국소 복원에도 적합한 것은 아니라는 점이 수학적으로 설명됩니다.
또한 이 연구는 스펙트럴 토큰화와 랜덤 워크 토큰화가 모두 인접 정보에서 유도됨에도 불구하고, 제한된 깊이의 트랜스포머가 일반적으로 이 둘을 서로 효율적으로 변환할 수 없다는 점을 보입니다. 이는 서로 다른 구조 관점이 단순한 표현상의 차이를 넘어, 계산적으로도 비대칭적이라는 사실을 뜻합니다. 따라서 불리한 토큰화를 선택하면 나중에 더 적합한 구조 표현을 효율적으로 복구하는 것 자체가 어려워질 수 있으며, 토큰화 설계가 이후 계산 경로를 사실상 고정할 수 있습니다. 이러한 이론적 통찰은 실험에서도 확인되는데, 합성 데이터와 실제 데이터 모두에서 작업마다 선호되는 구조적 시야가 다르게 나타나며, 예측된 깊이 분리와 표현 차이가 관측됩니다. 더 나아가 여러 토큰화를 함께 결합하면 각 표현이 제공하는 상보적인 신호를 동시에 활용할 수 있어, 단일 표현만 사용할 때보다 더 풍부한 구조 정보를 얻을 수 있음을 보여 줍니다. 종합하면, 이 논문은 그래프 트랜스포머의 핵심 병목이 아키텍처 자체만이 아니라 입력 토큰화에 있으며, 토큰화 선택이 표현력, 복원 가능성, 계산 효율의 경계를 동시에 정한다는 점을 설득력 있게 제시합니다.
초록(Abstract)
트랜스포머는 그래프 학습의 중심 아키텍처가 되었지만, 그래프에 적용하려면 먼저 토큰화(tokenization), 즉 입력에서 어떤 구조적 정보가 드러날지를 결정하는 그래프-토큰 매핑을 선택해야 한다. 본 연구에서는 이 선택이 트랜스포머의 표현력(expressivity)에 있어 근본적인 구성 요소임을 보인다. 우리는 기존의 많은 그래프 토큰화에서 구성 요소로 쓰이는 세 가지 토큰화, 즉 스펙트럴(spectral), 랜덤 워크(random-walk), 인접(adjacency) 토큰화를 검토한다. 서로 다른 토큰화가 서로 다른 깊이 체계를 유도함을 증명하며, 같은 그래프 계산도 한 토큰화에서는 얕은 트랜스포머로 구현할 수 있지만 다른 토큰화에서는 훨씬 더 큰 깊이가 필요할 수 있음을 보인다. 예를 들어, 랜덤 워크 토큰화는 어떤 보행 길이에서도 정보 손실이 있어 일반적으로는 그로부터 그래프를 복원할 수 없으며, 스펙트럴 토큰화는 정보 손실이 없지만 국소적 작업에는 수치적으로 불안정하다는 점을 증명한다. 또한 랜덤 워크 토큰화와 스펙트럴 토큰화가 모두 인접 정보에서 유도되지만, 일반적으로 제한된 깊이의 트랜스포머가 이들 토큰화 계열 사이를 변환하는 것은 불가능함을 보인다. 특히, 불리한 토큰화가 더 적합한 구조 표현을 효율적으로 복원하는 것을 가로막을 수 있음을 보여 주는 하한과 불가능성 결과를 제시한다. 마지막으로, 우리는 합성 데이터와 실제 작업에 대한 통제된 실험으로 이 이론을 보완하여 예측된 분리를 검증하고, 서로 다른 작업이 서로 다른 구조적 관점을 선호함을 보이며, 상보적인 토큰화를 결합하면 트랜스포머가 각 표현에서 서로 다른 신호를 활용할 수 있음을 보여 준다.
Transformers have become a central architecture for graph learning, but their application to graphs requires first choosing a tokenization: a graph-to-token map that determines which structural information is exposed at the input. In this work, we show that this choice is a fundamental component of transformer expressivity. We examine three tokenizations that serve as building blocks for many existing graph tokenizations: spectral, random-walk, and adjacency tokenizations. We prove that different tokenizations induce distinct depth regimes: the same graph computation may be realizable by a shallow transformer under one tokenization, while requiring substantially larger depth under another. For example, we prove that random-walk tokenization is lossy for any walk length, making it impossible in general to recover the graph from it, and that while spectral tokenization is lossless, it is ill-conditioned for local tasks. We further show that although both random-walk and spectral tokenizations are derived from adjacency information, it is impossible for a limited-depth transformer to convert between tokenization families in general. In particular, we establish lower bounds and impossibility results showing that unfavorable tokenizations may preclude the efficient recovery of more suitable structural representations. Finally, we complement our theory with controlled experiments on synthetic and real-world tasks, validating the predicted separations and showing that different tasks favor different structural views, and combining complementary tokenizations allows the transformer to leverage distinct signals from each representation.
논문 링크
EvolveMem: LLM 에이전트를 위한 AutoResearch 기반 자기 진화 메모리 아키텍처 / EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents
논문 소개
장기 기억을 요구하는 대규모 언어 모델(Large Language Model, LLM) 에이전트에서는 저장된 지식의 양만 늘리는 것으로는 충분하지 않으며, 무엇을 기억하느냐 못지않게 어떻게 검색하느냐가 성능을 좌우합니다. EvolveMem은 바로 이 지점에서 출발해, 메모리 내용만 진화하는 기존 관행을 넘어 검색 점수 함수, 융합 전략, 답변 생성 정책까지 포함한 검색 인프라 전체를 함께 진화시켜야 한다는 관점을 제시합니다. 핵심 방법론은 검색 구성을 구조화된 행동 공간으로 노출하고, 대규모 언어 모델 기반 진단 모듈이 질문별 실패 로그를 읽어 원인을 판별한 뒤, 그 결과에 따라 설정을 조정하는 폐루프 자기진화 구조를 만드는 데 있습니다. 이러한 설계는 Evaluate-Diagnose-Propose-Guard라는 순환을 통해 구현되며, 각 라운드에서 성능 저하가 감지되면 자동으로 되돌리고, 개선이 정체되면 탐색 범위를 넓히는 안전장치를 함께 갖춥니다. 다시 말해, 사람의 수동 튜닝에 의존하던 하이퍼파라미터 최적화를 시스템 스스로 수행하도록 바꾸어, 자기 자신의 아키텍처를 대상으로 반복적인 연구를 수행하는 AutoResearch 형태를 실현합니다.
이 접근의 중요한 특징은 검색을 단일 점수 계산으로 보지 않고, 키워드 기반 검색, 의미적 유사도, 구조화된 메타데이터 일치와 같은 다중 관점을 결합한 뒤 이를 다시 진화 대상으로 삼는다는 점입니다. 또한 질문을 여러 하위 질문으로 분해해 재검색하는 기능, 인물명 혼동에 강한 재검색 경로, 답변의 불확실성을 다시 검증하는 절차까지 포함함으로써 검색과 생성, 검증이 분리되지 않은 하나의 적응형 파이프라인으로 구성됩니다. 부록의 수식적 정식화에서는 이러한 아이디어가 더 명확해지는데, 메모리 저장소는 계층적 범위를 통해 세션 간 문맥을 유지하고, 누락된 정보가 발견되면 다시 추출하는 피드백 루프를 통해 저장 품질까지 함께 보완합니다. 결국 EvolveMem은 단순히 더 많은 메모리를 쌓는 시스템이 아니라, 저장, 검색, 검증, 재추출이 서로 맞물린 공진화 구조를 통해 장기 실행 에이전트의 기억 능력을 체계적으로 향상시키는 방법을 보여줍니다.
실험 결과도 이러한 방법론의 타당성을 뒷받침합니다. LoCoMo에서 가장 강한 기준선 대비 25.7%의 상대 향상을 보였고, MemBench에서도 18.9%의 상대 향상을 달성했으며, 최소 기준선 대비로는 훨씬 큰 개선을 기록했습니다. 특히 진화된 설정이 다른 벤치마크로 옮겨가도 성능이 무너지는 대신 긍정적인 전이를 보였다는 점은, 이 방법이 특정 데이터셋에만 맞춘 휴리스틱이 아니라 보다 보편적인 검색 원리를 학습했을 가능성을 시사합니다. 따라서 EvolveMem은 장기 기억 연구를 저장 구조의 개선에만 국한하지 않고, 메모리 검색 정책 자체를 자율적으로 진화시키는 방향으로 확장했다는 점에서, 향후 적응형 에이전트와 메모리 시스템 연구에 중요한 기준점을 제시합니다.
초록(Abstract)
장기 기억은 여러 세션에 걸쳐 동작하는 대규모 언어 모델(LLM) 에이전트에 필수적이지만, 기존의 메모리 시스템은 검색 인프라를 고정된 것으로 취급합니다. 저장된 내용은 진화하지만, 채점 함수, 융합 전략, 그리고 답변 생성 정책은 배포 시점에 고정된 채로 남아 있습니다. 우리는 진정한 적응형 메모리에는 두 수준, 즉 저장된 지식과 이를 조회하는 검색 메커니즘의 공진화가 필요하다고 주장합니다. 이를 위해 EvolveMem을 제안합니다. EvolveMem은 LLM 기반 진단 모듈이 최적화하는 구조화된 행동 공간으로 전체 검색 구성을 노출하는 자기진화형 메모리 아키텍처입니다. 각 진화 라운드에서 이 모듈은 질문별 실패 로그를 읽고, 근본 원인을 식별한 뒤, 표적화된 구성 조정을 제안합니다. 이후 보호 장치가 있는 메타 분석기가 이를 적용하며, 성능 저하 시 자동 되돌리기와 정체 시 탐색을 수행하는 안전장치를 함께 둡니다. 이러한 폐쇄 루프 자기진화는 AutoResearch 과정을 구현합니다. 즉, 시스템이 자체 아키텍처를 대상으로 반복적인 연구 사이클을 자율적으로 수행하여 수동 구성 튜닝을 대체합니다. 최소한의 기준선에서 시작한 이 과정은 자율적으로 수렴하며, 원래 행동 공간에는 없던 완전히 새로운 구성 차원을 포함해 효과적인 검색 전략을 발견합니다. LoCoMo에서 EvolveMem은 가장 강력한 기준선보다 상대적으로 25.7% 높은 성능을 보였고, 최소 기준선 대비 78.0%의 상대적 향상을 달성했습니다. MemBench에서는 가장 강력한 기준선보다 상대적으로 18.9% 높은 성능을 보였습니다. 진화된 구성은 벤치마크 간에 파국적 전이가 아니라 긍정적인 전이를 보였으며, 이는 이 자기진화 과정이 벤치마크별 휴리스틱이 아니라 보편적인 검색 원리를 포착한다는 점을 시사합니다. 코드는 GitHub - aiming-lab/SimpleMem: SimpleMem: Efficient Lifelong Memory for LLM Agents — Text & Multimodal · GitHub 에서 확인할 수 있습니다.
Long-term memory is essential for LLM agents that operate across multiple sessions, yet existing memory systems treat retrieval infrastructure as fixed: stored content evolves while scoring functions, fusion strategies, and answer-generation policies remain frozen at deployment. We argue that truly adaptive memory requires co-evolution at two levels: the stored knowledge and the retrieval mechanism that queries it. We present EvolveMem, a self-evolving memory architecture that exposes its full retrieval configuration as a structured action space optimized by an LLM-powered diagnosis module. In each evolution round, the module reads per-question failure logs, identifies root causes, and proposes targeted configuration adjustments; a guarded meta-analyzer applies them with automatic revert-on-regression and explore-on-stagnation safeguards. This closed-loop self-evolution realizes an AutoResearch process: the system autonomously conducts iterative research cycles on its own architecture, replacing manual configuration tuning. Starting from a minimal baseline, the process converges autonomously, discovering effective retrieval strategies including entirely new configuration dimensions not present in the original action space. On LoCoMo, EvolveMem outperforms the strongest baseline by 25.7% relative and achieves a 78.0% relative improvement over the minimal baseline. On MemBench, EvolveMem exceeds the strongest baseline by 18.9% relative. Evolved configurations transfer across benchmarks with positive rather than catastrophic transfer, indicating that the self-evolution process captures universal retrieval principles rather than benchmark-specific heuristics. Code is available at GitHub - aiming-lab/SimpleMem: SimpleMem: Efficient Lifelong Memory for LLM Agents — Text & Multimodal · GitHub.
논문 링크
더 읽어보기
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~ ![]()














