[2026/05/25 ~ 31] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


이번 주 선정된 10편의 논문들을 살펴보면, 대규모 언어 모델(LLM)의 에이전트 기능 강화, 생성 모델의 구조적·물리적 정확성 확보, 그리고 효율적인 메모리 및 지식 활용 등에 대한 연구 결과들이 많았습니다. 특히, 단순한 성능 향상을 넘어 실제 프로덕션 환경의 요구 조건을 충족시키고, 제약 조건을 체계적으로 관리하며, 계산 효율성을 극대화하는 실용적 접근들이 주목할 만합니다.
고도화된 에이전트 시스템의 체계적 최적화 및 엄격한 검증: 이번 주 논문들에서는 언어 모델 에이전트를 단순한 생성 도구를 넘어 신뢰할 수 있는 시스템으로 정착시키기 위한 연구들이 돋보였습니다. SkillOpt는 에이전트의 스킬을 모델의 가중치처럼 체계적으로 훈련시키는 텍스트 공간 최적화 기법을 제안하였고, 에이전트 하네스의 스케일링 법칙 연구는 단순한 연산량이 아닌 '유효 피드백 계산량'이라는 새로운 지표로 에이전트의 실질적 성능을 측정했습니다. 또한 제약 붕괴(Constraint Decay) 논문은 복잡한 백엔드 환경에서 에이전트가 구조적 제약에 얼마나 취약한지를 정량적으로 밝혔으며, 수학의 대규모 형식화 논문은 수천 개의 에이전트를 조율해 대규모 수학 정리를 성공적으로 검증했습니다. 이는 에이전트의 개발과 평가 기준이 점차 실무 수준의 엄격함을 요구하는 방향으로 진화하고 있음을 시사합니다.
데이터 표현 공간 및 라우팅 구조의 근본적 재설계: 기존 아키텍처가 가진 한계를 극복하기 위해 정보가 처리되고 전달되는 방식을 근본적으로 바꾼 연구들도 주목받았습니다. 디퓨전 트랜스포머의 교차 계층 정보 라우팅 재고 연구는 기존의 단순 잔차 연결을 타임스텝에 적응하는 비증분적 라우팅으로 교체해 정보 희석 문제를 해결했습니다. ELF는 이산 토큰에 머물렀던 언어 모델링을 연속 임베딩 공간으로 옮겨 이미지 생성의 효율적인 기법들을 언어에 성공적으로 이식했으며, LoopFM은 파운데이션 모델의 중간 표현을 구조화하여 소형 모델로 지식을 고대역폭으로 전이하는 방법을 제시했습니다. 나아가 언어 모델은 수면이 필요하다 연구는 오프라인 상태에서 최근 컨텍스트를 가중치로 변환하는 메커니즘을 통해 지연 시간 증가 없이 추론 능력을 극대화하는 혁신을 보여주었습니다.
생성 모델의 '시각적 그럴듯함'을 넘어선 '물리적·구조적 현실성' 획득: 비전 및 비디오 생성 모델들이 픽셀 수준의 품질을 넘어 실제 물리 법칙과 공간적 일관성을 이해하도록 만드는 흐름이 뚜렷해졌습니다. 비전에서의 생성적 물리 AI 서베이는 시각적 충실도에만 집중하던 기존 모델들이 로봇 공학 및 자율 주행 등에 쓰이기 위해 물리 엔진이나 암묵적 학습을 어떻게 통합하고 있는지 체계적으로 분석했습니다. 이와 맥락을 같이하여, E³C는 자아중심 비디오 생성 과정에서 3D 환경 메모리와 명시적인 인간 포즈 제어를 분리하여 복잡한 시점 변화 속에서도 물리적으로 타당한 비디오를 생성해 냈습니다. 이러한 연구들은 생성형 AI가 단순한 미디어 제작 도구를 넘어 현실 세계를 모사하고 추론하는 '월드 시뮬레이터'로 도약하고 있음을 보여줍니다.
논문 한 줄 요약
-
Language Models Need Sleep: 트랜스포머의 장문맥 처리 한계를 극복하기 위해, 생물학적 수면처럼 주기적으로 최근 컨텍스트를 오프라인 상태에서 빠른 가중치(fast weights)로 통합하여 지연 시간 증가 없이 깊은 추론 능력을 향상시키는 기법을 제안합니다.
-
E³C: 3D 환경 메모리와 명시적인 인간 포즈(자아 및 외부) 제어를 결합하여, 급격한 시점 변화가 발생하는 자아중심 관점에서도 물리적으로 일관되고 제어 가능한 비디오를 생성하는 프레임워크입니다.
-
AutoformBot (수학의 대규모 형식화): 수천 개의 LLM 에이전트를 조율하여 대학원 수준의 비형식적 수학 교과서 텍스트를 기계 검증 가능한 형태(Lean 4)로 자동 변환하는 대규모 형식화 시스템을 구축하고 그 경제성과 가능성을 실증합니다.
-
LoopFM: 실시간 서빙의 제약을 피하면서도 대규모 파운데이션 모델의 중간 임베딩을 소형 추천 모델의 입력 특성으로 직접 구조화하여, 정보 손실을 최소화하고 지식 전이 효율을 극대화하는 프레임워크입니다.
-
에이전트 하네스의 스케일링 법칙: 에이전트 시스템의 성패를 단순한 원본 연산량이 아닌, 유의미하고 중복되지 않는 '유효 피드백 계산량(EFC)'이라는 새로운 척도로 측정하여 실패율을 훨씬 더 정확하게 예측합니다.
-
디퓨전 트랜스포머의 정보 라우팅 재고 (DAR): 기존 디퓨전 트랜스포머의 단순 잔차 연결이 유발하는 정보 희석 한계를 지적하고, 층을 거치며 타임스텝에 맞게 과거 출력을 재가중하여 집계하는 적응형 라우팅 구조를 제안합니다.
-
SkillOpt: 자연어로 작성된 에이전트 스킬 문서를 모델의 외부 상태로 보고, 딥러닝 훈련 규율과 유사하게 엄격한 검증을 거쳐 텍스트 공간에서 스킬을 체계적으로 진화시키는 제어 가능한 옵티마이저입니다.
-
제약 붕괴 (Constraint Decay): 기능적 구현을 넘어 데이터베이스나 객체 관계 매핑(ORM) 같은 구조적 제약이 추가될수록, 백엔드 코드 생성 시 LLM 에이전트의 성능이 급격히 무너지는 현상을 정량적으로 분석합니다.
-
ELF (Embedded Language Flows): 이산 토큰에 의존하던 기존 언어 모델링의 병목을 깨고, 연속 임베딩 공간에서 플로우 매칭(Flow Matching)을 통해 생성 과정을 처리함으로써 더 적은 단계로 높은 품질의 언어를 생성합니다.
-
비전에서의 생성적 물리 AI 서베이: 픽셀 수준의 시각적 현실성에만 집중하던 기존 생성 모델들을 넘어, 명시적 시뮬레이션이나 암묵적 학습을 통해 실제 물리 법칙을 이해하는 '물리 인식 생성(Physics-Aware Generation)'의 최신 패러다임을 체계적으로 분류하고 조망합니다.
언어 모델에게는 수면이 필요하다 / Language Models Need Sleep
논문 소개
트랜스포머 기반 대규모 언어 모델이 장문맥 작업을 처리할 때 어텐션 메커니즘의 확장성이 심각한 제약이 되고 있는 상황에서, 이 연구는 생물학적 수면 메커니즘에서 영감을 얻은 혁신적인 메모리 통합 기법을 제시합니다. 제안된 방법은 모델이 주기적으로 최근의 컨텍스트를 상태-공간 모델 (State-Space Model, SSM) 블록의 영구적인 빠른 가중치 (fast weights)로 변환한 후 키-값 캐시를 비우는 수면-같은 통합 메커니즘에 기반합니다. 이 과정에서 모델은 누적된 컨텍스트에 대해 N번의 오프라인 반복 통과를 수행하며, 학습된 국소 규칙을 통해 빠른 가중치를 업데이트하게 됩니다. 이러한 설계의 핵심 장점은 추가 계산을 모두 수면 단계에 이동시킴으로써 추론 시점의 지연 시간을 변화시키지 않으면서도 깊이 있는 추론을 지원할 수 있다는 점입니다.
연구팀은 셀룰러 오토마톤, 다중 홉 그래프 검색 (Depo), 그리고 현실적인 수학 추론 작업 (GSM-Infinite)을 포함한 세 가지 점진적으로 복잡한 환경에서 방법을 검증했습니다. 셀룰러 오토마톤 작업에서는 반복 없는 기준선이 약 10% 정확도에 머물렀던 반면, 4개의 수면 루프를 사용한 모델은 30% 이상의 정확도를 달성하여 3배 이상의 성능 향상을 보였습니다. Depo 작업에서는 오프라인 루프의 개수를 늘릴수록 특히 고수준의 다중 홉 검색이 필요한 복잡한 쿼리에서의 학습 속도가 가속화되었으며, 가장 어려운 16-홉 작업에서는 4-루프 모델만이 유의미한 개선을 보였습니다. 현실적인 수학 추론 작업인 GSM-Infinite에서는 깊이-반복 모델인 Ouro 1.4B가 4개의 수면 루프를 통해 6개 연산이 필요한 문제에서 정확도를 0.419에서 0.615로 약 20% 향상시켰으며, 더 많은 연산이 필요한 8개 연산 문제에서도 지속적인 성능 개선을 보였습니다. 특히 슬라이딩 윈도우 제거 전략을 적용한 실험에서는 좁은 컨텍스트 윈도우 환경에서 0.596에서 0.905로의 극적인 52% 정확도 향상을 기록하여, 제안된 방법이 검색뿐 아니라 관련 컨텍스트 압축과 깊은 추론 모두에 효과적임을 입증했습니다.
이 연구의 핵심 발견은 수면 기간의 증가가 특히 더 깊은 추론을 요구하는 작업에서 눈에 띄는 성능 향상을 가져온다는 점으로, 이는 추가의 오프라인 계산이 장문맥 처리 및 다단계 추론 능력의 향상에 필수적임을 시사합니다. 학습 처리량은 수면 루프 개수에 비례하여 감소하지만, 추론 시의 지연 시간은 유지되므로 잠재 시간 민감 응용에 적합합니다. 결과적으로 이 연구는 트랜스포머의 근본적인 확장성 문제를 해결하면서도 실제 추론 성능을 향상시키는 실용적인 솔루션을 제공함으로써, 더욱 견고하고 정확한 대규모 언어 모델의 개발에 유의미한 기여를 하고 있습니다.
초록(Abstract)
트랜스포머 기반 대규모 언어 모델(LLM)은 장기 작업에 점점 더 널리 사용되고 있으나, 어텐션 메커니즘은 컨텍스트 길이에 따라 확장성이 떨어집니다. 이 문제를 해결하기 위해, 우리는 모델이 키-값 캐시를 지우기 전에 최근 컨텍스트를 지속적인 빠른 가중치로 주기적으로 변환하는 수면형 통합 메커니즘을 연구합니다. 수면 단계 동안 모델은 누적된 컨텍스트에 대해 $N$번의 오프라인 순환 패스를 수행하고, 학습된 로컬 규칙을 통해 상태공간 모델(SSM) 블록의 빠른 가중치를 업데이트합니다. 추론 중에는 추가 계산을 수면 단계로 이동시키면서 활성 추론의 지연 시간을 유지합니다. 셀룰러 오토마타와 다중 홉 그래프 검색을 포함한 제어된 합성 작업뿐만 아니라, 일반적인 트랜스포머와 SSM-어텐션 하이브리드 모델이 실패하는 현실적인 수학 추론 작업에서 우리의 방법을 테스트합니다. 또한 모델의 수면 지속 시간 N 을 증가시키면 성능이 향상되며, 깊은 추론이 필요한 예제에서 가장 큰 성능 향상을 달성함을 보여줍니다.
Transformer-based large language models are increasingly used for long-horizon tasks; however, their attention mechanism scales poorly with context length. To handle this, we study a sleep-like consolidation mechanism in which a model periodically converts recent context into persistent fast weights before clearing its key-value cache. During sleep, the model performs N offline recurrent passes over the accumulated context and updates the fast weights in its state-space model (SSM) blocks through a learned local rule. During inference, this shifts extra computation to sleep while preserving the latency of wake-time prediction. We test our method on controlled synthetic tasks, including cellular automata and multi-hop graph retrieval, as well as a realistic math reasoning task, on which a regular transformer as well as SSM-attention hybrid models fail. We then show that increasing sleep duration N for our models improves performance, with the largest gains on examples that require deeper reasoning.
논문 링크
E³C: 3D 환경 메모리와 자아-외부 인간 포즈 제어를 이용한 비디오 생성 / E$^3$C: Video Generation with 3D Environmental Memory and Ego-Exo Human Pose Control
논문 소개
구체화된 에이전트가 자신의 행동이 세계를 어떻게 변화시키는지 시뮬레이션하고 추론하기 위해서는 제어 가능하고 물리적으로 기반한 자아중심 비디오 생성이 필수적입니다. 그러나 자아중심 관점에서의 비디오 생성은 일반적인 비디오 합성보다 훨씬 복잡한데, 카메라가 행동 주체의 신체에 직접 부착되어 있어 급격한 시점 변화와 빈번한 자가 폐색을 야기하며, 동시에 장면의 모든 요소가 지정된 제어 조건에 따라 일관되게 변화해야 하기 때문입니다. 본 논문에서 제시하는 E³C는 이러한 도전과제를 해결하기 위해 지속적인 장면 구조와 인간 주도의 동역학을 명확히 분리하는 구조화된 조건 설계에 기초합니다. 핵심 혁신은 컨텍스트 프레임으로부터 반밀집 포인트 클라우드 기반의 3D 환경 메모리를 구성하고, 각 포인트에 비디오-VAE 특성으로부터 추출한 외형 정보를 부여하여 목표 미래 시점으로의 렌더링이 목표 프레임과 정렬된 조건을 생성하도록 하는 것입니다. 인간 동역학의 제어를 위해 E³C는 이원적 접근을 채택하는데, 카메라를 착용한 사람 자신은 3D 신체 관절과 6자유도 손목 모션으로 지정하고, 장면에 관찰되는 다른 사람들은 2D 스켈레톤 렌더링으로 제어합니다. 특히 주목할 점은 자아 인간 제어를 위해 도입된 자아 포즈 인코더로, 이는 3D 신체 정보를 지속적인 교차 어텐션 토큰으로 변환하여 신체 부위가 시야에서 벗어나거나 폐색된 상황에서도 자아 인간 제어를 보존합니다. 사전학습된 비디오 디퓨전 모델인 VACE를 기반으로 구축된 E³C는 Nymeria 데이터셋에서의 실험을 통해 시각적 충실도, 카메라 모션 정확도, 객체 일관성, 그리고 자아 및 타아 인간 제어 측면에서 기존의 강력한 기준선들을 크게 능가하는 성능을 입증합니다. 더욱이 제안된 프레임워크의 조건들이 명시적 특성을 가지므로, 3D 메모리에서 객체를 제거하거나 주변 인물의 움직임을 수정하는 등 직관적인 장면 편집도 가능하게 합니다. E³C의 핵심 기여는 기하학적으로 기반한 생성과 인간 운동학 제어를 통합하는 완전한 자아중심 비디오 생성 프레임워크를 제시함으로써, 이전까지 다루어지지 않았던 자아중심 생성의 근본적인 제어 가능성 문제를 해결하는 데 있습니다.
초록(Abstract)
제어 가능하고 물리적으로 기반이 된 자아중심적 비디오 생성은 체화된 에이전트가 자신과 타인의 행동이 세계에서 어떻게 나타나고 변하는지 추론하기 위해 필수적입니다. 일반적인 비디오 합성에 비해 자아중심적 생성은 특히 도전적입니다: 카메라가 행위자와 밀접하게 결합되어 있어 급격한 시점 변화와 빈번한 자체 폐색이 발생하고; 기저 동작들은 미묘하고 정교하며 종종 부분적으로만 보이며; 사람과 장면 상태 모두가 지정된 제어와 일관되게 진화해야 합니다. 우리는 지속적인 장면 구조와 인간-주도적 동역학을 분리하는 구조화되고 압축된 조건을 구축하는 자아중심적 생성을 위한 제어 가능한 비디오 디퓨전(Diffusion) 프레임워크인 E³C를 제시합니다. 컨텍스트 프레임에서 E³C는 반-밀도 포인트 클라우드 기반 3D 메모리를 구성하고 각 포인트를 비디오-VAE 특성에서 추출한 외형 기술자로 보강합니다. 이 메모리를 목표 시점으로 렌더링하면 목표 프레임과 정렬된 조건을 생성합니다. 인간 동역학은 별도로 모델링됩니다. 장면의 관찰된 사람들은 스켈레톤 렌더링(외부 인간 제어)으로 제어되는 반면, 카메라 착용자는 3D 신체 관절과 6DoF 손목 동작(자아 인간 제어)으로 지정됩니다. 착용자의 신체 부분이 보이지 않을 때 자아 인간 제어를 유지하기 위해 우리는 지속적인 교차-어텐션 토큰을 생성하는 자아 동작 인코더를 도입합니다. Nymeria에서의 실험은 E³C가 강력한 기준선에 비해 시각적 충실도, 카메라-동작 정확도, 객체 일관성, 그리고 자아 및 외부 인간 제어를 개선하면서도 직관적인 장면 편집을 가능하게 함을 보여줍니다.
Controllable and physically grounded egocentric video generation is essential for embodied agents to reason about how their own and others' actions manifest and change the world. Compared to generic video synthesis, egocentric generation is especially challenging: the camera is tightly coupled to the actor, leading to rapid viewpoint changes and frequent self-occlusions; the underlying actions are subtle, articulated, and often only partially visible; and both the people and the scene state must evolve consistently with the specified controls. We present E$^3$C, a controllable video diffusion framework for egocentric generation that builds structured and compact conditions disentangling persistent scene structure from human-driven dynamics. From context frames, E$^3$C constructs a semi-dense point cloud-based 3D memory and augments each point with appearance descriptors from video-VAE features. Rendering this memory into target viewpoints produces conditioning aligned with the target frames. Human dynamics are modeled separately. The observed people in the scene are controlled by skeleton renderings (exo human control), while the camera wearer is specified by their 3D body joints and 6DoF wrist motion (ego human control). To preserve ego human control when the wearer's body parts are invisible, we introduce an ego motion encoder that produces persistent cross-attention tokens. Experiments on Nymeria show that E$^3$C improves visual fidelity, camera-motion accuracy, object consistency, and ego & exo human control over strong baselines, while also enabling intuitive scene editing.
논문 링크
더 읽어보기
수학의 대규모 형식화 / Formalizing Mathematics at Scale
논문 소개
수학의 형식화는 증명을 기계적으로 검증할 수 있는 가장 강력한 방법이나, 수백 페이지의 비형식 교과서를 기계검증 가능한 형식 언어로 변환하는 작업의 규모와 복잡성 때문에 대규모 적용이 어려웠습니다. AutoformBot은 이러한 한계를 극복하기 위해 설계된 다중 에이전트 시스템으로, 수천 개의 대규모 언어 모델 에이전트를 형식 검증 도구, 의존성 인식 작업 스케줄링, 그리고 협업 버전 관리와 같은 구조적 요소로 조직화합니다. 시스템의 핵심 혁신은 비형식 텍스트의 의미를 이해하고 이를 Lean 4 형식 언어의 기계검증 정의와 증명으로 변환하는 자동화 과정인데, 이는 기존의 수작업 형식화 접근 방식에 비해 경제성과 확장성을 획기적으로 개선합니다. 의존성 인식 작업 스케줄링은 형식 라이브러리의 모듈 간 복잡한 의존성을 효율적으로 관리하고 병렬 처리를 최대화함으로써 대규모 형식화 프로젝트의 핵심 기술이 됩니다. 연구팀은 분석학, 대수학, 위상수학, 조합론, 확률론을 아우르는 26개의 개방 학술 교과서를 대상으로 AutoformBot을 적용했으며, 이를 통해 45,000개 이상의 Lean 4 선언과 500,000줄 이상의 검증된 코드로 이루어진 Atlas라는 형식 수학 라이브러리를 구축했습니다. 이 연구의 가장 중요한 의의는 대학원 수준의 수학 내용의 대규모 자동형식화가 더 이상 경제적으로 불가능한 일이 아니며 기술적으로도 실현 가능함을 최초로 실증했다는 점이며, 이는 형식 검증 수학의 향후 발전 방향을 근본적으로 변화시킬 수 있는 이정표가 됩니다. 더욱이 이 결과는 인간이 작성한 수학뿐만 아니라 대규모 언어 모델이 생성한 수학까지도 자동으로 검증할 수 있는 새로운 가능성을 열어주며, 연구 수준의 수학적 증명 검증이 실제적인 현실이 될 수 있음을 시사합니다. 논문에서는 AutoformBot의 오픈소스 다중 에이전트 프레임워크와 함께 그 결과로 생성된 형식 수학 라이브러리 Atlas를 모두 공개함으로써, 향후 연구와 실제 응용을 위한 견고한 토대를 제공합니다.
초록(Abstract)
우리는 AutoformBot을 제시합니다. 이는 Lean 4에서 자동형식화된 교과서 라이브러리(Atlas)를 대규모로 구축하기 위한 다중 에이전트 시스템입니다. AutoformBot은 형식 검증 도구, 의존성 인식 작업 스케줄링, 협력 버전 관리를 갖춘 수천 개의 대규모 언어 모델(LLM) 에이전트를 조율하여 비형식적 교과서 텍스트를 기계 검증 정의 및 증명으로 변환합니다. 분석, 대수, 위상수학, 조합론, 확률을 포괄하는 26개의 개방 접근 교과서에 우리의 방법을 적용하여, 45,000개 이상의 Lean 4 선언과 50만 줄 이상의 코드를 포함하는 검증된 라이브러리인 Atlas를 생성했습니다. 우리는 두 가지 산출물을 공개합니다: (i) AutoformBot, 오픈 소스 다중 에이전트 프레임워크; 및 (ii) Atlas, 결과로 생성된 형식 라이브러리. 우리의 결과는 대학원 수준 수학의 핵심 내용을 대규모로 자동형식화하는 것이 이제 경제적으로, 기술적으로 가능함을 시사합니다. 이는 연구 수준에서 인간과 기계가 생성한 수학 모두의 자동 검증 가능성을 열어줍니다.
We present AutoformBot, a multi-agent system for building an Autoformalized Textbook Library At Scale (Atlas) in Lean 4. AutoformBot orchestrates thousands of LLM agents, equipped with formal verification tools, dependency-aware task scheduling, and collaborative version control, to translate informal textbook prose into machine-checked definitions and proofs. We apply our methods to a corpus of 26 open-access textbooks spanning analysis, algebra, topology, combinatorics, and probability, producing Atlas: a verified library of over 45,000 Lean 4 declarations and 500 thousand lines of code. We release two artifacts: (i) AutoformBot, the open-source multi-agent framework; and (ii) Atlas, the resulting formal library. Our results suggest that autoformalizing the core content of graduate-level mathematics at scale is now economically and technically feasible. This opens the door to the automated verification of both human- and machine-generated mathematics at a research level.
논문 링크
더 읽어보기
LoopFM: 파운데이션 모델의 과거 표현 학습 기반 추천 / LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation
논문 소개
추천 시스템의 실시간 서빙을 위해 대규모 파운데이션 모델의 지식을 경량화된 수직 모델로 효율적으로 이전하는 것은 오랜 도전 과제였습니다. 기존의 지식 증류 방식은 파운데이션 모델의 최종 예측을 단순한 스칼라 신호로 압축하여 소형 모델을 학습하는 방식을 취해왔으나, 이 접근법은 근본적인 한계를 가지고 있습니다. 대규모 모델이 학습한 풍부한 중간 표현의 정보가 단일 예측값으로 축약되면서 상당한 지식이 손실되는 현상, 즉 감소하는 이전 비율 문제로 인해 파운데이션 모델의 성능 향상이 소형 모델에 비례하여 반영되지 않는 것입니다. 이 논문에서 제안하는 LoopFM 프레임워크는 이러한 병목을 혁신적으로 해결하기 위해 파운데이션 모델의 중간 임베딩을 마치 입력 특성처럼 구조화하여 고대역폭의 지식 이전 채널을 개방합니다. 제안된 방법은 서빙 시점에 실시간 파운데이션 모델 추론이 필요 없으며 두 모델 사이의 아키텍처 결합을 요구하지 않는다는 점에서 실무 배포에 매우 유리합니다. LoopFM의 작동 원리는 학습 단계에서 파운데이션 모델의 각 레이어로부터 사용자 표현 벡터를 추출한 후, 이를 자동 인코더를 통해 차원 축소하고 양자화하여 수직 모델의 입력으로 통합하는 방식입니다. 이 파이프라인의 효과를 정량적으로 분석하기 위해 논문은 정보 이론 기반의 엄밀한 이론적 프레임워크를 제시하며, 파운데이션 모델의 성능 향상을 포착하지 못하는 정보 손실을 세 가지 요소로 분해합니다. 먼저 표현 손실은 추출된 중간 임베딩이 설명하지 못하는 정보의 양을, 자동 인코더 손실은 차원 축소 과정에서 발생하는 정보 감소를, 양자화 손실은 연속값을 이산값으로 변환할 때 발생하는 손실을 각각 정량화합니다. 이러한 분해를 통해 레이어 선택, 압축 수준, 양자화 비트 수 결정 등 설계 의사결정의 최적화 방향을 명확히 제시합니다. LoopFM은 기존의 지식 증류와 완전히 독립적인 보완 관계를 가지며, 공개 벤치마크에서는 타오바오 광고 데이터셋에서 6% 이상의 AUC 개선을 달성했습니다. 산업 규모의 실제 배포 환경에서는 수십억 개의 사용자 데이터와 조 단위의 파라미터를 가진 파운데이션 모델을 기반으로 검증되었으며, 지식 증류와 결합했을 때 전이 비율을 약 2배 향상시켜 Y1H1 기간에 0.5%, Y1H2 기간의 개별 런칭에서 1.03%와 1.22%의 전환율 개선을 달성했습니다. 이러한 성과는 추천 시스템 분야에서 대규모 모델의 지식을 효율적으로 활용하면서도 실용적 배포 제약을 극복하는 체계적 솔루션의 중요성을 보여주며, 학계와 산업 모두에 상당한 기여를 제시합니다.
초록(Abstract)
지식 증류(KD)는 대규모 파운데이션 모델(FM)에서 단일 스칼라 예측을 소형 수직 모델(VM)로 전달하는데, 단일 스칼라가 더 큰 FM이 학습하는 풍부한 중간 지식을 전달할 수 없기 때문에 전이 비율(VM이 포착한 FM 개선의 분율)이 감소하는 문제를 겪고 있습니다. 이 병목을 해결하기 위해, 우리는 LoopFM(FM의 과거 표현으로부터 학습)을 제안합니다. 이는 FM의 중간 임베딩을 다운스트림 VM의 입력 특성(예: 사용자 이력 시퀀스)으로 구조화하여 높은 대역폭 전송 채널을 개방하며, 서빙 시 실시간 FM 추론이나 FM과 VM 간의 구조적 결합을 요구하지 않습니다. 우리는 게인 분해 및 전이 비율 분석을 포함한 LoopFM의 이론적 프레임워크를 제공합니다. 세 개의 공개 벤치마크에서 LoopFM은 강력한 AUC 개선(예: TaobaoAd에서 6% 이상)을 보여주며 KD와의 상호 보완적인 지식 전이 능력을 입증합니다. 산업 규모 시스템(수십억 개의 예시, 조 단위 파라미터 FM)에서 LoopFM은 KD 위에서 지식 전이 비율을 약 2배로 증가시켰으며, Y1H1에서 +0.5% 전환율 개선을 달성하였고, Y1H2에서 두 개의 개별 런칭으로부터 각각 +1.03% 및 +1.22%의 전환율 개선을 달성하였습니다.
Knowledge distillation (KD) transfers a single scalar prediction from a large foundation model (FM) to compact vertical models (VMs), suffering from diminishing transfer ratio -- the fraction of FM improvement captured by the VM -- as a single scalar cannot convey the rich intermediate knowledge that larger FMs learn. To address this bottleneck, we propose LoopFM (Learning frOm HistOrical ReP*resentations of FM), a framework that opens a high-bandwidth transfer channel by structuring FM intermediate embeddings as input features (e.g., user history sequence) for downstream VMs, without requiring real-time FM inference at serving and architectural coupling between FM and VM. We provide a theoretical framework for LoopFM with a gain decomposition and transfer-ratio analysis. On three public benchmarks, LoopFM demonstrates strong AUC improvements (e.g., 6%+ on TaobaoAd) and complementary knowledge transfer capability with KD. On industrial-scale systems (billions of examples, trillion-parameter FMs), LoopFM approximately doubles the knowledge transfer ratio on top of KD, delivering a +0.5% conversion improvement in Y1H1, and a +1.03% and +1.22% conversion improvement from two individual launches respectively in Y1H2.
논문 링크
유효 피드백 계산량을 통한 에이전트 하네스의 스케일링 법칙 / Scaling Laws for Agent Harnesses via Effective Feedback Compute
논문 소개
언어 모델의 성능이 모델 자체의 크기나 사전 학습 데이터의 규모만으로 결정되지 않는다는 점은 이미 널리 인정되고 있습니다. 특히 도구 호출, 메모리 관리, 피드백 처리 등을 담당하는 에이전트 하니스의 설계가 전체 시스템의 성공을 좌우하는 중요한 요소로 떠오르고 있습니다. 이러한 상황에서 근본적인 질문이 제기됩니다. 하니스 성능을 어떻게 객관적으로 측정하고 비교할 것인가 하는 문제입니다. 기존의 연구에서는 토큰의 개수, 도구 호출의 횟수, 연산량, 또는 실제 비용과 같은 원본 계산량만을 척도로 삼았으나, 이러한 방식은 같은 수의 토큰이나 도구 호출을 사용하면서도 얻어지는 피드백의 품질이나 효율성의 차이를 구분하지 못하는 근본적인 한계를 가지고 있습니다. 본 논문은 이 문제를 해결하기 위해 효과적 피드백 계산량(Effective Feedback Compute, EFC)이라는 새로운 측정 기준을 제시합니다. EFC는 단순히 생성된 모든 피드백을 계산하는 것이 아니라, 정보성, 유효성, 중복 없음, 그리고 이후 결정에 대한 실제 유지라는 네 가지 조건을 만족하는 피드백만을 신용으로 인정함으로써, 원본 계산량과 실질적인 성과 향상을 분리합니다. 더 나아가 저자들은 하니스 효율성과 작업 수요 정규화라는 두 가지 파생 지표를 도입하여, 서로 다른 복잡도와 특성을 가진 작업들을 공정하게 비교할 수 있는 방법론을 제공합니다. 광범위한 실험적 검증을 통해 본 논문은 EFC 기반 지표가 원본 토큰, 도구 호출, 비용 등의 단순 계산 기준선뿐만 아니라 강력한 다변량 스케일링 기준선(SAS)도 능가하여 실패율을 더욱 정확히 예측할 수 있음을 보여줍니다. 특히 작업 수요로 정규화된 EFC는 제어된 시뮬레이션, 실행 가능한 코드 작업, 실제 혼합 트레이스, 보유된 검증 데이터 및 사전 검증 배치에서 일관되게 R^2 0.85 이상의 설명력을 유지하며, 동일한 원본 예산 조건에서 피드백 품질의 개선만으로도 성공률을 0.27에서 0.90으로 대폭 상승시킬 수 있음을 입증합니다. 이러한 결과들은 에이전트 하니스의 스케일링이 소비된 계산의 절대량보다는 그 계산이 지속적이고 작업 충분한 피드백으로 얼마나 효율적으로 변환되는지에 의해 근본적으로 결정된다는 중요한 통찰을 제공합니다. 이는 AI 시스템 설계자와 연구자들에게 테스트 시간 스케일링 전략을 재정의하고, 제한된 계산 예산을 보다 현명하게 배분하며, 하니스의 피드백 메커니즘을 체계적으로 최적화할 수 있는 새로운 이론적 틀과 실무적 지침을 제공합니다.
초록(Abstract)
에이전트 하네스는 모델이 도구를 호출하고, 피드백을 받고, 중간 상태를 검증하고, 메모리를 저장하고, 해결책을 수정하는 방식을 결정함으로써 언어 모델 시스템의 성능을 점점 더 많이 결정합니다. 그러나 현재의 테스트 시점 스케일링 분석은 종종 이 과정을 원시 지출로 매개변수화합니다 -- 토큰, 도구 호출, 연산, 경과 시간, 또는 비용 -- 이는 유용한 피드백을 중복되거나 불안정한 상호작용과 구별하지 않습니다. 우리는 유효 피드백 연산(EFC, Effective Feedback Compute)을 소개합니다. 이는 피드백이 유의미하고, 유효하고, 중복되지 않으며, 후속 결정에 유지될 때만 피드백을 인정하는 추적 수준의 스케일링 좌표이며, 서로 다른 피드백 요구사항을 가진 작업들을 비교할 때 작업 요구량으로 정규화합니다. 합성 제어 가능 작업, 실행 가능한 코드 작업, 실제 벤치마크 추적, 검증용 분할, 및 향후 검증 배치에 걸쳐, EFC 기반 좌표는 원시 연산 기준선 및 강력한 다변량 SAS 기준선보다 일관되게 실패율을 더 잘 예측합니다. 제어된 스케일링에서, 원시 토큰과 도구 호출은 제한된 변동만을 설명하며(R²=0.33과 0.42), SAS는 0.88에 도달하고, Oracle-EFC와 Estimated-EFC는 0.94에 도달하며, Oracle-EFC/D_task 는 0.99에 도달합니다. 동일 예산 개입은 피드백 품질을 개선하면 성공도를 0.27에서 0.90으로 높일 수 있음을 보여주며, 이때 원시 비용과 도구 호출은 고정되어 있습니다. 혼합 실제 추적에서, NRS-EFC/D_task 는 R²=0.92에 도달하면서 원시 연산은 거의 0에 가깝거나 음수의 적합도를 가지며, 향후 검증 데이터에서도 최고의 예측자로 남아 있습니다(R²=0.85). 이러한 결과는 하네스 스케일링이 얼마나 많은 연산이 지출되는지보다는 원시 예산이 지속적이고 작업-충분한 피드백으로 얼마나 효율적으로 변환되는지에 의해 더욱 좌우된다는 것을 시사합니다.
Agent harnesses increasingly determine the performance of language-model systems by deciding how models call tools, receive feedback, verify intermediate states, store memory, and revise solutions. Yet current test-time scaling analyses often parameterize this process by raw expenditure -- tokens, tool calls, operations, wall time, or cost -- which does not distinguish useful feedback from redundant or unstable interaction. We introduce \emph{Effective Feedback Compute} (EFC), a trace-level scaling coordinate that credits feedback only when it is informative, valid, non-redundant, and retained for subsequent decisions, and we normalize it by task demand when comparing tasks with different feedback requirements. Across synthetic controllable tasks, executable code tasks, real benchmark traces, held-out splits, and a prospective validation batch, EFC-based coordinates consistently predict failure rates better than raw-compute baselines and a strong multivariate SAS baseline. In controlled scaling, raw tokens and tool calls explain limited variation (R^2=0.33 and 0.42), SAS reaches 0.88, while Oracle-EFC and Estimated-EFC reach 0.94 and Oracle-EFC/D_{\mathrm{task}} reaches 0.99. Matched-budget interventions show that improving feedback quality raises success from 0.27 to 0.90 while raw cost and tool calls are fixed. On mixed real traces, NRS-EFC/D_{\mathrm{task}} reaches R^2=0.92 while raw compute has near-zero or negative fit, and it remains the best predictor in a prospective holdout (R^2=0.85). These results suggest that harness scaling is governed less by how much computation is spent than by how efficiently raw budget is converted into durable, task-sufficient feedback.
논문 링크
디퓨전 트랜스포머의 교차 계층 정보 라우팅 재고 / Rethinking Cross-Layer Information Routing in Diffusion Transformers
논문 소개
디퓨전 트랜스포머(Diffusion Transformers, DiTs)는 현대 시각 생성의 핵심 백본으로 자리 잡았지만, 지금까지의 개선 논의는 주로 토큰화, 어텐션(attention), 조건부 입력(conditioning), 학습 목적함수, 잠재 오토인코더(latent autoencoder) 같은 구성요소에 집중되어 있었습니다. 반면 층을 거치며 정보가 어떻게 누적되고 재배치되는지에 해당하는 잔차 스트림(residual stream)은 원래 Transformer의 관습을 거의 그대로 따르고 있었고, 저자들은 바로 이 지점이 DiT의 성능과 효율을 제약하는 중요한 병목일 수 있다고 문제를 제기합니다. 이를 검증하기 위해 깊이 축과 디노이징 타임스텝 축을 동시에 따라 교차층 정보 흐름을 체계적으로 분석한 결과, 기존 잔차 덧셈에서는 순전파 활성값의 단조적 팽창, 역전파 그래디언트의 급격한 감쇠, 그리고 블록 간 표현의 과도한 중복이라는 세 가지 증상이 반복적으로 관찰되었습니다. 이러한 진단은 단순히 네트워크가 깊어질수록 정보가 흐려진다는 수준을 넘어, DiT가 시간에 따라 역할이 달라지는 생성 모델임에도 불구하고 잔차 경로는 시간적 변화를 반영하지 못한다는 구조적 한계를 드러냅니다.
이 문제의식 위에서 제안된 Diffusion-Adaptive Routing(DAR)은 기존의 증분적 잔차 더하기를 대체하는 drop-in residual replacement로서, 과거 서브레이어 출력들을 학습 가능하고 타임스텝에 적응적인 방식으로 재가중해 집계합니다. 특히 DAR은 단순히 직전 층의 출력을 누적하는 것이 아니라, 현재 디노이징 단계에서 어떤 역사적 표현이 더 중요한지를 다시 판단하는 비증분적 라우팅 구조를 취함으로써, 깊이 방향의 정보 희석과 시간축에 따른 표현 전환을 동시에 다룹니다. 이러한 설계는 DiT 내부에서 고노이즈 구간에는 거친 구조 정보를, 저노이즈 구간에는 세밀한 디테일 정보를 더 적절하게 선택적으로 전달할 수 있게 만든다는 점에서 의미가 큽니다. 나아가 DAR은 Representation Alignment Objective(REPA)와 같은 현대적 Transformer 향상 기법과도 충돌하지 않고 함께 사용할 수 있어, 표현 정렬과 교차층 라우팅이 서로 다른 설계 축임을 보여줍니다.
실험 결과는 이러한 방법론적 통찰이 실제 성능으로 이어진다는 점을 분명히 입증합니다. ImageNet 256×256 설정에서 DAR은 SiT-XL/2의 Fréchet Inception Distance(FID)를 9.67에서 7.56으로 낮추어 2.11의 개선을 달성했으며, 기준 모델이 도달하는 수렴 품질을 8.75배 적은 학습 반복으로 얻었습니다. 또한 REPA와 결합하면 초기 학습 단계에서 2배 수준의 가속을 보였고, 이는 DAR이 기존 최적화나 표현 학습 목적과 중복되지 않는 독립적인 개선 축임을 시사합니다. 더 나아가 이 방법은 대규모 Text-to-Image(T2I) 모델의 파인튜닝에도 적용 가능하고, Distribution Matching Distillation 과정에서는 고주파 세부 정보를 보존하는 데도 유리하게 작동합니다. 결국 이 연구는 DiT의 성능 향상을 단순한 블록 내부 개선이 아니라, 층 간 정보가 언제 어떻게 흘러야 하는지에 대한 라우팅 관점에서 다시 설계해야 한다는 새로운 방향을 제시하며, 확산 모델의 아키텍처 연구에 중요한 전환점을 마련합니다.
초록(Abstract)
디퓨전 트랜스포머(Diffusion Transformers, DiTs)는 현대 시각 생성의 사실상 백본이 되었으며, 그 설계의 거의 모든 주요 축, 즉 토큰화, 어텐션, 조건화, 목적 함수, 잠재 오토인코더는 광범위하게 재검토되어 왔습니다. 그러나 층들에 걸쳐 정보가 누적되는 방식을 좌우하는 리지듀얼 스트림(residual stream)은 원래 트랜스포머에서 직접 계승되었습니다. 본 논문에서는 깊이와 디노이징 타임스텝을 함께 따라 DiT 모델들의 층 간 정보 흐름을 체계적으로 실증 분석하고, 기존 잔차 더하기의 세 가지 구체적인 증상, 즉 단조적인 순전파 크기 팽창, 급격한 역전파 그래디언트 감쇠, 그리고 뚜렷한 블록 단위 중복성을 확인합니다. 이러한 진단을 바탕으로, 우리는 서브레이어 출력의 이력을 학습 가능하고, 타임스텝 적응적이며, 비증분적으로 집계하는 드롭인 잔차 대체 기법인 Diffusion-Adaptive Routing(DAR)을 제안합니다. 또한 제안한 DAR은 REPA와 같은 여러 현대 트랜스포머 향상 기법과도 호환됩니다. ImageNet $256\times256$에서 DAR은 SiT-XL/2의 FID를 2.11 향상시켰고(7.56 대 9.67), 8.75배 적은 학습 반복으로도 기준 모델의 수렴 품질과 맞먹는 성능을 보였습니다. REPA 위에 추가로 적용하면 초기 단계에서 학습을 2배 가속하며, 이는 기존 표현 정렬 목표와는 직교적으로 작동하는, 디퓨전 모델링에서 아직 충분히 탐구되지 않은 설계 축으로서 층 간 정보 라우팅의 가능성을 시사합니다. 사전학습을 넘어, DAR은 대규모 텍스트-이미지(T2I) 모델의 파인튜닝 단계에도 적용할 수 있으며, 분포 매칭 증류(Distribution Matching Distillation) 동안 고주파 세부 정보를 보존합니다.
Diffusion Transformers (DiTs) have become a de facto backbone of modern visual generation, and nearly every major axis of their design -- tokenization, attention, conditioning, objectives, and latent autoencoders -- has been extensively revisited. The residual stream that governs how information accumulates across layers, however, has been directly inherited from the original Transformer. In this paper, we present a systematic empirical analysis of cross-layer information flow in DiTs, jointly along depth and denoising timestep, and identify three concrete symptoms of traditional residual addition, namely monotonic forward magnitude inflation, sharp backward gradient decay, and pronounced block-wise redundancy. Motivated by this diagnosis, we propose Diffusion-Adaptive Routing (\textsc{DAR}), a drop-in residual replacement that performs \emph{learnable, timestep-adaptive, and non-incremental} aggregation over the history of sublayer outputs. Moreover, the proposed \textsc{DAR} is compatible with many modern Transformer enhancement methods, such as REPA. On ImageNet 256\times256, \textsc{DAR} improves SiT-XL/2 by 2.11 FID (7.56 vs.\ 9.67) and matches the baseline's converged quality with 8.75\times fewer training iterations. Stacked on top of REPA, it yields a 2\times training acceleration in the early stage, suggesting cross-layer information routing as an underexplored design axis in diffusion modeling, one that operates orthogonally to existing representation-alignment objectives. Beyond pretraining, \textsc{DAR} can also be applied during the fine-tuning stage of large-scale T2I models and preserves high-frequency details during Distribution Matching Distillation.
논문 링크
SkillOpt: 자기진화 에이전트 스킬의 실행 전략 / SkillOpt: Executive Strategy for Self-Evolving Agent Skills
논문 소개
최신 언어 모델 기반 에이전트는 단순한 프롬프트 호출부터 도구 호출, 파일 관리, 복잡한 검증 절차를 포함한 다중 단계 실행 환경에 이르기까지 다양한 형태로 배포되고 있습니다. 이러한 환경에서 도메인 적응은 더 이상 모델의 가중치 조정만을 의미하지 않으며, 증거 수집, 도구 호출 전략, 도메인 규칙 준수, 출력 형식 지정과 같은 절차적 적응을 필수로 요구합니다. 자연어로 작성된 에이전트 스킬은 이러한 절차적 적응을 패키징하는 휴대용 아티팩트로서 동결된 에이전트가 외부 텍스트를 통해 도메인 특화 능력을 획득할 수 있는 자연스러운 인터페이스를 제공합니다. 그러나 기존의 스킬 개선 방식은 손으로 작성되거나 일회성으로 생성되는 방식, 또는 느슨하게 제어되는 자기 개선에 의존해왔으며, 이는 심화 학습의 가중치 최적화에 비해 체계성과 재현성이 부족합니다.
본 논문이 제시하는 SkillOpt는 에이전트 스킬을 위한 최초의 체계적이고 제어 가능한 텍스트 공간 옵티마이저로, 스킬 문서를 동결된 에이전트의 외부 상태로 취급하여 가중치 공간 최적화와 동일한 훈련 규율을 적용합니다. SkillOpt의 핵심 메커니즘은 별도의 옵티마이저 모델이 점수가 매겨진 롤아웃으로부터 단일 스킬 문서에 대한 제한된 추가, 삭제, 대체 편집으로 변환하고, 편집이 홀드아웃 검증 점수를 엄격히 개선할 때에만 수용되는 방식입니다. 텍스트 학습률 예산, 거부된 편집 버퍼, 에포크 단위 슬로우 및 메타 업데이트는 훈련 과정을 안정화하면서 배포 시 추론 오버헤드를 전혀 추가하지 않으며, 최종 배포되는 스킬 아티팩트는 300에서 2,000토큰 규모의 컴팩트한 자연어 문서로 유지됩니다. 이러한 설계는 심화 학습의 배치 크기, 학습률 스케줄, 검증 게이팅, 모멘텀 메커니즘 등의 원리를 텍스트 도메인에 체계적으로 적용한 것으로, 스킬 개선의 정확성과 재현성을 크게 향상시킵니다.
광범위한 경험적 평가에서 SkillOpt는 6개의 벤치마크(질의응답, 스프레드시트, 문서 분석, 수학, 의사결정 과제), 7개의 목표 모델, 3가지 실행 환경(직접 채팅, Codex, Claude Code)에 걸친 52개의 모든 (모델, 벤치마크, 환경) 셀에서 최고 또는 동등한 성능을 달성했으며, 인간 작성, 일회성 LLM, Trace2Skill, TextGrad, GEPA, EvoSkill 중 가장 강력한 기준선을 평균 5.4포인트로 능가합니다. GPT-5.5 기준으로 직접 채팅 환경에서 무스킬 정확도를 평균 23.5포인트, Codex 에이전트 루프 내에서 24.8포인트, Claude Code 내에서 19.1포인트 향상시키며, 구체적으로는 SearchQA에서 77.7에서 87.3으로, SpreadsheetBench에서 41.8에서 80.7로, OfficeQA에서 33.1에서 72.1로 상당한 절대 성능 개선을 달성했습니다. 흥미롭게도 최적화된 스킬 아티팩트는 훈련 설정을 넘어 놀라운 전이 특성을 보여주는데, GPT-5.4에서 훈련된 스프레드시트 스킬이 모든 더 작은 GPT 변형을 개선하고, Codex에서 훈련된 스킬이 Claude Code로 59.7포인트 향상을 달성하며, 수학 벤치마크 간 긍정적 이득을 얻는 것으로 나타났습니다. 이러한 결과들은 컴팩트한 자연어 스킬이 모델 가중치를 수정하지 않으면서도 관련 모델, 실행 환경, 유사 작업 전체에서 재사용 가능한 도메인 적응 계층으로 실질적으로 작용할 수 있음을 시사하며, 에이전트 기반 시스템의 확장 가능하고 효율적인 배포를 위한 새로운 패러다임을 제시합니다.
초록(Abstract)
오늘날 에이전트 스킬은 수작으로 만들어지거나 일회성으로 생성되거나 느슨하게 제어된 자체 수정을 통해 진화하는데, 이들 중 어느 것도 스킬을 위한 딥러닝 옵티마이저처럼 작동하지 않으며, 피드백 하에서 초기 지점보다 안정적으로 개선되지 않습니다. 우리는 스킬이 대신 동결된 에이전트의 외부 상태로 학습되어야 하며, 가중치 공간 최적화를 재현 가능하게 만드는 동일한 규율을 따라야 한다고 주장합니다. 우리가 알기로는 SkillOpt는 에이전트 스킬을 위한 첫 번째 체계적 제어 가능한 텍스트 공간 옵티마이저입니다: 별도의 옵티마이저 모델이 점수 매긴 롤아웃을 단일 스킬 문서에 대한 경계있는 추가/삭제/교체 편집으로 변환하며, 편집은 검증 점수를 엄격히 개선할 때만 수용됩니다. 텍스트 학습률 예산, 거부된 편집 버퍼, 에포크별 느린/메타 업데이트는 배포 시 추론 시간 모델 호출을 추가하지 않으면서 스킬 학습을 안정적으로 만듭니다. 6개의 벤치마크, 7개의 목표 모델, 3개의 실행 하네스(direct chat, Codex, Claude Code) 전반에서 SkillOpt는 평가된 모든 52개(모델, 벤치마크, 하네스) 셀에서 최고이거나 동등하며, 인간, 일회성 LLM, Trace2Skill, TextGrad, GEPA, EvoSkill 스킬 중 모든 셀별 경쟁 대안을 능가합니다. GPT-5.5에서는 direct chat에서 평균 스킬 없는 정확도를 +23.5 포인트, Codex 에이전트 루프 내에서는 +24.8, Claude Code 내에서는 +19.1로 향상시킵니다. 전이 실험은 최적화된 스킬 아티팩트가 모델 규모 전반에서, Codex와 Claude Code 실행 환경 사이에서, 그리고 추가 최적화 없이 인접한 수학 벤치마크로 이동할 때 가치를 유지함을 추가로 보여줍니다. 코드: SkillOpt | Executive Strategy for Self-Evolving Agent Skills
Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization. Code: SkillOpt | Executive Strategy for Self-Evolving Agent Skills
논문 링크
더 읽어보기
제약 붕괴: 백엔드 코드 생성에서 대규모 언어 모델(LLM) 에이전트의 취약성 / Constraint Decay: The Fragility of LLM Agents in Backend Code Generation
논문 소개
대규모 언어 모델(LLM) 에이전트는 느슨한 명세가 주어진 코드 생성 과제에서는 인상적인 성능을 보이지만, 실제 백엔드 개발처럼 아키텍처 패턴, 데이터베이스, 객체 관계 매핑(Object-Relational Mapping, ORM)과 같은 구조적 제약을 동시에 만족해야 하는 상황에서는 여전히 취약한 모습을 보입니다. 이러한 문제의식을 바탕으로, 본 연구는 기능적으로 정답처럼 보이는 결과만을 평가하는 기존 벤치마크의 한계를 지적하고, 구조적 정합성이 요구되는 백엔드 생성 환경에서 에이전트의 한계를 체계적으로 측정하는 방법론을 제안합니다. 핵심 아이디어는 80개의 그린필드(greenfield) 생성 과제와 20개의 기능 구현 과제를 대상으로 동일한 API 계약을 고정한 뒤, 웹 프레임워크와 구조적 제약의 복잡도만 단계적으로 높여가며 성능 변화를 관찰하는 것입니다. 이를 통해 모델의 일반적인 코딩 능력과 구조적 제약 준수 능력을 분리해서 살펴볼 수 있으며, 단순한 기능 구현과 프로덕션 수준의 백엔드 생성이 서로 다른 난이도임을 명확히 드러냅니다.
평가는 종단간(end-to-end) 행동 테스트와 정적 검증기(static verifiers)를 결합한 이중 평가 체계로 수행되었으며, 주요 지표로는 Assertion pass rate(A%)와 pass@1을 사용했습니다. 특히 A%는 부분적인 진전을 더 안정적으로 반영하기 때문에, 단발성 성공 여부에 민감한 pass@1보다 구조적 제약이 누적되는 상황을 더 잘 포착합니다. 실험 결과는 제약이 강해질수록 성능이 크게 하락하는 Constraint Decay 현상을 분명히 보여주었고, 강한 모델조차 기준선에서 완전 명세 과제로 갈수록 평균 30포인트 수준의 성능 손실을 겪었습니다. 또한 프레임워크 민감도 분석을 통해, Flask나 Express처럼 API 표면이 작고 명시적인 환경에서는 상대적으로 높은 성능이 관찰된 반면, FastAPI나 Django처럼 관례와 암묵적 규칙이 많은 환경에서는 성능이 크게 낮아짐을 확인했습니다. 이러한 차이는 단순히 모델 크기나 범용성의 문제가 아니라, 프레임워크의 구조적 복잡도가 에이전트의 추론 부담을 직접적으로 키운다는 점을 시사합니다.
나아가 실패 원인 분석은 대부분의 오류가 서버 기동 실패보다도 논리 수준의 결함에서 비롯되며, 그 중심에는 잘못된 쿼리 구성, ORM 런타임 위반, 상태 전파 실패와 같은 데이터 계층 관련 문제가 있다는 사실을 보여줍니다. 이는 백엔드 생성에서 가장 어려운 지점이 단순한 코드 작성이 아니라, 데이터 접근 방식과 프레임워크 관례를 일관되게 맞추는 과정임을 의미합니다. 따라서 본 연구의 기여는 LLM 에이전트가 구조적 제약을 얼마나 취약하게 다루는지 정량적으로 입증한 데 있을 뿐 아니라, 어떤 종류의 제약이 가장 큰 병목을 만드는지까지 세밀하게 분해해 보여준 데 있습니다. 결과적으로 이 작업은 향후 코드 생성 에이전트 연구가 기능 정확도뿐 아니라 구조적 정합성, 프레임워크 적응성, 데이터 계층의 일관성까지 함께 평가해야 함을 강하게 제안합니다.
초록(Abstract)
대규모 언어 모델(LLM) 에이전트는 느슨한 명세 하에서 자율적인 코드 생성에 강한 성능을 보입니다. 그러나 프로덕션 수준의 소프트웨어는 아키텍처 패턴, 데이터베이스, 객체-관계 매핑(ORM)과 같은 구조적 제약을 엄격히 준수해야 합니다. 기존 벤치마크는 이러한 비기능 요구사항을 종종 간과하여, 기능적으로는 올바르지만 구조적으로는 임의적인 해법에 보상을 줍니다. 우리는 다중 파일 백엔드 생성에서 에이전트가 구조적 제약을 얼마나 잘 처리하는지 평가하는 체계적 연구를 제시합니다. 여덟 개 웹 프레임워크에 걸친 80개의 신규 개발(greenfield) 생성 과제와 20개의 기능 구현 과제 전반에서 통일된 API 계약을 고정함으로써, 종단 간 행동 테스트와 정적 검증기를 활용한 이중 평가를 통해 구조적 복잡성의 영향을 분리해 살펴봅니다. 우리의 결과는 제약 붕괴(constraint decay) 현상을 보여줍니다. 즉, 구조적 요구사항이 누적될수록 에이전트 성능이 크게 하락합니다. 성능이 우수한 구성은 기본 조건에서 완전 명세 과제로 갈수록 assertion 통과율이 평균 30점 하락하는 반면, 일부 성능이 약한 구성은 거의 0에 수렴합니다. 프레임워크 민감도 분석은 유의미한 성능 차이를 드러냅니다. 에이전트는 Flask처럼 최소한의 명시적 프레임워크에서는 잘 작동하지만, FastAPI나 Django처럼 관례가 많은 환경에서는 평균적으로 훨씬 더 나쁜 성능을 보입니다. 마지막으로 오류 분석에서는 데이터 계층 결함, 예를 들어 잘못된 쿼리 구성과 ORM 런타임 위반이 주요 근본 원인으로 확인되었습니다. 이 연구는 기능적 요구사항과 구조적 요구사항을 동시에 만족시키는 일이 여전히 코드 에이전트의 핵심적인 열린 과제임을 보여줍니다.
Large Language Model (LLM) agents demonstrate strong performance in autonomous code generation under loose specifications. However, production-grade software requires strict adherence to structural constraints, such as architectural patterns, databases, and object-relational mappings. Existing benchmarks often overlook these non-functional requirements, rewarding functionally correct but structurally arbitrary solutions. We present a systematic study evaluating how well agents handle structural constraints in multi-file backend generation. By fixing a unified API contract across 80 greenfield generation tasks and 20 feature-implementation tasks spanning eight web frameworks, we isolate the effect of structural complexity using a dual evaluation with end-to-end behavioral tests and static verifiers. Our findings reveal a phenomenon of constraint decay: as structural requirements accumulate, agent performance exhibits a substantial decline. Capable configurations lose 30 points on average in assertion pass rates from baseline to fully specified tasks, while some weaker configurations approach zero. Framework sensitivity analysis exposes significant performance disparities: agents succeed in minimal, explicit frameworks (e.g., Flask) but perform substantially worse on average in convention-heavy environments (e.g., FastAPI, Django). Finally, error analysis identifies data-layer defects (e.g., incorrect query composition and ORM runtime violations) as the leading root causes. This work highlights that jointly satisfying functional and structural requirements remains a key open challenge for coding agents.
논문 링크
ELF: 임베디드 언어 플로우 / ELF: Embedded Language Flows
논문 소개
디퓨전(Diffusion)과 플로우 기반 모델(flow-based models)은 이미지와 비디오처럼 연속형 데이터를 생성하는 영역에서 강력한 성과를 보여 왔지만, 언어 모델링에서는 여전히 이산 토큰(discrete tokens)이라는 표현 방식 때문에 자연스러운 적용이 쉽지 않았습니다. 기존의 디퓨전 언어 모델(Diffusion Language Models, DLMs)은 주로 토큰 공간에서 동작하면서 연속적인 생성 궤적을 충분히 활용하지 못했고, 그 결과 이미지 분야에서 성숙한 기법들을 언어에 그대로 옮기기 위해서는 별도의 복잡한 설계가 필요했습니다. Embedded Language Flows(ELF)는 이러한 간극을 줄이기 위해 언어 생성을 연속 임베딩 공간(continuous embedding space)에서 다루는 새로운 관점을 제시합니다. 핵심 아이디어는 생성 과정의 대부분을 연속 공간에 머무르게 한 뒤, 마지막 단계에서만 공유 가중치 네트워크(shared-weight network)를 이용해 토큰으로 변환하는 방식이며, 이를 통해 언어 생성의 중간 표현과 최종 출력을 분리하면서도 둘 사이의 정합성을 유지합니다. 이러한 설계는 연속시간 플로우 매칭(continuous-time Flow Matching)을 기반으로 데이터 임베딩과 가우시안 잡음 사이의 벡터장을 학습하게 하며, 모델이 토큰 교체를 직접 예측하는 대신 매끄러운 생성 경로를 따라 이동하도록 만듭니다. 특히 ELF는 분류기 없는 가이던스(classifier-free guidance, CFG)와 자기 조건화(self-conditioning)를 연속 벡터장 학습에 자연스럽게 통합함으로써, 이미지 생성 분야에서 효과가 검증된 방법들을 언어 영역에 거의 손쉽게 이식할 수 있도록 합니다. 학습 과정에서 모델은 조건 정보와 가이던스 강도를 함께 반영하며, 자기 자신의 이전 예측을 다시 활용해 복원 품질을 높이기 때문에, 더 안정적이고 정교한 생성 방향을 학습할 수 있습니다. 이러한 방식은 이산 토큰을 조기에 고정하는 대신 연속 표현의 기하학을 적극 활용한다는 점에서 방법론적 차별성이 분명합니다. 실험 결과에서도 ELF는 기존의 선도적인 이산형 및 연속형 DLMs보다 더 나은 생성 품질을 보였을 뿐 아니라, 더 적은 샘플링 단계로도 우수한 성능을 달성하여 효율성 측면의 장점까지 입증했습니다. 결국 ELF는 언어 생성의 병목이 단지 이산성 자체에 있는 것이 아니라, 이산성과 연속성을 너무 이른 시점에 분리하는 설계에 있을 수 있음을 보여 주며, 연속형 디퓨전 언어 모델이 실용적으로도 매우 유망한 방향임을 제시합니다.
초록(Abstract)
디퓨전과 플로우 기반 모델은 이미지와 비디오와 같은 도메인에서 연속형 데이터를 생성하는 사실상 표준 접근법이 되었습니다. 이러한 성공은 이들을 언어 모델링에 적용하려는 관심을 꾸준히 높여 왔습니다. 이미지 도메인의 대응 모델과 달리, 오늘날 선도적인 디퓨전 언어 모델(DLMs)은 주로 이산 토큰 위에서 작동합니다. 본 논문에서는 연속형 DLM도 이산 도메인에 대한 최소한의 적응만으로 효과적으로 만들 수 있음을 보입니다. 우리는 연속시간 Flow Matching에 기반한 연속 임베딩 공간의 디퓨전 모델 계열인 Embedded Language Flows(ELF)를 제안합니다. 기존 DLM과 달리 ELF는 최종 시점까지 대부분 연속 임베딩 공간에 머무른 뒤, 공유 가중치 네트워크를 사용해 이산 토큰으로 매핑합니다. 이러한 정식화는 이미지 도메인 디퓨전 모델에서 확립된 기법, 예를 들어 분류기 없는 가이던스(classifier-free guidance, CFG)를 손쉽게 적용할 수 있게 합니다. 실험 결과, ELF는 선도적인 이산 및 연속 DLM을 크게 능가하며, 더 적은 샘플링 단계로도 더 나은 생성 품질을 달성합니다. 이러한 결과는 ELF가 효과적인 연속형 DLM을 향한 유망한 경로를 제시함을 시사합니다.
Diffusion and flow-based models have become the de facto approaches for generating continuous data, e.g., in domains such as images and videos. Their success has attracted growing interest in applying them to language modeling. Unlike their image-domain counterparts, today's leading diffusion language models (DLMs) primarily operate over discrete tokens. In this paper, we show that continuous DLMs can be made effective with minimal adaptation to the discrete domain. We propose Embedded Language Flows (ELF), a class of diffusion models in continuous embedding space based on continuous-time Flow Matching. Unlike existing DLMs, ELF predominantly stays within the continuous embedding space until the final time step, where it maps to discrete tokens using a shared-weight network. This formulation makes it straightforward to adapt established techniques from image-domain diffusion models, e.g., classifier-free guidance (CFG). Experiments show that ELF substantially outperforms leading discrete and continuous DLMs, achieving better generation quality with fewer sampling steps. These results suggest that ELF offers a promising path toward effective continuous DLMs.
논문 링크
더 읽어보기
비전에서의 생성적 물리 AI: 서베이 / Generative Physical AI in Vision: A Survey
논문 소개
생성형 인공지능은 지난 수년간 디퓨전 모델, 신경 방사 필드, 가우시안 스플래팅 등 다양한 기반 기술을 통해 고충실도의 이미지, 영상, 3D 및 4D 콘텐츠 생성에서 괄목할 만한 성과를 이루어냈습니다. 특히 최근 개발된 대규모 생성형 모델들은 복잡한 시각적 장면을 의미론적으로 이해하고 시간적으로 일관된 콘텐츠를 생성함으로써 컴퓨터 비전 분야의 패러다임을 근본적으로 변화시켰습니다. 그러나 현재의 최첨단 생성형 모델들은 픽셀 공간에서의 시각적 현실성 확보에만 집중하면서 생성된 콘텐츠의 물리적 타당성을 종종 간과하고 있으며, 이러한 한계는 로봇공학, 자율주행 시스템, 과학 시뮬레이션처럼 실제 물리 법칙의 준수가 필수적인 응용 분야에서의 실용성을 크게 저해합니다. 물리 인식 생성 분야는 이러한 간극을 해결하기 위해 명시적 물리 시뮬레이션과 암묵적 학습이라는 두 가지 상이한 방법론을 체계적으로 분류하고 분석합니다. 명시적 시뮬레이션 접근법은 물리 엔진을 직접 활용하여 동역학, 인과성, 재료 특성 등의 물리 법칙을 명시적으로 구현하는 반면, 암묵적 학습 접근법은 데이터로부터 물리적 원리를 자동으로 습득하도록 합니다. 물리 파라미터 설정 방식의 관점에서는 도메인 전문가의 수동 설정, 시각적 관찰로부터의 자동 학습, 그리고 멀티모달 대규모 언어 모델을 활용한 상식 기반 추론이라는 세 가지 접근 방식이 각각의 장점과 제약을 가지고 제안되고 있습니다. 물리적 인식은 객체의 외형과 위치를 파악하는 의미적 인식이나 형태와 공간 구조를 다루는 기하학적 인식과는 근본적으로 구별되며, 오히려 운동, 변형, 상호작용 같은 동적이고 예측적인 현상을 중심으로 하는 고유한 특성을 갖습니다. 본 서베이는 생성형 모델이 물리적 이해를 통합하여 진정한 월드 시뮬레이터로 발전할 수 있는 방향을 제시하며, 평가 방법론의 개선, 모델 설명 가능성의 강화, 물리 이해로 증강된 기초 모델 개발, 신경망과 기호 추론의 통합, 텍스트-시뮬레이션 생성 엔진 개발을 포함한 다양한 향후 연구 방향을 구체적으로 제안합니다. 궁극적으로 이러한 물리-인식 생성 연구의 발전은 로봇 제어, 환경 시뮬레이션, 의료 수술 훈련, 기후 모델링 등 현실 세계의 물리적 제약이 핵심적인 여러 학제간 응용 분야에서 획기적인 진전을 이루어낼 것으로 기대되고 있습니다.
초록(Abstract)
생성적 인공지능(AI)은 기계가 전례 없는 정교함으로 시각 데이터를 생성하고 해석할 수 있게 함으로써 컴퓨터 비전 분야를 빠르게 발전시켰습니다. 이 변화는 사실적인 이미지, 비디오 및 3D/4D 콘텐츠를 생성하기 위한 생성 모델의 기초 위에서 이루어집니다. 기존의 생성 모델은 주로 시각적 충실도에 집중하고, 종종 생성된 콘텐츠의 물리적 그럴듯함을 간과합니다. 이러한 간극은 로봇 공학, 자율 시스템 및 과학적 시뮬레이션과 같은 실제 물리 법칙을 준수해야 하는 응용 프로그램에서 그들의 효과를 제한합니다. 생성 모델이 물리적 현실성과 동적 시뮬레이션을 점점 더 통합해 나감에 따라, "세계 시뮬레이터"로서 기능할 수 있는 잠재력이 확대되고 있습니다. 따라서 컴퓨터 비전에서 물리 인식 생성 분야는 빠르게 성장하고 있으며, 현재의 노력을 구조적으로 분석하기 위한 포괄적인 서베이가 필요합니다. 이를 위해 이 서베이는 물리적 지식을 어떻게 통합하는지에 따라 방법을 분류하는 체계적인 검토를 제공합니다. 또한 주요 패러다임을 분석하고 평가 프로토콜을 논의하며, 향후 연구 방향을 식별합니다. 이 서베이는 물리적으로 기반한 생성의 미래 발전에 도움을 주기 위해 포괄적인 개요를 제공하는 것을 목표로 합니다. 검토된 논문들은 https://tinyurl.com/Physics-Aware-Generation에서 요약되어 있습니다.
Generative Artificial Intelligence (AI) has rapidly advanced the field of computer vision by enabling machines to create and interpret visual data with unprecedented sophistication. This transformation builds upon a foundation of generative models to produce realistic images, videos, and 3D/4D content. Conventional generative models primarily focus on visual fidelity while often neglecting the physical plausibility of the generated content. This gap limits their effectiveness in applications that require adherence to real-world physical laws, such as robotics, autonomous systems, and scientific simulations. As generative models evolve to increasingly integrate physical realism and dynamic simulation, their potential to function as "world simulators" expands. Therefore, the field of physics-aware generation in computer vision is rapidly growing, calling for a comprehensive survey to provide a structured analysis of current efforts. To serve this purpose, the survey presents a systematic review, categorizing methods based on how they incorporate physical knowledge, either through explicit simulation or implicit learning. It also analyzes key paradigms, discusses evaluation protocols, and identifies future research directions. By offering a comprehensive overview, this survey aims to help future developments in physically grounded generation for computer vision. The reviewed papers are summarized at GitHub - BestJunYu/Awesome-Physics-aware-Generation: Physical laws underpin all existence, and harnessing them for generative modeling opens boundless possibilities for advancing science and shaping the future! · GitHub.
논문 링크
더 읽어보기
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~ ![]()












