[2025/11/24 ~ 30] 이번 주에 살펴볼 만한 AI/ML 논문 모음

[2025/11/24 ~ 30] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR​:fire::south_korea: :thinking::thought_balloon:

:one: 혼합 아키텍처의 발전: 최근 논문들에서는 디퓨전 모델과 오토회귀 모델의 장점을 결합한 혼합 아키텍처가 주목받고 있습니다. 예를 들어, TiDAR는 디퓨전 방식으로 토큰을 생성하고, 오토회귀 방식으로 최종 출력을 샘플링하는 구조를 통해 높은 처리량과 품질을 동시에 달성하고 있습니다. 이러한 접근은 모델의 효율성을 극대화하고, GPU 자원을 효과적으로 활용하는 데 기여하고 있습니다.

:two: 자기 진화 에이전트의 자율성: Agent0와 같은 연구는 외부 데이터에 의존하지 않고도 고성능 에이전트를 진화시킬 수 있는 프레임워크를 제시합니다. 이 방식은 두 개의 에이전트 간의 상호작용을 통해 복잡한 문제를 해결하는 커리큘럼을 생성하며, 도구 통합을 통해 문제 해결 능력을 향상시키는 데 중점을 두고 있습니다. 이는 AI의 자율성과 확장성을 높이는 데 중요한 기여를 하고 있습니다.

:three: 효율적인 모델 훈련 및 최적화: Nemotron Elastic과 EGGROLL과 같은 연구는 대규모 언어 모델의 훈련 비용을 줄이고, 메모리 및 계산 효율성을 높이는 방법론을 제시합니다. 특히, Nemotron Elastic은 여러 하위 모델을 하나의 부모 모델에 내장하여 다양한 배포 구성에 최적화된 모델을 생성할 수 있도록 하며, EGGROLL은 저랭크 학습을 통해 대규모 최적화를 가능하게 합니다. 이러한 접근은 모델 훈련의 경제성을 높이고, 다양한 환경에서의 적용 가능성을 확대합니다.


TiDAR: 디퓨전에서 생각하고, 자기회귀로 대화하기 / TiDAR: Think in Diffusion, Talk in Autoregression


논문 소개

TiDAR는 디퓨전 언어 모델의 빠른 병렬 생성 능력과 자기 회귀(Autoregressive, AR) 모델의 높은 품질을 통합한 혁신적인 하이브리드 아키텍처로, 높은 처리량과 GPU 활용도를 유지하면서도 AR 수준의 품질을 달성하는 것을 목표로 합니다. 기존의 방법들은 디퓨전 모델과 AR 모델 간의 균형을 효과적으로 잡지 못하여, 낮은 초안 효율성이나 품질 저하를 초래했습니다. TiDAR는 이러한 문제를 해결하기 위해 구조적 어텐션 마스크를 활용하여, 단일 전방 패스 내에서 토큰을 디퓨전 방식으로 초안하고 최종 출력을 AR 방식으로 샘플링하는 방식을 채택했습니다.

이 아키텍처는 디퓨전 모델의 병렬 토큰 계산("Thinking")과 AR 모델의 고품질 샘플링("Talking")을 결합하여, 각 생성 단계에서 접두사 토큰, 이전 단계에서 제안된 토큰, 다음 단계에서 미리 초안된 토큰을 세 가지 섹션으로 나누어 처리합니다. 이를 통해 이전 단계의 키-값 캐시를 재사용하고, 제안된 토큰은 현재 단계에서 계산된 AR 모델을 통해 샘플링됩니다. 이러한 과정은 단일 전방 패스에서 효율적으로 수행되며, GPU의 계산 밀도를 최대한 활용하여 초안 작성과 검증 능력 간의 균형을 이룹니다.

TiDAR의 훈련 과정은 데이터 효율적이며, 구조적 인과-양방향 하이브리드 어텐션 마스크를 통해 입력 시퀀스에서 AR과 디퓨전 분포를 동시에 학습하고 샘플링할 수 있습니다. 이 연구는 TiDAR를 AR 모델, 추측 디코딩, 그리고 다양한 디퓨전 변형 모델들과 비교하여 평가하였으며, 1.5B 및 8B 규모에서 우수한 성능을 입증했습니다. TiDAR는 측정된 처리량에서 추측 디코딩을 초과하고, Dream 및 Llada와 같은 디퓨전 모델보다 효율성과 품질 모두에서 뛰어난 결과를 보였습니다. 특히, TiDAR는 AR 모델과의 품질 격차를 줄이면서 초당 4.71배에서 5.91배 더 많은 토큰을 생성할 수 있는 첫 번째 아키텍처로 자리매김하였습니다.

이 연구는 TiDAR의 설계와 성능을 통해 디퓨전 및 AR 모델 간의 균형을 이루는 새로운 가능성을 제시하며, 향후 연구 방향에 대한 통찰을 제공합니다. TiDAR는 빠른 병렬 초안 작성과 고품질 샘플링을 가능하게 하여, 대규모 언어 모델의 발전에 기여할 것으로 기대됩니다.

논문 초록(Abstract)

디퓨전 언어 모델은 빠른 병렬 생성을 약속하지만, 자기 회귀(AR) 모델은 일반적으로 언어 모델링과 자연스럽게 일치하는 인과 구조 덕분에 품질에서 우수한 성능을 보입니다. 이는 근본적인 질문을 제기합니다: 높은 처리량과 높은 GPU 활용도, 그리고 AR 수준의 품질을 동시에 달성할 수 있을까요? 기존 방법들은 이 두 가지 측면을 효과적으로 균형 잡지 못하며, 약한 모델을 사용하여 순차적으로 초안을 작성하는 AR 우선 접근(추측적 디코딩)은 초안 작성 효율성을 낮추고, 디퓨전에 대해 왼쪽에서 오른쪽으로(AR 유사) 디코딩 논리를 사용하는 경우는 품질 저하를 겪고 병렬화 가능성을 포기하게 됩니다. 우리는 TiDAR를 소개합니다. TiDAR는 디퓨전에서 토큰을 초안 작성(Thinking)하고 최종 출력을 자기 회귀적으로 샘플링(Talking)하는 시퀀스 수준의 하이브리드 아키텍처로, 특별히 설계된 구조적 어텐션 마스크를 사용하여 단일 전방 패스 내에서 이 모든 작업을 수행합니다. 이 설계는 무료 GPU 컴퓨팅 밀도를 활용하여 초안 작성과 검증 용량 간의 강력한 균형을 달성합니다. 또한, TiDAR는 독립형 모델로서 서비스 친화적(낮은 오버헤드)으로 설계되었습니다. 우리는 TiDAR를 AR 모델, 추측적 디코딩, 그리고 생성 및 가능성 작업에서 1.5B 및 8B 규모의 디퓨전 변형과 광범위하게 평가합니다. 병렬 초안 작성 및 샘플링, 그리고 정확한 KV 캐시 지원 덕분에 TiDAR는 측정된 처리량에서 추측적 디코딩을 능가하고, 효율성과 품질 모두에서 Dream 및 Llada와 같은 디퓨전 모델을 초월합니다. 특히, TiDAR는 AR 모델과의 품질 격차를 줄이면서 초당 4.71배에서 5.91배 더 많은 토큰을 제공하는 첫 번째 아키텍처입니다.

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language modeling. This raises a fundamental question: can we achieve a synergy with high throughput, higher GPU utilization, and AR level quality? Existing methods fail to effectively balance these two aspects, either prioritizing AR using a weaker model for sequential drafting (speculative decoding), leading to lower drafting efficiency, or using some form of left-to-right (AR-like) decoding logic for diffusion, which still suffers from quality degradation and forfeits its potential parallelizability. We introduce TiDAR, a sequence-level hybrid architecture that drafts tokens (Thinking) in Diffusion and samples final outputs (Talking) AutoRegressively - all within a single forward pass using specially designed structured attention masks. This design exploits the free GPU compute density, achieving a strong balance between drafting and verification capacity. Moreover, TiDAR is designed to be serving-friendly (low overhead) as a standalone model. We extensively evaluate TiDAR against AR models, speculative decoding, and diffusion variants across generative and likelihood tasks at 1.5B and 8B scales. Thanks to the parallel drafting and sampling as well as exact KV cache support, TiDAR outperforms speculative decoding in measured throughput and surpasses diffusion models like Dream and Llada in both efficiency and quality. Most notably, TiDAR is the first architecture to close the quality gap with AR models while delivering 4.71x to 5.91x more tokens per second.

논문 링크


Agent0: 도구 통합 추론을 통한 제로 데이터에서 자기 진화 에이전트의 해방 / Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

논문 소개

Agent0는 외부 데이터 없이 고성능 에이전트를 진화시키기 위한 혁신적인 자율 프레임워크로, 다단계 공동 진화와 도구 통합 추론을 결합하여 구현됩니다. 이 프레임워크는 동일한 기본 대규모 언어 모델(LLM)에서 초기화된 두 개의 에이전트 간의 공생 경쟁을 통해 작동합니다. 커리큘럼 에이전트는 점점 더 도전적인 과제를 제안하며, 실행자 에이전트는 이러한 과제를 해결하는 능력을 학습합니다. 이 과정에서 외부 도구를 통합하여 실행자의 문제 해결 능력을 향상시키고, 이는 다시 커리큘럼 에이전트가 더 복잡하고 도구 인식이 가능한 과제를 생성하도록 압박합니다.

Agent0의 주요 혁신은 이와 같은 자기 강화 사이클을 통해 고품질 커리큘럼을 지속적으로 생성하는 능력입니다. 기존의 자가 진화 프레임워크는 모델의 고유한 지식에 의해 제한되거나 단일 라운드 상호작용에 국한되어 있었으나, Agent0는 이러한 한계를 극복합니다. 실험 결과, Agent0는 Qwen3-8B-Base 모델의 수학적 추론 성능을 18%, 일반 추론 성능을 24% 향상시키는 성과를 보여주었습니다. 이러한 성과는 Agent0가 AI의 자율성과 문제 해결 능력을 크게 향상시킬 수 있는 잠재력을 지니고 있음을 시사합니다.

결론적으로, Agent0는 외부 데이터에 대한 의존성을 제거하고, 도구 통합과 다단계 공동 진화를 통해 LLM 에이전트를 자율적으로 진화시키는 새로운 접근 방식을 제안합니다. 이 연구는 AI의 미래 발전에 기여할 수 있는 중요한 기초를 마련하며, 자가 진화 에이전트의 가능성을 한층 더 확장하는 데 기여할 것입니다.

논문 초록(Abstract)

대규모 언어 모델(LLM) 에이전트는 종종 강화학습(RL)으로 학습되며, 인간이 선별한 데이터에 의존함으로써 확장성이 제한되고 AI가 인간의 지식에 묶이게 됩니다. 기존의 자가 진화 프레임워크는 대안이지만, 일반적으로 모델의 고유한 능력과 단일 라운드 상호작용에 의해 제한되어 도구 사용이나 동적 추론을 포함하는 복잡한 커리큘럼의 개발을 방해합니다. 우리는 외부 데이터 없이 고성능 에이전트를 진화시키는 완전 자율 프레임워크인 Agent0을 소개합니다. Agent0은 동일한 기본 LLM에서 초기화된 두 에이전트 간의 공생 경쟁을 설정합니다: 점점 더 도전적인 최전선 작업을 제안하는 커리큘럼 에이전트와 이를 해결하는 방법을 학습하는 실행 에이전트입니다. 우리는 실행자의 문제 해결 능력을 향상시키기 위해 외부 도구를 통합하며, 이 개선은 커리큘럼 에이전트가 더 복잡하고 도구 인식 작업을 구성하도록 압박합니다. 이러한 반복적인 과정을 통해 Agent0은 지속적으로 고품질 커리큘럼을 생성하는 자기 강화 사이클을 구축합니다. 실험적으로, Agent0은 추론 능력을 상당히 향상시켜 Qwen3-8B-Base 모델의 수학적 추론에서 18%, 일반 추론 벤치마크에서 24% 개선을 이루었습니다. 코드는 GitHub - aiming-lab/Agent0: Agent0 Series: Self-Evolving Agents from Zero Data 에서 확인할 수 있습니다.

Large Language Model (LLM) Agents, often trained with Reinforcement Learning (RL), are constrained by a dependency on human-curated data, limiting scalability and tethering AI to human knowledge. Existing self-evolution frameworks offer an alternative but are typically restricted by the model's inherent capabilities and single-round interactions, hindering the development of complex curricula involving tool use or dynamic reasoning. We introduce Agent0, a fully autonomous framework that evolves high-performing agents without external data through multi-step co-evolution and seamless tool integration. Agent0 establishes a symbiotic competition between two agents initialized from the same base LLM: a curriculum agent that proposes increasingly challenging frontier tasks, and an executor agent that learns to solve them. We integrate external tools to enhance the executor's problem-solving capacity; this improvement, in turn, pressures the curriculum agent to construct more complex, tool-aware tasks. Through this iterative process, Agent0 establishes a self-reinforcing cycle that continuously produces high-quality curricula. Empirically, Agent0 substantially boosts reasoning capabilities, improving the Qwen3-8B-Base model by 18% on mathematical reasoning and 24% on general reasoning benchmarks. Code is available at GitHub - aiming-lab/Agent0: Agent0 Series: Self-Evolving Agents from Zero Data.

논문 링크

더 읽어보기


네모트론 엘라스틱: 효율적인 다중 추론 대규모 언어 모델을 향하여 / Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

논문 소개

대규모 언어 모델(LLM)의 훈련은 다양한 크기와 배포 목표에 맞춰 별도의 훈련이 필요하여 비용이 매우 높습니다. 기존의 모델 압축 기법인 가지치기(pruning)와 지식 증류(knowledge distillation)는 이러한 비용을 줄이는 데 기여했지만, 여전히 수백억 개의 토큰이 소요되는 훈련 비용이 발생합니다. 이러한 문제를 해결하기 위해 제안된 Nemotron Elastic 프레임워크는 여러 중첩된 하위 모델을 단일 부모 모델 내에 통합하여, 각기 다른 배포 구성과 예산에 최적화된 모델을 생성할 수 있는 혁신적인 접근 방식을 제공합니다.

Nemotron Elastic의 핵심은 Mamba-Attention 아키텍처를 기반으로 하여, 하위 모델들이 부모 모델과 가중치를 공유하고, 추가 학습이나 파인튜닝 없이 제로샷(zero-shot)으로 추출할 수 있는 기능을 제공하는 것입니다. 이를 위해, 연구진은 추론 모델에 특화된 두 단계의 훈련 커리큘럼과 밀접하게 결합된 엔드 투 엔드로 훈련된 라우터를 도입하였습니다. 또한, 그룹 인식 SSM 엘라스티피케이션(group-aware SSM elastification), 이질적인 MLP 엘라스티피케이션(heterogeneous MLP elastification), 정규화된 MSE 기반 레이어 중요도(normalized MSE-based layer importance) 등을 통해 모델의 구조적 제약을 유지하면서도 성능을 극대화할 수 있는 방법을 제시합니다.

실험 결과, Nemotron ElasticNemotron Nano V2 12B 모델에 적용하여 단 110B의 학습 토큰으로 9B 및 6B 모델을 동시에 생성하였으며, 이는 기존 모델 패밀리 학습에 비해 360배 이상의 비용 절감을 이루었습니다. 각 중첩 모델은 최신 기술과 동등하거나 더 나은 성능을 보였으며, 이러한 결과는 Nemotron Elastic이 대규모 언어 모델의 효율적인 훈련 및 배포에 기여할 수 있음을 입증합니다.

이 연구는 대규모 언어 모델의 훈련 비용을 획기적으로 줄이고, 다양한 배포 요구에 맞춘 모델을 효율적으로 생성할 수 있는 가능성을 제시하며, 향후 다른 모델 아키텍처와의 결합을 통해 더욱 다양한 응용 가능성을 탐색할 계획입니다. Nemotron Elastic은 모델 압축의 새로운 패러다임을 제시하며, 향후 연구에 중요한 기여를 할 것으로 기대됩니다.

논문 초록(Abstract)

대규모 언어 모델의 가족을 다양한 규모와 배포 목표를 겨냥하여 학습하는 것은 비용이 매우 비쌉니다. 각기 다른 크기에 대해 별도의 학습 실행이 필요하기 때문입니다. 최근 가지치기(pruning)와 지식 증류(knowledge distillation)를 통한 모델 압축 연구는 이 비용을 줄였지만, 이 과정은 여전히 압축된 모델당 수백억 개의 토큰에 해당하는 학습 비용이 발생합니다. 본 논문에서는 여러 중첩된 하위 모델을 단일 부모 모델 내에 포함하여 다양한 배포 구성과 예산에 최적화된 추론 지향 대규모 언어 모델(LLM)을 구축하기 위한 프레임워크인 Nemotron Elastic을 제시합니다. 이러한 하위 모델 각각은 부모 모델과 가중치를 공유하며, 추가적인 학습이나 파인튜닝 없이 배포 시 제로샷(zero-shot)으로 추출될 수 있습니다. 우리는 추론 모델을 위해 특별히 설계된 두 단계의 학습 커리큘럼에 밀접하게 결합된 엔드 투 엔드(end-to-end) 학습된 라우터를 통해 이 기능을 가능하게 합니다. 또한, Mamba의 구조적 제약을 유지하는 그룹 인식(group-aware) SSM 엘라스티피케이션(elastification), 이질적인 MLP 엘라스티피케이션, 향상된 깊이 선택을 위한 정규화된 MSE 기반 레이어 중요도, 그리고 동시에 다중 예산 최적화를 가능하게 하는 지식 증류를 도입합니다. 우리는 Nemotron Elastic을 Nemotron Nano V2 12B 모델에 적용하여 110B의 학습 토큰만 사용하여 동시에 9B 및 6B 모델을 생성하였으며, 이는 모델 가족을 처음부터 학습하는 것에 비해 360배 이상의 비용 절감을 가져오고, 최신 압축 기술에 비해 약 7배의 비용 절감을 이룹니다. 각 중첩 모델은 정확도 면에서 최신 기술과 동등하거나 더 나은 성능을 보입니다. 게다가, 다른 압축 방법과 달리, 우리의 접근 방식의 중첩 기능은 모델 가족의 수에 관계없이 일정한 배포 메모리를 가진 다중 추론 모델을 갖는 것을 가능하게 합니다.

Training a family of large language models targeting multiple scales and deployment objectives is prohibitively expensive, requiring separate training runs for each different size. Recent work on model compression through pruning and knowledge distillation has reduced this cost; however, this process still incurs hundreds of billions of tokens worth of training cost per compressed model. In this paper, we present Nemotron Elastic, a framework for building reasoning-oriented LLMs, including hybrid Mamba-Attention architectures, that embed multiple nested submodels within a single parent model, each optimized for different deployment configurations and budgets. Each of these submodels shares weights with the parent model and can be extracted zero-shot during deployment without additional training or fine-tuning. We enable this functionality through an end-to-end trained router, tightly coupled to a two-stage training curriculum designed specifically for reasoning models. We additionally introduce group-aware SSM elastification that preserves Mamba's structural constraints, heterogeneous MLP elastification, normalized MSE-based layer importance for improved depth selection, and knowledge distillation enabling simultaneous multi-budget optimization. We apply Nemotron Elastic to the Nemotron Nano V2 12B model, simultaneously producing a 9B and a 6B model using only 110B training tokens; this results in over 360x cost reduction compared to training model families from scratch, and around 7x compared to SoTA compression techniques. Each of the nested models performs on par or better than the SoTA in accuracy. Moreover, unlike other compression methods, the nested capability of our approach allows having a many-in-one reasoning model that has constant deployment memory against the number of models in the family.

논문 링크

더 읽어보기


초대규모에서의 진화 전략 / Evolution Strategies at the Hyperscale

논문 소개

EGGROLL(진화 유도 일반 최적화)는 대규모 신경망 아키텍처를 위한 진화 전략(ES) 알고리즘으로, 역전파 없이 대규모 인구 크기로 최적화를 확장할 수 있도록 설계되었습니다. ES는 비미분 가능하거나 노이즈가 있는 목표를 처리할 수 있는 강력한 블랙박스 최적화 방법으로, 병렬화를 통해 우수한 확장성을 제공합니다. 그러나 기본 ES는 행렬 섭동을 생성하는 데 필요한 계산 및 메모리 비용으로 인해 대규모에서 비현실적으로 비쌉니다. EGGROLL은 저차원 행렬 섭동을 생성하여 이러한 병목 현상을 극복하며, 이를 통해 메모리와 계산 비용을 크게 절감합니다. 이 방법은 각 레이어당 보조 저장소를 mn 에서 r(m+n) 으로 줄이고, 순방향 패스의 비용을 \mathcal{O}(mn) 에서 \mathcal{O}(r(m+n)) 로 감소시킵니다. 이론적 분석에 따르면, 저차원 업데이트는 빠른 \mathcal{O}\left(\frac{1}{r}\right) 속도로 전체 차원 업데이트에 수렴합니다. 실험 결과, EGGROLL은 RL 설정에서 ES의 성능을 저하시키지 않으며, LLM 추론 개선을 위한 GRPO와 경쟁력이 있고, 정수 데이터 타입으로만 작동하는 비선형 순환 언어 모델의 안정적인 사전 학습을 가능하게 합니다.

논문 초록(Abstract)

우리는 진화 전략(evolution strategies, ES) 알고리즘인 저랭크 학습을 통한 진화 유도 일반 최적화(Evolution Guided General Optimization via Low-rank Learning, EGGROLL)를 소개합니다. EGGROLL은 수십억 개의 매개변수를 가진 현대의 대규모 신경망 아키텍처를 위해 역전파 없는 최적화를 대규모 인구 크기로 축소하도록 설계되었습니다. ES는 비미분 가능하거나 노이즈가 있는 목표를 훌륭한 확장 가능성을 통해 병렬화로 처리할 수 있는 강력한 블랙박스 최적화 방법의 집합입니다. 단순한 ES는 행렬 섭동 E\in\mathbb{R}^{m\times n} 을 생성하는 데 소요되는 계산 및 메모리 비용과 각 구성원에 대한 순방향 패스를 계산하기 위해 필요한 배치 행렬 곱셈 때문에 대규모에서 비용이 과도하게 발생합니다. EGGROLL은 r\ll \min(m,n) 인 무작위 행렬 A\in \mathbb{R}^{m\times r},\ B\in \mathbb{R}^{n\times r} 를 생성하여 전체 랭크 섭동 E 대신 사용할 저랭크 행렬 섭동 A B^\top 을 형성함으로써 이러한 병목 현상을 극복합니다. 전체 업데이트는 N 명의 작업자 집단을 통한 평균이므로 여전히 고랭크 업데이트가 이루어지지만, 메모리 및 계산 비용이 크게 절감되어 각 레이어당 보조 저장소가 mn 에서 r(m+n) 으로 줄어들고, 순방향 패스의 비용이 전체 랭크 ES와 비교할 때 \mathcal{O}(mn) 에서 \mathcal{O}(r(m+n)) 로 감소합니다. 이론적 분석에 따르면 우리의 저랭크 업데이트는 빠른 \mathcal{O}\left(\frac{1}{r}\right) 속도로 전체 랭크 업데이트에 수렴합니다. 실험 결과는 (1) EGGROLL이 빠르면서도 탁월한 성능을 유지하여 탁상 공론(tabula-rasa) 강화학습 설정에서 ES의 성능을 저하시키지 않음을 보여주고, (2) LLM 추론 개선을 위한 기법으로 GRPO와 경쟁력이 있음을 입증하며, (3) EGGROLL이 순수 정수 데이터 타입에서 작동하는 비선형 순환 언어 모델의 안정적인 사전 학습을 가능하게 한다는 것을 보여줍니다.

We introduce Evolution Guided General Optimization via Low-rank Learning (EGGROLL), an evolution strategies (ES) algorithm designed to scale backprop-free optimization to large population sizes for modern large neural network architectures with billions of parameters. ES is a set of powerful blackbox optimisation methods that can handle non-differentiable or noisy objectives with excellent scaling potential through parallelisation. Na{ï}ve ES becomes prohibitively expensive at scale due to the computational and memory costs associated with generating matrix perturbations E\in\mathbb{R}^{m\times n} and the batched matrix multiplications needed to compute per-member forward passes. EGGROLL overcomes these bottlenecks by generating random matrices A\in \mathbb{R}^{m\times r},\ B\in \mathbb{R}^{n\times r} with r\ll \min(m,n) to form a low-rank matrix perturbation A B^\top that are used in place of the full-rank perturbation E. As the overall update is an average across a population of N workers, this still results in a high-rank update but with significant memory and computation savings, reducing the auxiliary storage from mn to r(m+n) per layer and the cost of a forward pass from \mathcal{O}(mn) to \mathcal{O}(r(m+n)) when compared to full-rank ES. A theoretical analysis reveals our low-rank update converges to the full-rank update at a fast \mathcal{O}\left(\frac{1}{r}\right) rate. Our experiments show that (1) EGGROLL does not compromise the performance of ES in tabula-rasa RL settings, despite being faster, (2) it is competitive with GRPO as a technique for improving LLM reasoning, and (3) EGGROLL enables stable pre-training of nonlinear recurrent language models that operate purely in integer datatypes.

논문 링크

더 읽어보기


해결에서 검증으로: LLM의 강력한 추론을 위한 통합 목표 / From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs

논문 소개

대규모 언어 모델(LLMs)의 추론 능력은 최근 강화학습(Reinforcement Learning, RL)을 통해 크게 향상되었으나, 이들이 생성한 결과의 신뢰성을 검증하는 능력은 여전히 부족하다. 이러한 문제는 LLMs가 자신의 추론 과정을 일관되게 검증하는 데 어려움을 겪고 있다는 점에서 기인한다. 본 연구는 LLMs의 자기 검증 능력을 강화하고, 이러한 능력이 추론 성능을 어떻게 개선할 수 있는지를 탐구하는 데 중점을 두고 있다.

제안된 GRPO-Verif 알고리즘은 해결책 생성과 자기 검증을 통합된 손실 함수 내에서 공동 최적화하는 혁신적인 접근 방식을 채택하고 있다. 이 알고리즘은 검증 신호의 가중치를 조절할 수 있는 하이퍼파라미터를 포함하여, 두 가지 목표를 동시에 고려하는 최적화 과정을 가능하게 한다. 이러한 구조는 LLM이 더 나은 추론 결과를 생성할 수 있도록 지원하며, 자기 검증 능력을 향상시키는 데 기여한다.

실험 결과는 GRPO-Verif 알고리즘이 자기 검증 능력을 효과적으로 향상시키면서도 기존 모델과 유사한 성능을 유지함을 보여준다. 특히, 자기 검증이 강화된 경우의 성능 향상은 수치적으로 입증되었으며, 이는 LLMs의 전반적인 추론 성능 개선에 긍정적인 영향을 미친다. 본 연구는 LLMs의 자기 검증 능력을 향상시키기 위한 새로운 방법론을 제시함으로써, 해당 분야의 연구에 중요한 기여를 하고 있다.

향후 연구에서는 다양한 데이터셋과 문제에 대한 GRPO-Verif 알고리즘의 적용 가능성을 탐구할 필요성이 제기된다. 이러한 연구는 LLMs의 성능을 더욱 향상시키고, 이들이 실제 응용 분야에서 신뢰성을 갖춘 결과를 생성할 수 있도록 하는 데 기여할 것이다.

논문 초록(Abstract)

대규모 언어 모델(LLM)의 추론 능력은 강화학습(RL)을 통해 크게 향상되었습니다. 그럼에도 불구하고 LLM은 여전히 자신의 추론 과정을 일관되게 검증하는 데 어려움을 겪고 있습니다. 이는 LLM의 자기 검증 능력을 향상시키는 방법과 이러한 능력이 추론 성능을 더욱 개선할 수 있는지를 연구하는 질문을 제기합니다. 본 연구에서는 솔루션 생성과 자기 검증을 통합된 손실 함수 내에서 공동 최적화하는 알고리즘인 GRPO-Verif를 제안하며, 검증 신호의 가중치를 조절하는 하이퍼파라미터를 조정할 수 있습니다. 실험 결과, 우리의 방법이 추론 성능을 유지하면서 자기 검증 능력을 향상시킨다는 것을 보여줍니다.

The reasoning capabilities of large language models (LLMs) have been significantly improved through reinforcement learning (RL). Nevertheless, LLMs still struggle to consistently verify their own reasoning traces. This raises the research question of how to enhance the self-verification ability of LLMs and whether such an ability can further improve reasoning performance. In this work, we propose GRPO-Verif, an algorithm that jointly optimizes solution generation and self-verification within a unified loss function, with an adjustable hyperparameter controlling the weight of the verification signal. Experimental results demonstrate that our method enhances self-verification capability while maintaining comparable performance in reasoning.

논문 링크


맥락 공학 2.0: 맥락 공학의 맥락 / Context Engineering 2.0: The Context of Context Engineering


논문 소개

인간의 본질은 사회적 관계의 집합이라는 카를 마르크스의 주장은 개인이 고립된 존재가 아니라 상호작용을 통해 형성된다는 것을 강조합니다. 최근 컴퓨터와 인공지능의 발전으로, 이러한 맥락은 인간 간의 상호작용을 넘어 인간과 기계 간의 상호작용까지 포함하게 되었습니다. 이에 따라 기계가 우리의 상황과 목적을 더 잘 이해할 수 있는 방법에 대한 질문이 제기됩니다. 이를 해결하기 위해 연구자들은 맥락 공학(context engineering)이라는 개념을 도입했습니다. 맥락 공학은 최근의 혁신으로 여겨지지만, 관련된 실천은 20년 이상 거슬러 올라갈 수 있습니다. 1990년대 초반부터 현재의 지능형 에이전트 기반 인간-에이전트 상호작용 패러다임에 이르기까지, 이 분야는 기계의 지능 수준에 따라 여러 역사적 단계를 거쳐 발전해왔습니다. 본 논문에서는 맥락 공학을 정의하고, 그 역사적 및 개념적 배경을 정리하며, 실천을 위한 주요 설계 고려사항을 살펴봅니다. 이러한 질문을 다룸으로써 맥락 공학의 개념적 기초를 제공하고, 그 미래 가능성을 제시하고자 합니다. 본 논문은 AI 시스템에서 체계적인 맥락 공학을 위한 더 넓은 커뮤니티 노력의 초석이 될 것입니다.

논문 초록(Abstract)

카를 마르크스는 “인간 본질은 사회적 관계의 총체”라고 썼으며, 이는 개인이 고립된 존재가 아니라 다른 존재와의 상호작용에 의해 근본적으로 형성된다는 것을 시사합니다. 이 과정에서 맥락은 구성적이고 필수적인 역할을 합니다. 컴퓨터와 인공지능의 출현으로 이러한 맥락은 더 이상 순수한 인간-인간 상호작용에 국한되지 않고, 인간-기계 상호작용도 포함됩니다. 그러면 중앙 질문이 제기됩니다: 기계는 우리의 상황과 목적을 어떻게 더 잘 이해할 수 있을까요? 이 문제를 해결하기 위해 연구자들은 최근 맥락 공학(context engineering)이라는 개념을 도입했습니다. 이는 종종 에이전트 시대의 최근 혁신으로 간주되지만, 우리는 관련된 관행이 20년 이상 거슬러 올라갈 수 있다고 주장합니다. 1990년대 초반부터 이 분야는 기계의 지능 수준에 따라 형성된 뚜렷한 역사적 단계들을 거쳐 발전해왔습니다: 초기의 원시 컴퓨터를 기반으로 한 인간-컴퓨터 상호작용 프레임워크에서, 오늘날의 지능형 에이전트에 의해 주도되는 인간-에이전트 상호작용 패러다임, 그리고 미래의 인간 수준 또는 초인간 지능으로 나아갈 가능성까지 포함됩니다. 본 논문에서는 맥락 공학을 위치 지우고, 체계적인 정의를 제공하며, 그 역사적 및 개념적 경관을 개략적으로 설명하고, 실제 적용을 위한 주요 설계 고려사항을 검토합니다. 이러한 질문을 다룸으로써, 우리는 맥락 공학에 대한 개념적 기초를 제공하고 그 유망한 미래를 구상하는 것을 목표로 합니다. 이 논문은 AI 시스템에서 체계적인 맥락 공학을 위한 더 넓은 커뮤니티 노력의 디딤돌이 될 것입니다.

Karl Marx once wrote that ``the human essence is the ensemble of social relations'', suggesting that individuals are not isolated entities but are fundamentally shaped by their interactions with other entities, within which contexts play a constitutive and essential role. With the advent of computers and artificial intelligence, these contexts are no longer limited to purely human--human interactions: human--machine interactions are included as well. Then a central question emerges: How can machines better understand our situations and purposes? To address this challenge, researchers have recently introduced the concept of context engineering. Although it is often regarded as a recent innovation of the agent era, we argue that related practices can be traced back more than twenty years. Since the early 1990s, the field has evolved through distinct historical phases, each shaped by the intelligence level of machines: from early human--computer interaction frameworks built around primitive computers, to today's human--agent interaction paradigms driven by intelligent agents, and potentially to human--level or superhuman intelligence in the future. In this paper, we situate context engineering, provide a systematic definition, outline its historical and conceptual landscape, and examine key design considerations for practice. By addressing these questions, we aim to offer a conceptual foundation for context engineering and sketch its promising future. This paper is a stepping stone for a broader community effort toward systematic context engineering in AI systems.

논문 링크

더 읽어보기


슬라이싱이 전부다: 분산 행렬 곱셈을 위한 범용 단일 측면 알고리즘 개발 / Slicing Is All You Need: Towards A Universal One-Sided Algorithm for Distributed Matrix Multiplication

논문 소개

분산 행렬 곱셈은 과학, 데이터 분석 및 인공지능(AI) 작업에서 필수적인 연산으로, 효율적인 알고리즘 개발이 요구된다. 기존의 알고리즘들은 1D, 2D, 1.5D 및 2.5D와 같은 다양한 분할 방식에 적합하지만, 특정 분할 방식에만 제한되어 있어 모든 가능한 조합을 지원하기 위해서는 여러 구현이 필요하다. 이러한 제한은 피연산자의 재분배를 초래하고, 이는 통신 비용을 증가시키는 문제를 야기한다. 본 논문에서는 모든 조합의 분할 방식과 복제 계수를 지원하는 보편적인 단일 측면 알고리즘을 제안한다. 이 알고리즘은 슬라이싱(인덱스 산술)을 활용하여 곱셈이 필요한 겹치는 타일 집합을 계산하고, 생성된 로컬 행렬 곱셈 목록을 직접 실행하거나 최적화된 중간 표현(Intermediate Representation, IR)으로 낮추어 계산과 통신의 겹침을 극대화한다.

제안된 알고리즘은 고급 C++ 기반의 PGAS(Partitioned Global Address Space) 프로그래밍 프레임워크를 통해 구현되며, GPU 간의 직접 통신을 지원한다. 다양한 분할 방식과 복제 계수에 대한 성능 평가 결과, 제안된 알고리즘은 PyTorch DTensor와 경쟁할 수 있는 성능을 보였다. 특히, 알고리즘은 행렬 A, B, C의 모든 조합에 대한 분할 방식과 복제 계수를 지원하여 조합적으로 큰 매개변수 집합을 테스트할 수 있다. 실험 결과, 알고리즘은 직접 실행 방식과 최적화된 IR로 낮추는 방식 모두에서 효율성을 입증하였으며, 특히 비동기성을 허용한 최적화가 성능 향상에 기여하였다.

이 연구는 분산 행렬 곱셈의 효율성을 높이고, 다양한 AI 모델에 대한 적용 가능성을 확장하는 데 중요한 기여를 한다. 향후 연구에서는 이 알고리즘을 SPMD(Single Program Multiple Data) 시스템에 통합하여 지원되는 분포의 수를 더욱 확장할 계획이다.

논문 초록(Abstract)

많은 중요한 응용 프로그램이 과학, 데이터 분석 및 AI 작업 부하에서 분산 행렬 곱셈에 의존합니다. 이전 연구에서는 1D, 2D, 1.5D 및 2.5D 알고리즘을 포함하여 다양한 문제 크기와 분할에 적합한 많은 알고리즘을 개발했습니다. 현재 작업의 한계는 기존 알고리즘이 분할의 하위 집합에만 제한된다는 것입니다. 가능한 모든 분할 공간을 지원하기 위해서는 여러 알고리즘 구현이 필요합니다. 특정 분할 집합에 대한 알고리즘 구현이 없는 경우, 하나 이상의 피연산자를 재분배해야 하며, 이로 인해 통신 비용이 증가합니다. 본 논문에서는 모든 조합의 분할 및 복제 계수를 지원하는 분산 행렬 곱셈을 위한 범용 단일 측면 알고리즘을 제시합니다. 우리의 알고리즘은 슬라이싱(인덱스 산술)을 사용하여 함께 곱해야 하는 겹치는 타일 집합을 계산합니다. 이 로컬 행렬 곱셈 목록은 직접 실행되거나 재정렬되어 최적화된 중간 표현(IR)로 낮춰져 중복을 극대화할 수 있습니다. 우리는 노드 내 상호 연결을 사용하여 직접 GPU 간 통신을 수행하는 고급 C++ 기반 PGAS 프로그래밍 프레임워크를 사용하여 알고리즘을 구현합니다. 다양한 분할 및 복제 계수에 대한 성능을 평가한 결과, 우리의 연구는 AI 모델을 목표로 하는 고도로 최적화된 분산 텐서 라이브러리인 PyTorch DTensor와 경쟁력이 있음을 발견했습니다.

Many important applications across science, data analytics, and AI workloads depend on distributed matrix multiplication. Prior work has developed a large array of algorithms suitable for different problem sizes and partitionings including 1D, 2D, 1.5D, and 2.5D algorithms. A limitation of current work is that existing algorithms are limited to a subset of partitionings. Multiple algorithm implementations are required to support the full space of possible partitionings. If no algorithm implementation is available for a particular set of partitionings, one or more operands must be redistributed, increasing communication costs. This paper presents a universal one-sided algorithm for distributed matrix multiplication that supports all combinations of partitionings and replication factors. Our algorithm uses slicing (index arithmetic) to compute the sets of overlapping tiles that must be multiplied together. This list of local matrix multiplies can then either be executed directly, or reordered and lowered to an optimized IR to maximize overlap. We implement our algorithm using a high-level C++-based PGAS programming framework that performs direct GPU-to-GPU communication using intra-node interconnects. We evaluate performance for a wide variety of partitionings and replication factors, finding that our work is competitive with PyTorch DTensor, a highly optimized distributed tensor library targeting AI models.


디퓨전 모델의 원리 / The Principles of Diffusion Models

논문 소개

확산 모델의 핵심 원칙을 다룬 이 논문은 확산 모델의 발전 과정을 추적하고 다양한 수식이 공유하는 수학적 아이디어에서 어떻게 발생하는지를 보여줍니다. 확산 모델링은 데이터를 점진적으로 노이즈로 변환하는 전방 프로세스를 정의하는 것에서 시작하며, 데이터 분포를 간단한 사전 분포와 연결합니다. 목표는 노이즈를 데이터로 변환하는 역 프로세스를 학습하고 중간 분포를 복원하는 것입니다. 세 가지 보완적인 관점을 설명합니다. 변분 관점은 변분 오토인코더에서 영감을 받아 노이즈를 단계적으로 제거하는 것으로 확산을 이해합니다. 점수 기반 관점은 에너지 기반 모델링에 뿌리를 두고 데이터 분포의 그래디언트를 학습하여 샘플을 더 가능성이 높은 영역으로 이동시키는 방법을 제시합니다. 흐름 기반 관점은 정규화 흐름과 관련이 있으며, 학습된 속도 필드 아래에서 노이즈에서 데이터로 샘플을 이동시키는 부드러운 경로를 따르는 생성으로 간주합니다. 이러한 관점들은 간단한 사전을 데이터로 운반하는 시간 의존적 속도 필드를 공유합니다. 샘플링은 노이즈를 데이터로 변환하는 연속 궤적을 따라 발전하는 미분 방정식을 푸는 것으로 요약됩니다. 이 논문은 제어 가능한 생성, 효율적인 수치 해법, 그리고 임의의 시간 간의 직접 매핑을 학습하는 확산 기반 흐름 맵 모델에 대한 지침을 논의합니다. 기본적인 딥러닝 지식을 가진 독자를 위한 확산 모델에 대한 개념적이고 수학적으로 기반이 있는 이해를 제공합니다.

논문 초록(Abstract)

이 단행본은 디퓨전 모델의 발전을 이끌어온 핵심 원칙을 제시하며, 그 기원을 추적하고 공유된 수학적 아이디어에서 어떻게 다양한 형식이 발생하는지를 보여줍니다. 디퓨전 모델링은 데이터를 점진적으로 노이즈로 변환하는 전방 프로세스를 정의하는 것으로 시작하며, 데이터 분포를 간단한 사전 분포와 연결하는 중간 분포의 연속체를 형성합니다. 목표는 노이즈를 데이터로 변환하면서 동일한 중간 상태를 복구하는 역방향 프로세스를 학습하는 것입니다. 우리는 세 가지 보완적인 관점을 설명합니다. 변분 관점은 변분 오토인코더에서 영감을 받아 디퓨전을 단계별로 노이즈를 제거하는 것으로 봅니다. 스코어 기반 관점은 에너지 기반 모델링에 뿌리를 두고 있으며, 진화하는 데이터 분포의 그래디언트를 학습하여 샘플을 더 가능성이 높은 영역으로 유도하는 방법을 나타냅니다. 흐름 기반 관점은 정규화 흐름과 관련이 있으며, 생성 과정을 노이즈에서 데이터로 이동하는 부드러운 경로를 따르는 것으로 간주합니다. 이러한 관점들은 공통된 뼈대를 공유합니다: 간단한 사전을 데이터로 운반하는 시간 의존적인 속도 필드입니다. 샘플링은 노이즈를 데이터로 변환하는 연속적인 경로를 따라 진화하는 미분 방정식을 푸는 것과 같습니다. 이 기초 위에서, 단행본은 제어 가능한 생성에 대한 안내, 효율적인 수치 해법, 그리고 임의의 시간 간의 직접적인 매핑을 학습하는 디퓨전 기반 흐름 맵 모델에 대해 논의합니다. 이는 기본적인 딥러닝 지식을 가진 독자를 위한 디퓨전 모델에 대한 개념적이고 수학적으로 기반이 있는 이해를 제공합니다.

This monograph presents the core principles that have guided the development of diffusion models, tracing their origins and showing how diverse formulations arise from shared mathematical ideas. Diffusion modeling starts by defining a forward process that gradually corrupts data into noise, linking the data distribution to a simple prior through a continuum of intermediate distributions. The goal is to learn a reverse process that transforms noise back into data while recovering the same intermediates. We describe three complementary views. The variational view, inspired by variational autoencoders, sees diffusion as learning to remove noise step by step. The score-based view, rooted in energy-based modeling, learns the gradient of the evolving data distribution, indicating how to nudge samples toward more likely regions. The flow-based view, related to normalizing flows, treats generation as following a smooth path that moves samples from noise to data under a learned velocity field. These perspectives share a common backbone: a time-dependent velocity field whose flow transports a simple prior to the data. Sampling then amounts to solving a differential equation that evolves noise into data along a continuous trajectory. On this foundation, the monograph discusses guidance for controllable generation, efficient numerical solvers, and diffusion-motivated flow-map models that learn direct mappings between arbitrary times. It provides a conceptual and mathematically grounded understanding of diffusion models for readers with basic deep-learning knowledge.

논문 링크


제로 오류로 백만 단계 LLM 작업 해결하기 / Solving a Million-Step LLM Task with Zero Errors

논문 소개

대규모 언어 모델(LLM)은 최근 추론 및 도구 사용에서 상당한 발전을 이루었지만, 이러한 능력을 인간과 조직이 수행하는 복잡한 작업으로 연결하는 데는 한계가 있었다. 특히, LLM은 장기적인 작업에서 높은 오류율로 인해 확장성이 제한되는 문제를 안고 있다. 본 연구에서는 MAKER라는 시스템을 제안하여 100만 단계의 LLM 작업을 오류 없이 성공적으로 해결하는 방법을 제시한다. 이 시스템은 작업을 극단적으로 하위 작업으로 분해하고, 각 하위 작업을 집중된 마이크로 에이전트가 처리하도록 구성된다.

MAKER의 핵심은 하위 작업의 모듈성을 활용하여 각 단계에서 오류 수정을 적용하는 효율적인 다중 에이전트 투표 체계이다. 이를 통해 오류를 최소화하고, 전체 작업의 성공 확률을 높일 수 있다. 특히, first-to-ahead-by-kk 투표 방식은 독립적인 샘플의 통계적 힘을 활용하여 최종 결정을 내리는 데 기여한다. 이 방법은 LLM의 출력에서 오류 위험이 증가할 가능성이 있는 구조를 가진 출력을 폐기하는 "레드 플래그" 기법과 결합되어, 신뢰성을 더욱 높인다.

MAKER 시스템은 극단적인 에이전틱 분해(Maximal Agentic Decomposition)를 통해 각 에이전트가 단일 단계에 집중할 수 있도록 하여, 혼란을 방지하고 역할에 충실하게 만든다. 이러한 접근은 더 작은 LLM을 사용할 수 있게 하며, 각 하위 작업의 성공 확률을 높인다. 연구 결과, MAKER는 1,000,000 단계의 작업에서 높은 확률로 오류 없는 솔루션을 제공할 수 있으며, 이는 LLM의 장기적인 작업 수행 능력을 크게 향상시킬 수 있음을 시사한다.

이 연구는 LLM 기반 시스템의 신뢰성을 높이는 데 중요한 기여를 하며, 대규모 분해된 에이전틱 프로세스(MDAPs)가 조직 및 사회 수준에서 문제를 효율적으로 해결할 수 있는 가능성을 제시한다.

논문 초록(Abstract)

대규모 언어 모델(LLMs)은 추론, 통찰력 및 도구 사용에서 놀라운 돌파구를 이루었지만, 이러한 능력을 인간, 조직 및 사회가 일상적으로 수행하는 규모의 연장된 프로세스로 연결하는 것은 여전히 불가능한 상태입니다. 이 모델들은 확장성을 방해하는 지속적인 오류율을 가지고 있습니다. 예를 들어, 하노이의 탑 벤치마크 도메인에서의 최근 실험은 프로세스가 최대 몇 백 단계 후에 불가피하게 탈선하게 됨을 보여주었습니다. 따라서 LLM 연구는 여전히 상대적으로 적은 의존적 논리 단계가 있는 작업에 대해 벤치마크가 이루어지고 있지만, LLM이 장기 작업을 수행할 수 있는 능력(또는 무능력)에 대한 관심이 증가하고 있습니다. 본 논문에서는 100만 개 이상의 LLM 단계를 오류 없이 성공적으로 해결하는 최초의 시스템인 MAKER를 설명하며, 원칙적으로 이 수준을 훨씬 초과하여 확장할 수 있습니다. 이 접근법은 작업을 극단적으로 세분화하여 각 세부 작업을 집중된 마이크로 에이전트가 처리할 수 있도록 합니다. 세분화로 인해 발생하는 높은 수준의 모듈성은 효율적인 다중 에이전트 투표 체계를 통해 각 단계에서 오류 수정을 적용할 수 있게 합니다. 이러한 극단적인 세분화와 오류 수정의 조합은 확장을 가능하게 합니다. 따라서 결과는 현재의 LLM의 지속적인 개선에 의존하기보다는, 대규모 세분화된 에이전틱 프로세스(MDAPs)가 조직 및 사회 수준의 문제를 효율적으로 해결할 수 있는 방법을 제공할 수 있음을 시사합니다.

LLMs have achieved remarkable breakthroughs in reasoning, insights, and tool use, but chaining these abilities into extended processes at the scale of those routinely executed by humans, organizations, and societies has remained out of reach. The models have a persistent error rate that prevents scale-up: for instance, recent experiments in the Towers of Hanoi benchmark domain showed that the process inevitably becomes derailed after at most a few hundred steps. Thus, although LLM research is often still benchmarked on tasks with relatively few dependent logical steps, there is increasing attention on the ability (or inability) of LLMs to perform long range tasks. This paper describes MAKER, the first system that successfully solves a task with over one million LLM steps with zero errors, and, in principle, scales far beyond this level. The approach relies on an extreme decomposition of a task into subtasks, each of which can be tackled by focused microagents. The high level of modularity resulting from the decomposition allows error correction to be applied at each step through an efficient multi-agent voting scheme. This combination of extreme decomposition and error correction makes scaling possible. Thus, the results suggest that instead of relying on continual improvement of current LLMs, massively decomposed agentic processes (MDAPs) may provide a way to efficiently solve problems at the level of organizations and societies.

논문 링크


RynnVLA-002: 통합 비전-언어-행동 및 세계 모델 / RynnVLA-002: A Unified Vision-Language-Action and World Model

논문 소개

RynnVLA-002는 비전-언어-행동(Vision-Language-Action, VLA) 모델과 세계 모델을 통합한 혁신적인 프레임워크로, 로봇 작업에서의 성능 향상을 목표로 하고 있다. 이 모델은 행동 및 시각 입력을 활용하여 미래의 이미지 상태를 예측하고, 환경의 물리적 특성을 학습함으로써 행동 생성을 개선하는 세계 모델과, 이미지 관찰을 통해 후속 행동을 생성하여 시각적 이해를 강화하는 VLA 모델 간의 상호작용을 통해 작동한다. 이러한 통합된 접근 방식은 환경 동역학과 행동 계획의 공동 학습을 가능하게 하여, 각 모델의 성능을 상호 보완적으로 향상시킨다.

실험 결과, RynnVLA-002는 개별 VLA 및 세계 모델보다 우수한 성능을 보여주었으며, LIBERO 시뮬레이션 벤치마크에서 97.4%의 성공률을 기록하였다. 특히, 사전 학습 없이도 강력한 성능을 발휘하며, 실제 로봇 작업에서도 통합된 세계 모델이 전체 성공률을 50% 향상시키는 결과를 보였다. 이러한 성과는 RynnVLA-002가 로봇의 다양한 작업을 수행하는 데 있어 효과적인 도구임을 입증한다.

RynnVLA-002의 성능 평가는 LIBERO 벤치마크의 여러 작업을 통해 이루어졌으며, 이 과정에서 VLA 모델의 성공률과 세계 모델의 비디오 예측 정확도를 다양한 메트릭을 사용하여 평가하였다. 아울러, 실제 로봇 실험에서는 새로운 조작 데이터셋을 활용하여 두 가지 픽 앤 플레이스 작업을 정의하고, 기존의 기준 모델과 비교하여 경쟁력 있는 결과를 도출하였다. 특히, 혼잡한 환경에서의 성능이 두드러지며, RynnVLA-002는 기준 모델보다 10%에서 30% 더 높은 성공률을 기록하였다.

또한, 아블레이션 연구를 통해 VLA 모델이 세계 모델의 이점을 활용하는 방식이 분석되었으며, 세계 모델 데이터가 훈련 과정에서 성능 향상에 기여하는 것을 확인하였다. 어텐션 마스크를 활용한 이산 행동 청크 생성은 효과적이고 효율적인 잡기를 달성하는 데 필수적임을 보여주며, 제안된 메커니즘이 행동 시퀀스 내에서 오류 전파 문제를 완화하는 데 기여한다.

RynnVLA-002는 비전-언어-행동 모델과 세계 모델의 통합을 통해 로봇 작업에서의 성능을 크게 향상시킬 수 있는 가능성을 제시하며, 향후 다양한 로봇 응용 프로그램에서의 활용 가능성을 보여준다.

논문 초록(Abstract)

우리는 RynnVLA-002를 소개합니다. RynnVLA-002는 통합된 비전-언어-행동(Vision-Language-Action, VLA) 및 세계 모델입니다. 이 세계 모델은 행동 및 시각 입력을 활용하여 미래의 이미지 상태를 예측하고, 환경의 기본 물리학을 학습하여 행동 생성을 개선합니다. 반대로, VLA 모델은 이미지 관찰에서 후속 행동을 생성하여 시각적 이해를 향상시키고 세계 모델의 이미지 생성을 지원합니다. RynnVLA-002의 통합된 프레임워크는 환경 동역학과 행동 계획의 공동 학습을 가능하게 합니다. 우리의 실험 결과, RynnVLA-002는 개별 VLA 및 세계 모델을 초월하여 상호 강화 효과를 입증합니다. 우리는 RynnVLA-002를 시뮬레이션 및 실제 로봇 작업 모두에서 평가하였습니다. RynnVLA-002는 사전 학습 없이 LIBERO 시뮬레이션 벤치마크에서 97.4%의 성공률을 달성하였으며, 실제 LeRobot 실험에서는 통합된 세계 모델이 전체 성공률을 50% 향상시킵니다.

We introduce RynnVLA-002, a unified Vision-Language-Action (VLA) and world model. The world model leverages action and visual inputs to predict future image states, learning the underlying physics of the environment to refine action generation. Conversely, the VLA model produces subsequent actions from image observations, enhancing visual understanding and supporting the world model's image generation. The unified framework of RynnVLA-002 enables joint learning of environmental dynamics and action planning. Our experiments show that RynnVLA-002 surpasses individual VLA and world models, demonstrating their mutual enhancement. We evaluate RynnVLA-002 in both simulation and real-world robot tasks. RynnVLA-002 achieves 97.4% success rate on the LIBERO simulation benchmark without pretraining, while in real-world LeRobot experiments, its integrated world model boosts the overall success rate by 50%.

논문 링크

더 읽어보기


:fire:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

2개의 좋아요