[2025/09/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음

9bow · 9월 21, 2025, 9:30오후

[2025/09/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR

멀티모달 모델의 통합 및 최적화: 최근 논문들은 통합 멀티모달 모델(UMM)의 성능을 향상시키기 위한 다양한 접근 방식을 제안하고 있습니다. 예를 들어, "Reconstruction Alignment"는 이미지와 텍스트의 결합을 통해 모델의 이해와 생성 능력을 재정렬하는 방법을 소개하며, "AToken"은 이미지, 비디오, 3D 자산을 위한 통합된 토크나이저를 개발하여 다양한 시각적 입력을 처리합니다. 이러한 연구들은 멀티모달 AI 시스템의 발전을 위한 기초를 다지고 있습니다.

에이전트 중심의 데이터 시스템 설계: "Supporting Our AI Overlords"와 "Scaling Agents via Continual Pre-training" 논문들은 대규모 언어 모델(LLM) 에이전트가 데이터 시스템에서 중요한 역할을 할 것이라고 주장합니다. 이들은 에이전트가 데이터 조작 및 분석을 수행하는 데 필요한 기능을 개발하기 위해 다양한 환경에서의 상호작용을 통해 학습해야 한다고 강조합니다. 이는 에이전트 중심의 데이터 시스템 아키텍처 설계에 대한 새로운 연구 기회를 제시합니다.

자율적 학습 및 진화하는 모델: "R-Zero" 논문은 자율적으로 데이터를 생성하고 학습하는 모델의 필요성을 강조합니다. 기존의 방법들이 인간이 정제한 작업과 레이블에 의존하는 반면, R-Zero는 스스로 과제를 제안하고 해결하는 두 개의 모델을 통해 자가 진화하는 학습 커리큘럼을 생성합니다. 이러한 접근은 AI 시스템이 인간 지능을 초월하는 능력으로 발전하는 데 중요한 역할을 할 것으로 기대됩니다.

재구성 정렬이 통합 멀티모달 모델을 개선한다 / Reconstruction Alignment Improves Unified Multimodal Models

논문 대표 이미지

논문 소개

Unified Multimodal Models (UMMs)는 시각적 이해와 생성 기능을 통합하여 다양한 작업을 수행할 수 있는 가능성을 제공하는 혁신적인 접근 방식이다. 그러나 기존의 학습 방법은 이미지-텍스트 쌍에 의존하며, 이로 인해 캡션이 세부적인 시각적 정보를 놓치는 경향이 있어 성능 저하를 초래한다. 이러한 한계를 극복하기 위해 제안된 방법이 Reconstruction Alignment (RecA)이다. RecA는 자원 효율적인 사후 학습 기법으로, 시각적 이해 인코더 임베딩을 밀집한 "텍스트 프롬프트"로 활용하여 캡션 없이도 풍부한 감독 신호를 제공한다.

RecA의 핵심은 UMM이 자신의 시각적 이해 임베딩에 조건을 두고 입력 이미지를 재구성하도록 최적화하는 과정에 있다. 이 과정에서 자기 감독 재구성 손실을 사용하여 모델의 이해와 생성 능력을 정렬함으로써, 시각적 정보를 보다 효과적으로 활용할 수 있게 된다. RecA는 자율 회귀, 마스크된 자율 회귀, 디퓨전 기반 UMM 등 다양한 아키텍처에 적용 가능하며, 일관되게 생성 및 편집 충실도를 개선하는 성과를 보인다.

실험 결과, RecA를 적용한 후 GenEval에서 이미지 생성 성능이 0.73에서 0.90으로, DPGBench에서 80.93에서 88.15로 향상되었다. 또한, 이미지 편집 벤치마크에서도 ImgEdit과 GEdit에서 각각 3.38에서 3.75, 6.94에서 7.25로 증가하는 성과를 달성하였다. 이러한 결과는 RecA가 기존의 대규모 오픈 소스 모델을 초월하는 성능을 발휘하며, 다양한 UMM 아키텍처에 널리 적용될 수 있는 가능성을 보여준다.

RecA는 UMM의 이해와 생성 능력을 효과적으로 정렬하는 방법으로, 자원 효율적인 사후 학습 전략으로 자리 잡을 수 있는 가능성을 제시한다. 향후 연구에서는 RecA의 적용 범위를 넓히고, 다른 멀티모달 작업에 대한 성능을 평가하는 것이 중요하다. 이러한 연구는 멀티모달 모델의 발전에 기여할 것으로 기대된다.

논문 초록(Abstract)

통합 멀티모달 모델(UMM)은 단일 아키텍처 내에서 시각적 이해와 생성을 통합합니다. 그러나 기존의 학습 방식은 일반적으로 캡션이 희소하고 세밀한 시각적 세부정보를 놓치는 이미지-텍스트 쌍(또는 시퀀스)에 의존하며, 간단한 이미지를 설명하기 위해 수백 개의 단어를 사용하더라도 마찬가지입니다. 우리는 캡션 없이 풍부한 감독을 제공하는 밀집 "텍스트 프롬프트"로서 시각적 이해 인코더 임베딩을 활용하는 자원 효율적인 사후 학습 방법인 재구성 정렬(RecA)을 소개합니다. 구체적으로, RecA는 UMM을 자신의 시각적 이해 임베딩에 조건화하고, 자기 감독 재구성 손실을 통해 입력 이미지를 재구성하도록 최적화하여 이해와 생성을 재정렬합니다. 그 단순성에도 불구하고, RecA는 자가 회귀, 마스크 자가 회귀 및 디퓨전 기반 UMM 전반에 걸쳐 널리 적용 가능하며, 생성 및 편집 충실도를 일관되게 향상시킵니다. 단 27 GPU 시간으로, RecA를 통한 사후 학습은 GenEval에서 이미지 생성 성능을 크게 향상시킵니다(0.73$\rightarrow$0.90) 및 DPGBench(80.93$\rightarrow$88.15)에서 성능을 개선하며, 편집 벤치마크(ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25)도 향상시킵니다. 특히, RecA는 훨씬 더 큰 오픈 소스 모델을 초월하며 다양한 UMM 아키텍처에 널리 적용되어, UMM을 위한 효율적이고 일반적인 사후 학습 정렬 전략으로 자리매김합니다.

Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

논문 링크

우리의 AI 군주를 지원하기: 에이전트 중심의 데이터 시스템 재설계 / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

논문 대표 이미지

논문 소개

대규모 언어 모델(LLM) 에이전트가 데이터 조작 및 분석을 수행하는 방식은 데이터 시스템의 미래에 중대한 변화를 가져올 것으로 예상된다. 이러한 에이전트는 사용자의 요청에 따라 고속으로 탐색하고 솔루션을 제시하는 에이전틱 추측(agentic speculation) 과정을 통해 작업을 수행한다. 그러나 에이전틱 추측의 대량 발생과 비효율성은 현재의 데이터 시스템에 도전 과제가 될 수 있다. 따라서 데이터 시스템은 이러한 에이전틱 작업 부하를 본질적으로 지원할 수 있도록 진화해야 한다.

본 연구에서는 에이전틱 추측의 특성인 규모, 이질성, 중복성, 조정 가능성을 활용하여 새로운 에이전트 우선 데이터 시스템 아키텍처에 대한 연구 기회를 제시한다. 이를 통해 새로운 쿼리 인터페이스, 쿼리 처리 기술, 에이전틱 메모리 저장소와 같은 혁신적인 접근 방식을 탐구한다. 특히, 에이전트가 데이터를 상호작용하는 주요 메커니즘으로 자리 잡을 경우, 데이터 시스템의 생산성 향상 가능성을 열어줄 수 있다.

사례 연구를 통해 에이전틱 작업 부하의 특성을 분석하고, 이를 통해 최적화 기회를 식별하였다. 첫 번째 연구에서는 BIRD 데이터셋을 활용하여 LLM이 요청 수를 증가시킴으로써 정확도를 향상시키는 방법을 탐구하였고, 두 번째 연구에서는 두 개의 데이터베이스에서 정보를 결합하는 복잡한 작업을 수행하였다. 이러한 연구 결과는 에이전틱 추측이 데이터 시스템의 효율성을 높일 수 있는 잠재력을 지니고 있음을 보여준다.

마지막으로, 에이전틱 메모리 저장소와 새로운 거래 프레임워크를 제안하여 에이전틱 추측의 탐색 단계에서 발생하는 중복성과 이질성을 해결할 수 있는 방법을 모색하였다. 이러한 접근은 데이터 시스템이 에이전트 중심으로 재설계될 필요성을 강조하며, 향후 연구에 대한 새로운 비전을 제시한다.

논문 초록(Abstract)

대규모 언어 모델(LLM) 에이전트는 사용자 대신 데이터를 조작하고 분석하는 역할을 하며, 미래의 데이터 시스템에서 지배적인 작업 부하가 될 가능성이 높습니다. 데이터 작업 시, 에이전트는 주어진 작업에 대한 탐색 및 해결 방안을 도출하는 고처리량 프로세스를 활용하며, 이를 우리는 에이전틱 추측(agentic speculation)이라고 부릅니다. 에이전틱 추측의 방대한 양과 비효율성은 현재의 데이터 시스템에 도전 과제가 될 수 있습니다. 우리는 데이터 시스템이 에이전틱 작업 부하를 보다 본질적으로 지원하도록 적응해야 한다고 주장합니다. 우리는 에이전틱 추측의 특성인 규모, 이질성, 중복성 및 조정 가능성을 활용하여 새로운 쿼리 인터페이스, 새로운 쿼리 처리 기술, 새로운 에이전틱 메모리 저장소에 이르는 새로운 에이전트 중심 데이터 시스템 아키텍처에 대한 여러 가지 연구 기회를 제시합니다.

Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

논문 링크

AToken: 비전을 위한 통합 토크나이저 / AToken: A Unified Tokenizer for Vision

논문 소개

AToken은 이미지, 비디오 및 3D 자산 전반에 걸쳐 높은 충실도의 재구성과 의미 이해를 동시에 달성하는 최초의 통합 시각 토크나이저입니다. 기존의 토크나이저는 단일 모달리티에 대해 재구성 또는 이해에 특화되어 있는 반면, AToken은 다양한 시각 입력을 공유 4D 잠재 공간으로 인코딩하여 두 가지 작업과 모달리티를 하나의 프레임워크로 통합합니다. 이 시스템은 임의의 해상도와 시간 길이의 시각 입력을 처리하기 위해 4D 회전 위치 임베딩을 갖춘 순수 트랜스포머 아키텍처를 도입합니다. 안정적인 학습을 보장하기 위해, AToken은 지각 손실과 그래미트릭 손실을 결합한 적대적 없는 학습 목표를 제안하여 최첨단 재구성 품질을 달성합니다. 점진적인 학습 커리큘럼을 통해 AToken은 단일 이미지에서 비디오 및 3D로 점차 확장되며, 연속 및 이산 잠재 토큰을 지원합니다. AToken은 이미지에 대해 0.21 rFID와 82.2%의 ImageNet 정확도를, 비디오에 대해 3.01 rFVD와 32.6%의 MSRVTT 검색 성능을, 3D에 대해 28.19 PSNR과 90.9%의 분류 정확도를 달성합니다. 다운스트림 응용 프로그램에서 AToken은 이미지 생성, 텍스트-비디오 생성, 이미지-3D 합성 등의 시각 생성 작업과 멀티모달 대규모 언어 모델(LLM) 등의 이해 작업을 가능하게 하여 모든 벤치마크에서 경쟁력 있는 성능을 보여줍니다. 이러한 결과는 통합 시각 토크나이제이션을 기반으로 한 차세대 멀티모달 AI 시스템의 가능성을 제시합니다.

논문 초록(Abstract)

우리는 이미지, 비디오 및 3D 자산 전반에 걸쳐 높은 충실도의 재구성과 의미 이해를 모두 달성하는 최초의 통합 시각 토크나이저인 AToken을 소개합니다. 기존의 토크나이저가 단일 모달리티에 대해 재구성 또는 이해에 특화된 것과 달리, AToken은 이러한 다양한 시각 입력을 공유 4D 잠재 공간에 인코딩하여 단일 프레임워크 내에서 두 가지 작업과 모달리티를 통합합니다. 구체적으로, 우리는 임의의 해상도와 시간 지속성을 가진 시각 입력을 처리하기 위해 4D 회전 위치 임베딩을 갖춘 순수 트랜스포머 아키텍처를 도입합니다. 안정적인 학습을 보장하기 위해, 우리는 지각 손실과 그래미안 행렬 손실을 결합한 적대적 없는 학습 목표를 도입하여 최첨단 재구성 품질을 달성합니다. 점진적인 학습 커리큘럼을 활용하여 AToken은 단일 이미지, 비디오 및 3D에서 점차 확장하며 연속 및 이산 잠재 토큰을 모두 지원합니다. AToken은 이미지에 대해 0.21 rFID와 82.2% ImageNet 정확도를, 비디오에 대해 3.01 rFVD와 32.6% MSRVTT 검색률을, 3D에 대해 28.19 PSNR과 90.9% 분류 정확도를 달성합니다. 하위 응용 프로그램에서 AToken은 시각 생성 작업(예: 연속 및 이산 토큰을 사용한 이미지 생성, 텍스트-비디오 생성, 이미지-3D 합성)과 이해 작업(예: 멀티모달 대규모 언어 모델) 모두를 가능하게 하여 모든 벤치마크에서 경쟁력 있는 성능을 달성합니다. 이러한 결과는 통합된 시각 토크나이제이션을 기반으로 구축된 차세대 멀티모달 AI 시스템에 대한 통찰을 제공합니다.

We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.

논문 링크

환경 확장을 통한 일반 에이전트 지능 향상 / Towards General Agentic Intelligence via Environment Scaling

논문 대표 이미지

논문 소개

고급 대리 지능은 대규모 언어 모델(LLM)을 실제 응용 프로그램에 효과적으로 배포하기 위한 필수 요소로 자리잡고 있다. 다양한 실제 API는 정확하고 강력한 함수 호출 지능을 요구하며, 이는 에이전트가 다양한 환경에서 상호작용을 통해 이러한 능력을 개발해야 함을 의미한다. 본 연구에서는 일반 대리 지능을 향상시키기 위한 단계로 환경을 확장하는 방법을 제안하며, 이를 통해 두 가지 주요 도전 과제를 해결하고자 한다. 첫째, 환경을 원칙적으로 확장하는 방법, 둘째, 이러한 환경과의 상호작용을 통해 에이전트 능력을 효과적으로 학습하는 방법이다.

이러한 문제를 해결하기 위해, 연구진은 이질적인 환경을 자동으로 구축하는 확장 가능한 프레임워크를 설계하였다. 이 프레임워크는 완전하게 시뮬레이션된 환경을 체계적으로 확장하여 함수 호출 시나리오의 공간을 넓히는 데 중점을 두고 있다. 또한, 두 단계의 에이전트 파인튜닝 전략을 도입하여, 첫 번째 단계에서는 에이전트에 기본적인 대리 능력을 부여하고, 두 번째 단계에서는 이를 도메인 특정 맥락에 맞게 전문화한다.

본 연구에서 제안하는 환경 구축 및 확장 방법론은 30,000개 이상의 API를 수집하고, 도구 의존성 그래프 모델링을 통해 도메인 파티션과 분포를 유도하는 체계적인 파이프라인을 포함한다. 이를 통해 에이전트가 환경 상태를 초기화하고, 도메인 특정 도구 그래프에서 논리적으로 일관된 도구 시퀀스를 샘플링하여 유효한 시퀀스를 생성할 수 있도록 한다. 이러한 과정은 데이터베이스 수준의 상태 일관성과 도구 시퀀스의 정확한 일치를 보장하여, 에이전트의 함수 호출 능력을 크게 향상시킨다.

결과적으로, 본 연구에서 개발한 AgentScaler 모델은 에이전트의 함수 호출 능력을 획기적으로 개선하며, 이는 향후 대리 지능의 발전에 중요한 기여를 할 것으로 기대된다. 이러한 접근 방식은 에이전트가 다양한 환경에서 효과적으로 작동할 수 있도록 지원하며, 대리 지능의 실용적인 응용 가능성을 한층 넓히는 데 기여할 것이다.

논문 초록(Abstract)

고급 에이전트 지능은 대규모 언어 모델을 실제 응용 프로그램에 배포하기 위한 전제 조건입니다. 다양한 실제 API는 정확하고 강력한 함수 호출 지능을 요구하며, 이는 에이전트가 다양한 환경에서 상호작용을 통해 이러한 능력을 개발해야 함을 의미합니다. 함수 호출 능력의 폭은 에이전트가 훈련되는 환경의 다양성과 밀접하게 연관되어 있습니다. 본 연구에서는 일반 에이전트 지능을 향상시키기 위한 단계로서 환경을 확장합니다. 이로 인해 두 가지 주요 도전 과제가 발생합니다: (i) 환경을 원칙적으로 확장하는 방법, (ii) 이러한 환경과의 상호작용을 통해 얻은 경험으로부터 에이전트 능력을 효과적으로 훈련하는 방법. 이를 해결하기 위해, 우리는 이질적인 환경을 자동으로 구성하는 확장 가능한 프레임워크를 설계하여 함수 호출 시나리오의 공간을 체계적으로 넓힙니다. 또한, 에이전트에게 기본적인 에이전트 능력을 부여한 후 도메인 특정 맥락에 맞게 전문화하는 두 단계의 에이전트 파인튜닝 전략을 적용합니다. 에이전트 벤치마크인 tau-bench, tau2-Bench, ACEBench에 대한 광범위한 실험을 통해, 우리의 훈련된 모델인 AgentScaler가 모델의 함수 호출 능력을 크게 향상시킴을 입증합니다.

Advanced agentic intelligence is a prerequisite for deploying Large Language Models in practical, real-world applications. Diverse real-world APIs demand precise, robust function-calling intelligence, which needs agents to develop these capabilities through interaction in varied environments. The breadth of function-calling competence is closely tied to the diversity of environments in which agents are trained. In this work, we scale up environments as a step towards advancing general agentic intelligence. This gives rise to two central challenges: (i) how to scale environments in a principled manner, and (ii) how to effectively train agentic capabilities from experiences derived through interactions with these environments. To address these, we design a scalable framework that automatically constructs heterogeneous environments that are fully simulated, systematically broadening the space of function-calling scenarios. We further adapt a two-phase agent fine-tuning strategy: first endowing agents with fundamental agentic capabilities, then specializing them for domain-specific contexts. Extensive experiments on agentic benchmarks, tau-bench, tau2-Bench, and ACEBench, demonstrate that our trained model, AgentScaler, significantly enhances the function-calling capability of models.

논문 링크

더 읽어보기

문맥 내 학습은 학습인가? / Is In-Context Learning Learning?

논문 소개

In-Context Learning (ICL)은 자기회귀 모델이 추가 학습 없이도 다음 토큰 예측을 통해 다양한 작업을 해결할 수 있는 능력을 보여준다. 이러한 접근 방식은 모델이 몇 개의 예시만으로 보지 못한 작업을 해결할 수 있다는 주장을 이끌어냈지만, ICL이 실제로 학습을 수행하는지에 대한 논란이 존재한다. 본 연구는 ICL이 수학적으로 학습을 구성한다고 주장하면서도, 그 특성을 완전하게 이해하기 위해서는 경험적 분석이 필요하다는 점을 강조한다.

대규모 분석을 통해 ICL의 성능을 평가하며, 기억, 사전 학습, 분포 변화, 프롬프트 스타일 및 구문에 대한 민감성을 고려하였다. 연구 결과, ICL은 효과적인 학습 패러다임으로 기능하지만, 보지 못한 작업에 대한 일반화 능력에는 한계가 있음을 발견하였다. 특히, 예시의 수가 증가함에 따라 정확도는 예시의 분포나 모델, 프롬프트 스타일에 둔감해지며, 대신 프롬프트의 규칙성에서 패턴을 추론하는 경향이 나타났다. 이는 특히 사고의 연쇄(Chain-of-Thought)와 같은 특정 프롬프트 스타일에서 분포적 민감성을 초래하였다.

형식적으로 유사한 작업에서의 정확도 차이는 자기회귀 모델의 임시 인코딩이 강력한 학습 메커니즘이 아니며, 제한된 범용 일반성을 시사한다. 본 연구는 ICL이 학습 메커니즘으로서 기능하지만, 그 한계와 행동을 명확히 드러내며, LLM(대규모 언어 모델)의 성능이 데이터의 분포에 따라 달라질 수 있음을 보여준다. 이러한 결과는 ICL의 가능성을 탐구하는 데 중요한 기여를 하며, 향후 연구에서 ICL의 특성과 한계를 더 깊이 이해하는 데 기여할 것으로 기대된다.

논문 초록(Abstract)

문맥 내 학습(In-Context Learning, ICL)은 일부 자기회귀 모델이 다음 토큰 예측을 통해 추가 학습 없이 작업을 해결할 수 있게 합니다. 이는 이러한 모델이 프롬프트에서 몇 개의 예시(샷)만으로 보지 못한 작업을 해결(학습)할 수 있다는 주장으로 이어졌습니다. 그러나 추론이 항상 학습을 의미하는 것은 아니며, ICL은 주어진 관찰을 명시적으로 인코딩하지 않습니다. 대신 모델은 이전 지식과 주어진 예시(있는 경우)에 의존합니다. 우리는 수학적으로 ICL이 학습을 구성한다고 주장하지만, 그 완전한 특성을 규명하기 위해서는 실증적인 작업이 필요하다고 봅니다. 이후 우리는 기억화, 사전학습, 분포 변화, 프롬프트 스타일 및 문구를 고려하거나 제거하여 ICL에 대한 대규모 분석을 수행합니다. 우리는 ICL이 효과적인 학습 패러다임이지만, 보지 못한 작업에 대한 학습 및 일반화 능력에는 한계가 있음을 발견했습니다. 예시가 더 많아질수록 정확도가 예시 분포, 모델, 프롬프트 스타일 및 입력의 언어적 특징에 둔감해진다는 점을 주목합니다. 대신, 프롬프트의 규칙성에서 패턴을 추론하여, 특히 사고의 연쇄와 같은 프롬프트 스타일에서 분포적 민감성을 초래합니다. 공식적으로 유사한 작업에서 다양한 정확도를 고려할 때, 우리는 자기회귀의 임시 인코딩이 강력한 메커니즘이 아니며, 제한된 범용 일반화를 시사한다고 결론짓습니다.

In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.

논문 링크

딥다이브: 지식 그래프와 다중 턴 강화학습을 통한 심층 검색 에이전트 발전 / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

논문 대표 이미지

논문 소개

DeepDive는 대규모 언어 모델(LLM)을 심층 검색 에이전트로 발전시키기 위해 지식 그래프(Knowledge Graph, KG)와 다중 턴 강화 학습(Multi-Turn Reinforcement Learning, RL)을 활용하는 혁신적인 접근 방식을 제안합니다. 기존의 LLM은 브라우징 도구와의 통합에서 장기적 추론 능력이 부족하고, 복잡한 질문을 해결하기 위한 충분한 감독 데이터가 결여되어 있어 성능이 저조한 문제를 안고 있습니다. 이러한 문제를 해결하기 위해 DeepDive는 두 가지 주요 기술을 도입합니다.

첫 번째로, KG를 활용하여 복잡하고 찾기 어려운 질문을 자동으로 합성하는 방법을 개발하였습니다. KG는 엔티티와 그 관계를 구조적으로 표현하여, 에이전트가 장기적 추론을 수행할 수 있는 환경을 제공합니다. 이 과정에서 랜덤 워크를 통해 질문의 복잡성과 모호성을 증가시키며, LLM을 활용하여 도전적인 질문과 답변 쌍을 생성합니다. 이러한 자동화된 데이터 합성은 심층 검색 에이전트의 훈련에 필요한 고품질 데이터를 제공합니다.

두 번째로, DeepDive는 엔드 투 엔드 다중 턴 RL을 적용하여 LLM의 장기적 추론 능력을 향상시킵니다. 이 방법은 에이전트가 검색하는 방법, 검색할 항목, 검색 종료 시점을 단계별로 학습하도록 돕는 엄격한 보상 구조를 포함합니다. 다중 턴 RL은 반복적인 추론과 도구 호출을 통해 에이전트가 최종 답변에 도달할 수 있도록 지원하며, 이는 심층 검색 능력을 크게 향상시키는 데 기여합니다.

DeepDive의 실험 결과는 BrowseComp에서 새로운 오픈 소스 경쟁 결과를 달성하였으며, 기존의 여러 모델들을 초월하는 성과를 보여주었습니다. 이 연구는 심층 검색 에이전트의 성능을 개선하는 데 중요한 기여를 하며, 공개된 데이터셋과 코드로 연구의 재현성을 높이고, 향후 연구에 기초 자료를 제공합니다. DeepDive는 복잡한 정보 검색 문제를 해결하기 위한 새로운 접근 방식을 제시하며, LLM의 활용 가능성을 한층 더 확장하는 데 기여합니다.

논문 초록(Abstract)

대규모 언어 모델(LLM)에 브라우징 도구를 추가하는 것은 복잡한 실제 작업을 해결하기 위한 심층 검색 에이전트로서의 잠재력을 상당히 향상시킵니다. 그러나 공개 LLM은 브라우징 도구와 함께 사용할 때 긴 수평 추론 능력이 제한되고 충분히 어려운 감독 데이터가 부족하여 여전히 이러한 환경에서 성능이 저조합니다. 이러한 문제를 해결하기 위해, 우리는 심층 검색 에이전트를 발전시키기 위한 DeepDive를 제안합니다. 첫째, 우리는 공개 지식 그래프에서 복잡하고 어렵고 찾기 힘든 질문을 자동으로 합성하는 전략을 제안합니다. 둘째, 우리는 LLM의 심층 검색을 통한 긴 수평 추론을 강화하기 위해 엔드 투 엔드 다중 턴 강화 학습(RL)을 적용합니다. 실험 결과, DeepDive-32B는 BrowseComp에서 새로운 오픈 소스 경쟁 결과를 달성하며, WebSailor, DeepSeek-R1-Browse, Search-o1을 능가합니다. 우리는 다중 턴 RL 훈련이 심층 검색 능력을 향상시키고 여러 벤치마크에서 성능 개선에 크게 기여함을 입증합니다. 또한 DeepDive가 도구 호출의 테스트 시간 확장 및 병렬 샘플링을 가능하게 한다는 것을 관찰했습니다. 모든 데이터셋, 모델 및 코드는 https://github.com/THUDM/DeepDive에서 공개적으로 이용 가능합니다.

Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at GitHub - THUDM/DeepDive: DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL.

논문 링크

더 읽어보기

멀티모달 대규모 언어 모델을 활용한 비디오 시간적 기초 조사 / A Survey on Video Temporal Grounding with Multimodal Large Language Model

논문 대표 이미지

논문 소개

비디오 시간적 기초 설정(Video Temporal Grounding, VTG) 분야는 비디오에서 특정 시간적 사건을 식별하고 이해하는 데 중요한 역할을 하며, 최근 멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 발전으로 인해 그 성능이 크게 향상되고 있다. MLLMs는 뛰어난 멀티모달 이해 및 추론 능력을 바탕으로, VTG 접근 방식에서 전통적인 파인튜닝 방법을 초월하는 성과를 보여주고 있다. 본 연구는 VTG-MLLMs에 대한 포괄적인 검토를 통해 이 분야의 현재 연구 동향을 체계적으로 분석하고, 세 가지 차원으로 나누어 설명한다: MLLMs의 기능적 역할, 학습 패러다임, 비디오 특징 처리 기술.

MLLMs는 VTG에서 두 가지 주요 역할을 수행한다. 첫째, 촉진자로서 비디오와 언어 간의 상호작용을 지원하고, 둘째, 실행자로서 실제 VTG 작업을 수행하는 모델로 기능한다. 이러한 역할을 통해 다양한 모델들이 VTG 작업에서의 성능을 극대화하고 있다. 학습 패러다임은 사전학습, 파인튜닝, 학습 없음으로 나뉘며, 각 패러다임은 모델의 성능과 일반화 능력에 중요한 영향을 미친다. 특히, 학습 없음 패러다임은 적은 데이터로도 효과적인 성능을 발휘할 수 있는 가능성을 제시한다.

비디오 특징 처리 기술 또한 VTG-MLLMs의 성능에 중대한 영향을 미친다. 시각적 특징과 시간적 특징을 효과적으로 처리하는 방법론은 비디오의 공간적 및 시간적 표현을 결정하는 데 필수적이다. 이와 함께, 벤치마크 데이터셋과 평가 프로토콜을 통해 VTG-MLLMs의 성능을 평가하고, 모델의 일반화 능력을 검증하는 데 중요한 역할을 한다.

마지막으로, 본 연구는 VTG-MLLMs의 현재 한계를 식별하고, 향후 연구 방향을 제안한다. 데이터셋의 다양성 부족, 모델의 복잡성, 실시간 처리의 어려움 등은 해결해야 할 주요 과제로 남아 있다. 이러한 한계를 극복하기 위한 연구는 새로운 데이터셋 개발과 모델 최적화에 중점을 두고 진행될 필요가 있다. 본 논문은 VTG-MLLMs에 대한 포괄적인 검토를 제공하며, 이 분야의 연구자들에게 유용한 정보를 제공한다.

논문 초록(Abstract)

최근 비디오 시간적 기초(Video Temporal Grounding, VTG)의 발전은 멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)에 의해 주로 추진되어 세밀한 비디오 이해를 크게 향상시켰습니다. 우수한 멀티모달 이해 및 추론 능력을 갖춘 MLLMs 기반의 VTG 접근 방식(VTG-MLLMs)은 점차 전통적인 파인튜닝 방법을 초월하고 있습니다. 이들은 경쟁력 있는 성능을 달성할 뿐만 아니라 제로샷(zero-shot), 다중 작업(multi-task), 다중 도메인(multi-domain) 환경에서의 일반화에서도 뛰어납니다. 일반적인 비디오-언어 이해에 대한 광범위한 서베이가 있음에도 불구하고, VTG-MLLMs를 구체적으로 다룬 포괄적인 리뷰는 여전히 부족합니다. 이 격차를 메우기 위해, 본 서베이는 VTG-MLLMs에 대한 현재 연구를 1) MLLMs의 기능적 역할, 즉 그 구조적 중요성을 강조하는 2) 시간적 추론 및 작업 적응을 위한 전략을 분석하는 훈련 패러다임, 3) 시공간 표현의 효과성을 결정하는 비디오 특징 처리 기술이라는 세 가지 차원 분류를 통해 체계적으로 검토합니다. 또한 벤치마크 데이터셋, 평가 프로토콜을 논의하고 경험적 발견을 요약합니다. 마지막으로, 기존의 한계를 식별하고 유망한 연구 방향을 제안합니다. 추가 자료 및 세부 정보는 독자들이 GitHub - ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding: Latest Papers, Codes and Datasets on VTG-LLMs. 에 방문할 것을 권장합니다.

The recent advancement in video temporal grounding (VTG) has significantly enhanced fine-grained video understanding, primarily driven by multimodal large language models (MLLMs). With superior multimodal comprehension and reasoning abilities, VTG approaches based on MLLMs (VTG-MLLMs) are gradually surpassing traditional fine-tuned methods. They not only achieve competitive performance but also excel in generalization across zero-shot, multi-task, and multi-domain settings. Despite extensive surveys on general video-language understanding, comprehensive reviews specifically addressing VTG-MLLMs remain scarce. To fill this gap, this survey systematically examines current research on VTG-MLLMs through a three-dimensional taxonomy: 1) the functional roles of MLLMs, highlighting their architectural significance; 2) training paradigms, analyzing strategies for temporal reasoning and task adaptation; and 3) video feature processing techniques, which determine spatiotemporal representation effectiveness. We further discuss benchmark datasets, evaluation protocols, and summarize empirical findings. Finally, we identify existing limitations and propose promising research directions. For additional resources and details, readers are encouraged to visit our repository at GitHub - ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding: Latest Papers, Codes and Datasets on VTG-LLMs..

논문 링크

더 읽어보기

지속적인 사전학습을 통한 에이전트 확장 / Scaling Agents via Continual Pre-training

논문 소개

대규모 언어 모델(LLM)은 자율적인 도구 사용과 복잡한 문제 해결을 위한 다단계 추론을 수행할 수 있는 에이전트 시스템으로 발전하였습니다. 그러나 일반 목적의 기초 모델을 기반으로 한 사후 학습 접근 방식은 에이전트 작업에서 일관되게 저조한 성능을 보이고 있습니다. 이러한 문제의 근본 원인은 강력한 에이전트 기초 모델의 부재로, 사후 학습 과정에서 다양한 에이전트 행동을 학습하면서 전문가의 시연에 맞추어야 하므로 최적화의 긴장이 발생합니다. 이를 해결하기 위해, 우리는 에이전트 지속적 사전 학습(Agentic Continual Pre-training, Agentic CPT)을 심층 연구 에이전트 훈련 파이프라인에 통합하는 방안을 처음으로 제안합니다. 이 접근 방식을 기반으로 AgentFounder라는 심층 연구 에이전트 모델을 개발하였습니다. AgentFounder-30B는 10개의 벤치마크에서 평가를 받았으며, 최첨단 성능을 달성하였고, 특히 BrowseComp-en에서 39.9%, BrowseComp-zh에서 43.3%, HLE에서 31.5%의 Pass@1 성능을 유지하며 강력한 도구 사용 능력을 보여주었습니다.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 자율적인 도구 사용 및 복잡한 문제 해결을 위한 다단계 추론이 가능한 에이전트 시스템으로 발전하였습니다. 그러나 일반 목적의 기초 모델을 기반으로 한 사후 학습 접근법은 에이전트 작업에서 일관되게 저조한 성능을 보이며, 특히 오픈 소스 구현에서 그러합니다. 우리는 그 근본 원인을 규명하였습니다: 강력한 에이전트 기초 모델의 부재로 인해 사후 학습 과정에서 모델이 다양한 에이전트 행동을 동시에 학습하면서 이를 전문가의 시연에 맞추어 조정해야 하므로 기본적인 최적화 긴장이 발생합니다. 이를 해결하기 위해, 우리는 강력한 에이전트 기초 모델을 구축하기 위해 에이전틱 지속적 사전 학습(Agentic CPT)을 심층 연구 에이전트 훈련 파이프라인에 통합하는 것을 처음으로 제안합니다. 이 접근법을 기반으로, 우리는 AgentFounder라는 심층 연구 에이전트 모델을 개발하였습니다. 우리는 AgentFounder-30B를 10개의 벤치마크에서 평가하였고, 도구 사용 능력을 강하게 유지하면서 최첨단 성능을 달성하였으며, 특히 BrowseComp-en에서 39.9%, BrowseComp-zh에서 43.3%, HLE에서 Pass@1 31.5%를 기록하였습니다.

Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.

논문 링크

더 읽어보기

차등 개인 정보 보호 언어 모델을 위한 스케일링 법칙 / Scaling Laws for Differentially Private Language Models

논문 대표 이미지

논문 소개

차등 개인 정보 보호(Differential Privacy, DP)가 적용된 대규모 언어 모델(Large Language Model, LLM) 학습의 스케일링 법칙에 대한 연구는 현대 인공지능(AI) 분야에서 중요한 진전을 나타낸다. 본 연구의 주된 목적은 DP LLM 학습의 복잡성을 정확히 모델링하는 스케일링 법칙을 수립하여, 컴퓨팅, 개인 정보 보호, 유용성 간의 트레이드오프를 명확히 하고 최적의 학습 구성을 제시하는 것이다. 기존의 LLM 학습에서 스케일링 법칙은 성능 향상을 예측하고 하이퍼파라미터 선택에 대한 지침을 제공하는 중요한 역할을 하지만, DP 학습의 역학은 다소 상이하여 그 스케일링 법칙은 아직 충분히 이해되지 않았다.

이 연구에서는 손실을 추정하는 함수 (L(M,T,\bar{\sigma}))를 적합하는 과정을 통해 DP LLM 학습의 스케일링 법칙을 수립하였다. 여기서 (M)은 모델의 파라미터 수, (T)는 학습 반복 횟수, (\bar{\sigma})는 노이즈 배치 비율을 나타내며, 이 함수는 선형 보간을 통해 적합된다. Python의 scipy.interpolate.RegularGridInterpolator를 활용하여 구현된 이 함수는 로그 스페이스에서 자연스럽게 변화하는 파라미터를 고려하여 정의된다. 이러한 접근은 DP LLM 학습의 복잡한 동태를 이해하는 데 기여하며, 실험 설정의 범위 내에서 잘 정의된 결과를 도출한다.

또한, 본 연구는 적합된 함수의 수식 및 구현 세부사항을 통해 평가 지점에서 매끄러운 데이터를 정확히 일치시키고, 그 사이의 값도 근사하는 방법을 제시하였다. 이로 인해 DP LLM 학습의 스케일링 법칙을 이해하는 데 있어 중요한 기초 자료를 제공하며, 향후 연구에서는 제안된 스케일링 법칙을 기반으로 다양한 DP LLM 아키텍처에 대한 실험을 진행하고 이론적 모델을 더욱 발전시킬 필요가 있다.

결과적으로, 본 연구는 차등 개인 정보 보호가 적용된 대규모 언어 모델 학습의 스케일링 법칙을 수립함으로써, DP LLM 학습의 복잡성을 이해하고, 향후 LLM의 학습 및 최적화에 있어 중요한 지침을 제공할 것이다. 이러한 발견은 DP LLM의 실용성을 높이는 방향으로 나아가는 데 기여할 것으로 기대된다.

논문 초록(Abstract)

확장 법칙은 대규모 언어 모델(LLM) 학습의 중요한 요소로 부상하였으며, 이는 규모를 통해 성능 향상을 예측하고, 그렇지 않으면 비용이 많이 드는 중요한 하이퍼파라미터 선택에 대한 지침을 제공합니다. LLM은 또한 (때때로 민감한) 사용자 데이터에서 수집된 것과 같은 대규모 고품질 학습 데이터셋에 의존합니다. 이러한 민감한 사용자 데이터로 모델을 학습시키기 위해서는 차등 프라이버시(Differential Privacy, DP)와 같은 신중한 개인 정보 보호가 필요합니다. 그러나 DP 학습의 역학은 상당히 다르며, 그 결과 이들의 확장 법칙은 아직 완전히 이해되지 않았습니다. 본 연구에서는 DP LLM 학습의 복잡성을 정확하게 모델링하는 확장 법칙을 수립하여, 다양한 설정에서 계산-프라이버시-유용성 간의 트레이드오프와 최적의 학습 구성을 완전하게 제시합니다.

Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

논문 링크

더 읽어보기

VaultGemma: 학습 과정에서 어떠한 개인 정보도 모델에 남지 않도록 한 LLM (feat. Differential Privacy) 읽을거리&정보공유

[image] VaultGemma 소개 최근 생성형 AI가 일상과 업무 전반에 깊숙이 스며들면서, 사용자 개인정보를 보호하면서도 고성능을 유지할 수 있는 인공지능의 필요성이 더욱 강조되고 있습니다. 구글 리서치와 딥마인드 팀이 공동으로 발표한 VaultGemma는 이러한 요구를 충족시키기 위한 최신 시도입니다. VaultGemma는 10억 개의 파라미터를 가진 대규모 언어 모델로, 처음부터 끝까지 차등 프라이버시(Differential Privacy, DP) 기술을 적용해 학습한 최초의 공개 모델입니다. 차등 프라이버시는 학습 과정에서 데이터에 노이즈를 주입하여 특정 개인의 데이터가 모델에 직접적으로 남지 않도록 보장하는 기술입니다. 이 방식은 이론적으로는 강력하지만, 실제 대규모 LLM 학습에 적용하면 계산 비용이 커지고 학습 안정성이 떨어지는 문제가 있었습니다. VaultGemma는 이러한 문제를 해결하기 위해 새로운 스케일링 법칙(Scaling Laws) 을 도입해, 연산…

VaultGemma: 학습 과정에서 어떠한 개인 정보도 모델에 남지 않도록 한 LLM (feat. Differential Privacy) 읽을거리&정보공유

[image] VaultGemma 소개 최근 생성형 AI가 일상과 업무 전반에 깊숙이 스며들면서, 사용자 개인정보를 보호하면서도 고성능을 유지할 수 있는 인공지능의 필요성이 더욱 강조되고 있습니다. 구글 리서치와 딥마인드 팀이 공동으로 발표한 VaultGemma는 이러한 요구를 충족시키기 위한 최신 시도입니다. VaultGemma는 10억 개의 파라미터를 가진 대규모 언어 모델로, 처음부터 끝까지 차등 프라이버시(Differential Privacy, DP) 기술을 적용해 학습한 최초의 공개 모델입니다. 차등 프라이버시는 학습 과정에서 데이터에 노이즈를 주입하여 특정 개인의 데이터가 모델에 직접적으로 남지 않도록 보장하는 기술입니다. 이 방식은 이론적으로는 강력하지만, 실제 대규모 LLM 학습에 적용하면 계산 비용이 커지고 학습 안정성이 떨어지는 문제가 있었습니다. VaultGemma는 이러한 문제를 해결하기 위해 새로운 스케일링 법칙(Scaling Laws) 을 도입해, 연산…

R-Zero: 제로 데이터에서 자가 진화하는 사고 LLM / R-Zero: Self-Evolving Reasoning LLM from Zero Data

논문 대표 이미지

논문 소개

자기 진화하는 대형 언어 모델(LLM)은 자율적으로 경험을 생성하고 학습함으로써 초지능으로 나아갈 수 있는 확장 가능한 경로를 제공합니다. 기존의 훈련 방법들은 대규모 인간 큐레이션 작업과 레이블에 의존하고 있어 AI 시스템의 발전에 한계를 두고 있습니다. 이를 극복하기 위해 R-Zero라는 완전 자율 프레임워크를 제안하며, 이는 기본 LLM에서 시작하여 Challenger와 Solver라는 두 개의 독립 모델을 초기화합니다. 이 모델들은 상호작용을 통해 최적화되며, R-Zero는 기존 작업과 레이블 없이 목표 지향적인 자기 개선 커리큘럼을 생성하여 다양한 LLM의 추론 능력을 크게 향상시킵니다.

논문 초록(Abstract)

자기 진화하는 대규모 언어 모델(LLM)은 자율적으로 자신의 경험을 생성, 정제 및 학습함으로써 초지능으로 나아가는 확장 가능한 경로를 제공합니다. 그러나 이러한 모델을 학습시키기 위한 기존 방법은 여전히 방대한 인간 큐레이션 작업과 레이블에 크게 의존하며, 일반적으로 미세 조정(fine-tuning) 또는 강화 학습(reinforcement learning)을 통해 이루어지므로 AI 시스템이 인간 지능을 초월하는 능력으로 발전하는 데 근본적인 병목 현상을 초래합니다. 이러한 제한을 극복하기 위해, 우리는 R-Zero를 소개합니다. R-Zero는 처음부터 자체 학습 데이터를 생성하는 완전 자율 프레임워크입니다. 단일 기본 LLM에서 시작하여, R-Zero는 독립적인 두 모델인 챌린저(Challenger)와 솔버(Solver)를 서로 다른 역할로 초기화합니다. 이 모델들은 별도로 최적화되며 상호 작용을 통해 공동 진화합니다: 챌린저는 솔버의 능력 한계 근처에서 작업을 제안함으로써 보상을 받고, 솔버는 챌린저가 제시하는 점점 더 도전적인 작업을 해결함으로써 보상을 받습니다. 이 과정은 기존의 작업과 레이블 없이 목표 지향적이고 자기 개선적인 커리큘럼을 생성합니다. 실증적으로, R-Zero는 다양한 백본 LLM에서 추론 능력을 상당히 향상시키며, 예를 들어 Qwen3-4B-Base의 수학 추론 벤치마크에서 +6.49, 일반 도메인 추론 벤치마크에서 +7.54의 향상을 보여줍니다.

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

논문 링크

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요 를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~

[2025/09/15 ~ 21] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR​

재구성 정렬이 통합 멀티모달 모델을 개선한다 / Reconstruction Alignment Improves Unified Multimodal Models

논문 소개

논문 초록(Abstract)

논문 링크

우리의 AI 군주를 지원하기: 에이전트 중심의 데이터 시스템 재설계 / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

논문 소개

논문 초록(Abstract)

논문 링크

AToken: 비전을 위한 통합 토크나이저 / AToken: A Unified Tokenizer for Vision

논문 소개

논문 초록(Abstract)

논문 링크

환경 확장을 통한 일반 에이전트 지능 향상 / Towards General Agentic Intelligence via Environment Scaling

논문 소개

논문 초록(Abstract)

논문 링크

더 읽어보기

문맥 내 학습은 학습인가? / Is In-Context Learning Learning?

논문 소개

논문 초록(Abstract)

논문 링크

딥다이브: 지식 그래프와 다중 턴 강화학습을 통한 심층 검색 에이전트 발전 / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

논문 소개

논문 초록(Abstract)

논문 링크

더 읽어보기

멀티모달 대규모 언어 모델을 활용한 비디오 시간적 기초 조사 / A Survey on Video Temporal Grounding with Multimodal Large Language Model

논문 소개

논문 초록(Abstract)

논문 링크

더 읽어보기

지속적인 사전학습을 통한 에이전트 확장 / Scaling Agents via Continual Pre-training

논문 소개

논문 초록(Abstract)

논문 링크

더 읽어보기

차등 개인 정보 보호 언어 모델을 위한 스케일링 법칙 / Scaling Laws for Differentially Private Language Models

논문 소개

논문 초록(Abstract)

논문 링크

더 읽어보기

R-Zero: 제로 데이터에서 자가 진화하는 사고 LLM / R-Zero: Self-Evolving Reasoning LLM from Zero Data

논문 소개

논문 초록(Abstract)

논문 링크

PyTorchKR