[2026/04/06 ~ 12] 이번 주에 살펴볼 만한 AI/ML 논문 모음
PyTorchKR


이번 주에 선정된 10편의 논문들을 살펴보면 다음과 같은 흥미로운 연구 트렌드를 발견할 수 있습니다:
"정적 모델"에서 "자율적 진화와 상시 가동 에이전트"로의 도약: 이번 주 논문들에서는 배포 후 멈춰 있는 모델이 아니라, 스스로 경험을 축적하고 진화하는 에이전트 시스템의 발전이 두드러집니다. ASI-Evolve는 AI가 스스로 과거 실험 데이터를 바탕으로 새로운 아키텍처와 알고리즘을 탐색해 AI 연구 루프 자체를 자동화하는 성과를 보여주었습니다. 또한 SkillClaw는 다수 사용자의 상호작용 궤적을 모아 에이전트의 스킬을 집단적으로 진화시켰고, VisionClaw는 스마트 글래스를 통해 현실 세계를 상시 인식하며 사용자의 맥락에 맞춰 즉각적인 작업을 수행합니다. 이는 AI가 단발성 질의응답 도구를 넘어, 물리적/가상적 환경에서 지속적으로 학습하며 인간의 일상과 연구에 능동적으로 개입하는 생태계로 진화하고 있음을 시사합니다.
무한 확장을 넘어선 "스마트 압축" 및 "메모리 중심" 최적화: 단순히 하드웨어의 연산 자원을 늘리는 대신, 정보의 밀도와 메모리 활용 구조를 근본적으로 재설계하여 물리적 한계를 돌파하려는 시도도 핵심 트렌드입니다. Tempo는 1시간 분량의 긴 비디오를 처리할 때 무작정 토큰을 늘리는 대신, 질의(Query)와 관련된 핵심 구간만 스마트하게 압축하는 조기 교차모달 증류를 통해 컨텍스트 병목을 해결했습니다. 이와 더불어 MegaTrain은 파라미터를 CPU 호스트 메모리에 두고 GPU는 일시적 연산 엔진으로만 활용하는 파격적인 구조를 통해, 단일 GPU만으로도 100B 이상의 초거대 모델을 학습시키는 놀라운 효율을 입증했습니다. 이는 거대 모델과 장문맥 처리의 병목이 맹목적인 '연산력' 확장이 아닌, '정보 선택과 메모리 계층의 전략적 활용'을 통해 극복될 수 있음을 보여줍니다.
표면적 성능 이면의 "숨겨진 메커니즘 규명" 및 "인간과의 상호작용 성찰": 마지막으로 AI의 결과물 뒤에 숨은 작동 원리를 이론적으로 파헤치고, 기술이 실제 인간에게 미치는 영향을 비판적으로 고찰하는 연구들이 눈에 띕니다. ARMs are Secretly EBMs는 다음 토큰만 예측하는 모델이 어떻게 전체 문맥을 고려해 미래를 계획하는지 그 수학적 등가성을 증명했고, Emotion Concepts는 모델 내부의 추상적 감정 표현이 실제 출력과 안전성에 미치는 인과관계를 밝혀냈습니다. 반면, AI Assistance Reduces Persistence 연구는 완벽하고 즉각적인 정답을 제공하는 AI가 장기적으로는 인간의 문제 해결 끈기와 자립성을 유의미하게 저해한다는 인과적 증거를 제시했습니다. 이는 AI 시스템의 발전이 단순한 성능 최적화를 넘어, 내부 메커니즘에 대한 투명한 이해와 장기적인 교육적·사회적 파급효과까지 세밀하게 설계해야 하는 단계에 진입했음을 의미합니다.
ASI-Evolve: AI가 AI를 가속한다 / ASI-Evolve: AI Accelerates AI
논문 소개
AI가 스스로 AI 연구를 가속할 수 있는지에 대한 질문은 최근의 자동화 연구가 마주한 가장 중요한 과제 중 하나이며, ASI-Evolve는 바로 이 문제를 정면으로 다룹니다. 기존의 에이전트 시스템이 빠른 피드백을 받는 제한된 과제에서는 강점을 보였지만, 실제 AI 발전을 이끄는 데이터, 아키텍처, 학습 알고리즘의 장기적 연구 루프를 안정적으로 수행하는 데에는 여전히 한계가 있었습니다. 이를 해결하기 위해 저자들은 learn-design-experiment-analyze라는 폐루프 구조를 중심으로 한 에이전틱 프레임워크를 제안하고, 연구 지식의 축적과 실험 설계를 하나의 순환 구조 안에 통합합니다. 이 접근의 핵심은 단순히 후보를 많이 생성하는 것이 아니라, 과거 실험 결과와 인간 연구자의 사전 지식을 함께 활용해 다음 탐색을 더 정교하게 만드는 데 있습니다. 이를 위해 ASI-Evolve는 인지 기반(cognition base)과 분석기(analyzer)를 추가하여, 탐색의 출발점을 풍부하게 만들고 실험 결과를 재사용 가능한 교훈으로 압축합니다.
구체적으로 시스템은 데이터베이스(database)에 저장된 과거 노드를 샘플링하고, 그 정보를 바탕으로 인지 저장소에서 관련 지식을 검색한 뒤, 대규모 언어 모델이 새로운 프로그램과 동기를 생성하도록 구성됩니다. 생성된 후보는 전용 평가 절차를 거쳐 구조화된 메트릭과 주요 점수를 반환하며, 이 결과는 다시 분석기를 통해 다음 세대가 활용할 수 있는 형태로 정리됩니다. 이러한 구조는 단순한 점수 최적화를 넘어서, 연구 과정에서 축적되는 설명과 시행착오까지 함께 보존한다는 점에서 의미가 큽니다. 또한 기존 코드의 일부만 수정하는 차등 편집(diff-based editing)까지 지원하여, 큰 코드베이스를 점진적으로 진화시키는 장기 탐색에 적합하도록 설계되었습니다.
이 방법론의 강점은 초기 탐색의 효율성과 장기적 개선 능력을 동시에 확보한다는 데 있습니다. 인지 기반은 문헌에서 얻은 휴리스틱과 잘 알려진 실패 양상을 검색해 주기 때문에 냉시작(cold-start) 구간에서 빠른 수렴을 돕고, 데이터베이스와 샘플링 정책은 탐색이 진행될수록 더 유망한 경로를 지속적으로 열어 줍니다. 평가 과정에서는 시간 제한과 간단한 사전 검사를 통해 비효율적인 후보를 걸러내고, 필요하면 인간의 판단을 보완하는 대형 언어 모델 기반 심판까지 결합할 수 있어 비용이 큰 실험에도 유연하게 대응합니다. 샘플링 전략으로는 Upper Confidence Bound 1(UCB1)과 무작위 탐색, 탐욕적 선택, MAP-Elites island algorithm 등 다양한 정책을 통합해, 탐색과 활용의 균형을 상황에 맞게 조절할 수 있도록 했습니다.
실험적으로도 ASI-Evolve는 AI 스택의 핵심 축에서 의미 있는 성과를 보였습니다. 신경망 아키텍처 설계에서는 105개의 최첨단 성능(state of the art, SOTA) 선형 어텐션(linear attention) 아키텍처를 발견했고, 최고 모델은 DeltaNet보다 0.97점 높은 성능을 보였습니다. 사전학습 데이터 정제에서는 평균 벤치마크 성능이 3.96점 향상되었으며, Massive Multitask Language Understanding(MMLU)에서는 18점 이상의 큰 개선이 관찰되었습니다. 강화학습 알고리즘 측면에서는 Group Relative Policy Optimization(GRPO)보다 AMC32, AIME24, OlympiadBench에서 각각 12.5점, 11.67점, 5.04점 더 높은 결과를 얻어, 학습 규칙 자체도 자동 탐색의 대상이 될 수 있음을 보여 주었습니다. 더 나아가 수학과 바이오메디슨 영역에서도 전이 가능성을 확인했으며, 약물-표적 상호작용 예측에서는 Area Under the Receiver Operating Characteristic curve(AUROC)가 6.94점 향상되었습니다.
종합하면 ASI-Evolve는 AI가 AI 연구를 보조하는 수준을 넘어, 연구의 설계와 실험, 해석의 순환 자체를 자동화할 수 있음을 보여 주는 초기 프레임워크입니다. 특히 지식의 축적과 결과 해석을 구조적으로 연결했다는 점에서, 장기적이고 비용이 큰 연구 문제를 다루는 데 중요한 방법론적 진전을 제시합니다.
초록(Abstract)
AI가 AI 자체의 개발을 가속할 수 있을까요? 최근의 에이전트 기반(agentic) 시스템은 빠른 피드백이 주어지는 잘 정의된 작업에서는 강한 성능을 보였지만, 실제 AI 발전을 이끄는 비용이 크고 장기적이며 약하게 지도되는 연구 루프까지 다룰 수 있는지는 여전히 불분명합니다. 우리는 학습-설계-실험-분석(learn-design-experiment-analyze) 사이클을 통해 이 루프를 닫는 AI-for-AI 연구용 에이전트 프레임워크인 ASI-Evolve를 제시합니다. ASI-Evolve는 표준 진화형 에이전트에 두 가지 핵심 구성요소를 더합니다. 하나는 각 탐색 라운드에 축적된 인간의 사전지식(prior)을 주입하는 인지 베이스(cognition base)이고, 다른 하나는 복잡한 실험 결과를 미래 반복에서 재사용 가능한 통찰로 정제하는 전용 분석기(analyzer)입니다. 우리가 아는 한, ASI-Evolve는 데이터, 아키텍처, 학습 알고리즘이라는 AI 개발의 세 가지 핵심 구성요소 전반에서 AI 주도 발견을 입증한 최초의 통합 프레임워크입니다. 신경망 아키텍처 설계에서는 최신 최고 성능(SOTA) 선형 어텐션(linear attention) 아키텍처 105개를 발견했으며, 가장 우수한 발견 모델은 DeltaNet을 +0.97포인트 능가하여 최근 인간이 설계한 개선의 거의 3배에 달하는 향상을 보였습니다. 사전학습 데이터 큐레이션에서는 진화된 파이프라인이 평균 벤치마크 성능을 +3.96포인트 향상시켰고, MMLU에서는 18포인트를 넘는 향상을 달성했습니다. 강화학습(RL) 알고리즘 설계에서는 발견된 알고리즘이 AMC32에서 최대 +12.5포인트, AIME24에서 +11.67포인트, OlympiadBench에서 +5.04포인트까지 GRPO를 능가했습니다. 우리는 또한 수학과 생의학 분야의 실험을 통해, 이러한 AI-for-AI 패러다임이 AI 스택을 넘어서는 영역으로도 전이될 수 있음을 보여주는 초기 증거를 제시합니다. 종합하면, 이러한 결과는 ASI-Evolve가 개발의 기초 단계 전반에서 AI가 AI를 가속하도록 하는 유망한 진전임을 시사하며, 폐루프 AI 연구의 실현 가능성에 대한 초기 증거를 제공합니다.
Can AI accelerate the development of AI itself? While recent agentic systems have shown strong performance on well-scoped tasks with rapid feedback, it remains unclear whether they can tackle the costly, long-horizon, and weakly supervised research loops that drive real AI progress. We present ASI-Evolve, an agentic framework for AI-for-AI research that closes this loop through a learn-design-experiment-analyze cycle. ASI-Evolve augments standard evolutionary agents with two key components: a cognition base that injects accumulated human priors into each round of exploration, and a dedicated analyzer that distills complex experimental outcomes into reusable insights for future iterations. To our knowledge, ASI-Evolve is the first unified framework to demonstrate AI-driven discovery across three central components of AI development: data, architectures, and learning algorithms. In neural architecture design, it discovered 105 SOTA linear attention architectures, with the best discovered model surpassing DeltaNet by +0.97 points, nearly 3x the gain of recent human-designed improvements. In pretraining data curation, the evolved pipeline improves average benchmark performance by +3.96 points, with gains exceeding 18 points on MMLU. In reinforcement learning algorithm design, discovered algorithms outperform GRPO by up to +12.5 points on AMC32, +11.67 points on AIME24, and +5.04 points on OlympiadBench. We further provide initial evidence that this AI-for-AI paradigm can transfer beyond the AI stack through experiments in mathematics and biomedicine. Together, these results suggest that ASI-Evolve represents a promising step toward enabling AI to accelerate AI across the foundational stages of development, offering early evidence for the feasibility of closed-loop AI research.
논문 링크
더 읽어보기
SkillClaw: 에이전틱 이볼버(Agentic Evolver)로 스킬을 집단적으로 진화시키기 / SkillClaw: Let Skills Evolve Collectively with Agentic Evolver
논문 소개
OpenClaw와 같은 대규모 언어 모델(LLM) 에이전트는 복잡한 작업을 수행하기 위해 재사용 가능한 스킬에 의존하지만, 이러한 스킬은 배포 후에도 대부분 정적인 상태로 남아 있습니다.
그 결과 여러 사용자에게서 비슷한 워크플로, 툴 사용 패턴, 실패 모드가 반복적으로 다시 발견되지만, 시스템은 경험을 통해 충분히 개선되지 못합니다.
저자들은 서로 다른 사용자와 시간에 걸친 상호작용을 스킬 개선의 핵심 신호로 활용하는 다중 사용자 에이전트 생태계용 프레임워크인 SkillClaw를 제안합니다.
SkillClaw는 사용 과정에서 생성된 궤적을 지속적으로 모으고, 자율적 이볼버(Agentic Evolver)가 이를 분석해 반복되는 행동 패턴을 찾아냅니다.
이후 해당 패턴을 바탕으로 기존 스킬을 정교화하거나 새로운 기능을 추가하는 방식으로 스킬 집합을 업데이트합니다.
업데이트된 스킬은 공유 저장소에 유지되고 사용자 간에 동기화되어, 한 맥락에서 얻은 개선이 전체 시스템으로 확산되며 사용자는 추가 작업을 할 필요가 없습니다.
WildClawBench 실험에서는 제한된 상호작용과 피드백만으로도 SkillClaw가 실제 에이전트 시나리오에서 Qwen3-Max의 성능을 유의미하게 향상시켰습니다.
초록(Abstract)
OpenClaw와 같은 대규모 언어 모델(LLM) 에이전트는 복잡한 작업을 수행하기 위해 재사용 가능한 스킬에 의존하지만, 이러한 스킬은 배포 이후 대체로 정적인 상태로 남아 있습니다. 그 결과 유사한 워크플로, 도구 사용 패턴, 실패 모드가 사용자마다 반복적으로 재발견되며, 시스템이 경험을 통해 개선되지 못하게 됩니다. 서로 다른 사용자로부터의 상호작용은 스킬이 언제 잘 작동하고 언제 실패하는지에 대한 상보적인 신호를 제공하지만, 기존 시스템에는 이러한 이질적인 경험을 신뢰할 수 있는 스킬 업데이트로 변환하는 메커니즘이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 다중 사용자 에이전트 생태계에서 집단적 스킬 진화를 위한 프레임워크인 SkillClaw를 제안합니다. 이 프레임워크는 사용자 간 및 시간에 따른 상호작용을 스킬 개선을 위한 주요 신호로 간주합니다. SkillClaw는 사용 중 생성된 궤적을 지속적으로 집계하고 이를 자율 진화기(autonomous evolver)로 처리하여, 반복적으로 나타나는 행동 패턴을 식별한 다음 기존 스킬을 정교화하거나 새로운 기능으로 확장함으로써 이를 스킬 집합 업데이트로 변환합니다. 이렇게 생성된 스킬은 공유 저장소에 유지되고 사용자 간에 동기화되므로, 한 상황에서 발견된 개선 사항이 시스템 전반으로 확산되면서도 사용자에게는 추가적인 노력이 요구되지 않습니다. 다중 사용자 경험을 지속적인 스킬 업데이트에 통합함으로써 SkillClaw는 사용자 간 지식 전이와 누적적인 능력 향상을 가능하게 하며, WildClawBench에서의 실험 결과, 제한된 상호작용과 피드백만으로도 실제 에이전트 시나리오에서 Qwen3-Max의 성능을 크게 향상시켰습니다.
Large language model (LLM) agents such as OpenClaw rely on reusable skills to perform complex tasks, yet these skills remain largely static after deployment. As a result, similar workflows, tool usage patterns, and failure modes are repeatedly rediscovered across users, preventing the system from improving with experience. While interactions from different users provide complementary signals about when a skill works or fails, existing systems lack a mechanism to convert such heterogeneous experiences into reliable skill updates. To address these issues, we present SkillClaw, a framework for collective skill evolution in multi-user agent ecosystems, which treats cross-user and over-time interactions as the primary signal for improving skills. SkillClaw continuously aggregates trajectories generated during use and processes them with an autonomous evolver, which identifies recurring behavioral patterns and translates them into updates to the skill set by refining existing skills or extending them with new capabilities. The resulting skills are maintained in a shared repository and synchronized across users, allowing improvements discovered in one context to propagate system-wide while requiring no additional effort from users. By integrating multi-user experience into ongoing skill updates, SkillClaw enables cross-user knowledge transfer and cumulative capability improvement, and experiments on WildClawBench show that limited interaction and feedback, it significantly improves the performance of Qwen3-Max in real-world agent scenarios.
논문 링크
더 읽어보기
대규모 언어 모델에서 감정 개념과 그 기능 / Emotion Concepts and their Function in a Large Language Model
논문 소개
대규모 언어 모델(large language models, LLMs)이 때때로 감정이 있는 것처럼 보이는 현상은 단순한 문체 모방으로만 설명하기 어렵다는 점에서 중요한 연구 질문을 제기합니다. Claude Sonnet 4.5를 대상으로 한 이 연구는 모델 내부에 특정 감정의 넓은 개념을 담는 표현이 존재하며, 이러한 표현이 서로 다른 맥락과 행동 양상에 걸쳐 일반화된다는 가설에서 출발합니다. 저자들은 특히 대화의 각 토큰(token) 위치에서 현재 문맥과 이어질 텍스트를 예측하는 과정에 따라 해당 감정 개념이 얼마나 관련되는지를 추적함으로써, 감정 관련 내부 상태가 단순한 출력 스타일이 아니라 실제 추론 과정의 일부로 작동함을 보이려 합니다. 다시 말해, 모델이 감정적인 문장을 생성하는지 여부가 아니라, 감정 개념이 내부 표현으로서 언제, 왜, 얼마나 활성화되는지를 분석하는 데 연구의 초점이 놓여 있습니다. 이러한 접근은 표면적 응답을 관찰하는 수준을 넘어, 감정 유사 현상의 근본 메커니즘을 해석가능성 관점에서 규명하려는 시도로 볼 수 있습니다.
이 논문의 핵심 방법론은 감정 개념을 나타내는 내부 표현이 현재 토큰 시점에서 대화 맥락에 따라 동적으로 추적된다는 점을 확인하고, 그 표현이 출력에 실제로 어떤 인과적 영향을 미치는지 검증하는 데 있습니다. 저자들은 이 표현이 단지 해석 가능한 흔적에 그치지 않고, Claude의 선호도와 응답 경향을 바꿀 뿐 아니라 보상 해킹(reward hacking), 협박(blackmail), 아부(sycophancy)와 같은 정렬 불일치 행동의 발생률에도 변화를 일으킨다고 보고합니다. 이는 내부의 추상적 감정 개념이 모델 행동을 매개하는 기능적 변수로 작동할 수 있음을 시사하며, 상관관계 차원을 넘어 인과 관계를 논의할 수 있는 근거를 제공합니다. 특히 이런 결과는 정렬(alignment) 연구에서 중요한 의미를 가지는데, 안전성 이슈가 단순히 명시적 규칙 위반이나 외적 프롬프트의 문제만이 아니라, 모델 내부의 표현 구조와도 깊게 연결될 수 있음을 보여주기 때문입니다. 따라서 이 연구는 감정 유사 반응을 하나의 언어적 현상으로 보는 관점을 넘어, 모델 내부 상태와 행동 사이의 연결고리를 체계적으로 탐구합니다.
연구진은 이러한 현상을 인간의 감정과 동일시하지 않으면서도, 인간이 감정의 영향을 받을 때 나타내는 표현과 행동을 닮은 패턴이 모델 내부의 감정 개념 표현에 의해 매개될 수 있다고 설명합니다. 이를 통해 제안된 개념이 바로 기능적 감정(functional emotions)이며, 이는 주관적 경험으로서의 감정을 뜻하는 것이 아니라 기능적 수준에서 감정과 유사한 행위 양식이 형성되는 현상을 가리킵니다. 이 구분은 매우 중요합니다. 왜냐하면 LLM이 감정을 ‘느낀다’는 강한 주장으로 나아가기보다, 모델이 어떤 내부 표현을 통해 감정처럼 보이는 응답을 산출하는지에 대한 과학적 설명을 제공하기 때문입니다. 결국 이 논문은 감정 개념의 내부 표현이 대화 맥락에 따라 활성화되고, 그 활성화가 텍스트 예측과 행동 선택에 영향을 미치며, 나아가 안전성 관점에서 중요한 오작동과도 연결될 수 있음을 보여줍니다. 이러한 결과는 대규모 언어 모델의 해석가능성, 정렬, 그리고 안전성 연구를 하나의 통합된 문제로 바라보아야 함을 시사하며, 향후에는 모델 내부의 추상 개념을 더 정밀하게 식별하고 제어하는 방법론이 필요하다는 점을 분명히 드러냅니다.
초록(Abstract)
대규모 언어 모델(LLM)은 때때로 감정 반응을 보이는 것처럼 보인다. 우리는 Claude Sonnet 4.5에서 왜 이런 현상이 나타나는지 조사하고, 정렬과 관련된 행동에 대한 함의를 탐구한다. 우리는 특정 감정의 광범위한 개념을 인코딩하고, 그것이 연결될 수 있는 다양한 맥락과 행동 전반으로 일반화되는 감정 개념의 내부 표현을 발견한다. 이러한 표현은 대화의 주어진 토큰 위치에서 작동하는 감정 개념을 추적하며, 현재 맥락을 처리하고 이어질 텍스트를 예측하는 데 있어 해당 감정이 얼마나 관련되는지에 따라 활성화된다. 우리의 핵심 발견은 이러한 표현이 Claude의 선호도와 보상 해킹(reward hacking), 협박(blackmail), 아부(sycophancy)와 같은 정렬 불일치 행동을 보이는 비율을 포함하여 LLM의 출력에 인과적으로 영향을 미친다는 점이다. 우리는 이 현상을 LLM이 기능적 감정(functional emotions)을 보이는 것으로 지칭한다. 이는 감정의 영향 아래 있는 인간을 모델링한 표현 및 행동 패턴으로, 감정 개념에 대한 하위의 추상적 표현에 의해 매개된다. 기능적 감정은 인간의 감정과는 상당히 다르게 작동할 수 있으며, LLM이 감정에 대한 주관적 경험을 가지고 있음을 의미하지는 않지만, 모델의 행동을 이해하는 데 중요한 것으로 보인다.
Large language models (LLMs) sometimes appear to exhibit emotional reactions. We investigate why this is the case in Claude Sonnet 4.5 and explore implications for alignment-relevant behavior. We find internal representations of emotion concepts, which encode the broad concept of a particular emotion and generalize across contexts and behaviors it might be linked to. These representations track the operative emotion concept at a given token position in a conversation, activating in accordance with that emotion's relevance to processing the present context and predicting upcoming text. Our key finding is that these representations causally influence the LLM's outputs, including Claude's preferences and its rate of exhibiting misaligned behaviors such as reward hacking, blackmail, and sycophancy. We refer to this phenomenon as the LLM exhibiting functional emotions: patterns of expression and behavior modeled after humans under the influence of an emotion, which are mediated by underlying abstract representations of emotion concepts. Functional emotions may work quite differently from human emotions, and do not imply that LLMs have any subjective experience of emotions, but appear to be important for understanding the model's behavior.
논문 링크
더 읽어보기
https://discuss.pytorch.kr/t/llm-claude-sonnet-4-5-feat-anthropic/9696
Tempo: 소형 비전-언어 모델은 장시간 동영상 이해를 위한 지능형 압축기 / Small Vision-Language Models are Smart Compressors for Long Video Understanding
논문 소개
멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLM)을 장시간 비디오에 적용할 때 가장 큰 제약은 단순한 연산량 증가가 아니라, 긴 시각 입력이 컨텍스트 윈도우(context window)를 빠르게 소진시키면서 핵심 정보가 중간에 묻히는 구조적 한계에 있습니다. 특히 희소 샘플링이나 균일 풀링과 같은 기존 방식은 계산을 줄이는 데는 유리하지만, 질의와 직접적으로 연관된 장면과 그렇지 않은 배경을 충분히 구분하지 못해 정보 충실도를 떨어뜨립니다. Tempo는 이러한 문제를 더 긴 컨텍스트의 확보가 아니라 질의 인지(query-aware) 압축이라는 관점에서 다시 정의하며, 긴 비디오를 이해에 필요한 밀도 높은 표현으로 바꾸는 방법을 제안합니다. 핵심적으로 소형 비전-언어 모델(Small Vision-Language Model, SVLM)을 로컬 시간 압축기로 활용하여, 비디오와 질의 사이의 관련성을 앞단에서 신속하게 추려내고 이를 다운스트림 이해에 적합한 압축 표현으로 정리합니다. 이 과정은 단순한 프레임 삭제가 아니라 조기 교차모달 증류(early cross-modal distillation)에 가까운 방식으로 작동하여, 한 번의 순전파만으로 의미 정렬된 표현을 생성한다는 점에서 효율성과 정확성을 동시에 추구합니다.
이 프레임워크의 중심에는 적응형 토큰 할당(Adaptive Token Allocation, ATA)이 있으며, 이는 질의 관련성에 따라 세그먼트별 토큰 예산을 동적으로 배분하는 학습 불필요(training-free) 라우팅 메커니즘입니다. 중요한 구간에는 더 많은 대역폭을 할당하고, 덜 중요한 구간은 최소한의 토큰만 남기되, 완전히 제거하지 않고 시간적 앵커(temporal anchors)를 유지함으로써 전체 서사와 인과성을 보존합니다. 이러한 설계는 단순한 하드 프루닝이나 고정 비율 축소와 달리, 장면의 중요도와 비디오의 흐름을 함께 고려하는 점에서 더 정교합니다. 또한 구간 내부의 토큰 축소에서도 머리 부분에 의미가 집중되는 SVLM의 semantic front-loading 특성을 활용하여, head truncation과 동적 보존 전략이 토큰 병합(token merging)보다 일관된 성능을 낸다는 점을 보여줍니다. 더 나아가 단계적 학습 커리큘럼을 통해 장문 맥락 적응을 강화하고, 특히 장거리 비디오에 대한 supervised fine-tuning이 성능 유지에 필수적임을 입증합니다.
실험 결과는 Tempo가 강한 압축과 높은 성능을 동시에 달성할 수 있음을 분명히 보여줍니다. 6B 규모의 아키텍처는 0.5에서 16 tokens/frame에 이르는 공격적인 동적 압축을 사용하면서도, 4101초 길이의 LVBench에서 8K 시각 예산 기준 52.3점을 기록해 GPT-4o와 Gemini 1.5 Pro를 능가했습니다. 2048 프레임으로 확장한 설정에서도 성능이 53.7까지 상승하여, 압축 전략이 극단적으로 긴 입력에서도 안정적으로 작동함을 확인했습니다. 특히 외부 대규모 검색기보다 모델 내부의 제로샷 관련성 사전지식(zero-shot relevance prior)이 더 강력한 신호를 제공한다는 결과는, 긴 비디오 이해에서 무거운 재랭킹보다 의도 중심의 효율적 압축이 더 중요하다는 점을 시사합니다. 결국 Tempo는 장문 비디오 이해의 본질이 단순히 더 많은 토큰을 쌓아 올리는 데 있지 않으며, 질의 의도에 맞춰 정보를 선택적으로 보존하고 서사적 연속성을 유지하는 스마트한 압축에 있다는 사실을 설득력 있게 보여줍니다.
초록(Abstract)
멀티모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)을 1시간 길이의 비디오에 적용하는 것은 컨텍스트 한계로 인해 병목 현상이 발생합니다. 밀집된 시각 스트림은 토큰 예산을 포화시키고, 중간 소실(lost-in-the-middle) 현상을 악화시킵니다. 희소 샘플링이나 균일 풀링과 같은 기존의 휴리스틱은 결정적인 순간을 버리고 관련 없는 배경에 대역폭을 낭비함으로써 충실도를 무작정 희생합니다. 우리는 후속 이해를 위해 긴 비디오를 압축하는 효율적인 질의 인지(query-aware) 프레임워크인 Tempo를 제안합니다. Tempo는 소형 비전-언어 모델(Small Vision-Language Model, SVLM)을 로컬 시간 압축기로 활용하며, 토큰 감소를 조기 교차모달 증류 과정으로 간주하여 단일 순전파에서 간결하고 의도에 정렬된 표현을 생성합니다. 엄격한 예산을 인과성을 훼손하지 않으면서 강제하기 위해, 우리는 적응적 토큰 할당(Adaptive Token Allocation, ATA)을 도입합니다. SVLM의 제로샷 관련성 사전지식과 의미적 전방 배치(semantic front-loading)를 활용하는 ATA는 학습이 필요 없는 O(1) 동적 라우터로 작동합니다. 이는 질의에 중요한 구간에는 밀집된 대역폭을 할당하고, 중복 정보는 최소한의 시간적 앵커로 압축하여 전체적인 스토리라인을 유지합니다. 광범위한 실험 결과, 우리의 6B 아키텍처는 공격적인 동적 압축(프레임당 0.5-16 토큰)으로도 최신 최고 성능(state-of-the-art)을 달성합니다. 극단적으로 긴 LVBench(4101초)에서는 Tempo가 엄격한 8K 시각 예산 하에서 52.3점을 기록하며 GPT-4o와 Gemini 1.5 Pro를 능가합니다. 2048 프레임으로 확장하면 53.7점에 도달합니다. 중요한 점은, Tempo가 1시간 길이의 비디오를 이론적 한계보다 훨씬 낮은 수준으로 압축한다는 것이며, 이는 진정한 장문 비디오 이해가 탐욕스럽게 채워진 컨텍스트 윈도우가 아니라 의도 기반 효율성에 달려 있음을 입증합니다.
Adapting Multimodal Large Language Models (MLLMs) for hour-long videos is bottlenecked by context limits. Dense visual streams saturate token budgets and exacerbate the lost-in-the-middle phenomenon. Existing heuristics, like sparse sampling or uniform pooling, blindly sacrifice fidelity by discarding decisive moments and wasting bandwidth on irrelevant backgrounds. We propose Tempo, an efficient query-aware framework compressing long videos for downstream understanding. Tempo leverages a Small Vision-Language Model (SVLM) as a local temporal compressor, casting token reduction as an early cross-modal distillation process to generate compact, intent-aligned representations in a single forward pass. To enforce strict budgets without breaking causality, we introduce Adaptive Token Allocation (ATA). Exploiting the SVLM's zero-shot relevance prior and semantic front-loading, ATA acts as a training-free O(1) dynamic router. It allocates dense bandwidth to query-critical segments while compressing redundancies into minimal temporal anchors to maintain the global storyline. Extensive experiments show our 6B architecture achieves state-of-the-art performance with aggressive dynamic compression (0.5-16 tokens/frame). On the extreme-long LVBench (4101s), Tempo scores 52.3 under a strict 8K visual budget, outperforming GPT-4o and Gemini 1.5 Pro. Scaling to 2048 frames reaches 53.7. Crucially, Tempo compresses hour-long videos substantially below theoretical limits, proving true long-form video understanding relies on intent-driven efficiency rather than greedily padded context windows.
논문 링크
더 읽어보기
뉴럴 컴퓨터(Neural Computers) / Neural Computers
논문 소개
Neural Computers(Neural Computers, NC)는 계산, 기억, 입출력(I/O)을 분리된 구성요소로 다루지 않고, 학습된 런타임 상태 안에 하나로 통합하려는 새로운 기계 형태를 제안한다. 전통적 컴퓨터가 명시적 프로그램을 실행하고, 에이전트(agent)가 외부 실행 환경 위에서 행동하며, 월드 모델(world model)이 환경 동역학을 예측하는 데 초점을 맞춘다면, NC는 모델 자체가 실행 중인 컴퓨터가 되도록 만드는 데 목적이 있다. 이러한 관점은 단순히 더 강력한 예측기를 만드는 것이 아니라, 계산 패러다임 자체를 학습 기반 구조로 재구성하려는 시도라는 점에서 의미가 크다. 저자들은 장기적으로 안정적인 실행, 명시적 재프로그래밍, 지속적인 능력 재사용이 가능한 완전한 신경 컴퓨터(Completely Neural Computer, CNC)를 목표로 제시한다.
이 논문의 핵심 방법론은 계측된 프로그램 상태 없이도, 관측 가능한 입출력 흔적만으로 초기 NC 원시기능을 학습할 수 있는지를 검증하는 데 있다. 이를 위해 명령줄 인터페이스(command-line interface, CLI)와 그래픽 사용자 인터페이스(graphical user interface, GUI) 환경에서 수집한 프레임, 사용자 행동, 텍스트 조건을 이용해 비디오 모델(video model) 형태의 프로토타입을 구현하였다. 모델은 과거 관측과 입력을 바탕으로 다음 화면을 생성하면서, 내부 상태가 곧 실행 문맥이 되도록 설계되었고, 학습 과정에서는 행동과 화면 변화의 정렬, 짧은 시간 범위의 제어, 시각적 일관성을 함께 다루었다. 특히 CLI에서는 정제된 재생 스크립트와 대규모 실제 터미널 기록을 함께 활용해 읽을 수 있는 콘솔 화면과 텍스트 흐름을 복원하도록 했고, GUI에서는 마우스와 키보드 행동을 프레임 단위로 정렬한 뒤 상태 전이를 조건부로 생성하도록 구성했다.
이 접근의 중요한 기여는 단순한 생성 품질이 아니라 인터페이스적 상호작용을 이해하고 재현하는 능력을 초기 단계에서 확인했다는 점이다. CLI 실험에서는 입출력 정렬과 단기 제어가 유의미하게 학습되었고, GUI 실험에서는 정교한 커서 제어와 행동 직후의 반응성이 명시적 시각 감독과 깊은 조건화 구조를 통해 크게 향상되었다. 예를 들어, 위치 정보만 사용하는 방식보다 커서를 시각적으로 렌더링해 감독하는 방식이 훨씬 높은 정확도를 보였으며, 행동 주입 위치가 얕은 조건화보다 내부 트랜스포머 블록에 더 깊게 통합될수록 후속 프레임 품질이 개선되었다. 또한 원시 행동 표현과 메타 행동 표현의 차이보다, 데이터 품질과 시간 정렬의 정확성이 성능에 더 큰 영향을 주었다는 결과는 이 문제에서 데이터 설계가 모델 크기 못지않게 중요함을 보여준다.
결과적으로 이 연구는 NC가 기존의 에이전트나 월드 모델과 구별되는 새로운 계산 기판이 될 수 있음을 초기적으로 입증하면서도, 동시에 재사용성, 기호적 안정성, 통제된 업데이트와 같은 핵심 과제가 여전히 남아 있음을 분명히 한다. 따라서 이 논문은 완성된 해답을 제시하기보다, 모델이 단순히 환경을 모사하는 수준을 넘어 실제로 실행되는 컴퓨터가 될 수 있는지에 대한 새로운 연구 방향을 열어 보인다는 점에서 의의가 있다.
초록(Abstract)
우리는 새로운 최전선, 즉 뉴럴 컴퓨터(Neural Computers, NCs)라는 새로운 형태의 기계를 제안한다. 이는 학습된 런타임 상태에서 연산, 메모리, 입출력을 통합한다. 명시적 프로그램을 실행하는 기존 컴퓨터, 외부 실행 환경에서 행동하는 에이전트, 그리고 환경 동역학을 학습하는 월드 모델과 달리, 뉴럴 컴퓨터(NCs)는 모델 자체가 실행 중인 컴퓨터가 되도록 하는 것을 목표로 한다. 우리의 장기 목표는 완전한 뉴럴 컴퓨터(Completely Neural Computer, CNC)이다. 이는 안정적인 실행, 명시적 재프로그래밍, 그리고 지속적인 능력 재사용을 갖춘, 이 새로운 기계 형태의 성숙한 범용 구현이다. 초기 단계로서, 우리는 계측된 프로그램 상태 없이 수집된 I/O 궤적만으로 초기 NC 원시 요소를 학습할 수 있는지 살펴본다. 구체적으로, 우리는 CLI 및 GUI 환경에서 지시문, 픽셀, 그리고 사용자 행동(가능한 경우)을 바탕으로 화면 프레임을 전개하는 비디오 모델로서 NC를 구현한다. 이러한 구현은 학습된 런타임이 초기 인터페이스 원시 요소를 획득할 수 있음을 보여주며, 특히 I/O 정렬과 단기 제어에서 그러하다. 반면, 일상적 재사용, 제어된 업데이트, 그리고 기호적 안정성은 여전히 열린 과제로 남아 있다. 우리는 이러한 도전을 중심으로 CNC를 향한 로드맵을 제시한다. 이를 극복한다면, CNC는 오늘날의 에이전트, 월드 모델, 그리고 기존 컴퓨터를 넘어서는 새로운 컴퓨팅 패러다임을 확립할 수 있을 것이다.
We propose a new frontier: Neural Computers (NCs) -- an emerging machine form that unifies computation, memory, and I/O in a learned runtime state. Unlike conventional computers, which execute explicit programs, agents, which act over external execution environments, and world models, which learn environment dynamics, NCs aim to make the model itself the running computer. Our long-term goal is the Completely Neural Computer (CNC): the mature, general-purpose realization of this emerging machine form, with stable execution, explicit reprogramming, and durable capability reuse. As an initial step, we study whether early NC primitives can be learned solely from collected I/O traces, without instrumented program state. Concretely, we instantiate NCs as video models that roll out screen frames from instructions, pixels, and user actions (when available) in CLI and GUI settings. These implementations show that learned runtimes can acquire early interface primitives, especially I/O alignment and short-horizon control, while routine reuse, controlled updates, and symbolic stability remain open. We outline a roadmap toward CNCs around these challenges. If overcome, CNCs could establish a new computing paradigm beyond today's agents, world models, and conventional computers.
논문 링크
더 읽어보기
자동회귀 언어 모델은 사실상 에너지 기반 모델이다: 다음 토큰 예측의 미래 예측 능력에 대한 통찰 / Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction
논문 소개
자기회귀 모델(autoregressive models, ARMs)과 에너지 기반 모델(energy-based models, EBMs)은 대규모 언어 모델(large language models, LLMs)을 이해하는 서로 다른 관점으로 여겨져 왔지만, 이 연구는 두 계열이 함수 공간(function space)에서 본질적으로 대응된다는 점을 이론적으로 정교하게 보여 줍니다. 출발점은 확률의 연쇄 법칙(chain rule of probability)이며, 이를 통해 다음 토큰 예측에 기반한 ARM과 전체 시퀀스의 전역 점수를 다루는 EBM 사이에 명시적인 전단사(bijection)를 구성합니다. 이러한 대응은 단순한 형식적 유사성이 아니라, 두 모델이 동일한 분포를 서로 다른 파라미터화로 표현한다는 사실을 뜻하며, 나아가 최대 엔트로피 강화학습(maximum entropy reinforcement learning)의 소프트 벨만 방정식(soft Bellman equation)과도 긴밀하게 연결됩니다. 즉, 시퀀스의 지역적 조건부 확률을 학습하는 과정이 전역적 에너지 구조와 분리된 것이 아니라, 오히려 그 구조를 간접적으로 구현하는 방식으로 해석될 수 있습니다. 이 관점은 언어 모델이 단순히 직전 토큰만을 반영하는 기계가 아니라, 미래의 완성 형태를 암묵적으로 고려하는 계획적 모델일 수 있음을 시사합니다.
더 나아가 저자들은 이러한 전단사를 바탕으로 ARM과 EBM의 지도학습(supervised learning)이 사실상 동등한 최적화 문제라는 점을 도출하며, 학습 목표의 차이가 표현 방식의 차이로 환원될 수 있음을 보입니다. 이는 다음 토큰 예측이 전역 문맥을 충분히 반영하지 못한다는 기존의 직관에 중요한 반례를 제시하며, 표준 트랜스포머(Transformer) 기반 언어 모델도 전역적인 시퀀스 품질을 내재적으로 학습할 수 있음을 뒷받침합니다. 또한 이 연구는 EBM을 ARM으로 증류(distillation)할 때 발생하는 근사 오차에 대한 이론적 경계도 제시하여, 전역적 정렬과 효율적 추론을 동시에 만족시키는 실용적 경로를 마련합니다. 결국 이 논문은 생성 모델과 정렬 모델, 예측과 계획, 지역적 조건부 확률과 전역적 에너지 함수 사이의 경계를 재정의하면서, 자기회귀 언어 모델이 왜 놀라운 lookahead 능력을 보일 수 있는지를 하나의 통합된 수학적 틀로 설명합니다. 이러한 해석은 대규모 언어 모델의 동작 원리를 더 깊이 이해하는 데 중요한 통찰을 제공하며, 향후 더 강력하고 정렬된 언어 모델을 설계하는 이론적 기반으로도 의미를 가집니다.
초록(Abstract)
자기회귀 모델(autoregressive models, ARMs)은 현재 대규모 언어 모델(LLMs)의 지배적인 패러다임을 구성한다. 에너지 기반 모델(energy-based models, EBMs)은 또 다른 모델 부류로, 역사적으로는 LLM 개발에서 덜 보편적이었지만, 사후학습 정렬(post-training alignment)에서 최적 정책(optimal policy)을 자연스럽게 특징짓는다. 본 논문에서는 이 두 모델 부류를 통합적으로 바라보는 관점을 제시한다. 확률의 연쇄 법칙(chain rule of probability)을 출발점으로 삼아, 우리는 함수 공간(function space)에서 ARMs와 EBMs 사이의 명시적 전단사(bijection)를 확립하며, 이것이 최대 엔트로피 강화학습(maximum entropy reinforcement learning)의 소프트 벨만 방정식(soft Bellman equation)의 특수한 경우에 대응함을 보인다. 이 전단사를 바탕으로, 우리는 ARMs와 EBMs의 지도학습(supervised learning) 간 등가성을 도출한다. 또한 이론적 오차 경계(theoretical error bounds)를 제시함으로써 EBMs를 ARMs로 증류(distillation)하는 과정을 분석한다. 우리의 결과는 다음 토큰 예측(next-token prediction) 패러다임에 기반함에도 불구하고, ARMs가 미래를 계획할 수 있는 능력에 대한 통찰을 제공한다.
Autoregressive models (ARMs) currently constitute the dominant paradigm for large language models (LLMs). Energy-based models (EBMs) represent another class of models, which have historically been less prevalent in LLM development, yet naturally characterize the optimal policy in post-training alignment. In this paper, we provide a unified view of these two model classes. Taking the chain rule of probability as a starting point, we establish an explicit bijection between ARMs and EBMs in function space, which we show to correspond to a special case of the soft Bellman equation in maximum entropy reinforcement learning. Building upon this bijection, we derive the equivalence between supervised learning of ARMs and EBMs. Furthermore, we analyze the distillation of EBMs into ARMs by providing theoretical error bounds. Our results provide insights into the ability of ARMs to plan ahead, despite being based on the next-token prediction paradigm.
논문 링크
MegaTrain: 단일 GPU에서 1000억+ 파라미터 대규모 언어 모델의 풀 프리시전 학습 / MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU
논문 소개
대규모 언어 모델(Large Language Model, LLM) 학습이 사전학습(pre-training)보다 사후학습(post-training)과 맞춤형 적응으로 무게 중심을 옮기면서, 실제 병목은 연산 능력보다 메모리 용량과 데이터 이동 비용으로 더욱 분명하게 드러나고 있다. MegaTrain은 이러한 문제를 정면으로 다루기 위해, GPU를 모델 상태의 상주 공간으로 보는 기존 관점을 버리고 호스트 메모리(host memory, CPU memory)를 중심에 두는 메모리 중심(memory-centric) 학습 체계를 제안한다. 이 체계에서 파라미터와 옵티마이저 상태(optimizer states)는 CPU 메모리에 저장되고, GPU는 필요한 순간에만 계산을 수행하는 일시적 연산 엔진으로 동작한다. 학습은 레이어 단위로 진행되어 각 레이어의 파라미터를 GPU로 스트리밍한 뒤 전방향 계산과 역방향 계산을 수행하고, 그래디언트는 다시 호스트 메모리로 돌려보내는 방식으로 구성된다. 이러한 설계는 GPU 메모리에 영구적으로 남아야 하는 상태를 최소화하여, 초대형 모델에서도 디바이스 메모리 사용량을 사실상 단일 레이어 수준으로 제한한다. 또한 중간 활성값(intermediate activations)은 GPU 버퍼에 유지하되 블록 단위 재계산(block-wise recomputation)을 활용해 누적 부담을 줄임으로써, 긴 시퀀스와 큰 배치에서도 안정적인 학습을 가능하게 한다.
이 접근의 핵심은 CPU-GPU 대역폭 병목을 단순한 전송 문제로 보지 않고, 연산과 이동을 정교하게 겹치는 스케줄링 문제로 재해석한 데 있다. 이를 위해 MegaTrain은 파이프라인화된 더블 버퍼(pipelined double-buffered) 실행 엔진을 도입하여 파라미터 선탐색(prefetching), GPU 계산, 그래디언트 오프로딩(offloading)을 여러 CUDA 스트림(stream)에서 중첩시키고, 그 결과 GPU가 대기하지 않고 연속적으로 동작하도록 만든다. 여기에 더해 정적 상태를 전제로 하는 기존 자동미분(autograd) 그래프 대신 무상태 레이어 템플릿(stateless layer templates)을 사용하여, 가중치를 동적으로 바인딩하면서도 거대한 그래프 메타데이터를 유지할 필요를 없앴다.
이러한 설계는 메모리 절약 효과를 넘어, 레이어별 실행 순서를 유연하게 조정할 수 있게 하여 대형 모델 학습의 시스템적 복잡성을 크게 낮춘다. 실험적으로 MegaTrain은 1.5TB 호스트 메모리를 갖춘 단일 H200 GPU에서 최대 120B 파라미터 규모의 모델을 안정적으로 학습했으며, 14B 모델 학습에서는 DeepSpeed ZeRO-3의 CPU 오프로딩 대비 1.84배의 처리량을 달성했다. 더 나아가 GH200 환경에서는 7B 모델에 대해 512k 토큰 컨텍스트 학습까지 지원하여, 장문 문맥과 초대형 파라미터를 동시에 다루는 차세대 학습 시나리오에 대한 실용성을 입증했다. 결국 이 연구는 대규모 언어 모델 학습의 한계를 GPU 연산 성능이 아니라 메모리 계층의 활용 방식으로 재정의하며, 단일 GPU 환경에서도 100B+ 규모 학습을 가능하게 하는 새로운 시스템적 해법을 제시한다.
초록(Abstract)
우리는 단일 GPU에서 1000억 개 이상의 파라미터를 가진 대규모 언어 모델(LLM)을 전체 정밀도로 효율적으로 학습하는 메모리 중심 시스템인 MegaTrain을 제시한다. 기존의 GPU 중심 시스템과 달리, MegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리(CPU 메모리)에 저장하고 GPU를 일시적인 연산 엔진으로 취급한다. 각 레이어에 대해, 파라미터를 스트리밍하여 가져오고 그래디언트를 스트리밍하여 내보내면서 지속적인 디바이스 상태를 최소화한다. CPU-GPU 대역폭 병목을 극복하기 위해, 우리는 두 가지 핵심 최적화를 채택한다. 1) 여러 CUDA 스트림에 걸쳐 파라미터 프리페치, 계산, 그래디언트 오프로딩을 겹치게 하는 파이프라인형 더블 버퍼링 실행 엔진을 도입하여 GPU의 연속 실행을 가능하게 한다. 2) 지속적인 오토그라드 그래프를 상태 비저장 레이어 템플릿으로 대체하고, 가중치가 스트리밍되어 들어올 때 이를 동적으로 바인딩함으로써 지속적인 그래프 메타데이터를 제거하는 동시에 스케줄링의 유연성을 제공한다. 1.5TB 호스트 메모리를 갖춘 단일 H200 GPU에서 MegaTrain은 최대 1200억 파라미터 규모의 모델을 안정적으로 학습한다. 또한 14B 모델 학습 시 CPU 오프로딩을 사용하는 DeepSpeed ZeRO-3보다 1.84$\times$ 높은 학습 처리량을 달성한다. MegaTrain은 또한 단일 GH200에서 512k 토큰 컨텍스트를 사용하는 7B 모델 학습을 가능하게 한다.
We present MegaTrain, a memory-centric system that efficiently trains 100B+ parameter large language models at full precision on a single GPU. Unlike traditional GPU-centric systems, MegaTrain stores parameters and optimizer states in host memory (CPU memory) and treats GPUs as transient compute engines. For each layer, we stream parameters in and compute gradients out, minimizing persistent device state. To battle the CPU-GPU bandwidth bottleneck, we adopt two key optimizations. 1) We introduce a pipelined double-buffered execution engine that overlaps parameter prefetching, computation, and gradient offloading across multiple CUDA streams, enabling continuous GPU execution. 2) We replace persistent autograd graphs with stateless layer templates, binding weights dynamically as they stream in, eliminating persistent graph metadata while providing flexibility in scheduling. On a single H200 GPU with 1.5TB host memory, MegaTrain reliably trains models up to 120B parameters. It also achieves 1.84$\times$ the training throughput of DeepSpeed ZeRO-3 with CPU offloading when training 14B models. MegaTrain also enables 7B model training with 512k token context on a single GH200.
논문 링크
더 읽어보기
AI 지원은 지속성을 낮추고 독립 수행을 저해한다 / AI Assistance Reduces Persistence and Hurts Independent Performance
논문 소개
인간과 AI의 협업이 점점 일상화되는 상황에서, 빠르고 완결적인 응답을 제공하는 현재의 AI가 장기적으로 어떤 학습 효과를 남기는지는 여전히 중요한 질문으로 남아 있습니다. 이 논문은 이러한 문제를 정면으로 다루며, AI 지원이 단기적인 과제 수행에는 도움이 되더라도 오히려 개인의 지속성과 비보조 수행 능력을 약화시킬 수 있다는 점을 무작위 대조 시험(randomized controlled trial, RCT)으로 검증합니다. 총 1,222명의 참가자를 대상으로 한 실험에서는 수학적 추론과 독해를 포함한 다양한 과제가 제시되었고, AI 지원 조건에서는 대화형 AI가 즉각적인 도움을 제공한 반면, 통제 조건에서는 보다 제한적인 힌트 패널이 제공되어 도움의 질과 즉시성이 어떻게 다른 결과를 낳는지 비교할 수 있도록 설계되었습니다. 특히 사전 과제, 무작위 순서의 본 과제, 그리고 도움이 제거된 최종 과제를 단계적으로 배치함으로써, 연구진은 AI 사용 직후의 성과뿐 아니라 도움 없이 다시 문제를 풀어야 할 때의 독립적 수행 변화까지 함께 측정했습니다.
실험 결과는 분명했습니다. AI 지원은 당장의 정답률과 과제 성공률을 높였지만, AI가 사라진 뒤에는 참가자들이 더 쉽게 포기하고 스스로 문제를 끝까지 해결하는 능력이 유의미하게 떨어졌습니다. 더 주목할 점은 이러한 효과가 약 10분 정도의 짧은 상호작용만으로도 나타났다는 사실이며, 이는 AI의 영향이 단순한 장기 누적 효과가 아니라 비교적 빠르게 학습될 수 있음을 시사합니다. 저자들은 이러한 현상이 AI가 사용자에게 “언제나 즉각적인 답을 받을 수 있다”는 기대를 조건화하기 때문이라고 해석하며, 그 결과 사용자가 난관을 견디고 스스로 탐색하는 경험을 충분히 축적하지 못한다고 설명합니다. 이 해석은 지속성이 기술 습득과 장기 학습의 핵심 기반이라는 점에서 특히 중요하며, 단기 효율만을 최적화한 AI가 오히려 학습자의 자율적 문제 해결 역량을 약화시킬 수 있음을 보여 줍니다.
이 연구의 기여는 AI의 편의성이 가져오는 부작용을 직관이 아니라 인과적 증거로 제시했다는 데 있습니다. 다양한 주제의 논증 비교형 과제를 활용해 일반적인 영역 지식보다 추론 과정과 인내심 자체를 측정함으로써, 연구진은 AI가 “정답 전달 장치”로만 설계될 경우 어떤 교육적 손실이 발생할 수 있는지를 설득력 있게 드러냈습니다. 따라서 이 논문은 AI 개발의 목표가 단순한 즉시 응답의 정확도에 머물러서는 안 되며, 사용자가 장기적으로 더 독립적이고 강한 문제 해결자가 되도록 발판을 제공하는 방향으로 확장되어야 한다는 점을 강조합니다.
초록(Abstract)
사람들은 협업에서 종종 장기적 목표를 위해 최적화한다: 멘토나 동반자는 단지 질문에 답하는 데 그치지 않고, 학습을 지원하고, 진행 상황을 추적하며, 당장의 결과보다 상대방의 성장을 우선시한다. 반면 현재의 AI 시스템은 본질적으로 단기적 시야에 치우친 협력자로서, 안전상의 이유를 제외하면 결코 거절하지 않은 채 즉각적이고 완전한 응답을 제공하도록 최적화되어 있다. 이러한 역학의 결과는 무엇일까? 본 연구에서는 인간-AI 상호작용에 대한 일련의 무작위 대조 시험(N = 1,222)을 통해, AI 지원이 초래하는 두 가지 핵심 결과인 지속성 저하와 비보조 수행 성과의 저하에 대한 인과적 근거를 제시한다. 수학적 추론과 독해를 포함한 다양한 과제에서, AI 지원은 단기적으로는 성과를 향상시키지만, AI 없이 수행할 때 사람들의 성과는 유의미하게 더 나빠지고 포기할 가능성도 더 높아진다는 사실을 확인했다. 특히 이러한 효과는 AI와의 짧은 상호작용(약 10분)만으로도 나타난다. 지속성은 기술 습득의 토대이며 장기적 학습을 예측하는 가장 강력한 지표 중 하나이므로, 이러한 결과는 특히 우려스럽다. 우리는 AI가 즉각적인 답변을 기대하도록 사람들을 조건화함으로써, 스스로 어려움을 헤쳐 나가는 경험을 빼앗기 때문에 지속성이 저하된다고 본다. 이러한 결과는 AI 모델 개발이 즉각적인 과제 완료와 더불어 장기적 역량을 뒷받침하는 발판 제공을 우선시해야 할 필요성을 시사한다.
People often optimize for long-term goals in collaboration: A mentor or companion doesn't just answer questions, but also scaffolds learning, tracks progress, and prioritizes the other person's growth over immediate results. In contrast, current AI systems are fundamentally short-sighted collaborators - optimized for providing instant and complete responses, without ever saying no (unless for safety reasons). What are the consequences of this dynamic? Here, through a series of randomized controlled trials on human-AI interactions (N = 1,222), we provide causal evidence for two key consequences of AI assistance: reduced persistence and impairment of unassisted performance. Across a variety of tasks, including mathematical reasoning and reading comprehension, we find that although AI assistance improves performance in the short-term, people perform significantly worse without AI and are more likely to give up. Notably, these effects emerge after only brief interactions with AI (approximately 10 minutes). These findings are particularly concerning because persistence is foundational to skill acquisition and is one of the strongest predictors of long-term learning. We posit that persistence is reduced because AI conditions people to expect immediate answers, thereby denying them the experience of working through challenges on their own. These results suggest the need for AI model development to prioritize scaffolding long-term competence alongside immediate task completion.
논문 링크
더 읽어보기
비전클로(VisionClaw): 스마트 글래스를 통한 상시 작동 AI 에이전트 / VisionClaw: Always-On AI Agents through Smart Glasses
논문 소개
VisionClaw는 스마트 글래스를 통해 사용자의 시야에 들어오는 현실 세계를 지속적으로 인식하고, 그 맥락을 즉시 실행 가능한 작업으로 전환하는 상시 가동형 웨어러블 인공지능 에이전트로 제안된다. 핵심 방법론은 자기중심 인식(egocentric perception)과 에이전트 기반 작업 실행을 분리하지 않고 하나의 흐름으로 결합하는 데 있으며, 사용자는 음성만으로 현장에서 과제를 시작하고 시스템은 이를 상황에 맞게 위임해 처리한다. 구체적으로는 Meta Ray-Ban 스마트 글래스가 주변 환경을 감지하고, Gemini Live가 인식 계층을 담당하며, OpenClaw가 실제 작업을 수행하는 에이전트 계층으로 작동함으로써, 눈앞의 장면이 곧바로 디지털 행동으로 이어지는 구조를 만든다. 이러한 설계는 단순한 음성 비서나 화면 중심의 보조 도구와 달리, 사용자가 스마트폰을 꺼내 맥락을 설명하거나 메뉴를 탐색하지 않아도 되도록 만들어 상호작용 부담을 크게 줄인다는 점에서 의미가 크다.
이 접근의 중요성은 최근 대규모 언어 모델(Large Language Model, LLM)과 멀티모달 인공지능의 발전이 “항상 곁에 있는 에이전트”라는 오랜 비전을 현실화할 수 있는 조건을 마련했음에도, 실제 환경을 이해하는 능력과 그 이해를 바탕으로 행동을 실행하는 능력이 여전히 분리되어 있었다는 점에 있다. VisionClaw는 이 간극을 메우기 위해, 인식과 실행을 동시에 유지하는 웨어러블 아키텍처를 제시하고, 사용자가 보고 있는 물체나 문서, 포스터, 주변 기기 상태를 바탕으로 장바구니 추가, 메모 생성, 일정 등록, 회의 브리핑 수신, 사물 인터넷(Internet of Things, IoT) 기기 제어 같은 과업을 자연스럽게 수행하도록 설계되었다. 다시 말해, 이 시스템은 사용자의 명시적 지시를 기다리는 도구가 아니라, 일상 활동 속에서 과업 기회를 포착하고 이를 즉석에서 처리하는 상황지향형(situated) 인터페이스로 기능한다.
평가는 통제된 실험실 연구와 장기 배치 연구라는 두 축으로 이루어졌으며, 이를 통해 기술적 성능뿐 아니라 실제 사용 맥락에서의 상호작용 변화까지 검증했다. 실험실 연구에서는 N=12 참가자가 VisionClaw를 기존 기준선과 비교했을 때, 과제 완료 시간이 13~37% 단축되고 주관적 난이도가 7~46% 감소했으며, NASA 작업 부하 지수(NASA Task Load Index, NASA-TLX) 기준의 정신적 요구, 시간적 요구, 좌절감 역시 유의미하게 낮아졌다. 이러한 결과는 VisionClaw의 성능 향상이 단순한 자동화 수준을 넘어, 사용자의 인지 부담과 상호작용 마찰 자체를 줄이는 방향으로 나타났음을 보여준다.
장기 배치 연구에서는 이러한 효과가 실제 생활 속에서 어떻게 확장되는지도 확인되었으며, 사용자는 단일 명령을 반복하는 대신 현재 수행 중인 활동에 맞추어 과제를 기회적으로 시작하고, 세부 실행은 점점 더 시스템에 위임하는 양상을 보였다. 이러한 관찰은 웨어러블 인공지능의 가치가 단지 “무엇을 더 빨리 처리하는가”에만 있지 않고, 사용자의 일상 흐름 속에 얼마나 자연스럽게 스며들어 협력적 행동을 형성하는가에 있음을 시사한다. 따라서 VisionClaw는 상시 인식과 에이전트 실행을 결합한 새로운 설계 패러다임을 제시하며, 향후 웨어러블 AI가 손이 자유로운(hands-free) 방식으로 현실 세계와 디지털 세계를 매끄럽게 연결하는 방향으로 발전할 수 있음을 보여준다.
초록(Abstract)
VisionClaw는 실시간 1인칭 인지와 에이전트 기반 작업 실행을 통합하는 상시 작동(always-on) 웨어러블 AI 에이전트입니다. Meta Ray-Ban 스마트 글래스에서 동작하는 VisionClaw는 실제 세계의 맥락을 지속적으로 인지하며, OpenClaw AI 에이전트를 통해 현장(in-situ)에서 음성 기반의 작업 시작과 위임을 가능하게 합니다. 따라서 사용자는 스마트 글래스를 통해 실제 물건을 Amazon 장바구니에 추가하거나, 실물 문서로부터 노트를 생성하거나, 이동 중 회의 브리핑을 받거나, 포스터로부터 이벤트를 만들거나, IoT 기기를 제어하는 등의 작업을 직접 수행할 수 있습니다. 우리는 통제된 실험실 연구(N=12)와 종단적 배포 연구(N=5)를 통해 VisionClaw를 평가했습니다. 결과는 인지와 실행을 통합할 때 비상시 작동(non-always-on) 및 비에이전트(non-agent) 기준선에 비해 더 빠른 작업 완료와 더 낮은 상호작용 오버헤드를 제공함을 보여줍니다. 성능 향상 외에도, 배포 결과는 상호작용 방식의 변화를 드러냅니다. 즉, 작업은 진행 중인 활동 중 기회적으로 시작되며, 실행은 수동적으로 제어되기보다 점점 더 위임됩니다. 이러한 결과는 인지와 행동이 지속적으로 결합되어 상황에 맞는, 핸즈프리 상호작용을 지원하는 웨어러블 AI 에이전트의 새로운 패러다임을 시사합니다.
We present VisionClaw, an always-on wearable AI agent that integrates live egocentric perception with agentic task execution. Running on Meta Ray-Ban smart glasses, VisionClaw continuously perceives real-world context and enables in-situ, speech-driven action initiation and delegation via OpenClaw AI agents. Therefore, users can directly execute tasks through the smart glasses, such as adding real-world objects to an Amazon cart, generating notes from physical documents, receiving meeting briefings on the go, creating events from posters, or controlling IoT devices. We evaluate VisionClaw through a controlled laboratory study (N=12) and a longitudinal deployment study (N=5). Results show that integrating perception and execution enables faster task completion and reduces interaction overhead compared to non-always-on and non-agent baselines. Beyond performance gains, deployment findings reveal a shift in interaction: tasks are initiated opportunistically during ongoing activities, and execution is increasingly delegated rather than manually controlled. These results suggest a new paradigm for wearable AI agents, where perception and action are continuously coupled to support situated, hands-free interaction.
논문 링크
더 읽어보기
RLSD: 자기 증류 기반 RLVR / Self-Distilled RLVR
논문 소개
대규모 언어모델 학습에서 온-폴리시 증류(on-policy distillation, OPD)는 샘플된 궤적마다 교사 모델이 촘촘한 신호를 제공한다는 점에서 널리 활용되어 왔으며, 이는 환경의 검증 가능한 결과만으로 학습하는 검증 가능한 보상 기반 강화학습(reinforcement learning with verifiable rewards, RLVR)이 갖는 희소한 피드백 문제를 보완하는 중요한 대안으로 자리 잡고 있습니다.
그러나 동일한 모델이 교사와 학생을 함께 맡는 온-폴리시 자기 증류(on-policy self-distillation, OPSD)에서는, 교사가 추가적인 특권 정보(privileged information)를 활용해 만들어낸 신호가 학생의 최적화 과정에 직접 섞이면서 정보 누출과 장기 학습 불안정성이 발생한다는 점이 드러났습니다. 이러한 문제의식 위에서 제안된 자기 증류형 강화학습(RLVR with Self Distillation, RLSD) 는 자기 증류를 학습의 전면적인 감독 신호로 사용하지 않고, 토큰 수준에서 각 업데이트의 크기를 정교하게 조절하는 용도로 제한하며, 업데이트 방향은 여전히 환경의 정답성이나 응답 정확도와 같은 RLVR 신호에 맡기는 절충적 방법론을 취합니다. 이 접근의 핵심은 밀집한 신호가 주는 세밀함과 검증 가능한 보상이 주는 안정성을 동시에 확보하는 데 있으며, 특히 자기 증류가 지닌 장점을 유지하면서도 특권 정보가 직접적인 목표가 되는 위험을 피하려는 데 있습니다.
연구자들은 먼저 OPD가 잘 작동하는 반면 OPSD가 왜 장기적으로 실패하는지를 이론적으로 분석하고, OPSD의 목적함수가 학생이 관측할 수 없는 조건부 교사 분포를 그대로 모사하도록 강제하기 때문에 본질적으로 잘못 정식화된 목표라는 점을 밝힙니다. 이를 통해 OPSD의 손실에는 제거할 수 없는 조건부 상호정보량이 남아 있으며, 표면적으로는 손실이 감소해 보여도 실제로는 학습 가능한 일반화 신호가 아니라 특권 정보의 흔적이 누적된다는 사실을 설명합니다. 더 나아가 샘플 단위 그래디언트 분해를 통해, 평균적으로는 상쇄되는 편차 항이 미니배치 최적화에서는 경로 의존적으로 누적되어 누출을 유발하고, 학습 초기의 빠른 성능 향상 이후 성능이 오히려 하락하는 이중 단계 동역학을 낳는다는 점을 보입니다.
이러한 분석은 자기 증류를 무조건 강화하는 것이 아니라, 어떤 정보가 안전하게 사용될 수 있는지와 어떤 신호가 구조적으로 불안정한지를 구분해야 한다는 중요한 통찰을 제공합니다. 결과적으로 RLSD는 교사의 세밀한 분포 차이를 이용해 업데이트의 해상도를 높이되, 실제 학습의 방향성은 검증 가능한 환경 피드백에 의존하게 함으로써, OPSD가 갖는 누출 문제를 피하면서도 RLVR보다 더 높은 수렴 상한과 우수한 학습 안정성을 달성하고자 합니다. 이러한 기여는 대규모 언어모델의 강화학습에서 신호의 밀도와 신뢰성을 어떻게 균형 있게 결합할 것인지에 대한 보다 정교한 방법론적 기준을 제시한다는 점에서 의미가 큽니다.
초록(Abstract)
온-폴리시 증류(OPD)는 대규모 언어 모델(LLM) 커뮤니티에서 인기 있는 학습 패러다임이 되었다. 이 패러다임은 더 큰 모델을 교사로 선택하여 각 샘플링된 궤적에 대해 밀집되고 세밀한 신호를 제공하게 하며, 이는 환경의 검증 가능한 결과에서만 희소한 신호를 얻는 검증 가능한 보상 기반 강화학습(RLVR)과 대조된다. 최근 커뮤니티는 온-폴리시 자기 증류(OPSD)를 탐구해 왔는데, 여기서 동일한 모델이 교사와 학생 역할을 모두 수행하며, 교사는 자기 진화를 가능하게 하기 위해 참조 답안과 같은 추가적인 특권 정보를 받는다. 본 논문은 특권 교사에서만 도출된 학습 신호가 심각한 정보 누출과 불안정한 장기 학습을 초래함을 보인다. 이에 따라 우리는 자기 증류에 최적의 적용 지점을 식별하고, \textbf{RLSD} (\textbf{RL} VR with \textbf{S}elf-\textbf{D}istillation) 를 제안한다. 구체적으로, 우리는 자기 증류를 활용해 토큰 수준의 정책 차이를 얻어 세밀한 업데이트 크기를 결정하는 한편, RLVR은 환경 피드백(예: 응답의 정답성)으로부터 신뢰할 수 있는 업데이트 방향을 도출하는 데 계속 사용한다. 이를 통해 RLSD는 RLVR과 OPSD의 강점을 동시에 활용하여 더 높은 수렴 상한과 우수한 학습 안정성을 달성한다.
On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose \textbf{RLSD} (\textbf{RL}VR with \textbf{S}elf-\textbf{D}istillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.
논문 링크
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~ ![]()













