[2026/03/02 ~ 08] 이번 주에 살펴볼 만한 AI/ML 논문 모음

[2026/03/02 ~ 08] 이번 주에 살펴볼 만한 AI/ML 논문 모음

PyTorchKR​:fire::south_korea: :thinking::thought_balloon:

이번 주에 선정된 10편의 AI 논문들을 종합해 본 결과, AI가 단순한 언어 생성을 넘어 지속 가능하고 신뢰할 수 있는 협력 시스템으로 진화하기 위한 3가지 뚜렷한 연구 트렌드를 발견할 수 있었습니다. 이번 주의 주요 트렌드는 다음과 같습니다:

:one: 다중 에이전트 협업의 현실적 한계 돌파 및 아키텍처 고도화: 이번 주 연구들은 여러 AI 에이전트가 협력할 때 발생하는 통신 병목과 합의 실패 문제를 냉정하게 진단하고 이를 해결하려는 시도를 보여줍니다. Can AI Agents Agree? 논문은 단순한 무위험(no-stake) 환경에서도 에이전트 간의 신뢰할 수 있는 합의가 생각보다 매우 어렵다는 현실적 한계를 짚어냈습니다. 이를 극복하기 위해 HACRL은 이질적인 에이전트들이 독립성을 유지하면서도 검증된 롤아웃을 공유해 양방향으로 상호 학습하는 새로운 패러다임을 제시했습니다. 또한, Evaluating Theory of Mind 연구는 단순한 인지 메커니즘의 추가를 넘어 마음 이론(ToM)과 기호 해결기를 결합해 협업 지능의 정확도를 높이는 방법을 탐구하며, 다중 에이전트 시스템이 실질적이고 안정적인 '협업' 단계로 나아가기 위한 깊이 있는 아키텍처적 고민을 보여줍니다.

:two: 에이전트의 '장기 기억' 확보 및 지식 기반 인프라 구축: 에이전트가 매번 처음부터 문제를 풀거나(바퀴의 재발명), 세션 간 일관성을 잃는 문제를 해결하기 위한 '지속성(Persistence)' 및 '효율성' 인프라 연구가 두드러졌습니다. SkillNet은 20만 개 이상의 AI 기술을 구조화된 온톨로지로 통합하여 일회성 경험이 아닌 장기적인 기술 축적을 가능하게 했으며, Codified Context는 복잡한 코드베이스 내에서 핫/콜드 메모리와 도메인 전문가 에이전트를 도입해 프로젝트 전반의 일관성을 유지하는 인프라를 선보였습니다. 더불어 MOOSE-Star는 방대한 지식 기반에서 정보를 검색하고 구성하는 조합적 복잡성을 지수 시간에서 로그 시간(O(\\log N))으로 획기적으로 줄였습니다. 이는 에이전트를 일회성 작업 도구가 아닌, 대규모 지식을 축적하고 장기 프로젝트를 일관되게 수행하는 지속 가능한 시스템으로 발전시키려는 핵심적인 흐름입니다.

:three: 모호한 AGI를 넘어선 '특화(Specialization)'와 '월드 모델'의 진화: 범용적인 인공일반지능(AGI)이라는 모호한 목표 대신, 물리 세계의 법칙을 명확히 이해하는 월드 모델과 초인적 수준의 특화 지능(SAI)을 향한 패러다임 전환이 돋보입니다. AI Must Embrace Specialization은 모든 것을 할 줄 아는 범용성보다 특정 도메인에서 인간을 초월하는 '초인적 적응 지능(SAI)'의 중요성을 역설했습니다. 기술적 구현 측면에서 The Trinity of Consistency는 진정한 일반 월드 모델이 되기 위해 공간적, 시간적, 모달 일관성의 삼위일체가 필요함을 이론화했습니다. 또한 Beyond Language Modeling은 언어와 비전 데이터의 요구량 차이라는 스케일링 비대칭성을 혼합 전문가(MoE) 아키텍처로 조화시키는 방법을 제시하며, AI가 물리적 현실에 기반한 신뢰도 높은 멀티모달 전문 지능으로 진화하고 있음을 시사합니다.


AI 에이전트는 합의할 수 있는가? / Can AI Agents Agree?

논문 소개

대규모 언어 모델(LLM)을 기반으로 한 에이전트들이 협력 에이전트로 점점 더 많이 사용되고 있으나, 적대적인 합의 상황에서의 행동은 체계적으로 연구되지 않았다. 본 연구에서는 스칼라 값에 대한 비잔틴 합의 게임에서 LLM 기반 에이전트를 평가하였다. 이해를 돕기 위해 동기식 전방향 시뮬레이션을 사용하였으며, 에이전트들이 최종 값에 대한 선호가 없는 무투자 환경에서 합의 상태를 테스트하였다. 여러 모델 크기와 그룹 크기, 비잔틴 비율에 걸쳐 수백 번의 시뮬레이션을 수행한 결과, 유효한 합의가 조차도 신뢰할 수 없으며 그룹 크기가 커질수록 성능이 저하되는 것을 발견하였다. 소수의 비잔틴 에이전트를 도입하면 성공률이 더욱 감소하였다. 실패 원인은 미세한 값 손상이 아닌 시간 초과 및 정체된 수렴과 같은 생존성 손실에 의해 주도되었다. 전반적으로, 현재 LLM 기반 에이전트 그룹의 신뢰할 수 있는 합의 능력은 여전히 확립되지 않았으며, 강력한 조정을 필요로 하는 배포에 대한 주의가 필요하다는 점을 강조한다.

논문 초록(Abstract)

대규모 언어 모델은 협력하는 에이전트로 점점 더 많이 배치되고 있지만, 적대적 합의 환경에서의 행동은 체계적으로 연구되지 않았습니다. 우리는 동기식 전방향 시뮬레이션을 사용하여 스칼라 값에 대한 비잔틴 합의 게임에서 LLM 기반 에이전트를 평가했습니다. 에이전트가 최종 값에 대한 선호가 없는 무위험 설정에서 합의를 테스트하며, 따라서 평가는 가치 최적성이 아닌 합의에 집중됩니다. 모델 크기, 그룹 크기, 비잔틴 비율을 아우르는 수백 개의 시뮬레이션을 통해, 우리는 유효한 합의가 온건한 환경에서도 신뢰할 수 없으며 그룹 크기가 커짐에 따라 저하된다는 것을 발견했습니다. 소수의 비잔틴 에이전트를 도입하면 성공률이 더욱 낮아집니다. 실패는 미세한 가치 손상보다 타임아웃 및 정체된 수렴과 같은 활력 상실에 의해 지배됩니다. 전반적으로, 이러한 결과는 현재 LLM-에이전트 그룹의 신뢰할 수 있는 합의가 무위험 설정에서도 아직 신뢰할 수 있는 창발적 능력이 아니며, 강력한 조정에 의존하는 배치에 대한 주의를 촉구합니다.

Large language models are increasingly deployed as cooperating agents, yet their behavior in adversarial consensus settings has not been systematically studied. We evaluate LLM-based agents on a Byzantine consensus game over scalar values using a synchronous all-to-all simulation. We test consensus in a no-stake setting where agents have no preferences over the final value, so evaluation focuses on agreement rather than value optimality. Across hundreds of simulations spanning model sizes, group sizes, and Byzantine fractions, we find that valid agreement is not reliable even in benign settings and degrades as group size grows. Introducing a small number of Byzantine agents further reduces success. Failures are dominated by loss of liveness, such as timeouts and stalled convergence, rather than subtle value corruption. Overall, the results suggest that reliable agreement is not yet a dependable emergent capability of current LLM-agent groups even in no-stake settings, raising caution for deployments that rely on robust coordination.

논문 링크


스킬넷: AI 기술의 생성, 평가 및 연결 / SkillNet: Create, Evaluate, and Connect AI Skills

논문 소개

현재의 AI 에이전트는 도구를 유연하게 호출하고 복잡한 작업을 수행할 수 있지만, 기술의 체계적인 축적 및 전이에 대한 부족으로 인해 장기적인 발전이 제한되고 있다. 통합된 기술 통합 메커니즘이 없으면 에이전트는 종종 "바퀴를 다시 발명"하며, 이전의 전략을 활용하지 않고 고립된 맥락에서 해결책을 재발견하게 된다. 이러한 한계를 극복하기 위해, SkillNet이라는 오픈 인프라를 도입하여 AI 기술을 대규모로 생성, 평가 및 조직할 수 있도록 설계하였다. SkillNet은 기술을 통합된 온톨로지 내에서 구조화하여 이질적인 출처에서 기술을 생성하고, 풍부한 관계를 구축하며, 안전성, 완전성, 실행 가능성, 유지 관리성, 비용 인식을 포함한 다차원 평가를 수행한다. 이 인프라는 200,000개 이상의 기술 저장소, 인터랙티브 플랫폼, 다용도 Python 툴킷을 통합하고 있다. ALFWorld, WebShop, ScienceWorld에서의 실험적 평가 결과, SkillNet은 에이전트 성능을 크게 향상시켜 평균 보상을 40% 증가시키고 실행 단계를 30% 줄이는 성과를 보였다. 기술을 진화 가능하고 조합 가능한 자산으로 공식화함으로써, SkillNet은 에이전트가 일시적인 경험에서 지속적인 숙련도로 나아갈 수 있는 견고한 기반을 제공한다.

논문 초록(Abstract)

현재의 AI 에이전트는 도구를 유연하게 호출하고 복잡한 작업을 수행할 수 있지만, 기술의 체계적인 축적 및 전이가 부족하여 장기적인 발전이 저해되고 있습니다. 기술 통합을 위한 통합 메커니즘이 없으면 에이전트는 자주 "바퀴를 다시 발명"하며, 이전 전략을 활용하지 않고 고립된 맥락에서 해결책을 재발견하게 됩니다. 이러한 한계를 극복하기 위해, 우리는 AI 기술을 대규모로 생성, 평가 및 조직하기 위해 설계된 열린 인프라인 SkillNet을 소개합니다. SkillNet은 이질적인 출처에서 기술을 생성하고, 풍부한 관계 연결을 구축하며, 안전성, 완전성, 실행 가능성, 유지 관리성 및 비용 인식을 포함한 다차원 평가를 수행하는 통합 온톨로지 내에서 기술을 구조화합니다. 우리의 인프라는 200,000개 이상의 기술 저장소, 상호작용 플랫폼 및 다목적 파이썬 도구 키트를 통합합니다. ALFWorld, WebShop 및 ScienceWorld에서의 실험적 평가 결과, SkillNet은 에이전트 성능을 크게 향상시켜 평균 보상을 40% 증가시키고 여러 백본 모델에서 실행 단계를 30% 줄였습니다. 기술을 진화하는 조합 가능 자산으로 공식화함으로써, SkillNet은 에이전트가 일시적인 경험에서 지속적인 숙련도로 나아갈 수 있는 강력한 기반을 제공합니다.

Current AI agents can flexibly invoke tools and execute complex tasks, yet their long-term advancement is hindered by the lack of systematic accumulation and transfer of skills. Without a unified mechanism for skill consolidation, agents frequently ``reinvent the wheel'', rediscovering solutions in isolated contexts without leveraging prior strategies. To overcome this limitation, we introduce SkillNet, an open infrastructure designed to create, evaluate, and organize AI skills at scale. SkillNet structures skills within a unified ontology that supports creating skills from heterogeneous sources, establishing rich relational connections, and performing multi-dimensional evaluation across Safety, Completeness, Executability, Maintainability, and Cost-awareness. Our infrastructure integrates a repository of over 200,000 skills, an interactive platform, and a versatile Python toolkit. Experimental evaluations on ALFWorld, WebShop, and ScienceWorld demonstrate that SkillNet significantly enhances agent performance, improving average rewards by 40% and reducing execution steps by 30% across multiple backbone models. By formalizing skills as evolving, composable assets, SkillNet provides a robust foundation for agents to move from transient experience to durable mastery.

논문 링크

더 읽어보기


HACRL: 이질적 에이전트 협력 강화학습 / Heterogeneous Agent Collaborative Reinforcement Learning

논문 소개

Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 패러다임은 고립된 온-정책 최적화의 비효율성을 극복하기 위해 개발된 새로운 접근법이다. HACRL에서는 이질적인 에이전트들이 독립적으로 실행되는 동안 검증된 롤아웃을 공유하여 상호 학습을 통해 성능을 향상시킬 수 있도록 한다. 이는 기존의 LLM 기반 다중 에이전트 강화학습(MARL)과는 달리 조정된 배포를 필요로 하지 않으며, 온-정책 및 오프-정책 증류 방식에서 발생하는 한 방향의 지식 전이 대신 양방향 상호 학습을 가능하게 한다.

이 연구는 HACRL을 기반으로 하는 협력적 강화학습 알고리즘인 HACPO를 제안하며, 이는 롤아웃 공유를 통해 샘플 활용을 극대화하고 에이전트 간의 지식 전이를 촉진하는 데 중점을 둔다. HACPO는 네 가지 맞춤형 메커니즘을 도입하여 능력 차이와 정책 분포 변화 문제를 해결하고, 이론적 보장을 통해 편향 없는 이점 추정 및 최적화의 정확성을 확보한다. 이러한 메커니즘은 에이전트들이 효과적이고 안정적인 상호 학습에 참여할 수 있도록 설계되었다.

광범위한 실험을 통해 HACPO는 다양한 이질적 모델 조합 및 수학적 추론 벤치마크에서 모든 참여 에이전트의 성능을 일관되게 개선하는 것으로 나타났다. 특히, 이 알고리즘은 기존의 GSPO(Generalized Sample-based Policy Optimization)보다 평균 3.3% 향상된 성능을 발휘하며, 롤아웃 비용은 절반으로 줄일 수 있는 효율성을 보여준다. 이러한 성과는 HACRL이 이질적인 에이전트 간의 협력적 최적화를 통해 효율성과 효과성을 개선할 수 있음을 명확히 입증한다.

결과적으로 HACRL과 HACPO는 강화학습 분야에서 에이전트 간의 상호작용 방식을 혁신적으로 변화시키며, 다양한 환경에서의 에이전트 성능 향상에 기여할 수 있는 가능성을 제시하고 있다. 이 연구는 이질적인 에이전트들이 협력하여 학습할 수 있는 새로운 경로를 제시함으로써, 향후 연구 및 실용화에 중요한 기초 자료가 될 것이다.

논문 초록(Abstract)

우리는 고립된 온-정책 최적화의 비효율성을 해결하는 새로운 학습 패러다임인 이질적 에이전트 협력 강화학습(HACRL)을 소개합니다. HACRL은 독립적인 실행을 통해 협력적 최적화를 가능하게 하며, 이질적 에이전트는 훈련 중 검증된 롤아웃을 공유하여 서로 개선하고, 추론 시에는 독립적으로 작동합니다. HACRL은 LLM 기반 다중 에이전트 강화학습(MARL)과 달리 조정된 배포를 요구하지 않으며, 온-정책/오프-정책 증류와는 달리 이질적 에이전트 간의 양방향 상호 학습을 가능하게 하여 일방향 교사-학생 전이를 초월합니다. 이 패러다임을 바탕으로, 우리는 샘플 활용 극대화와 에이전트 간 지식 전이를 위해 원칙적인 롤아웃 공유를 가능하게 하는 협력적 강화학습 알고리즘인 HACPO를 제안합니다. 능력 불일치와 정책 분포 변화 완화를 위해 HACPO는 편향 없는 이점 추정 및 최적화 정확성에 대한 이론적 보장을 가진 네 가지 맞춤형 메커니즘을 도입합니다. 다양한 이질적 모델 조합과 추론 벤치마크에 대한 광범위한 실험 결과, HACPO는 모든 참여 에이전트를 일관되게 개선하며, GSPO보다 평균 3.3% 더 높은 성능을 보이면서 롤아웃 비용은 절반만 사용합니다.

We introduce Heterogeneous Agent Collaborative Reinforcement Learning (HACRL), a new learning paradigm that addresses the inefficiencies of isolated on-policy optimization. HACRL enables collaborative optimization with independent execution: heterogeneous agents share verified rollouts during training to mutually improve, while operating independently at inference time. Unlike LLM-based multi-agent reinforcement learning (MARL), HACRL does not require coordinated deployment, and unlike on-/off-policy distillation, it enables bidirectional mutual learning among heterogeneous agents rather than one-directional teacher-to-student transfer. Building on this paradigm, we propose HACPO, a collaborative RL algorithm that enables principled rollout sharing to maximize sample utilization and cross-agent knowledge transfer. To mitigate capability discrepancies and policy distribution shifts, HACPO introduces four tailored mechanisms with theoretical guarantees on unbiased advantage estimation and optimization correctness. Extensive experiments across diverse heterogeneous model combinations and reasoning benchmarks show that HACPO consistently improves all participating agents, outperforming GSPO by an average of 3.3% while using only half the rollout cost.

논문 링크

더 읽어보기


Beyond-LLMs: 언어 모델링을 넘어: 멀티모달 사전학습 탐색 / Beyond Language Modeling: An Exploration of Multimodal Pretraining

논문 소개

본 연구는 멀티모달 사전학습(Multimodal Pretraining)의 새로운 가능성을 탐구하며, 시각 데이터와 언어 데이터를 통합하는 방법론을 제시한다. 저자들은 시각적 세계가 파운데이션 모델(Foundation Model)을 언어 모델링을 넘어서 발전시키는 중요한 축임을 강조하고, 기존의 멀티모달 모델 설계가 불투명하다는 점을 짚는다. 이를 해결하기 위해, 연구팀은 언어 사전학습의 간섭 없이 멀티모달 사전학습의 주도 요인을 고립시키는 통제된 실험을 수행하였다.

본 연구의 핵심 방법론으로는 Transfusion 프레임워크를 채택하여, 언어의 다음 토큰 예측과 비전의 디퓨전 모델링을 결합하는 방식을 사용한다. 이러한 접근은 텍스트, 비디오, 이미지-텍스트 쌍, 행동 조건 비디오 등 다양한 데이터로부터 학습할 수 있는 능력을 부여한다. 특히, Representation Autoencoder (RAE)는 시각적 이해 및 생성 모두에서 최적의 통합 시각 표현을 제공함으로써 멀티모달 학습의 효율성을 높인다.

실험 결과는 시각 데이터와 언어 데이터 간의 상호 보완성을 입증하며, 두 데이터 간의 시너지가 하위 작업에서 효과적으로 나타남을 보여준다. Mixture-of-Experts (MoE) 아키텍처는 멀티모달 스케일링을 효과적으로 가능하게 하며, 모달리티 전문화를 자연스럽게 유도하는 것으로 나타났다. IsoFLOP 분석을 통해, 비전이 언어에 비해 데이터 요구량이 더 많다는 스케일링 비대칭성을 발견하고, MoE 아키텍처가 이러한 비대칭성을 조화롭게 해결함으로써 높은 모델 용량을 제공하는 방법을 제시한다.

본 연구는 멀티모달 사전학습의 설계 방향에 대한 중요한 통찰을 제공하며, 향후 연구에 대한 기초를 마련하는 데 기여한다. 이러한 혁신적인 접근법은 진정으로 통합된 멀티모달 모델을 향한 중요한 발걸음을 내딛게 하며, 다양한 분야에서의 응용 가능성을 확장하는 데 기여할 것으로 기대된다.

논문 초록(Abstract)

비주얼 세계는 언어를 넘어 파운데이션 모델을 발전시키기 위한 중요한 축을 제공합니다. 이러한 방향에 대한 관심이 커지고 있음에도 불구하고, 네이티브 멀티모달 모델을 위한 설계 공간은 여전히 불투명합니다. 우리는 언어 사전학습의 간섭 없이 멀티모달 사전학습을 지배하는 요소를 분리하여 통제된 기초 사전학습 실험을 통해 실증적인 명확성을 제공합니다. 우리는 Transfusion 프레임워크를 채택하여 언어에 대한 다음 토큰 예측과 비전에 대한 디퓨전을 활용하여 텍스트, 비디오, 이미지-텍스트 쌍, 심지어 행동 조건 비디오를 포함한 다양한 데이터로 학습합니다. 우리의 실험은 네 가지 주요 통찰을 제공합니다: (i) Representation Autoencoder (RAE)는 시각적 이해와 생성 모두에서 뛰어나면서 최적의 통합 시각 표현을 제공합니다; (ii) 시각 및 언어 데이터는 상호 보완적이며 다운스트림 능력을 위한 시너지를 생성합니다; (iii) 통합 멀티모달 사전학습은 자연스럽게 세계 모델링으로 이어지며, 일반적인 훈련에서 능력이 나타납니다; (iv) Mixture-of-Experts (MoE)는 효율적이고 효과적인 멀티모달 스케일링을 가능하게 하며 자연스럽게 모달리티 전문화를 유도합니다. IsoFLOP 분석을 통해 우리는 두 모달리티의 스케일링 법칙을 계산하고 스케일링 비대칭성을 발견합니다: 비전은 언어보다 데이터 요구량이 훨씬 더 많습니다. 우리는 MoE 아키텍처가 언어에 필요한 높은 모델 용량을 제공하면서 비전의 데이터 집약적인 특성을 수용함으로써 이 스케일링 비대칭성을 조화시킨다는 것을 입증하며, 진정으로 통합된 멀티모달 모델을 위한 길을 열어갑니다.

The visual world offers a critical axis for advancing foundation models beyond language. Despite growing interest in this direction, the design space for native multimodal models remains opaque. We provide empirical clarity through controlled, from-scratch pretraining experiments, isolating the factors that govern multimodal pretraining without interference from language pretraining. We adopt the Transfusion framework, using next-token prediction for language and diffusion for vision, to train on diverse data including text, video, image-text pairs, and even action-conditioned video. Our experiments yield four key insights: (i) Representation Autoencoder (RAE) provides an optimal unified visual representation by excelling at both visual understanding and generation; (ii) visual and language data are complementary and yield synergy for downstream capabilities; (iii) unified multimodal pretraining leads naturally to world modeling, with capabilities emerging from general training; and (iv) Mixture-of-Experts (MoE) enables efficient and effective multimodal scaling while naturally inducing modality specialization. Through IsoFLOP analysis, we compute scaling laws for both modalities and uncover a scaling asymmetry: vision is significantly more data-hungry than language. We demonstrate that the MoE architecture harmonizes this scaling asymmetry by providing the high model capacity required by language while accommodating the data-intensive nature of vision, paving the way for truly unified multimodal models.

논문 링크

더 읽어보기


MOOSE-Star: 복잡성 장벽을 허물고 과학적 발견을 위한 효율적인 학습 가능성 열기 / MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

논문 대표 이미지

논문 소개

대규모 언어 모델(LLM)이 과학적 발견에서 잠재력을 보이지만, 기존 연구는 추론이나 피드백 기반 학습에 초점을 맞추고 있어 가설과 배경 간의 생성적 추론 과정인 P(\text{hypothesis}|\text{background}) (P(h|b))의 직접 모델링은 탐구되지 않았다. 우리는 P(h|b) 를 직접 학습하는 것이 방대한 지식 기반에서 영감을 검색하고 구성하는 조합적 복잡성(O(N^k)) 때문에 수학적으로 불가능하다는 것을 보여준다. 이 장벽을 극복하기 위해, MOOSE-Star라는 통합 프레임워크를 소개하여 다루기 쉬운 학습과 확장 가능한 추론을 가능하게 한다. MOOSE-Star는 발견의 확률적 방정식에서 파생된 세분화된 하위 작업을 학습하고, 동기 기반의 계층적 검색을 통해 로그 검색을 가능하게 하여 관련 없는 부분공간을 제거하며, 검색 노이즈에 대한 강건성을 위해 제한된 구성을 활용함으로써 복잡성을 지수에서 로그(O(\log N))로 줄인다. 이를 위해 108,717개의 세분화된 논문으로 구성된 TOMATO-Star 데이터셋을 출시하였으며(38,400 GPU 시간 소요), MOOSE-Star는 무차별 샘플링이 "복잡성 벽"에 부딪히는 반면, 지속적인 테스트 시간 확장을 보여준다.

논문 초록(Abstract)

대규모 언어 모델(LLM)이 과학적 발견에서 가능성을 보이고 있지만, 기존 연구는 추론이나 피드백 기반 학습에 집중하고 있어 생성적 추론 과정인 P(\text{가설}|\text{배경}) (P(h|b))의 직접적인 모델링은 탐구되지 않았습니다. 우리는 P(h|b) 를 직접 학습하는 것이 방대한 지식 기반에서 영감을 검색하고 구성하는 데 내재된 조합적 복잡성(O(N^k)) 때문에 수학적으로 다루기 어렵다는 것을 입증합니다. 이 장벽을 극복하기 위해, 우리는 MOOSE-Star를 소개합니다. MOOSE-Star는 다루기 쉬운 학습과 확장 가능한 추론을 가능하게 하는 통합 프레임워크입니다. 최상의 경우, MOOSE-Star는 발견의 확률적 방정식에서 유도된 분해된 하위 작업에 대해 학습함으로써 복잡성을 지수에서 로그로(O(\log N)) 줄입니다. 또한 동기를 기반으로 한 계층적 검색을 사용하여 로그 검색을 가능하게 하고 관련 없는 서브스페이스를 가지치기하며, 검색 노이즈에 대한 강건성을 위해 제한된 구성을 활용합니다. 이를 위해, 우리는 학습을 위한 108,717개의 분해된 논문(38,400 GPU 시간)으로 구성된 데이터셋인 TOMATO-Star를 공개합니다. 더 나아가, 우리는 무차별 샘플링이 ''복잡성 벽''에 부딪히는 반면, MOOSE-Star는 지속적인 테스트 시간 스케일링을 보여줌을 입증합니다.

While large language models (LLMs) show promise in scientific discovery, existing research focuses on inference or feedback-driven training, leaving the direct modeling of the generative reasoning process, P(\text{hypothesis}|\text{background}) (P(h|b)), unexplored. We demonstrate that directly training P(h|b) is mathematically intractable due to the combinatorial complexity (O(N^k)) inherent in retrieving and composing inspirations from a vast knowledge base. To break this barrier, we introduce MOOSE-Star, a unified framework enabling tractable training and scalable inference. In the best case, MOOSE-Star reduces complexity from exponential to logarithmic (O(\log N)) by (1) training on decomposed subtasks derived from the probabilistic equation of discovery, (2) employing motivation-guided hierarchical search to enable logarithmic retrieval and prune irrelevant subspaces, and (3) utilizing bounded composition for robustness against retrieval noise. To facilitate this, we release TOMATO-Star, a dataset of 108,717 decomposed papers (38,400 GPU hours) for training. Furthermore, we show that while brute-force sampling hits a ''complexity wall,'' MOOSE-Star exhibits continuous test-time scaling.

논문 링크

더 읽어보기


코드베이스 내 AI 에이전트를 위한 정형화된 컨텍스트 인프라 / Codified Context: Infrastructure for AI Agents in a Complex Codebase

논문 소개

LLM(대규모 언어 모델) 기반의 코딩 어시스턴트는 지속적인 기억을 결여하고 있어, 개발자들이 세션 간 일관성을 유지하지 못하고, 프로젝트 관행을 잊으며, 반복적인 실수를 저지르는 문제에 직면하고 있다. 이러한 문제를 해결하기 위해 본 연구는 108,000줄의 C# 분산 시스템 구축 과정에서 개발된 코디파이드 컨텍스트(Codified Context; Infrastructure) 를 제안한다. 이 인프라는 세 가지 주요 구성 요소로 이루어져 있으며, 첫 번째로 핫 메모리 구성은 관행, 검색 훅, 오케스트레이션 프로토콜을 인코딩하여 에이전트가 실시간으로 정보에 접근하고 상호작용할 수 있도록 지원한다. 두 번째로 19개의 전문 도메인 에이전트는 각기 다른 도메인 지식을 바탕으로 설계되어, 상호작용을 통해 시스템의 효율성을 높인다. 마지막으로, 34개의 주문형 사양 문서로 구성된 콜드 메모리 지식 기반은 필요한 정보를 제공하며, 프로젝트 전반에 걸쳐 일관성을 유지하는 데 기여한다.

본 연구는 283개의 개발 세션에서 수집된 정량적 메트릭을 통해 인프라의 성장과 상호작용 패턴을 분석하였으며, 코디파이드 컨텍스트가 세션 간 정보 전파를 통해 실패를 예방하고 일관성을 유지하는 방법을 실증적으로 보여준다. 또한, 네 가지 관찰 사례 연구를 통해 코디파이드 컨텍스트의 실제 적용 사례를 제시하며, 각 사례에서 일관성을 유지하는 방식에 대한 구체적인 예시를 제공한다.

이 연구의 주요 기여는 LLM 기반 에이전트의 지속적 기억 문제를 해결하기 위한 체계적인 접근 방식을 제시하는 데 있다. 또한, 논문에서 제안하는 코디파이드 컨텍스트는 대규모 멀티 에이전트 프로젝트에서 에이전트를 효과적으로 구성하고 관리하는 데 필요한 기초 인프라를 제공한다. 이러한 연구 결과는 앞으로의 AI 에이전트 개발 및 활용에 중요한 통찰을 제공할 것으로 기대된다. 연구의 결과물은 오픈 소스로 공개되어, 다른 연구자들이 이 프레임워크를 활용하여 추가 연구를 진행할 수 있는 기회를 제공한다.

논문 초록(Abstract)

LLM 기반의 에이전트 코딩 보조 도구는 지속적인 메모리가 부족하여 세션 간 일관성이 떨어지고, 프로젝트 규칙을 잊으며, 알려진 실수를 반복합니다. 최근 연구에서는 개발자들이 매니페스트 파일을 통해 에이전트를 구성하는 방식을 특징짓고 있지만, 대규모 다중 에이전트 프로젝트를 위해 이러한 구성을 어떻게 확장할 것인지에 대한 열린 도전 과제가 남아 있습니다. 본 논문은 108,000줄의 C# 분산 시스템을 구축하는 과정에서 개발된 세 가지 구성 요소로 이루어진 코드화된 컨텍스트 인프라를 제시합니다: (1) 규약, 검색 훅 및 조율 프로토콜을 인코딩하는 핫 메모리 구성; (2) 19개의 전문 도메인 전문가 에이전트; (3) 34개의 온디맨드 사양 문서로 이루어진 콜드 메모리 지식 기반. 283개의 개발 세션에서 인프라 성장 및 상호작용 패턴에 대한 정량적 지표가 보고되며, 코드화된 컨텍스트가 세션 간에 어떻게 전파되어 실패를 방지하고 일관성을 유지하는지를 보여주는 네 가지 관찰 사례 연구가 함께 제시됩니다. 이 프레임워크는 오픈 소스 동반 저장소로 공개됩니다.

LLM-based agentic coding assistants lack persistent memory: they lose coherence across sessions, forget project conventions, and repeat known mistakes. Recent studies characterize how developers configure agents through manifest files, but an open challenge remains how to scale such configurations for large, multi-agent projects. This paper presents a three-component codified context infrastructure developed during construction of a 108,000-line C# distributed system: (1) a hot-memory constitution encoding conventions, retrieval hooks, and orchestration protocols; (2) 19 specialized domain-expert agents; and (3) a cold-memory knowledge base of 34 on-demand specification documents. Quantitative metrics on infrastructure growth and interaction patterns across 283 development sessions are reported alongside four observational case studies illustrating how codified context propagates across sessions to prevent failures and maintain consistency. The framework is published as an open-source companion repository.

논문 링크

더 읽어보기


일반 세계 모델을 위한 정의 원칙으로서의 일관성의 삼위일체 / The Trinity of Consistency as a Defining Principle for General World Models


논문 소개

세계 모델의 구축은 인공지능 일반 지능(AGI)을 추구하는 데 있어 기본적인 도전 과제입니다. 최근 비디오 생성 모델인 Sora와 같은 발전은 데이터 기반 스케일링 법칙이 물리적 동역학을 근사하는 잠재력을 보여주었습니다. 또한, 통합 멀티모달 모델(UMM)은 인지, 언어 및 추론을 통합하는 유망한 아키텍처 패러다임을 제공합니다. 그러나 현재 분야에는 일반 세계 모델에 필요한 본질적 속성을 정의하는 원칙적 이론적 틀이 부족합니다. 본 연구에서는 세계 모델이 의미적 인터페이스로서의 모달 일관성, 기하학적 기초로서의 공간 일관성, 인과 엔진으로서의 시간 일관성의 삼위일체에 기반해야 한다고 제안합니다. 이러한 삼중적 관점을 통해 멀티모달 학습의 발전을 체계적으로 검토하며, 전문화된 모듈에서 통합 아키텍처로의 경로를 드러냅니다. 또한, 우리는 다중 프레임 추론 및 생성 시나리오에 중점을 둔 벤치마크인 CoW-Bench를 소개합니다. CoW-Bench는 비디오 생성 모델과 UMM을 통합 평가 프로토콜 하에 평가합니다. 본 연구는 일반 세계 모델을 향한 원칙적인 경로를 설정하고 현재 시스템의 한계와 미래 발전을 위한 아키텍처 요구 사항을 명확히 합니다.

논문 초록(Abstract)

인공지능 일반 지능(Artificial General Intelligence)을 추구하는 과정에서 목표 물리 법칙을 학습하고 시뮬레이션하며 추론할 수 있는 월드 모델(World Models)의 구축은 기본적인 도전 과제가 됩니다. 최근 Sora와 같은 비디오 생성 모델이 물리적 동역학을 근사하는 데이터 기반 스케일링 법칙의 잠재력을 보여주었으며, emerging Unified Multimodal Model (UMM)은 지각, 언어 및 추론을 통합하기 위한 유망한 아키텍처 패러다임을 제공합니다. 이러한 발전에도 불구하고, 이 분야는 여전히 일반 월드 모델에 필요한 본질적 속성을 정의하는 원칙적 이론적 프레임워크가 부족합니다. 본 논문에서는 월드 모델이 일관성의 삼위일체(Trinity of Consistency)에 기반해야 한다고 제안합니다: 의미적 인터페이스로서의 모달 일관성(Modal Consistency), 기하학적 기초로서의 공간 일관성(Spatial Consistency), 인과 엔진으로서의 시간 일관성(Temporal Consistency). 이 삼부분적 관점을 통해 우리는 멀티모달 학습의 진화를 체계적으로 검토하며, 느슨하게 연결된 전문 모듈에서 내부 세계 시뮬레이터의 시너지적 출현을 가능하게 하는 통합 아키텍처로 향하는 경로를 드러냅니다. 이 개념적 프레임워크를 보완하기 위해, 우리는 다중 프레임 추론 및 생성 시나리오에 중점을 둔 벤치마크인 CoW-Bench를 소개합니다. CoW-Bench는 통합 평가 프로토콜 하에 비디오 생성 모델과 UMM을 모두 평가합니다. 우리의 연구는 일반 월드 모델을 향한 원칙적 경로를 확립하고, 현재 시스템의 한계와 향후 발전을 위한 아키텍처 요구 사항을 명확히 합니다.

The construction of World Models capable of learning, simulating, and reasoning about objective physical laws constitutes a foundational challenge in the pursuit of Artificial General Intelligence. Recent advancements represented by video generation models like Sora have demonstrated the potential of data-driven scaling laws to approximate physical dynamics, while the emerging Unified Multimodal Model (UMM) offers a promising architectural paradigm for integrating perception, language, and reasoning. Despite these advances, the field still lacks a principled theoretical framework that defines the essential properties requisite for a General World Model. In this paper, we propose that a World Model must be grounded in the Trinity of Consistency: Modal Consistency as the semantic interface, Spatial Consistency as the geometric basis, and Temporal Consistency as the causal engine. Through this tripartite lens, we systematically review the evolution of multimodal learning, revealing a trajectory from loosely coupled specialized modules toward unified architectures that enable the synergistic emergence of internal world simulators. To complement this conceptual framework, we introduce CoW-Bench, a benchmark centered on multi-frame reasoning and generation scenarios. CoW-Bench evaluates both video generation models and UMMs under a unified evaluation protocol. Our work establishes a principled pathway toward general world models, clarifying both the limitations of current systems and the architectural requirements for future progress.

논문 링크

더 읽어보기


Nemotron-Terminal: 대규모 언어 모델 터미널 기능 확장을 위한 데이터 엔지니어링 연구 / On Data Engineering for Scaling LLM Terminal Capabilities

논문 소개

대규모 언어 모델의 터미널 기능에 대한 최근의 빠른 발전에도 불구하고, 최첨단 터미널 에이전트의 학습 데이터 전략은 대부분 공개되지 않았습니다. 본 연구는 터미널 에이전트를 위한 데이터 엔지니어링 관행에 대한 체계적인 연구를 통해 이 격차를 해소합니다. 두 가지 주요 기여로는 첫째, 씨드 기반 및 기술 기반 작업 생성을 지원하는 가벼운 합성 작업 생성 파이프라인인 Terminal-Task-Gen을 제안합니다. 둘째, 필터링, 커리큘럼 학습, 긴 컨텍스트 학습 및 스케일링 행동을 포함한 데이터 및 학습 전략에 대한 포괄적인 분석을 제공합니다. 이 파이프라인을 통해 터미널 작업을 위한 대규모 오픈 소스 데이터셋인 Terminal-Corpus를 생성하였습니다. 이 데이터셋을 활용하여 Qwen3(8B, 14B, 32B)에서 초기화된 모델군인 Nemotron-Terminal을 학습시켰으며, Terminal-Bench 2.0에서 상당한 성과를 달성했습니다. Nemotron-Terminal-8B는 2.5%에서 13.0%로, Nemotron-Terminal-14B는 4.0%에서 20.2%로, Nemotron-Terminal-32B는 3.4%에서 27.4%로 성능이 향상되어, 훨씬 더 큰 모델과 동등한 성능을 보여줍니다. 이 분야의 연구를 가속화하기 위해, 우리는 모델 체크포인트와 대부분의 합성 데이터셋을 오픈소스로 공개하였습니다.

논문 초록(Abstract)

대규모 언어 모델의 단말 기능에서 최근의 빠른 발전에도 불구하고, 최첨단 단말 에이전트 뒤에 있는 학습 데이터 전략은 여전히 대부분 공개되지 않았습니다. 우리는 단말 에이전트를 위한 데이터 엔지니어링 관행에 대한 체계적인 연구를 통해 이 격차를 해소하고, 두 가지 주요 기여를 합니다: (1) 시드 기반 및 스킬 기반 작업 생성을 지원하는 경량 합성 작업 생성 파이프라인인 Terminal-Task-Gen, 그리고 (2) 필터링, 커리큘럼 학습, 긴 맥락 학습 및 스케일링 행동을 포함한 데이터 및 학습 전략에 대한 포괄적인 분석. 우리의 파이프라인은 단말 작업을 위한 대규모 오픈 소스 데이터셋인 Terminal-Corpus를 생성합니다. 이 데이터셋을 사용하여, 우리는 Qwen3(8B, 14B, 32B)에서 초기화된 모델 계열인 Nemotron-Terminal을 학습시키며, Terminal-Bench 2.0에서 상당한 성과 향상을 달성하였습니다: Nemotron-Terminal-8B는 2.5%에서 13.0%로, Nemotron-Terminal-14B는 4.0%에서 20.2%로, Nemotron-Terminal-32B는 3.4%에서 27.4%로 향상되어, 훨씬 더 큰 모델들의 성능에 필적합니다. 이 분야의 연구를 가속화하기 위해, 우리는 모델 체크포인트와 대부분의 합성 데이터셋을 Nemotron-Terminal - a nvidia Collection 에서 공개합니다.

Despite rapid recent progress in the terminal capabilities of large language models, the training data strategies behind state-of-the-art terminal agents remain largely undisclosed. We address this gap through a systematic study of data engineering practices for terminal agents, making two key contributions: (1) Terminal-Task-Gen, a lightweight synthetic task generation pipeline that supports seed-based and skill-based task construction, and (2) a comprehensive analysis of data and training strategies, including filtering, curriculum learning, long context training, and scaling behavior. Our pipeline yields Terminal-Corpus, a large-scale open-source dataset for terminal tasks. Using this dataset, we train Nemotron-Terminal, a family of models initialized from Qwen3(8B, 14B, 32B) that achieve substantial gains on Terminal-Bench 2.0: Nemotron-Terminal-8B improves from 2.5% to 13.0% Nemotron-Terminal-14B improves from 4.0% to 20.2%, and Nemotron-Terminal-32B improves from 3.4% to 27.4%, matching the performance of significantly larger models. To accelerate research in this domain, we open-source our model checkpoints and most of our synthetic datasets at Nemotron-Terminal - a nvidia Collection.

논문 링크

더 읽어보기


LLM 기반 다중 에이전트 시스템에서 마음 이론과 내부 신념 평가 / Evaluating Theory of Mind and Internal Beliefs in LLM-Based Multi-Agent Systems

논문 소개

LLM 기반의 다중 에이전트 시스템(MAS)은 자연어 이해, 추론, 계획의 발전으로 인해 협력적 문제 해결의 가능성으로 인해 인기를 끌고 있다. 이 연구는 에이전트의 상호작용과 의사결정을 개선할 수 있는 마음 이론(Theory of Mind, ToM) 및 신념-욕구-의도(Belief-Desire-Intention, BDI) 모델에 주목하고 있다. 그러나 동적인 환경에서의 협력 지능 구현은 여전히 어렵고, LLM의 다중 에이전트 세계에서의 성능은 매우 변동성이 크다. 단순히 ToM과 내부 신념과 같은 인지 메커니즘을 추가하는 것만으로는 조정이 개선되지 않는다. 이러한 메커니즘 간의 상호작용, 특히 형식 논리 검증과의 관계는 다양한 LLM에서 충분히 탐구되지 않았다. 본 연구는 내부 신념 메커니즘이 LLM 기반의 다중 에이전트 시스템에서 협력적 의사결정에 어떻게 영향을 미치는지, 그리고 이러한 구성 요소의 상호작용이 시스템의 정확도에 어떤 영향을 미치는지를 조사한다. ToM, BDI 스타일의 내부 신념 및 논리 검증을 위한 기호 해결기를 통합한 새로운 다중 에이전트 아키텍처를 소개하며, 다양한 LLM을 활용한 자원 배분 문제에서 이 아키텍처를 평가한다. 연구 결과, LLM의 능력, 인지 메커니즘 및 성능 간의 복잡한 상호작용이 발견되었다. 본 연구는 협력적 지능을 증진하기 위한 ToM, 내부 신념 및 기호 해결기를 갖춘 새로운 다중 에이전트 시스템을 제안하고, 다양한 LLM 설정 하에서의 성능을 평가함으로써 AI 분야에 기여한다.

논문 초록(Abstract)

LLM 기반의 다중 에이전트 시스템(MAS)은 자연어 이해, 추론 및 계획의 발전으로 인해 협업 문제 해결의 잠재력 덕분에 인기를 얻고 있습니다. 마음 이론(Theory of Mind, ToM) 및 신념-욕구-의도(Belief-Desire-Intention, BDI) 모델에 대한 연구는 이러한 시스템에서 에이전트의 상호작용 및 의사결정 향상에 기여할 가능성이 있습니다. 그러나 동적 세계에서의 협업 지능은 LLM의 다중 에이전트 환경에서 성능이 매우 변동성이 크기 때문에 여전히 달성하기 어렵습니다. ToM과 내부 신념과 같은 인지 메커니즘을 단순히 추가하는 것만으로는 협업 조정이 자동으로 개선되지 않습니다. 이러한 메커니즘 간의 상호작용, 특히 형식 논리 검증과의 관계는 다양한 LLM에서 여전히 충분히 탐구되지 않았습니다. 본 연구는 다음을 조사합니다: 상징적 해결사 및 마음 이론을 포함한 내부 신념 메커니즘이 LLM 기반의 다중 에이전트 시스템에서 협업 의사결정에 어떻게 영향을 미치며, 이러한 구성 요소의 상호작용이 시스템의 정확성에 어떤 영향을 미치는가? 우리는 ToM, BDI 스타일의 내부 신념 및 논리 검증을 위한 상징적 해결사를 통합한 새로운 다중 에이전트 아키텍처를 소개합니다. 우리는 다양한 LLM을 사용하여 자원 할당 문제에서 이 아키텍처를 평가하고 LLM의 능력, 인지 메커니즘 및 성능 간의 복잡한 상호작용을 발견했습니다. 본 연구는 ToM, 내부 신념 및 상징적 해결사를 갖춘 새로운 다중 에이전트 시스템을 제안하고, 이를 통해 다중 에이전트 시스템에서 협업 지능을 향상시키는 성능을 다양한 LLM 설정 하에 평가함으로써 AI 분야에 기여합니다.

LLM-based MAS are gaining popularity due to their potential for collaborative problem-solving enhanced by advances in natural language comprehension, reasoning, and planning. Research in Theory of Mind (ToM) and Belief-Desire-Intention (BDI) models has the potential to further improve the agent's interaction and decision-making in such systems. However, collaborative intelligence in dynamic worlds remains difficult to accomplish since LLM performance in multi-agent worlds is extremely variable. Simply adding cognitive mechanisms like ToM and internal beliefs does not automatically result in improved coordination. The interplay between these mechanisms, particularly in relation to formal logic verification, remains largely underexplored in different LLMs. This work investigates: How do internal belief mechanisms, including symbolic solvers and Theory of Mind, influence collaborative decision-making in LLM-based multi-agent systems, and how does the interplay of those components influence system accuracy? We introduce a novel multi-agent architecture integrating ToM, BDI-style internal beliefs, and symbolic solvers for logical verification. We evaluate this architecture in a resource allocation problem with various LLMs and find an intricate interaction between LLM capabilities, cognitive mechanisms, and performance. This work contributes to the area of AI by proposing a novel multi-agent system with ToM, internal beliefs, and symbolic solvers for augmenting collaborative intelligence in multi-agent systems and evaluating its performance under different LLM settings.

논문 링크


AI는 초인적 적응형 지능을 통해 전문화를 수용해야 한다 / AI Must Embrace Specialization via Superhuman Adaptable Intelligence

논문 소개

인공지능(Artificial Intelligence, AI) 분야에서는 인공지능 일반 지능(Artificial General Intelligence, AGI)에 대한 다양한 정의와 논의가 진행되고 있지만, 이에 대한 합의는 이루어지지 않고 있다. 본 논문은 AGI의 모호한 정의가 AI의 미래를 설명하는 데 있어 결함이 있음을 주장하며, AI가 일반성을 추구하기보다는 전문화를 수용해야 한다고 강조한다. 저자들은 새로운 개념인 초인적 적응 지능(Superhuman Adaptable Intelligence, SAI)을 제안하며, 이는 인간이 수행할 수 있는 중요한 모든 작업에서 인간을 초월할 수 있는 능력을 갖춘 지능으로 정의된다.

SAI는 AI 연구의 중심 개념으로 자리 잡을 수 있으며, AGI의 혼란스러운 정의를 정리할 수 있는 유용한 틀을 제공한다. 논문에서는 SAI의 적응 능력에 중점을 두고, AI가 특정 도메인에 최적화된 전문화된 시스템을 통해 초인적 성능을 달성할 수 있도록 해야 한다고 주장한다. 특히, 자가 감독 학습(self-supervised learning, SSL)과 세계 모델(world model)을 통해 SAI가 실현될 수 있는 가능성을 제시하며, 이를 통해 AI가 빠르게 새로운 작업에 적응할 수 있는 기반을 마련할 수 있음을 논의한다.

또한, 저자들은 인간 지능이 본질적으로 전문화되어 있다는 점을 강조하며, AI 시스템도 이러한 전문화를 통해 성능을 극대화해야 한다고 주장한다. 이 과정에서 다중 작업 학습의 한계와 특정 도메인에 대한 최적화의 필요성이 부각된다. AI 연구에서의 동질성 문제를 지적하며, 다양한 아키텍처와 모델의 계층적 구조가 필요하다는 점도 강조된다.

결론적으로, 본 논문은 AI의 미래에 대한 보다 명확한 방향성을 제시하며, SAI를 통해 인간 중심의 일반성 개념을 넘어서서 AI의 발전을 위한 새로운 기준을 설정할 필요성을 제기한다. 이러한 접근은 AI 연구와 개발의 방향성을 재정립하며, 전문화와 초인적 적응 지능의 중요성을 강조하는 데 기여할 것이다.

논문 초록(Abstract)

모든 AI 경영진, 연구자, 재앙론자, 정치인, 활동가들이 인공지능 일반 지능(AGI)에 대해 이야기하고 있습니다. 그러나 그들은 종종 AGI의 정확한 정의에 대해 합의하지 않는 것처럼 보입니다. AGI의 일반적인 정의 중 하나는 인간이 할 수 있는 모든 일을 할 수 있는 AI입니다. 그러나 인간은 정말로 일반적인 존재일까요? 본 논문에서는 AGI에 대한 우리의 개념이 잘못된 이유와, 그 가장 일관된 형태에서도 AI의 미래를 설명하기에는 결함이 있는 개념이라는 점을 다룹니다. 우리는 가장 널리 받아들여진 정의들이 그럴듯하고 유용하며 진정으로 일반적인지 탐구합니다. 우리는 AI가 일반성을 추구하기보다는 전문화를 수용해야 하며, 그 전문화에서 초인적인 성과를 목표로 해야 한다고 주장하며, 초인 적응 지능(Superhuman Adaptable Intelligence, SAI)을 소개합니다. SAI는 우리가 할 수 있는 중요한 모든 일을 초과하여 학습할 수 있는 지능으로 정의되며, 인간이 할 수 없는 기술의 격차를 메울 수 있습니다. 이후 SAI가 AGI의 과도한 정의로 흐릿해진 AI에 대한 논의를 어떻게 다듬을 수 있는지를 제시하고, 이를 미래의 지침으로 사용할 때의 함의를 추론합니다.

Everyone from AI executives and researchers to doomsayers, politicians, and activists is talking about Artificial General Intelligence (AGI). Yet, they often don't seem to agree on its exact definition. One common definition of AGI is an AI that can do everything a human can do, but are humans truly general? In this paper, we address what's wrong with our conception of AGI, and why, even in its most coherent formulation, it is a flawed concept to describe the future of AI. We explore whether the most widely accepted definitions are plausible, useful, and truly general. We argue that AI must embrace specialization, rather than strive for generality, and in its specialization strive for superhuman performance, and introduce Superhuman Adaptable Intelligence (SAI). SAI is defined as intelligence that can learn to exceed humans at anything important that we can do, and that can fill in the skill gaps where humans are incapable. We then lay out how SAI can help hone a discussion around AI that was blurred by an overloaded definition of AGI, and extrapolate the implications of using it as a guide for the future.

논문 링크


:fire:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

2개의 좋아요