NeurIPS 2025 우수 논문 소개
NeurIPS(Neural Information Processing Systems)는 인공지능 분야에서 가장 권위 있는 컨퍼런스 중 하나로, 최근 NeurIPS 블로그에는 올해 선정된 4편의 최우수 논문(Best Papers) 및 3편의 우수 논문(Runner-Ups) 이 소개되었습니다. 이번 글에서는 올해 선정된 우수 논문들을 살펴보며, 단순히 성능을 높이는 것을 넘어 우리가 어떻게 인공지능을 이해하고 설계해야 하는지에 대한 내용을 공유하려고 합니다.
NeurIPS 블로그 전문은 다음 링크에서 확인하실 수 있습니다:
NeurIPS 2025 최우수 논문 및 차상위 논문 소개
최우수 논문상 위원회(Best Paper Award Committee) 위원들은 프로그램 의장(Program Chairs)과 데이터베이스 및 벤치마크 트랙(Database and Benchmark track) 의장이 추천한 기계 학습 분야의 선도 연구자들로 구성되었으며, 이들의 추천은 총괄 의장(General Chairs)과 차세대 및 접근성 의장(Next Generation and Accessibility Chairs)의 승인을 받았습니다.
최우수 논문상 위원회는 학회 메인 트랙(Main Track)과 데이터셋 및 벤치마크 트랙(Datasets & Benchmark Track)에서 영향력 있는 소수의 논문을 선정하는 임무를 맡았습니다.
그 결과, 올해는 총 7편의 혁신적인 논문이 수상작으로 선정되었으며, 이 중 4편이 최우수 논문상(Best Paper Awards), 3편이 차상위 논문상(Runner-Up Awards)으로 선정되었습니다. 수상 논문들은 확산 모델 이론(diffusion model theory), 자기지도 강화학습(self-supervised reinforcement learning), 대규모 언어 모델(LLM)을 위한 어텐션 메커니즘(attention mechanisms), LLM의 추론 능력(reasoning capabilities), 온라인 학습 이론(online learning theory), 신경망 스케일링 법칙(neural scaling laws), 언어 모델 다양성 벤치마킹(benchmarking methodologies for language model diversity) 등 다양한 주제를 다루고 있습니다.
[Best Paper] 인공 집단 지성: 언어 모델(및 그 너머)의 무한한 동질성 / Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)
저자: Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
논문 소개
Artificial Hivemind 논문은 "결국 모든 LLM은 똑같은 말을 하게 되는가?"라는 도발적인 질문을 던집니다. 연구진은 현재의 LLM들이 훈련 데이터나 아키텍처가 달라도, 정답이 정해져 있지 않은(Open-ended) 질문에 대해 놀라울 정도로 유사한 답변을 내놓는 현상을 발견하고 이를 Artificial Hivemind(인공 집단지성) 라고 명명했습니다.
연구팀은 이를 검증하기 위해 Infinity-Chat이라는 새로운 벤치마크를 구축했습니다. 이는 기존의 정형화된 평가 데이터셋과 달리, "브레인스토밍", "창의적 글쓰기" 등 26,000개의 실제 사용자 쿼리로 구성되어 있어 정답이 존재하지 않습니다. 이 데이터셋을 통해 다양한 최신 LLM들을 테스트한 결과, 모델들은 서로 약속이나 한 듯이 비슷한 논리 구조, 어조, 단어 선택을 보여주었습니다. 이는 단순한 우연이 아니라 모델 간의 상호 균질화(Inter-model homogeneity) 가 심각한 수준에 이르렀음을 의미합니다.
더욱 충격적인 발견은 이러한 획일화의 원인입니다. 연구진은 이것이 단순히 인터넷 데이터를 공유해서가 아니라, RLHF(인간 피드백 기반 강화학습) 및 LLM-as-a-Judge(LLM을 심사위원으로 쓰는 평가 방식) 시스템 때문이라고 지적합니다. 현재의 이러한 미세조정 방식이 인간에게 안전하고, 도움이 되며, 무난한 답변에 높은 점수를 주도록 설계되어 있습니다. 결과적으로 모든 모델이 이 '보상의 최적점'을 향해 수렴하면서, 독창성을 잃고 획일화된 '평균적인 답변'만을 생성하게 되는 것입니다.
이 연구는 연구자들에게 중요한 경고를 보냅니다. 우리가 모델의 성능을 측정하기 위해 사용하는 현재의 벤치마크와 보상 모델들이, 실제로는 모델의 창의성을 거세하고 다양성을 죽이고 있을 수 있습니다. 논문은 이러한 하이브마인드(Hivemind) 현상이 지속된다면, 미래의 인터넷은 AI가 생성한 획일화된 정보로 뒤덮여 인간의 사고마저 단순화될 수 있음을 경고하며, 다양성을 보존할 수 있는 새로운 학습 및 평가 방법론의 필요성을 역설합니다.
논문 초록
대규모 언어 모델(LM, Large Language Models)은 종종 다양한 인간과 유사한 창의적 콘텐츠를 생성하는 데 어려움을 겪으며, 비슷한 출력에 반복적으로 노출될 경우 인간 사고의 장기적인 동질화(homogenization)에 대한 우려를 불러일으킵니다. 하지만 무작위 숫자나 이름 생성 등 협소한 과제를 넘어서거나 단일 모델에서 반복 샘플링하는 경우를 제외하면, 언어 모델 출력의 다양성을 평가할 수 있는 확장 가능한 방법은 여전히 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 현실 세계의 개방형 사용자 쿼리 26,000개로 구성된 대규모 데이터셋 Infinity-Chat을 소개합니다. 이 쿼리는 정답이 하나로 고정되지 않고 다양한 타당한 응답을 허용합니다. 우리는 언어 모델에 제시되는 개방형 프롬프트(open-ended prompts)의 전체 스펙트럼을 특징짓기 위한 최초의 포괄적 분류 체계(taxonomy)를 제안하며, 이는 6개의 최상위 카테고리(예: 창의적 콘텐츠 생성, 브레인스토밍 및 아이디어화)와 이를 세분화한 17개의 하위 범주로 구성됩니다. Infinity-Chat을 활용해 우리는 언어 모델에서의 모드 붕괴(mode collapse)에 대한 대규모 연구를 수행하였고, 언어 모델의 개방형 생성에서 Artificial Hivemind 효과를 발견했습니다. 이는 (1) 단일 모델이 일관되게 유사한 응답을 생성하는 모델 내 반복(intra-model repetition) 과, 더 나아가 (2) 서로 다른 모델이 놀랄 만큼 유사한 출력을 생성하는 모델 간 동질성(inter-model homogeneity) 으로 특징지어집니다. Infinity-Chat에는 절대 평점과 쌍대 선호(pairwise preference)를 포함한 총 31,250건의 인간 주석이 포함되어 있으며, 예제당 독립된 인간 주석자 25명의 평가가 수집되었습니다. 이는 개방형 쿼리에 대한 집합적 및 개인별 인간 선호도를 연구할 수 있게 해줍니다. 우리의 연구 결과는 최신 LLM, 보상 모델(reward models), LM 평가 모델들이, 상이한 개별적 선호를 이끌어내는 모델 생성물에 대해 인간 평가와의 정렬(calibration)이 떨어지는 반면, 전반적인 품질은 유지되고 있음을 보여줍니다. 전반적으로, INFINITY-CHAT은 현실 세계의 개방형 쿼리에 대한 체계적인 연구를 가능하게 하는 최초의 대규모 리소스를 제공하며, Artificial Hivemind로 인해 발생할 수 있는 장기적인 AI 안전성 위협을 완화하기 위한 향후 연구를 안내할 중요한 통찰을 제공합니다.
Large language models (LMs) often struggle to generate diverse, human-like creative content, raising concerns about the long-term homogenization of human thought through repeated exposure to similar outputs. Yet scalable methods for evaluating LM output diversity remain limited, especially beyond narrow tasks such as random number or name generation, or beyond repeated sampling from a single model. To address this gap, we introduce Infinity-Chat, a large-scale dataset of 26K diverse, real-world, open-ended user queries that admit a wide range of plausible answers with no single ground truth. We introduce the first comprehensive taxonomy for characterizing the full spectrum of open-ended prompts posed to LMs, comprising 6 top-level categories (e.g., creative content generation, brainstorm & ideation) that further breaks down to 17 subcategories. Using Infinity-Chat, we present a large-scale study of mode collapse in LMs, revealing a pronounced Artificial Hivemind effect in open-ended generation of LMs, characterized by (1) intra-model repetition, where a single model consistently generates similar responses, and more so (2) inter-model homogeneity, where different models produce strikingly similar outputs. Infinity-Chat also includes 31,250 human annotations, across absolute ratings and pairwise preferences, with 25 independent human annotations per example. This enables studying collective and individual-specific human preferences in response to open-ended queries. Our findings show that state-of-the-art LMs, reward models, and LM judges are less well calibrated to human ratings on model generations that elicit differing idiosyncratic annotator preferences, despite maintaining comparable overall quality. Overall, INFINITY-CHAT presents the first large-scale resource for systematically studying real-world open-ended queries to LMs, revealing critical insights to guide future research for mitigating long-term AI safety risks posed by the Artificial Hivemind.
선정 위원회 평가(Reflections from the Selection Committee)
이 논문은 현대 언어 모델에서의 다양성(diversity), 다원성(pluralism), 사회적 영향(societal impact)을 이해하는 데 중대한 시의적절한 기여를 합니다. 저자들은 26,000개의 현실적 개방형 쿼리와 31,000건 이상의 밀집된 인간 주석으로 구성된 엄격하게 구축된 벤치마크 Infinity-Chat을 소개하며, 창의적 생성, 아이디어 도출, 주관적 선호 정렬 등 그동안 AI 평가에서 소홀히 다루어졌던 차원들을 체계적으로 평가할 수 있도록 합니다. 가치 있는 데이터셋 공개에 그치지 않고, 저자들은 개방형 프롬프트에 대한 최초의 포괄적 분류 체계와 70개 이상의 모델을 대상으로 한 광범위한 실증 연구를 통해 심도 깊은 분석적 통찰을 제공합니다. 이 연구는 intra- 및 inter-model 동질화라는 Artificial Hivemind 현상을 밝히며, 인간 창의성, 가치의 다양성, 독립적 사고에 대한 장기적인 위험에 대해 심각한 우려를 제기합니다. 또한 보상 모델, 자동 평가기(automated judges), 다양한 인간 선호 간의 중요한 정렬 실패를 드러내며, 정렬(alignment)과 다양성 사이의 긴장을 강조하고, AI 시스템 내 이질성(heterogeneity)을 보존하기 위한 향후 연구의 토대를 마련합니다. 전반적으로 이 연구는 기술적 성능 향상만을 추구하기보다는 과학적 이해를 심화하고 사회적 도전 과제를 다루는 데이터셋과 벤치마크의 새로운 기준을 제시합니다.
This paper makes a substantial and timely contribution to the understanding of diversity, pluralism, and societal impact in modern language models. The authors introduce Infinity-Chat, a rigorously constructed benchmark of 26K real-world open-ended queries paired with 31K dense human annotations, enabling systematic evaluation of creative generation, ideation, and subjective preference alignment, dimensions historically underexamined in AI evaluation. Beyond releasing a valuable dataset, the paper provides deep analytical insights through the first comprehensive taxonomy of open-ended prompts and an extensive empirical study across more than 70 models, revealing the Artificial Hivemind effect: pronounced intra- and inter-model homogenization that raises serious concerns about long-term risks to human creativity, value plurality, and independent thinking. The findings expose critical miscalibration between current reward models, automated judges, and diverse human preferences, highlighting the tension between alignment and diversity and establishing a foundation for future work on preserving heterogeneity in AI systems. Overall, this work sets a new standard for datasets and benchmarks that advance scientific understanding and address pressing societal challenges rather than solely improving technical performance.
더 읽어보기
Artificial Hivemind 논문 원문 및 소개한 Infinity-Chat 코드, 벤치마크는 아래 링크에서 확인하실 수 있습니다:
https://huggingface.co/datasets/liweijiang/Infinity-Chat
[Best Paper] 비선형성, 희소성 및 어텐션 싱크가 없는 대규모 언어 모델을 위한 게이트 어텐션 / Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
저자: Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin
논문 소개
Alibaba의 Qwen 연구팀이 공개한 Gated Attention for Large Language Models 논문은 Transformer 아키텍처의 핵심인 Attention 메커니즘을 아주 간단하게 수정하여 성능과 안정성을 획기적으로 개선한 연구입니다. 연구팀은 기존의 Softmax 기반 Attention이 가진 구조적 한계, 특히 Attention Sink 현상에 주목했습니다. Softmax 함수는 출력의 합이 반드시 1이 되어야 하므로, 현재 토큰과 연관된 정보가 문맥 내에 전혀 없더라도 어딘가에는 강제로 주의(Attention)를 기울여야 합니다. 이로 인해 모델은 종종 의미 없는 첫 번째 토큰이나 특정 토큰에 과도하게 집중하는 버그성 패턴을 학습하게 됩니다.
연구진이 제안한 해결책은 놀랍도록 간단합니다.SDPA(Scaled Dot-Product Attention)의 출력 값 뒤에 각 헤드 별(Head-specific) Sigmoid 게이트를 추가하는 것입니다. 이를 수식으로 표현하면 O = \text{Sigmoid}(w) \odot \text{Attention}(Q, K, V) 형태가 됩니다. 이러한 게이트는 각 어텐션 헤드가 내놓은 정보가 유용한지 아닌지를 판단하여, 유용하지 않다면 해당 헤드의 출력을 0에 가깝게 차단해버릴 수 있습니다. 즉, Softmax가 강제로 할당한 '불필요한 주의'를 후처리 단계에서 걸러내는 역할을 합니다.
이 작은 변화가 가져온 결과는 강력했습니다. Qwen3-Next 모델 개발 과정에서 검증된 바에 따르면, 게이트 어텐션은 훈련 초기의 불안정성을 잡아주어 더 큰 학습률(Learning Rate)을 사용할 수 있게 해줍니다. 또한, 긴 문맥(Long-context)을 처리할 때도 불필요한 정보(Noise)가 누적되는 것을 막아주어, 문맥 길이가 길어져도 성능 저하가 훨씬 적게 나타났습니다.
이 논문이 제안한 Gated Attention이 매력적인 이유는 바로 가성비입니다. 복잡한 연산이나 막대한 파라미터 추가 없이, 기존 코드에 단 몇 줄의 수정만으로 모델의 학습 안정성과 추론 품질을 높일 수 있기 때문입니다. 특히 LLM을 밑바닥부터 학습시키거나(Pre-training), 대규모 파인튜닝을 수행하는 엔지니어라면 반드시 참고해야 할 아키텍처 개선안입니다.
논문 초록
게이팅 메커니즘(gating mechanisms)은 초기의 LSTM, 하이웨이 네트워크(Highway Networks)부터 최신의 상태 공간 모델(state space models), 선형 어텐션(linear attention), 소프트맥스 어텐션(softmax attention)에 이르기까지 광범위하게 활용되어 왔습니다. 그러나 기존 문헌에서는 게이팅이 미치는 구체적인 효과를 체계적으로 분석한 연구는 드뭅니다. 이 연구에서는 게이팅이 포함된 소프트맥스 어텐션 변형들(gating-augmented softmax attention variants)에 대해 포괄적인 실험을 수행하며 체계적으로 조사합니다. 우리는 15B 파라미터 규모의 혼합 전문가 모델(Mixture-of-Experts, MoE)과 1.7B 파라미터의 밀집 모델(dense model)을, 3.5조 토큰 데이터셋에서 학습시킨 30개 이상의 변형을 비교합니다. 중심 발견은 매우 간단한 수정—스케일된 점곱 어텐션(Scaled Dot-Product Attention, SDPA) 이후에 헤드별 시그모이드 게이트(head-specific sigmoid gate) 를 적용하는 방식—이 일관된 성능 향상을 가져온다는 것입니다. 이 수정은 학습 안정성(training stability)을 향상시키고, 더 큰 학습률(learning rate)을 견딜 수 있게 하며, 스케일링 특성(scaling properties)을 개선합니다. 우리는 다양한 게이팅 위치와 계산적 변형을 비교하며 이 효과의 근거로 두 가지 주요 요인을 제시합니다: (1) 소프트맥스 어텐션의 저랭크 매핑(low-rank mapping)에 비선형성(non-linearity)을 도입하는 것, (2) 질의(query)에 의존적인 희소 게이팅 점수(sparse gating scores)를 활용하여 SDPA 출력을 조절하는 것. 특히, 우리는 이 희소 게이팅 메커니즘이 과도한 활성화(massive activation), 어텐션 싱크(attention sink)를 완화하고 긴 문맥(long-context) extrapolation 성능을 향상시킴을 발견했습니다. 관련 코드(GitHub - qiuzh20/gated_attention: The official implementation for [NeurIPS2025 Oral] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free)와 모델(QwQZh/gated_attention · Hugging Face)도 공개하여 후속 연구를 지원합니다. 또한, 가장 효과적인 SDPA 출력 게이팅 방식은 Qwen3-Next 모델(Qwen3-Next - a Qwen Collection)에도 활용되었습니다.
Gating mechanisms have been widely utilized, from early models like LSTMs and Highway Networks to recent state space models, linear attention, and also softmax attention. Yet, existing literature rarely examines the specific effects of gating. In this work, we conduct comprehensive experiments to systematically investigate gating-augmented softmax attention variants. Specifically, we perform a comprehensive comparison over 30 variants of 15B Mixture-of-Experts (MoE) models and 1.7B dense models trained on a 3.5 trillion token dataset. Our central finding is that a simple modification—applying a head-specific sigmoid gate after the Scaled Dot-Product Attention (SDPA)—consistently improves performance. This modification also enhances training stability, tolerates larger learning rates, and improves scaling properties. By comparing various gating positions and computational variants, we attribute this effectiveness to two key factors: (1) introducing non-linearity upon the low-rank mapping in the softmax attention, and (2) applying query-dependent sparse gating scores to modulate the SDPA output. Notably, we find this sparse gating mechanism mitigates massive activation, attention sink and enhances long-context extrapolation performance. We also release related codes (https://github.com/qiuzh20/gated_attention}) and models (QwQZh/gated_attention · Hugging Face) to facilitate future research. Furthermore, the most effective SDPA output gating is used in the Qwen3-Next models (Qwen3-Next - a Qwen Collection).
선정 위원회 평가(Reflections from the Selection Committee)
이 논문의 주요 발견은, 소프트맥스 어텐션을 사용하는 대규모 언어 모델에서 스케일된 점곱 어텐션(SDPA) 이후에 헤드별 시그모이드 게이팅을 도입하면 모델 성능이 일관되게 향상된다는 점입니다. 이 발견은 15B MoE 모델과 1.7B 밀집 모델을 사용하여 400B, 1T, 3.5T 토큰의 대규모 데이터셋에서 수행된 30개 이상의 다양한 게이팅 소프트맥스 어텐션 실험으로 뒷받침됩니다. 논문은 저자들이 제안한 게이팅 방식이 대규모 언어 모델의 학습 안정성을 향상시키고, 어텐션 메커니즘에서 광범위하게 보고되어 온 '어텐션 싱크(attention sink)' 현상을 완화하며, 문맥 길이 확장(context length extension) 성능을 향상시킨다는 점을 세심하게 분석합니다. 이 논문의 주요 제안은 구현이 간단하며, LLM 아키텍처에 대한 이 수정에 대해 논문에서 제공된 광범위한 증거를 고려할 때, 이 아이디어는 널리 채택될 것으로 예상됩니다. 이 연구는 산업 수준의 컴퓨팅 자원 없이는 수행할 수 없는 막대한 작업이며, LLM 관련 연구 결과의 공개 공유가 줄어드는 현 상황에서, 저자들이 그들의 연구 결과를 공개하고 공유한 것은 매우 칭찬할 만합니다.
The main finding of this paper is that the performance of large language models using softmax attention can be consistently improved by introducing head-specific sigmoid gating after the scaled dot product attention operation in both dense and mixture-of-experts (MoE) Transformer models. This finding is backed up by more than thirty experiments on different variants of gated softmax attention using 15B MoE and 1.7B dense models trained on large-scale datasets of 400B, 1T, or 3.5T tokens. The paper also includes careful analyses showing that the introduction of the authors’ recommended form of gating improves the training stability of large language models, reduces the “attention sink” phenomenon that has been widely reported in attention models, and enhances the performance of context length extension. The main recommendation of the paper is easily implemented, and given the extensive evidence provided in the paper for this modification to LLM architecture, we expect this idea to be widely adopted. This paper represents a substantial amount of work that is possible only with access to industrial scale computing resources, and the authors’ sharing of the results of their work, which will advance the community’s understanding of attention in large language models, is highly commendable, especially in an environment where there has been a move away from open sharing of scientific results around LLMs.
더 읽어보기
Gated Attention 논문과 GitHub 저장소는 아래 링크에서 참고해주세요:
[Best Paper] 자기지도 강화 학습을 위한 1000계층 네트워크 / 1000 Layer Networks for Self-Supervised RL
저자: Kevin Wang , Ishaan Javali, Michał Bortkiewicz, Tomasz Trzcinski, Benjamin Eysenbach
논문 소개
컴퓨터 비전 분야에서는 ResNet 이후 100층, 1000층 깊이의 네트워크가 표준이 되었지만, 강화학습(RL) 분야는 여전히 2~5개 레이어의 얕은 네트워크(MLP)에 머물러 있었습니다. 깊은 네트워크를 사용하면 그래디언트 소실이나 발산 문제로 인해 학습이 극도로 불안정해지기 때문입니다. 1000 Layer Networks for Self-Supervised RL 논문은 강화학습 분야에서도 1000개 이상의 레이어를 가진 깊은 네트워크를 효과적으로 학습시킬 수 있음을 증명하며, RL 분야의 'ResNet 모멘트'를 열었다는 평가를 받습니다.
연구팀은 자가 지도 학습(SSL, Self-Supervised Learning) 및 목표 조건부(Goal-Conditioned) RL 설정을 결합하여 이 문제를 해결했습니다. 외부에서 주어지는 보상(Reward)에 의존하는 대신, 에이전트가 스스로 목표를 설정하고 도달하는 과정을 통해 학습합니다. 특히 깊은 네트워크 학습을 방해하는 요인들을 분석하여, Layer Normalization의 위치 변경과 잔차 연결(Residual Connection)의 적절한 활용 등 아키텍처 튜닝을 통해 1024 레이어까지 안정적으로 학습시키는 데 성공했습니다.
실험 결과는 네트워크의 깊이가 깊어질수록 성능이 단순히 선형적으로 증가하는 것이 아니라, 질적인 도약이 일어남을 보여주었습니다. 얕은 네트워크는 단순한 동작만을 수행하는 반면, 1000 레이어 네트워크는 복잡한 미로 찾기나 정교한 로봇 제어와 같이 장기적인 계획(Planning)이 필요한 작업에서 압도적인 성능을 발휘했습니다.
이러한 Deep Network for Self-Supervised RL 연구는 "RL은 얕은 네트워크로 충분하다"는 기존의 통념을 완전히 깨뜨렸습니다. 개발자들에게는 RL 에이전트의 지능을 높이기 위해 더 이상 복잡한 보상 함수 설계에만 매달릴 것이 아니라, 모델의 깊이(Capacity)를 과감하게 늘려보는 것이 돌파구가 될 수 있음을 시사합니다.
논문 초록
자기지도 학습(self-supervised learning)의 확장은 언어와 비전 분야에서 획기적인 성과를 이끌어냈지만, 강화학습(RL, Reinforcement Learning)에서는 이와 유사한 발전이 아직 나타나지 않았습니다. 본 논문에서는 자기지도 강화학습(self-supervised RL)의 확장성을 실현할 수 있는 구성 요소들을 연구하며, 신경망의 깊이(network depth) 가 핵심 요소임을 보여줍니다. 최근의 대부분 RL 논문들이 약 2~5층의 얕은 아키텍처(shallow architectures)에 의존해온 반면, 본 연구는 최대 1024층의 네트워크 깊이를 도입함으로써 성능이 상당히 향상될 수 있음을 입증합니다. 실험은 데모나 보상이 전혀 제공되지 않는 비지도 목표 조건 설정 환경(unsupervised goal-conditioned setting) 에서 수행되며, 여기서 에이전트는 처음부터 탐색하고 명령된 목표에 도달하는 방법을 학습해야 합니다. 시뮬레이션된 이동(locomotion) 및 조작(manipulation) 과제에서 우리의 접근법은 자기지도 대조 강화학습(contrastive RL) 알고리즘의 성능을 현저히 향상시키며, 다른 목표 조건 기반(goal-conditioned) 기법들을 능가합니다. 모델의 깊이를 증가시키는 것은 성공률(success rate)을 높일 뿐만 아니라, 학습된 행동의 질적 특성도 변화시킵니다.
Scaling up self-supervised learning has driven breakthroughs in language and vision, yet comparable progress has remained elusive in reinforcement learning (RL). In this paper, we study building blocks for self-supervised RL that unlock substantial improvements in scalability, with network depth serving as a critical factor. Whereas most RL papers in recent years have relied on shallow architectures (around 2 — 5 layers), we demonstrate that increasing the depth up to 1024 layers can significantly boost performance. Our experiments are conducted in an unsupervised goal-conditioned setting, where no demonstrations or rewards are provided, so an agent must explore (from scratch) and learn how to maximize the likelihood of reaching commanded goals. Evaluated on simulated locomotion and manipulation tasks, our approach increases performance on the self-supervised contrastive RL algorithm by — , outperforming other goal-conditioned baselines. Increasing the model depth not only increases success rates but also qualitatively changes the behaviors learned.
선정 위원회 평가(Reflections from the Selection Committee)
이 논문은 강화학습(RL)을 통해 심층 신경망을 효과적으로 학습시키기에는 정보가 부족하다는 기존의 일반적 가정을 뒤흔듭니다. 그동안 대규모 AI 시스템은 대부분 자기지도 학습으로 학습시키고, RL은 파인튜닝(fine-tuning)에만 활용된다는 관점이 지배적이었습니다. 이 논문은 자기지도 및 대조 강화학습을 통해 매우 깊은 신경망을 효과적으로 학습시킬 수 있는 새로운 RL 패러다임을 소개합니다. 분석 결과, RL은 네트워크 깊이가 증가해도 효율적으로 확장될 수 있으며, 그에 따라 보다 정교한 능력이 자연스럽게 나타납니다. 논문은 설득력 있는 실험 결과뿐 아니라, 여러 유용한 분석도 제공합니다. 예를 들어, 대조 강화학습 내에서 네트워크가 깊어질수록 배치 크기(batch size) 확장이 얼마나 중요한지를 강조합니다.
This paper challenges the conventional assumption that the information provided by reinforcement learning (RL) is insufficient to effectively guide the numerous parameters of deep neural networks, hence suggesting that large AI systems be predominantly trained through self-supervision, with RL reserved solely for fine-tuning. The work introduces a novel and easy-to-implement RL paradigm for the effective training of very deep neural networks, employing self-supervised and contrastive RL. The accompanying analysis demonstrates that RL can scale efficiently with increasing network depth, leading to the emergence of more sophisticated capabilities. In addition to presenting compelling results, the study includes several useful analyses, for example, for highlighting the important role of batch size scaling for deeper networks within contrastive RL.
더 읽어보기
1000 Layer Networks for Self-Supervised RL 논문은 아래 링크에서 확인하실 수 있습니다:
[Best Paper] 확산 모델이 기억력을 발휘하지 못하는 이유: 학습에서 암묵적 동적 정규화의 역할 / Why Diffusion Models Don't Memorize: The Role of Implicit Dynamical Regularization in Training
저자: Tony Bonnaire, Raphaël Urfin, Giulio Biroli, Marc Mezard
논문 소개
Stable Diffusion이나 Midjourney 같은 이미지 생성 모델을 사용할 때 가장 큰 우려 중 하나는 "이 모델이 학습 데이터를 그대로 베껴서 저작권을 침해하지 않을까?" 하는 점입니다. Why Diffusion Models Don't Memorize 논문은 확산 모델(Diffusion Model)이 거대한 데이터셋을 학습했음에도 불구하고, 왜 데이터를 단순히 암기(Memorization)하지 않고 새로운 이미지를 생성(Generalization)해낼 수 있는지에 대한 이론적 메커니즘을 규명했습니다.
연구진은 학습 과정에서 두 가지 서로 다른 시간 척도(Timescale)가 존재함을 밝혀냈습니다. 첫 번째는 일반화 시점(\tau_{gen})으로, 모델이 데이터의 전반적인 구조와 패턴을 학습하여 고품질 이미지를 생성하기 시작하는 시기입니다. 두 번째는 암기 시점(\tau_{mem})으로, 모델이 과적합되어 훈련 데이터를 픽셀 단위로 외우기 시작하는 시기입니다. 중요한 발견은 훈련 데이터의 크기(n)가 커질수록 일반화 시점(\tau_{gen})은 일정하게 유지되는 반면, 암기 시점(\tau_{mem})은 선형적으로 뒤로 밀려난다는 사실입니다.
즉, 데이터가 많을수록 모델이 일반화는 완료했으되 아직 암기는 시작하지 않은 안전한 학습 구간(Generalization Window) 이 넓어집니다. 이 구간 내에서 학습을 멈춘다면, 모델의 파라미터가 데이터보다 훨씬 많더라도(Over-parameterized) 암기 없이 창의적인 생성이 가능합니다. 이를 암시적 동적 정규화(Implicit Dynamical Regularization) 라고 부릅니다.
이 연구는 생성형 AI 서비스를 개발하는 엔지니어들에게 이론적 확신을 제공합니다. 데이터셋의 크기를 충분히 키우고 적절한 시점에 학습을 종료(Early Stopping)한다면, 모델이 훈련 데이터를 표절할 위험을 수학적으로 최소화할 수 있다는 것입니다. 이는 저작권 문제와 모델의 독창성 확보 사이에서 고민하는 개발자들에게 매우 중요한 가이드라인이 됩니다.
논문 초록
확산 모델(diffusion models)은 다양한 생성 작업에서 놀라운 성공을 거두고 있습니다. 하지만 이러한 모델이 훈련 데이터를 암기하지 않고 일반화할 수 있도록 하는 메커니즘을 이해하는 것은 여전히 핵심 과제로 남아 있습니다. 본 연구에서는 일반화에서 암기로의 전환 과정(training dynamics) 에서 훈련 동역학의 역할을 조사합니다. 광범위한 실험과 이론적 분석을 통해 우리는 두 가지 뚜렷한 시간 척도(timescales)를 확인했습니다. 모델이 고품질 샘플을 생성하기 시작하는 초기 시점(early time)과 암기(memorization)가 나타나기 시작하는 이후 시점(later time). 중요하게도, 우리는 암기 시점은 학습 데이터셋 크기에 따라 선형적으로 증가하지만, 일반화 시점은 일정하게 유지된다는 것을 발견했습니다. 이로 인해 모델이 효과적으로 일반화할 수 있는 훈련 시간의 "창(window)"이 점점 더 넓어지며, 이 범위를 넘어서면 강한 암기가 발생합니다. 무한 훈련 시간에 도달했을 때 암기가 사라지기 위해서는 특정 모델 의존적 임계값을 초과해야 합니다. 이러한 발견은 훈련 동역학 내에 내재된 암묵적 동적 정규화(implicit dynamical regularization) 가 존재함을 보여주며, 매우 과매개된(overparameterized) 설정에서도 암기를 피할 수 있게 해줍니다. 우리의 결과는 현실 및 합성 데이터셋에서의 표준 U-Net 아키텍처를 활용한 수치 실험과, 고차원 극한(high-dimensional limit)에서의 랜덤 피처 모델(random features model) 에 대한 이론 분석을 통해 뒷받침됩니다.
Diffusion models have achieved remarkable success across a wide range of generative tasks. A key challenge is understanding the mechanisms that prevent their memorization of training data and allow generalization. In this work, we investigate the role of the training dynamics in the transition from generalization to memorization. Through extensive experiments and theoretical analysis, we identify two distinct timescales: an early time at which models begin to generate high-quality samples, and a later time beyond which memorization emerges. Crucially, we find that increases linearly with the training set size, while remaining constant. This creates a growing window of training times where models generalize effectively, despite showing strong memorization if training continues beyond it. It is only when it becomes larger than a model-dependent threshold that overfitting disappears at infinite training times. These findings reveal a form of implicit dynamical regularization in the training dynamics, which allows to avoid memorization even in highly overparameterized settings. Our results are supported by numerical experiments with standard U-Net architectures on realistic and synthetic datasets, and by a theoretical analysis using a tractable random features model studied in the high-dimensional limit.
선정 위원회 평가(Reflections from the Selection Committee)
이 논문은 확산 모델의 암묵적 정규화 동역학(implicit regularization dynamics) 에 대한 기초적인 통찰을 제공하며, 경험적 관찰과 이론적 분석을 통합함으로써 강력한 결과를 도출합니다. 핵심 발견은, 예측 가능한 두 개의 시간 척도를 정량적으로 식별한 것입니다: 데이터셋에 독립적인 일반화 초기 구간과 데이터셋 크기에 따라 선형적으로 증가하는 암기 구간. 이러한 확장 가능한 일반화 시간 창의 존재는 단지 실험적 발견에 그치지 않고, 랜덤 행렬 이론(random matrix theory) 을 활용한 랜덤 피처 모델의 스펙트럼 특성 분석을 통해 이론적으로 설명됩니다. 이 논문은 확산 모델의 실용적 성공을 과적합을 지연시키는 입증 가능한 동적 특성과 직접 연결시키며, 현대 생성형 AI의 작동 메커니즘을 근본적으로 이해하는 데 있어 결정적인 통찰을 제공하고, 일반화에 대한 분석 깊이 측면에서 새로운 기준을 제시합니다.
This paper presents foundational work on the implicit regularization dynamics of diffusion models, delivering a powerful result by unifying empirical observation with formal theory. The critical finding is the quantitative identification of two distinct, predictable timescales, an early, dataset-independent generalization phase followed by a linear, dataset-size-dependent memorization phase. This demonstration of an expanding window for effective generalization is not merely an empirical finding but is rigorously explained by deriving the spectral properties of the random features model using random matrix theory. By linking the practical success of diffusion models directly to a provable dynamical property (the implicit postponement of overfitting), the paper provides fundamental, actionable insight into the mechanisms governing modern generative AI, setting a new standard for analytical depth in the study of generalization.
더 읽어보기
Why Diffusion Models Don't Memorize 논문의 원문은 다음 링크에서 확인할 수 있습니다:
[Runner-Ups] 강화 학습은 기본 모델을 넘어 LLM의 추론 능력을 실제로 향상시키는 데 도움이 될까요? / Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?
저자: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang
논문 소개
최근 OpenAI의 o1과 같은 추론 모델들이 주목받으면서, '검증 가능한 보상(Verifiable Reward)'을 이용한 강화학습(RLVR, Reinforcement Learning with Verifiable Reward)이 LLM의 지능을 높이는 핵심 기술로 여겨져 왔습니다. 하지만 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs? 논문은 찬물을 끼얹는 냉철한 분석 결과를 내놓았습니다. 즉, RLVR은 모델을 더 똑똑하게 만드는 것이 아니라, 원래 알고 있던 정답을 더 잘 찾아내게 만들 뿐이라는 것입니다.
연구팀의 실험에 따르면, RLVR로 훈련된 모델은 정답을 맞힐 확률(Pass rate)이 높아지지만, 이는 모델이 새로운 추론 능력을 획득했기 때문이 아니었습니다. 대신 모델은 학습 과정에서 보상을 받기 쉬운 특정 패턴이나 템플릿으로 답변을 생성하도록 유도되었고, 결과적으로 출력의 다양성은 줄어들고(Mode Collapse), 베이스 모델이 원래 생성할 수 있었던 분포 내에서 정답 확률만 최적화된 것으로 나타났습니다.
이는 RL을 통해 '새로운 지식'이나 '창발적인 추론 능력'을 기대했던 개발자들에게 시사하는 바가 큽니다. 논문은 진정한 추론 능력 향상을 위해서는 단순히 정답 여부만으로 보상하는 현재의 RLVR 방식을 넘어, 추론의 '과정' 자체를 개선하거나 더 다양한 탐색을 유도하는 새로운 학습 방법론이 필요하다고 제안합니다.
논문 초록
강화학습 기반 검증 보상(Reinforcement Learning with Verifiable Rewards, RLVR)은 최근 수학 및 프로그래밍 과제에서 대규모 언어 모델(LLM)의 추론 성능을 향상시키는 데 뚜렷한 성과를 보였습니다. 이는 전통적인 RL이 에이전트가 새로운 전략을 탐색하고 학습하도록 돕듯이, RLVR도 LLM이 지속적으로 자기 개선을 하며 기본(base) 모델을 능가하는 새로운 추론 능력을 획득할 수 있게 해준다는 믿음을 뒷받침합니다. 본 연구에서는 다양한 모델 계열, RL 알고리즘, 수학/코딩/시각적 추론 벤치마크 전반에 걸쳐 RLVR로 학습된 LLM의 추론 능력 경계를 체계적으로 검토하며, 평가 지표로는 큰 k 값의 pass@k 를 사용합니다. RLVR은 올바른 경로에 대한 샘플링 효율성은 높였지만, 놀랍게도 현재의 학습 방식은 근본적으로 새로운 추론 패턴을 유도하지 못한다는 결과를 발견했습니다. RLVR 모델이 작은 k 값(예: k=1)에서는 base 모델보다 나은 성능을 보이지만, 큰 k 값에서는 base 모델이 더 높은 pass@k 점수를 얻는 현상이 관찰되었습니다. 또한 RLVR 학습이 진행될수록 오히려 LLM의 추론 능력 경계가 좁아지는 경향이 나타났습니다. 추가적인 커버리지 및 퍼플렉서티 분석을 통해, RLVR 모델이 생성한 추론 경로는 base 모델의 샘플링 분포 내에 이미 포함되어 있음을 밝혔으며, 이는 해당 추론 능력이 base 모델로부터 기원하고, 그 한계 내에 제한(bound) 됨을 의미합니다. 이러한 관점에서 base 모델을 상한(upper bound)으로 간주할 때, 6개의 인기 있는 RLVR 알고리즘이 실제로는 유사한 성능을 보이며, base 모델의 잠재력을 완전히 활용하는 데 있어 최적성과는 거리가 있음을 정량적으로 보여줍니다. 반면, distillation은 교사 모델로부터 새로운 추론 패턴을 도입해 실제로 모델의 추론 능력을 확장시킬 수 있음도 확인했습니다. 전반적으로, 현재의 RLVR 기법들은 LLM의 참신한 추론 능력을 유도하는 데 한계가 있음을 보여주며, 이를 극복하기 위해 지속적 스케일링(continual scaling) 및 다회 상호작용 기반 에이전트-환경 시뮬레이션과 같은 새로운 RL 패러다임이 필요함을 시사합니다.
Reinforcement Learning with Verifiable Rewards (RLVR) has recently demonstrated notable success in enhancing the reasoning performance of large language models (LLMs), particularly in mathematics and programming tasks. It is widely believed that, similar to how traditional RL helps agents to explore and learn new strategies, RLVR enables LLMs to continuously self-improve, thus acquiring novel reasoning abilities that exceed the capacity of the corresponding base models. In this study, we take a critical look at \textit{the current state of RLVR} by systematically probing the reasoning capability boundaries of RLVR-trained LLMs across diverse model families, RL algorithms, and math/coding/visual reasoning benchmarks, using pass@\textit{k} at large \textit{k} values as the evaluation metric. While RLVR improves sampling efficiency towards the correct path, we surprisingly find that current training does not elicit fundamentally new reasoning patterns. We observe that while RLVR-trained models outperform their base models at smaller values of k (\eg, k =1), base models achieve higher pass@k score when k is large. Moreover, we observe that the reasoning capability boundary of LLMs often narrows as RLVR training progresses. Further coverage and perplexity analysis shows that the reasoning paths generated by RLVR models are already included in the base models' sampling distribution, suggesting that their reasoning abilities originate from and are \textit{bounded} by the base model. From this perspective, treating the base model as an upper bound, our quantitative analysis shows that six popular RLVR algorithms perform similarly and remain far from optimal in fully leveraging the potential of the base model. In contrast, we find that distillation can introduce new reasoning patterns from the teacher and genuinely expand the model’s reasoning capabilities. Taken together, our findings suggest that current RLVR methods have not fully realized the potential of RL to elicit genuinely novel reasoning abilities in LLMs. This underscores the need for improved RL paradigms—such as continual scaling and multi-turn agent-environment interaction—to unlock this potential.
선정 위원회 평가(Reflections from the Selection Committee)
이 논문은 LLM 연구에서 널리 받아들여진 핵심 가정, 즉 RLVR이 새로운 추론 능력을 유도한다는 믿음을 정면으로 반박하는 중요한 부정적 발견을 탁월하게 제시합니다. 다양한 모델 계열, 과제, 알고리즘에 걸쳐 RLVR 학습은 샘플링 효율성을 높이기는 하지만, 이미 base 모델에 존재하는 추론 능력을 넘어서지는 못합니다. RL은 탐색 범위를 좁히고, 보상받은 경로를 강화하지만, 전체 해답 공간은 축소되며, 결국 RLVR은 base 분포 내에서만 최적화를 수행함을 보여줍니다. 이는 RL이 LLM의 추론 능력을 실제로 확장하지 못한다는 점을 입증하며, 향후 RL이 더 넓은 행동 공간을 탐색하고 실제로 LLM의 추론 능력을 확장할 수 있도록 하는 근본적으로 새로운 RL 패러다임의 필요성을 강조합니다.
This paper delivers a masterfully executed and critically important negative finding on a widely accepted, foundational assumption in Large Language Model (LLM) research: that Reinforcement Learning with Verifiable Rewards (RLVR) elicits genuinely new reasoning capabilities. The paper shows that RLVR training, across various model families, tasks, and algorithms, enhances sampling efficiency without expanding the reasoning capacity already present in base models. RL narrows exploration, rewarded trajectories are amplified, but the broader solution space shrinks, revealing that RLVR optimizes within, rather than beyond, the base distribution. This is an important finding which will hopefully incentivize fundamentally new RL paradigms able to navigate the vast action space and genuinely expand LLM reasoning capabilities.
더 읽어보기
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs? 논문의 전체 내용과 프로젝트 홈페이지는 아래 링크에서 확인하실 수 있습니다:
[Runner-Ups] 전환적 온라인 학습을 위한 최적의 오류 한계 / Optimal Mistake Bounds for Transductive Online Learning
저자: Zachary Chase, Steve Hanneke, Shay Moran, Jonathan Shafer
논문 소개
Optimal Mistake Bounds for Transductive Online Learning 논문은 기계학습 이론 분야에서 30년간 풀리지 않았던 난제를 해결한 쾌거입니다. 주제는 Transductive Online Learning으로, 모델이 테스트할 문제(입력 데이터)를 미리 볼 수 있지만 정답(레이블)은 모르는 상태에서 학습하는 상황을 다룹니다. 예를 들어, 내일 번역해야 할 영어 문장 목록은 미리 받았지만, 그 번역문은 아직 모르는 상태에서 번역기를 학습시키는 것과 비슷합니다.
연구진은 테스트 데이터를 미리 볼 수 있다는 사실만으로도 학습에 필요한 시행착오(Mistake) 횟수를 획기적으로 줄일 수 있음을 수학적으로 증명했습니다. 구체적으로는 일반적인 온라인 학습과 비교했을 때, 성능 차이가 이차적(Quadratic) 격차만큼 벌어진다는 것을 밝혀냈습니다. (\sqrt{d} vs d).
이러한 결과는 이론적인 내용이지만 실무적 함의는 명확합니다. 레이블링 비용이 비싼 현업 환경에서, 비록 레이블은 없더라도 '앞으로 풀어야 할 데이터'를 미리 수집하여 학습 과정에 반영(Transductive learning)할 수 있다면, 모델의 성능을 훨씬 적은 비용으로 빠르게 끌어올릴 수 있다는 강력한 이론적 근거를 마련해 준 셈입니다.
논문 초록
본 논문은 온라인 학습(online learning)에서 비표시 데이터(unlabeled data)의 효용에 관한 30년 된 미해결 문제를 해결하며, 전이 온라인 학습(transductive online learning)과 표준 온라인 학습 간의 격차를 정밀하게 정량화합니다. 우리는 리틀스톤 차원(Littlestone dimension)이 d 인 모든 개념 클래스 \mathcal{H} 에 대해, 전이 설정에서의 실수 경계(mistake bound)가 \Omega(\sqrt{d}) 이상임을 증명합니다. 이는 Ben-David, Kushilevitz, Mansour(1995, 1997), Hanneke, Moran, Shafer(2023)가 제시했던 \Omega( \log \log {d})), \Omega(\sqrt{\log d}) 및 \Omega(\log d) 등의 이전 하한보다 지수적으로 향상된 결과입니다. 우리는 또한 이 하한이 타이트함을 증명합니다: 모든 d 에 대해, 리틀스톤 차원이 d 이고 실수 경계가 \Omega(\sqrt{d}) 인 클래스가 존재합니다. 이 상한은 Ben-David 외(1997)가 제시한 이전 최선의 상한 (2/3) \cdot d 을 개선한 것입니다. 이 결과는 전이 온라인 학습과 표준 온라인 학습 사이에 이차적(quadratic) 간격이 존재함을 보여주며, 이 설정에서 비표시 데이터 시퀀스에 대한 사전 접근(access)이 학습에 실질적인 이점을 제공함을 강조합니다. 이는 전이 학습과 표준 학습이 유사한 샘플 복잡도를 보이는 PAC 설정과는 대조적입니다.
We resolve a 30-year-old open problem concerning the power of unlabeled data in online learning by tightly quantifying the gap between transductive and standard online learning. We prove that for every concept class \mathcal{H} with Littlestone dimension d, the transductive mistake bound is at least \Omega(\sqrt{d}). This establishes an exponential improvement over previous lower bounds of \Omega( \log \log {d})), \Omega(\sqrt{\log d}), and \Omega(\log d), respectively due to Ben-David, Kushilevitz, and Mansour (1995, 1997) and Hanneke, Moran, and Shafer (2023). We also show that our bound is tight: for every d, there exists a class of Littlestone dimension d with transductive mistake bound \Omega(\sqrt{d}). Our upper bound also improves the previous best known upper bound of (2/3) \cdot d from Ben-David et al. (1997). These results demonstrate a quadratic gap between transductive and standard online learning, thereby highlighting the benefit of advanced access to the unlabeled instance sequence. This stands in stark contrast to the PAC setting, where transductive and standard learning exhibit similar sample complexities.
선정 위원회 평가(Reflections from the Selection Committee)
이 논문은 학습 이론(learning theory)에서의 획기적인 돌파구로, 전이 온라인 학습에 대한 최우수 차상위 논문상(Best Paper Runner-Up Award)을 받을 자격이 있습니다. 저자들은 전이 온라인 학습의 최적 실수 경계(optimal mistake bound)를 \Omega(\sqrt{d}) 로 정확히 정량화했으며, 그 상한 또한 O(\sqrt{d}) 로 일치시켰습니다. 이는 지금까지의 로그 하한 수준의 모든 기존 결과를 넘어서며, 전이 학습이 비표시 데이터를 활용하는 데 있어 표준 학습보다 근본적으로 유리함을 명확히 보여줍니다. PAC 설정에서는 이러한 차이가 나타나지 않기 때문에, 이 결과는 온라인 학습 설정의 독특한 이점을 강조합니다. 그들의 증명 기법 또한 매우 참신합니다. 하한 증명을 위해, 적대자(adversary)는 실수를 유도하면서도 버전 공간(version space)을 정교하게 조절하는 전략을 취하며, 기본 구조로서 “트리 내 경로(paths in trees)” 개념을 활용합니다. 상한에서는, “희소 인코딩(sparse encoding)”이 적용된 가설 클래스(hypothesis class)를 도입하고, 대부분의 비경로(off-path) 노드에 0 레이블을 부여하면서도 일부 드문 노드에 정보량이 풍부한 레이블을 부여하는 확률적 설계를 제안합니다. 학습자는 이를 이용해 “위험 구역 최소화(Danger Zone Minimization)”, “분할 전문가(Splitting Experts)”, “Halving으로의 전이” 등 복잡한 학습 전략을 활용합니다. 이처럼 정교하게 구성된 가설 클래스와 고도로 적응적인 학습 알고리즘의 상호작용은 이론적 분석과 설계 측면에서 수준 높은 모범 사례를 보여줍니다.
This paper presents a breakthrough in learning theory, deserving the NeurIPS Best Paper Runner-Up award for its elegant, comprehensive, and definitive resolution of a 30-year-old open problem. The authors have not only precisely quantified the optimal mistake bound for transductive online learning as \Omega(\sqrt{d}), but they have also achieved a tight match with an O(\sqrt{d}) upper bound. This establishes a quadratic gap between transductive and standard online learning, a result that represents an exponential leap beyond all previous logarithmic lower bounds and dramatically highlights the theoretical value of unlabeled data in this setting—a crucial insight distinct from its more limited role in PAC learning.
The novelty and ingenuity of their proof techniques are quite remarkable. For the lower bound, the adversary employs a sophisticated strategy that balances forcing mistakes with carefully managing the shrinking of the version space, leveraging the concept of “paths in trees” as a fundamental underlying structure. The upper bound, demonstrating the learnability within O(√d) mistakes, introduces an innovative hypothesis class construction that embeds a “sparse encoding” for off-path nodes – a probabilistic design where most off-path labels are zero, but the rare ones carry immense information. The learner’s strategy to exploit this class is equally brilliant, integrating several non-standard sophisticated techniques: “Danger Zone Minimization” to control the instance sequence presented by the adversary, “Splitting Experts” via a multiplicative weights approach to handle uncertainty about a node’s on-path status, and a strategic “Transition to Halving” once sufficient information is gathered from the sparsely encoded off-path labels. This intricate interplay between a cleverly constructed hypothesis class and a highly adaptive learning algorithm showcases a masterclass in theoretical analysis and design.
더 읽어보기
[Runner-Ups] 중첩을 통한 강력한 신경망 확장 / Superposition Yields Robust Neural Scaling
저자: Yizhou Liu, Ziming Liu, Jeff Gore
논문 소개
LLM의 성능은 모델 크기가 커질수록 예측 가능한 패턴으로 좋아지는데, 이를 신경망 스케일링 법칙(Neural Scaling Laws) 이라고 합니다. Superposition Yields Robust Neural Scaling 논문은 "도대체 왜 스케일링 법칙이 성립하는가?"에 대한 답을 중첩(Superposition) 이라는 개념으로 설명합니다. 중첩이란 뉴런의 개수보다 더 많은 수의 특징(Feature)을 신경망 안에 구겨 넣는 현상을 말합니다. 고차원 공간에서는 벡터들이 서로 거의 직교(Orthogonal)에 가깝게 존재할 수 있기 때문에 이것이 가능합니다.
연구진은 모델이 정보를 압축하여 저장하는 이 '중첩' 현상이 스케일링 법칙의 근본 원인임을 밝혀냈습니다. 특히 강한 중첩(Strong Superposition) 상태에서는 모델의 손실(Loss)이 모델 차원(m)에 반비례(1/m)하여 감소한다는 것을 수학적 실험 모델과 실제 LLM 실험을 통해 입증했습니다. 이는 유명한 Chinchilla Scaling Law와 정확히 일치하는 결과입니다.
이러한 연구 결과는 연구자들과 엔지니어들에게 LLM 내부에서 정보가 어떻게 저장되고 처리되는지에 대한 멘탈 모델을 제공합니다. 단순히 "파라미터를 늘리면 성능이 좋아진다"는 경험칙을 넘어, "모델의 크기(파라미터)가 늘어나면 벡터 공간 내의 간섭(Interference)이 줄어들어 더 많은 개념을 명확하게 구분(Superposition)할 수 있게 된다"는 구체적인 원리를 이해하게 해 줍니다.
논문 초록
오늘날의 대규모 언어 모델(LLM)의 성공은 모델 크기가 커질수록 성능이 향상된다는 관찰에 기반하고 있습니다. 하지만 손실(loss)이 모델 크기에 따라 거듭제곱 법칙(power law)으로 감소하는 이러한 신경망 스케일링 법칙(neural scaling law) 의 근본 원인은 여전히 명확하지 않습니다. 우리는 표현 중첩(superposition of representations) - 즉, LLM이 차원 수보다 더 많은 특징(feature)을 표현한다는 개념 - 이 손실을 유도하고 신경망 스케일링을 발생시키는 핵심 요인일 수 있다고 제안합니다. 우리는 Anthropic의 실험 모델을 기반으로 가중치 감쇠(weight decay) 를 이용해 중첩(superposition)의 정도를 조절하며 손실이 모델 크기와 어떻게 스케일링되는지를 체계적으로 연구합니다. 중첩이 약한(weak superposition) 경우, 손실이 거듭제곱 법칙을 따르기 위해서는 데이터 내 특징의 빈도가 거듭제곱 분포를 따라야만 합니다. 반면, 강한 중첩(strong superposition) 하에서는 특징 벡터 간의 기하학적 중첩 덕분에, 다양한 빈도 분포에서도 손실이 모델 차원에 반비례하는 스케일링을 일반적으로 따릅니다. 우리는 오픈소스 LLM이 강한 중첩 상태에서 작동하며 손실이 모델 차원에 반비례함을 확인하였고, Chinchilla 스케일링 법칙 또한 이러한 거동과 일치함을 보였습니다. 이 결과는 표현 중첩이 신경망 스케일링 법칙의 핵심적인 원동력임을 밝히며, 향후 어떤 조건에서 신경망 스케일링 법칙을 향상시킬 수 있고, 언제 그것이 무너질지를 이해하는 데 중요한 통찰을 제공합니다.
The success of today’s large language models (LLMs) depends on the observation that larger models perform better. However, the origin of this neural scaling law, that loss decreases as a power law with model size, remains unclear. We propose that representation superposition, meaning that LLMs represent more features than they have dimensions, can be a key contributor to loss and cause neural scaling. Based on Anthropic’s toy model, we use weight decay to control the degree of superposition, allowing us to systematically study how loss scales with model size. When superposition is weak, the loss follows a power law only if data feature frequencies are power-law distributed. In contrast, under strong superposition, the loss generically scales inversely with model dimension across a broad class of frequency distributions, due to geometric overlaps between representation vectors. We confirmed that open-sourced LLMs operate in the strong superposition regime and have loss scaling inversely with model dimension, and that the Chinchilla scaling laws are also consistent with this behavior. Our results identify representation superposition as a central driver of neural scaling laws, providing insights into questions like when neural scaling laws can be improved and when they will break down.
선정 위원회 평가(Reflections from the Selection Committee)
이 논문은 모델 손실이 모델 크기, 데이터 크기, 계산 자원 증가에 따라 거듭제곱 법칙으로 감소한다는 신경망 스케일링 법칙에 대한 관찰을 넘어서, 그 법칙의 주된 메커니즘이 표현 중첩(superposition) 이라는 점을 입증합니다. 저자들은 제어 가능한 토이 모델을 통해 중첩(superposition)과 데이터 구조가 손실의 스케일링에 미치는 영향을 분석하며, 특징이 중첩되어 있는 강한 중첩 상태에서는 손실이 모델 차원에 반비례하는 일관된 스케일링을 따름을 보여줍니다. 이 핵심 발견은 일련의 정교하게 설계된 실험으로 뒷받침되며, 신경망 스케일링 법칙이라는 중요한 연구 영역에 새로운 통찰을 제공합니다.
This paper moves beyond observation of neural scaling laws—the empirically established phenomenon in which model loss exhibits a power-law decrease as model size, dataset size, or computational resources are increased—to demonstrate that representation superposition constitutes the primary mechanism governing these laws. Authors introduce a controlled “toy model” to examine how superposition and data structure affect the scaling of loss with model size and demonstrate that under strong superposition where features are overlapping, the loss scales consistently as an inverse power law with respect to the model dimension. The core findings are supported by a series of carefully designed experiments and offer fresh insights into an important research area.
더 읽어보기
Superposition Yields Robust Neural Scaling 논문과 GitHub 저장소는 다음과 같습니다:
NeurIPS 2025 우수 논문 7편 소개 블로그
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()







