[2025/02/17 ~ 02/23] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR


-
이번 주에 선정된 논문들을 검토한 결과, 몇 가지 두드러진 트렌드와 인사이트를 발견할 수 있었습니다.
-
이번 주에는 여러 논문이 에이전트 기반 시스템에 관한 내용을 다루고 있습니다. Google이 발표한 AI 공동 과학자와 같은 다중 에이전트 시스템이 대표적입니다. 이 시스템은 과학 연구를 가속화하고자 설계된 것으로, 여러 특화된 에이전트를 통해 가설 생성 및 평가를 수행합니다. Sakana AI의 AI CUDA 엔지니어도 유사하게 에이전트 기반 설계를 통해 효율적인 CUDA 커널을 생산합니다.
-
Native Sparse Attention(NSA)와 MoBA와 같은 기술은 AI 모델의 연산 성능을 최적화하는 방안을 제시하고 있습니다. 둘 다 긴 컨텍스트를 처리하는 데 있어 성능을 유지하며 효율성을 높이려는 접근법을 보여줍니다. 이는 대규모언어모델(LLM)이 늘어남에 따라 연산 비용을 줄이면서 성능을 유지하려는 산업적 요구를 반영한 것으로 보입니다.
-
Inner Thinking Transformer (ITT)나 Open-Reasoner-Zero (ORZ) 같은 모델은 적은 파라미터로 효율적인 학습을 추구하며, 이는 대규모 데이터 학습 비용을 줄이면서도 높은 성능을 유지하려는 노력의 일환입니다. 이들 모델은 적은 계산 자원으로 더 나은 성능을 내기 위해 적응형 전략을 채택하고 있습니다.
-
이러한 트렌드는 최근 AI 연구의 주요 관심사가 다중 에이전트 시스템과 연산 효율성을 크게 동반하고 있다는 것을 보여줍니다. 여러 에이전트가 협력하여 복잡한 문제를 해결하고, 연산 자원을 절약하며 최적의 성능을 얻으려는 시도가 활발하게 진행 중입니다. 이런 흐름은 대규모언어모델의 범용성과 경제성을 동시에 고려하게 만드는 동인이 되어 주고 있습니다. 특히, AI의 실제 적용 범위를 넓히고 실용성을 더하기 위해 이러한 접근방법들이 더욱 중요해질 것으로 예상됩니다.
AI 공동연구자 / AI Co-Scientist
논문 소개
Google은 과학적 혁신을 가속화할 수 있도록 Gemini 2.0으로 구축된 다중 에이전트 AI 시스템인 AI 공동 과학자를 소개합니다. 주요 특징은 다음과 같습니다:
- 이 AI 공동 과학자의 목표는 무엇인가요?: "과학자들이 새로운 가설과 연구 제안을 생성하고 과학 및 생물의학 발견의 속도를 가속화할 수 있도록 돕는 가상 과학 협력자" 역할을 할 수 있습니다.
- 어떻게 구축되나요?: 과학적 방법에서 영감을 얻은 전문 에이전트의 연합을 사용합니다. 가설을 생성, 평가, 구체화할 수 있습니다. 또한 자체 개선 기능도 갖추고 있습니다.
- 협업과 도구가 핵심입니다!: 과학자는 아이디어를 제안하거나 에이전트 시스템에서 생성된 결과물에 대한 피드백을 제공할 수 있습니다. 웹 검색 및 전문 AI 모델과 같은 도구는 응답의 품질을 향상시킵니다.
- 계층적 다중 에이전트 시스템: AI 공동 과학자는 전문 에이전트에게 작업을 할당하는 수퍼바이저 에이전트로 구축됩니다. 이 아키텍처는 컴퓨팅을 확장하고 과학적 추론을 반복적으로 개선하는 데 도움이 됩니다.
- 테스트 시간 컴퓨팅: AI 공동 과학자는 테스트 시간 컴퓨팅 확장을 활용하여 반복적으로 추론하고, 진화하며, 결과물을 개선합니다. 가설과 제안을 생성하고 구체화하기 위해서는 셀프 플레이, 셀프 비평, 자기 개선이 모두 중요합니다.
- 성과?: 자기 개선은 Elo의 자동 평가 지표에 의존합니다. GPQA 다이아몬드 문제에서 "Elo 등급이 높을수록 정답 확률이 높아지는 긍정적인 상관관계가 있다"는 사실을 발견했습니다. AI 공동 과학자는 도메인 전문가가 생성한 복잡한 문제에 대해 다른 SoTA 에이전트 및 추론 모델보다 뛰어난 성능을 발휘합니다. 추론에 더 많은 시간을 할애할수록 성능이 향상되어 도움을 받지 않는 인간 전문가를 능가합니다. 전문가들은 AI 공동 과학자의 참신성과 영향력이 더 높다고 평가했습니다. 심지어 OpenAI o1과 같은 다른 모델보다 선호도가 높았습니다.
Google introduces AI co-scientist, a multi-agent AI system built with Gemini 2.0 to help accelerate scientific breakthroughs.
Key highlights:
What's the goal of this AI co-scientist?– It can serve as a "virtual scientific collaborator to help scientists generate novel hypotheses and research proposals, and to accelerate the clock speed of scientific and biomedical discoveries."
How is it built?– It uses a coalition of specialized agents inspired by the scientific method. It can generate, evaluate, and refine hypotheses. It also has self-improving capabilities.
Collaboration and tools are key!– Scientists can either propose ideas or provide feedback on outputs generated by the agentic system. Tools like web search and specialized AI models improve the quality of responses.
Hierarchical Multi-Agent System– AI co-scientist is built with a Supervisor agent that assigns tasks to specialized agents. Apparently, this architecture helps with scaling compute and iteratively improving scientific reasoning.
Test-time Compute– AI co-scientist leverages test-time compute scaling to iteratively reason, evolve, and improve outputs. Self-play, self-critique, and self-improvement are all important to generate and refine hypotheses and proposals.
Performance?– Self-improvement relies on the Elo auto-evaluation metric. On GPQA diamond questions, they found that "higher Elo ratings positively correlate with a higher probability of correct answers." AI co-scientist outperforms other SoTA agentic and reasoning models for complex problems generated by domain experts. The performance increases with more time spent on reasoning, surpassing unassisted human experts. Experts assessed the AI co-scientist to have a higher potential for novelty and impact. It was even preferred over other models like OpenAI o1.
논문 초록(Abstract)
과학적 발견은 과학자들이 엄격한 실험적 검증을 거쳐 새로운 가설을 세우는 데 달려 있습니다. 이 과정을 강화하기 위해 Gemini 2.0에 구축된 다중 에이전트 시스템인 AI 공동연구자를 도입했습니다. AI 공동연구자는 과학자가 제공한 연구 목표와 지침에 따라 사전 증거를 바탕으로 새롭고 독창적인 지식을 발견하고 입증 가능한 새로운 연구 가설과 제안을 공식화하는 데 도움을 주기 위한 것입니다. 이 시스템의 설계에는 가설 생성, 토론, 진화 접근 방식이 통합되어 있으며, 과학적 방법에서 영감을 얻고 테스트 시간 계산을 확장하여 속도를 높였습니다. 주요 기여 사항은 다음과 같습니다: (1) 유연한 컴퓨팅 확장을 위한 비동기 작업 실행 프레임워크가 포함된 다중 에이전트 아키텍처, (2) 자체 개선 가설 생성을 위한 토너먼트 진화 프로세스. 자동화된 평가는 테스트 시간 컴퓨팅의 지속적인 이점을 보여주며 가설 품질을 개선합니다. 일반적인 목적이지만, 우리는 약물 용도 변경, 새로운 표적 발견, 박테리아 진화와 항균제 내성 메커니즘 설명 등 세 가지 생물의학 분야에서 개발과 검증을 집중하고 있습니다. 약물 용도 변경의 경우, 이 시스템은 임상 적용 가능한 농도에서 시험관 내에서 종양 억제 효과를 보이는 급성 골수성 백혈병 후보물질을 포함하여 유망한 검증 결과를 가진 후보물질을 제안합니다. 새로운 표적 발견을 위해 AI 공동연구자는 인간 간 오가노이드에서 항섬유화 활성과 간세포 재생을 통해 검증된 간 섬유증에 대한 새로운 후성유전학적 표적을 제안했습니다. 마지막으로, AI 공동연구자는 박테리아 진화의 새로운 유전자 전달 메커니즘에 대한 인실리코 병행 발견을 통해 미공개 실험 결과를 요약했습니다. 이 결과는 별도의 공동 보고서에 자세히 설명되어 있으며, 생물의학 및 과학적 발견을 강화하고 AI를 활용한 과학자 시대를 열 수 있는 잠재력을 보여줍니다.
Scientific discovery relies on scientists generating novel hypotheses that undergo rigorous experimental validation. To augment this process, we introduce an AI co-scientist, a multi-agent system built on Gemini 2.0. The AI co-scientist is intended to help uncover new, original knowledge and to formulate demonstrably novel research hypotheses and proposals, building upon prior evidence and aligned to scientist-provided research objectives and guidance. The system’s design incorporates a generate, debate, and evolve approach to hypothesis generation, inspired by the scientific method and accelerated by scaling test-time compute. Key contributions include: (1) a multi-agent architecture with an asynchronous task execution framework for flexible compute scaling; (2) a tournament evolution process for self-improving hypotheses generation. Automated evaluations show continued benefits of test-time compute, improving hypothesis quality. While general purpose, we focus development and validation in three biomedical areas: drug repurposing, novel target discovery, and explaining mechanisms of bacterial evolution and anti-microbial resistance. For drug repurposing, the system proposes candidates with promising validation findings, including candidates for acute myeloid leukemia that show tumor inhibition in vitro at clinically applicable concentrations. For novel target discovery, the AI co-scientist proposed new epigenetic targets for liver fibrosis, validated by anti-fibrotic activity and liver cell regeneration in human hepatic organoids. Finally, the AI co-scientist recapitulated unpublished experimental results via a parallel in silico discovery of a novel gene transfer mechanism in bacterial evolution. These results, detailed in separate, co-timed reports, demonstrate the potential to augment biomedical and scientific discovery and usher an era of AI empowered scientists.
논문 링크
더 읽어보기
인공지능 CUDA 엔지니어 / The AI CUDA Engineer
논문 소개
사카나 AI는 고도로 최적화된 CUDA 커널을 생성할 수 있는 엔드투엔드 에이전트 시스템인 AI CUDA 엔지니어를 출시합니다. 주요 기여는 다음과 같습니다:
- 이 연구가 중요한 이유: 효율적인 CUDA 커널을 작성하는 것은 인간에게는 어려운 일입니다. AI CUDA 엔지니어는 CUDA 커널을 보다 효과적으로 자동 생성하고 최적화할 수 있는 기능을 갖춘 엔드투엔드 에이전트입니다.
- CUDA란 무엇인가요? CUDA 커널을 작성하면 고성능 AI 알고리즘을 구현하는 데 도움이 될 수 있습니다. 하지만 이를 위해서는 GPU에 대한 지식이 필요하며, 오늘날 대부분의 AI 알고리즘은 PyTorch와 같은 상위 추상화 계층으로 작성됩니다.
- 에이전트 파이프라인: 에이전트는 PyTorch 코드를 CUDA 커널로 변환(1단계 및 2단계)한 다음 크로스오버 프롬프트와 같은 진화적 최적화(3단계)를 적용하여 "디딤돌" 커널을 재사용하는 혁신 아카이브(4단계)로 이어져 더 큰 이득을 얻을 수 있습니다.
- 1단계: 파이토치 모듈을 함수로 변환하기 AI CUDA 엔지니어는 먼저 LLM을 사용하여 파이토치 nn.모듈을 함수형 파이토치(Functional PyTorch)로 변환합니다. 코드의 정확성도 검증합니다.
- 2단계: Functional PyTorch를 작동하는 CUDA로 변환 에이전트는 LLM을 사용하여 기능적 PyTorch 코드를 작동하는 CUDA 커널로 변환합니다. 커널을 로드하고 수치적 정확성을 평가합니다.
- 3단계: 진화적 CUDA 런타임 최적화 진화적 최적화 프로세스(고급 프롬프트 전략, 표준 LLM, o3-mini 및 DeepSeek-R1과 같은 추론 모델 포함)를 사용하여 최상의 CUDA 커널만 생성되도록 합니다.
- 4단계: 혁신 아카이브 RAG는 관련 작업에서 고성능 커널을 얻는 데 사용되며, 이는 추가적인 번역 및 성능 향상을 위한 컨텍스트(디딤돌)로 제공됩니다. 이 과정에서 새로 발견한 CUDA 커널도 아카이브에 추가할 수 있습니다.
- 커널 런타임 속도 향상: 개발팀은 AI CUDA 엔지니어가 파이토치에서 네이티브 및 컴파일된 커널보다 최대 10~100배 빠른 속도로 CUDA 커널을 발견한다고 주장합니다. 또한 전체 머신러닝 아키텍처를 최적화된 CUDA 커널로 변환할 수도 있습니다. 온라인 사용자들은 속도 향상에 대해 이의를 제기했습니다(Sakana AI가 이 문제에 대한 업데이트를 제공했습니다).
- 성능 - AI CUDA 엔지니어는 파이토치 코드를 CUDA 커널로 강력하게 번역합니다. 90% 이상의 번역 성공률을 달성합니다.
- 강조된 AI CUDA 엔지니어가 발견한 커널: 또 다른 주장은 AI CUDA 엔지니어가 CUDA 런타임을 강력하게 개선할 수 있다는 것입니다. 229개의 고려 대상 작업 중 81%에서 PyTorch Native 런타임보다 뛰어난 성능을 발휘합니다. 발견된 모든 CUDA 커널 중 20%는 PyTorch 구현보다 최소 두 배 이상 빠릅니다.
- AI CUDA 엔지니어 아카이브: 팀은 17,000개 이상의 검증된 CUDA 커널 아카이브를 제공했습니다. 이 아카이브는 LLM의 다운스트림 미세 조정에 사용할 수 있습니다. 검증된 CUDA 커널을 살펴볼 수 있는 웹사이트도 있습니다.
Sakana AI introduces The AI CUDA Engineer, an end-to-end agentic system that can produce highly optimized CUDA kernels.
Key contributions:
Why is this research important?– Writing efficient CUDA kernels is challenging for humans. The AI CUDA Engineer is an end-to-end agent built with the capabilities to automatically produce and optimize CUDA kernels more effectively.
What's up with CUDA?– Writing CUDA kernels can help achieve high-performing AI algorithms. However, this requires GPU knowledge, and most AI algorithms today are written in a higher-level abstraction layer such as PyTorch.
An Agentic Pipeline– The agent translates PyTorch code into CUDA kernels (Stages 1 & 2), then applies evolutionary optimization (Stage 3) like crossover prompting, leading to an Innovation Archive (Stage 4) that reuses “stepping stone” kernels for further gains.
Stage 1:PyTorch Modules to Functions The AI CUDA Engineer first converts a PyTorch nn.Module to Functional PyTorch using an LLM. The code is also validated for correctness.
Stage 2:Functional PyTorch to Working CUDA The agent translated the functional PyTorch code to a working CUDA kernel. using an LLM. The kernel is loaded and assessed for numerical correctness.
Stage 3:Evolutionary CUDA Runtime Optimization They use an evolutionary optimization process (including advanced prompting strategies, standard LLMs, and reasoning models like o3-mini & DeepSeek-R1) to ensure only the best CUDA kernels are produced.
Stage 4:Innovative Archive RAG is used to obtain high-performing kernels from related tasks; these are provided as context (stepping stones) to achieve further translation and performance gains. Newly-discovered CUDA kernels can also be added to the archive in the process.
Kernel Runtime Speedups – The team claims that The AI CUDA Engineer discovers CUDA kernels with speedups that reach as high as 10-100x faster than native and compiled kernels in PyTorch. It can also convert entire ML architectures into optimized CUDA kernels. Online users have challenged the claimed speedups (Sakana AI has provided an update on the issue).
Performance – The AI CUDA Engineer robustly translates PyTorch Code to CUDA Kernels. It achieves more than a 90% translation success rate.
Highlighted AI CUDA Engineer-Discovered Kernels – Another claim is that The AI CUDA Engineer can robustly improve CUDA runtime. It outperforms PyTorch Native runtimes for 81% out of 229 considered tasks. 20% of all discovered CUDA kernels are at least twice as fast as their PyTorch implementations.
The AI CUDA Engineer Archive – The team has made available an archive of more than 17000 verified CUDA kernels. These can be used for downstream fine-tuning of LLMs. There is also a website to explore verified CUDA kernels.
논문 초록(Abstract)
최근 대규모 언어 모델의 발전으로 인해 대규모 배포가 증가함에 따라 추론 시간과 에너지 수요가 계속 증가하고 있습니다. 로우레벨 코드 구현을 수동으로 최적화하는 것은 가능하지만, 알고리즘과 소프트웨어의 복잡한 상호 작용과 하드웨어 병목 현상 간의 균형을 맞추기 위해서는 고도의 전문 지식이 필요한 고된 작업입니다, 알고리즘, 소프트웨어, 하드웨어 병목현상의 복잡한 상호작용의 균형을 맞추려면 깊은 전문성이 필요합니다. 이 보고서에서는 완전 자동 쿠다 커널을 위한 최초의 포괄적인 에이전트 프레임워크 완전 자동 CUDA 커널 검색 및 최적화를 위한 최초의 포괄적인 에이전트 프레임워크를 소개합니다. 토치 코드를 CUDA 커널로 번역한 다음 반복적으로 런타임을 개선할 수 있습니다. 순차적인 단계로 작동하는 AI CUDA 엔지니어를 소개합니다. 먼저, 원시 파이토치 코드를 동등한 CUDA 커널로 변환합니다. 다음으로, 새로운 진화형 메타 제너레이터를 사용하여 새로운 진화적 메타 생성 절차를 사용하여 런타임 성능을 최적화합니다. 마지막으로 발견한 '디딤돌' 커널의 혁신 아카이브를 사용하여 새로운 작업의 향후 성능을 개선합니다. AI CUDA 엔지니어는 토치 네이티브 커널과 컴파일된 커널의 성능을 뛰어넘는 및 컴파일된 커널을 생성할 수 있습니다. 테스트한 250개의 태스크 중 AI CUDA 엔지니어는 다음을 성공적으로 최적화했습니다. 186개의 작업을 1.52배의 평균 속도 향상으로 최적화했습니다. 융합 3D 컨볼루션 또는 대각선 행렬 곱셈과 같은 작업의 경우, 토치 구현에 비해 50배 이상의 런타임 향상을 보여줍니다.이 보고서와 함께 가장 많이 발견된 커널, 발견된 모든 커널의 데이터 세트, 결과를 살펴볼 수 있는 대화형 웹페이지도 함께 공개합니다.
Recent advances in Large Language Models have driven large-scale deployment, resulting in ever-growing inference time and energy demand. While manual optimization of low-level code implementations is feasible, it is an arduous task that requires deep expertise to balance the complex interplay of algorithmic, software, and hardware bottlenecks. This report presents the first comprehensive agentic framework for fully automatic CUDA kernel discovery and optimization, enabling frontier large language models to perform the translation of torch code to CUDA kernels and then iteratively improve their runtime. We introduce The AI CUDA Engineer, which acts in sequential stages. First, it translates raw PyTorch code into equivalent CUDA kernels. Next, it optimizes their runtime performance using a novel evolutionary meta-generation procedure tailored towards the CUDA ecosystem. Finally, it uses an innovation archive of discovered ’stepping stone’ kernels to improve future performance on new tasks. The AI CUDA Engineer can produce CUDA kernels that exceed the performance of torch native and compiled kernels. Out of the 250 tasks tested, The AI CUDA Engineer successfully optimizes 186 tasks to a median speedup of 1.52x. For operations such as fused 3D convolutions or Diagonal Matrix Multiplication, we show runtime improvements ≥50x over their torch implementations. Alongside this report, we release the best discovered kernels, an accompanying dataset of all discovered kernels and an interactive webpage for exploration of the results.
논문 링크
더 읽어보기
https://pub.sakana.ai/ai-cuda-engineer
https://x.com/SakanaAILabs/status/1892385766510338559
NSA: 하드웨어 정렬 및 네이티브 트레이닝 가능한 스파스 어텐션 / Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
논문 소개
DeepSeek-AI와 공동 작업자들이 긴 문맥 언어 모델링에서 모델 성능을 유지하면서 계산 효율성을 개선하도록 설계된 새로운 스파스 어텐션 메커니즘인 네이티브 스파스 어텐션(NSA)을 소개합니다. 주요 기여 사항은 다음과 같습니다:
- 계층적 스파스 어텐션(NSA): NSA는 거친 단위의 압축, 세분화된 토큰 선택, 슬라이딩 윈도우 메커니즘을 결합하여 글로벌 컨텍스트 인식과 로컬 정밀도의 균형을 맞춥니다.
- 하드웨어 정렬 최적화: 텐서 코어 활용에 최적화된 블록 단위의 스파스 어텐션 메커니즘을 도입하여 메모리 대역폭 제약을 줄이고 효율성을 향상시킵니다.
- 종단간(End-to-End) 학습 가능성: 추론에 주로 초점을 맞춘 이전의 스파스 어텐션 방법과 달리 NSA는 완전한 학습이 가능한 스파스성을 구현하여 모델 기능을 유지하면서 사전 훈련 비용을 절감합니다.
결과 및 영향력은 다음과 같습니다: - 풀 어텐션보다 뛰어난 성능: NSA는 희소성에도 불구하고 일반적인 벤치마크, 긴 컨텍스트 추론, 명령어 기반 작업에서 풀 어텐션과 일치하거나 그 이상의 성능을 발휘합니다.
- 엄청난 속도 향상: NSA는 모든 단계(디코딩, 정방향 및 역방향 통과)에서 64k 토큰 시퀀스에서 풀 어텐션 대비 최대 11.6배의 속도 향상을 달성합니다.
- 강력한 긴 컨텍스트 성능: 64k 건초 더미 검색에서 NSA는 완벽한 정확도를 달성하여 다른 스파스 방식보다 훨씬 뛰어난 성능을 발휘합니다.
향상된 연쇄 추론- 미세 조정된 NSA는 AIME 수학적 추론 작업에서 풀 어텐션을 능가하여 장거리 논리적 종속성이 개선되었음을 시사합니다.
스파스 어텐션을 기본적으로 학습할 수 있게 하고 최신 하드웨어에 최적화함으로써 NSA는 매우 긴 컨텍스트를 처리하는 차세대 LLM을 위한 확장 가능한 솔루션을 제공합니다.
DeepSeek-AI and collaborators present Native Sparse Attention (NSA), a novel sparse attention mechanism designed to improve computational efficiency while maintaining model performance in long-context language modeling.
Key contributions:
Hierarchical Sparse Attention– NSA combines coarse-grained compression, fine-grained token selection, and sliding window mechanisms to balance global context awareness and local precision.
Hardware-Aligned Optimization– The authors introduce a blockwise sparse attention mechanism optimized for Tensor Core utilization, reducing memory bandwidth constraints and enhancing efficiency.
End-to-End Trainability– Unlike prior sparse attention methods that focus mainly on inference, NSA enables fully trainable sparsity, reducing pretraining costs while preserving model capabilities.
Results and Impact:
Outperforms Full Attention– Despite being sparse, NSA matches or exceeds Full Attention on general benchmarks, long-context reasoning, and instruction-based tasks.
Massive Speedups– NSA achieves up to 11.6× speedup over Full Attention on 64k-token sequences across all stages (decoding, forward, and backward passes).
Strong Long-Context Performance– In 64k Needle-in-a-Haystack retrieval, NSA achieves perfect accuracy, significantly outperforming other sparse methods.
Enhanced Chain-of-Thought Reasoning– Fine-tuned NSA surpasses Full Attention on AIME mathematical reasoning tasks, suggesting improved long-range logical dependencies.
By making sparse attention natively trainable and optimizing for modern hardware, NSA provides a scalable solution for next-gen LLMs handling extremely long contexts.
논문 초록(Abstract)
긴 컨텍스트 모델링은 차세대 언어 모델에 매우 중요하지만 표준 어텐션 메커니즘의 높은 계산 비용은 상당한 계산 문제를 야기합니다. 스파스 어텐션은 모델 기능을 유지하면서 효율성을 개선할 수 있는 유망한 방향을 제시합니다. 여기에서는 효율적인 긴 컨텍스트 모델링을 달성하기 위해 알고리즘 혁신과 하드웨어에 맞춘 최적화를 통합한 네이티브 학습 가능한 스파스 어텐션 메커니즘인 NSA를 소개합니다. NSA는 동적 계층적 희소성 전략을 채택하여 거친 단위의 토큰 압축과 세분화된 토큰 선택을 결합하여 글로벌 컨텍스트 인식과 로컬 정밀도를 모두 유지합니다. (1) 최신 하드웨어에 대한 구현 최적화와 함께 산술 집약도 균형 알고리즘 설계를 통해 상당한 속도 향상을 달성하여 두 가지 주요 혁신으로 스파스 어텐션 디자인을 발전시켰습니다. (2) 엔드투엔드 학습을 지원하여 모델 성능 저하 없이 사전 학습 계산을 줄입니다. 그림 1에서 볼 수 있듯이, 실험 결과 NSA로 사전 훈련된 모델은 일반적인 벤치마크, 긴 컨텍스트 작업 및 명령어 기반 추론에서 풀 어텐션 모델을 유지하거나 능가하는 것으로 나타났습니다. 한편, NSA는 디코딩, 순방향 전파, 역방향 전파에 걸쳐 64k 길이 시퀀스에서 풀 어텐션보다 상당한 속도 향상을 달성하여 모델 수명 주기 전반에 걸쳐 효율성을 입증했습니다.
Long-context modeling is crucial for next-generation language models, yet the high computational cost of standard attention mechanisms poses significant computational challenges. Sparse attention offers a promising direction for improving efficiency while maintaining model capabilities. We present NSA, a Natively trainable Sparse Attention mechanism that integrates algorithmic innovations with hardware-aligned optimizations to achieve efficient long-context modeling. NSA employs a dynamic hierarchical sparse strategy, combining coarse-grained token compression with fine-grained token selection to preserve both global context awareness and local precision. Our approach advances sparse attention design with two key innovations: (1) We achieve substantial speedups through arithmetic intensity-balanced algorithm design, with implementation optimizations for modern hardware. (2) We enable end-to-end training, reducing pretraining computation without sacrificing model performance. As shown in Figure 1, experiments show the model pretrained with NSA maintains or exceeds Full Attention models across general benchmarks, long-context tasks, and instruction-based reasoning. Meanwhile, NSA achieves substantial speedups over Full Attention on 64k-length sequences across decoding, forward propagation, and backward propagation, validating its efficiency throughout the model lifecycle.
논문 링크
더 읽어보기
https://x.com/deepseek_ai/status/1891745487071609327
LLaDA: 대규모 언어 확산 모델 / Large Language Diffusion Models
논문 소개
많은 작업에서 선도적인 자동 회귀 LLM과 일치하거나 능가할 수 있는 확산 기반 접근 방식인 LLaDA를 제안합니다. 주요 특징은 다음과 같습니다:
- 자동 회귀 우위에 대한 의문: 거의 모든 대규모 언어 모델(LLM)이 다음 토큰 예측 패러다임을 사용하지만, 저자들은 핵심 기능(확장성, 상황 내 학습, 명령어 추종)이 실제로는 자동 회귀 모델링이 아닌 일반적인 생성 원리에서 비롯된다고 제안합니다.
- 마스크드 확산 + 트랜스포머: LLaDA는 토큰을 점진적으로 마스킹하고 트랜스포머를 학습시켜 원본 텍스트를 복구하는 방식으로 학습하는 마스크드 확산 프레임워크에 기반합니다. 이를 통해 비회귀적 생성 모델을 생성하여 표준 LLM의 왼쪽에서 오른쪽 제약 조건을 잠재적으로 해결할 수 있습니다.
- 강력한 확장성: 2.3T 토큰(8B 파라미터)으로 학습된 LLaDA는 수학(GSM8K, MATH), 코드(HumanEval), 일반 벤치마크(MMLU) 전반에서 최고의 LLaMA 기반 LLM과 경쟁할 만한 성능을 발휘합니다. 이는 확산 패러다임이 자동 회귀 기준선과 유사하게 잘 확장된다는 것을 보여줍니다.
- '반전의 저주'를 깨다: LLaDA는 균형 잡힌 정방향/역방향 추론을 보여주며, 반전 작업(예: 시 구절 반전)에서 GPT-4 및 기타 AR 모델보다 뛰어난 성능을 발휘합니다. 확산은 왼쪽에서 오른쪽으로 생성하도록 강제하지 않기 때문에 거꾸로 완성할 때 강력합니다.
- 멀티턴 대화 및 명령어 준수: 감독된 미세 조정을 거친 후 LLaDA는 멀티턴 대화를 계속할 수 있습니다. 또한 채팅 기반 AR LLM과 유사한 강력한 명령어 준수와 유창함을 보여주며, 고급 LLM 특성이 반드시 자동 회귀에 의존하지 않는다는 증거입니다.
Proposes LLaDA, a diffusion-based approach that can match or beat leading autoregressive LLMs in many tasks.
Key highlights:
Questioning autoregressive dominance– While almost all large language models (LLMs) use the next-token prediction paradigm, the authors propose that key capabilities (scalability, in-context learning, instruction-following) actually derive from general generative principles rather than strictly from autoregressive modeling.
Masked diffusion + Transformers– LLaDA is built on a masked diffusion framework that learns by progressively masking tokens and training a Transformer to recover the original text. This yields a non-autoregressive generative model—potentially addressing left-to-right constraints in standard LLMs.
Strong scalability– Trained on 2.3T tokens (8B parameters), LLaDA performs competitively with top LLaMA-based LLMs across math (GSM8K, MATH), code (HumanEval), and general benchmarks (MMLU). It demonstrates that the diffusion paradigm scales similarly well to autoregressive baselines.
Breaks the “reversal curse”– LLaDA shows balanced forward/backward reasoning, outperforming GPT-4 and other AR models on reversal tasks (e.g. reversing a poem line). Because diffusion does not enforce left-to-right generation, it is robust at backward completions.
Multi-turn dialogue and instruction-following– After supervised fine-tuning, LLaDA can carry on multi-turn conversations. It exhibits strong instruction adherence and fluency similar to chat-based AR LLMs—further evidence that advanced LLM traits do not necessarily rely on autoregression.
논문 초록(Abstract)
자동 회귀 모델(ARM)은 대규모 언어 모델(LLM)의 초석으로 널리 알려져 있습니다. Lionbridge는 사전 학습 및 감독 미세 조정(SFT) 패러다임에 따라 처음부터 학습된 확산 모델인 LLaDA를 도입하여 이 개념에 도전합니다. LLaDA는 정방향 데이터 마스킹 프로세스와 역방향 프로세스를 통해 분포를 모델링하고, 바닐라 트랜스포머로 파라미터화하여 마스킹된 토큰을 예측합니다. 가능성 바운드를 최적화함으로써 확률적 추론을 위한 원칙적인 생성 접근 방식을 제공합니다. 광범위한 벤치마크에서 LLaDA는 자체적으로 구축한 ARM 기준선을 능가하는 강력한 확장성을 입증했습니다. 놀랍게도 LLaDA 8B는 컨텍스트 내 학습에서 LLaMA3 8B와 같은 강력한 LLM과 경쟁하며, SFT 이후에는 멀티턴 대화와 같은 사례 연구에서 인상적인 명령어 추종 능력을 보여줍니다. 또한 LLaDA는 반전 시 완성 과제에서 GPT-4o를 능가하는 반전의 저주를 해결했습니다. 우리의 연구 결과는 확산 모델을 ARM의 실행 가능하고 유망한 대안으로 확립하여 위에서 논의한 주요 LLM 기능이 본질적으로 ARM에 묶여 있다는 가정에 도전합니다. 프로젝트 페이지 및 코드: Large Language Diffusion Models.
Autoregressive models (ARMs) are widely regarded as the cornerstone of large language models (LLMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA models distributions through a forward data masking process and a reverse process, parameterized by a vanilla Transformer to predict masked tokens. By optimizing a likelihood bound, it provides a principled generative approach for probabilistic inference. Across extensive benchmarks, LLaDA demonstrates strong scalability, outperforming our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings establish diffusion models as a viable and promising alternative to ARMs, challenging the assumption that key LLM capabilities discussed above are inherently tied to ARMs. Project page and codes: Large Language Diffusion Models.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1891568386494300252
SWE-Lancer: 프론티어 LLM이 실제 프리랜서 소프트웨어 엔지니어링으로 100만 달러를 벌 수 있을까요? / SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
논문 소개
OpenAI의 연구원들이 총 1백만 달러에 달하는 Upwork의 실제 프리랜서 소프트웨어 엔지니어링 작업 1,488개에 대한 LLM을 평가하는 벤치마크인 SWE-Lancer를 소개합니다. 주요 내용은 다음과 같습니다:
- 소프트웨어 엔지니어링 자동화를 위한 새로운 벤치마크: 고립된 작업(예: 프로그램 합성, 경쟁 프로그래밍)에 초점을 맞춘 이전의 코딩 벤치마크와 달리 SWE-Lancer는 풀스택 엔지니어링 및 관리 의사결정을 테스트합니다. 모델이 코드를 작성하고 디버깅하는 개인 기여자(IC) SWE 과제와 모델이 최고의 기술 제안을 선택하는 SWE 관리자 과제를 모두 평가합니다.
- 실제 경제적 영향: 각 작업에는 프리랜서 시장 요율을 반영하여 검증 가능한 금전적 가치가 있습니다. 보상금은 250달러의 버그 수정부터 32,000달러의 기능 구현까지 다양합니다. 이 벤치마크는 모델 성능을 수익에 매핑하여 자동화 잠재력에 대한 가시적인 지표를 제공합니다.
- 엔드투엔드 테스트를 통한 엄격한 평가: 단위 테스트 기반 벤치마크와 달리 SWE-Lancer는 전문 엔지니어가 개발한 브라우저 중심의 3중 검증 엔드투엔드(E2E) 테스트를 사용합니다. 이러한 테스트는 실제 소프트웨어 검증을 반영하고 채점 해킹을 방지합니다.
- 여전히 해결되지 않은 고난도 과제: 최고 성능의 모델인 Claude 3.5 Sonnet조차도 IC SWE 과제 중 26.2%, SWE 관리자 과제 중 44.9%만 해결해 오픈소스 SWE-Lancer Diamond 세트의 50.8만 달러 중 208만 달러를 벌어들입니다. 이는 현재의 AI 역량과 인간 소프트웨어 엔지니어 간의 격차를 잘 보여줍니다.
- LLM 성능에 대한 주요 결과
- 테스트 시간 계산으로 정확도 향상: 추론 시간 추론이 증가하면 특히 고가치 작업에서 성공률이 향상됩니다.
- IC 코딩보다 관리 작업이 더 쉬움: 모델은 원본 코드를 작성하는 것보다 제안을 선택하는 데 더 효과적입니다.
- 효과적인 도구 사용의 중요성: 더 강력한 모델은 대화형 사용자 도구를 활용하여 엔지니어가 코드를 반복하는 방식을 모방하여 문제를 디버깅합니다.
- 로컬라이제이션과 근본 원인 분석의 차이: LLM은 결함이 있는 코드를 정확히 찾아낼 수 있지만 포괄적인 수정 사항을 구현하지 못하는 경우가 많습니다.
Researchers from OpenAI introduce SWE-Lancer, a benchmark evaluating LLMs on 1,488 real-world freelance software engineering tasks from Upwork, collectively worth $1M in payouts.
Key takeaways:
A new benchmark for software engineering automation– Unlike previous coding benchmarks focused on isolated tasks (e.g., program synthesis, competitive programming), SWE-Lancer tests full-stack engineering and managerial decision-making. It evaluates both Individual Contributor (IC) SWE tasks, where models write and debug code, and SWE Manager tasks, where models select the best technical proposal.
Real-world economic impact– Each task has a verifiable monetary value, mirroring freelance market rates. Payouts range from $250 bug fixes to $32,000 feature implementations. The benchmark maps model performance to earnings, offering a tangible metric for automation potential.
Rigorous evaluation with end-to-end tests– Unlike unit-test-based benchmarks, SWE-Lancer employs browser-driven, triple-verified end-to-end (E2E) tests developed by professional engineers. These tests reflect real-world software validation and prevent grading hacks.
Challenging tasks remain unsolved– Even the best-performing model, Claude 3.5 Sonnet, only solves 26.2% of IC SWE tasks and 44.9% of SWE Manager tasks, earning $208K out of $500.8K in the open-source SWE-Lancer Diamond set. This highlights the gap between current AI capabilities and human software engineers.
Key findings on LLM performance:
Test-time compute boosts accuracy– Increasing inference-time reasoning improves success rates, particularly on high-value tasks.
Managerial tasks are easier than IC coding– Models perform better at selecting proposals than writing original code.
Effective tool use matters– Stronger models leverage an interactive user tool to debug issues, mimicking how engineers iterate on code.
Localization vs. root cause analysis– LLMs can pinpoint faulty code but often fail to implement comprehensive fixes.
논문 초록(Abstract)
Upwork의 1,400개 이상의 프리랜서 소프트웨어 엔지니어링 작업을 벤치마킹하여 실제 지급액으로 총 100만 달러에 달하는 SWE-Lancer를 소개합니다. SWE-Lancer는 50달러의 버그 수정부터 32,000달러의 기능 구현까지 다양한 독립 엔지니어링 작업과 기술 구현 제안 중에서 모델을 선택하는 관리 작업을 모두 포함합니다. 독립 작업은 숙련된 소프트웨어 엔지니어가 세 차례에 걸쳐 검증한 엔드투엔드 테스트를 통해 등급을 매기고, 관리 작업은 원래 고용된 엔지니어링 관리자의 선택에 따라 평가합니다. 모델 성능을 평가한 결과, 프론티어 모델이 여전히 대부분의 과제를 해결하지 못하는 것으로 나타났습니다. 향후 연구를 용이하게 하기 위해 통합된 Docker 이미지와 공개 평가 분할인 SWE-Lancer Diamond(GitHub - openai/SWELancer-Benchmark: This repo contains the dataset and code for the paper "SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?")를 오픈소스로 공개합니다. 모델 성능을 금전적 가치에 매핑함으로써, SWE-Lancer가 AI 모델 개발의 경제적 영향에 대한 더 많은 연구를 가능하게 할 것으로 기대합니다.
We introduce SWE-Lancer, a benchmark of over 1,400 freelance software engineering tasks from Upwork, valued at $1 million USD total in real-world payouts. SWE-Lancer encompasses both independent engineering tasks--ranging from $50 bug fixes to $32,000 feature implementations--and managerial tasks, where models choose between technical implementation proposals. Independent tasks are graded with end-to-end tests triple-verified by experienced software engineers, while managerial decisions are assessed against the choices of the original hired engineering managers. We evaluate model performance and find that frontier models are still unable to solve the majority of tasks. To facilitate future research, we open-source a unified Docker image and a public evaluation split, SWE-Lancer Diamond (GitHub - openai/SWELancer-Benchmark: This repo contains the dataset and code for the paper "SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?"). By mapping model performance to monetary value, we hope SWE-Lancer enables greater research into the economic impact of AI model development.
논문 링크
더 읽어보기
https://x.com/OpenAI/status/1891911123517018521
복합 AI 시스템을 위한 모델 선택 최적화 / Optimizing Model Selection for Compound AI Systems
논문 소개
Microsoft Research의 연구원 및 협력자들이 모든 곳에서 하나의 LLM을 사용하는 대신 모듈별로 최적의 모델을 선택하여 다중 호출 LLM 파이프라인을 개선하는 프레임워크인 LLMSelector를 소개합니다. 주요 인사이트는 다음과 같습니다:
- 모듈별 모델 선택으로 큰 성능 향상: 저자들은 복합 시스템에서 각 하위 작업에 대해 단일 LLM에 의존하는 대신 다양한 LLM을 혼합하면 정확도가 5%~70% 향상될 수 있음을 보여줍니다. 각 모델에는 고유한 강점(예: 생성에 비해 비평에 더 우수)이 있으므로 모듈을 선택적으로 할당하면 엔드투엔드 결과를 크게 개선할 수 있습니다.
- LLMSelector 알고리즘: 모듈별 성능을 추정하는 새로운 'LLM 진단기'의 안내에 따라 각 모듈에 최적의 모델을 할당하는 반복적인 루틴을 제안합니다. 이 절차는 모듈 수에 따라 선형적으로 확장되므로 전수 검색보다 훨씬 효율적입니다.
- 단조로움에 대한 인사이트: 경험적으로, 다른 모듈은 고정된 상태에서 단일 모듈의 성능을 향상시키면 전체 시스템이 개선되는 경우가 많습니다. 이는 근사 인수분해 접근법의 동기를 부여하며, 여기서 국소적인 개선이 전체적인 개선으로 이어집니다.
LLMSelector는 모듈이 고정된 모든 정적 복합 시스템(예: 발전기-비평기-정제기)에서 작동합니다.
Researchers from Microsoft Research and collaborators introduce LLMSelector, a framework to improve multi-call LLM pipelines by selecting the best model per module instead of using one LLM everywhere.
Key insights include:
Large performance boost with per-module model choices– Rather than relying on a single LLM for each sub-task in compound systems, the authors show that mixing different LLMs can yield 5%–70% higher accuracy. Each model has unique strengths (e.g., better at critique vs. generation), so assigning modules selectively substantially improves end-to-end results.
LLMSelector algorithm– They propose an iterative routine that assigns an optimal model to each module, guided by a novel “LLM diagnoser” to estimate per-module performance. The procedure scales linearly with the number of modules—far more efficient than exhaustive search.
Monotonicity insights– Empirically, boosting any single module’s performance (while holding others fixed) often improves the overall system. This motivates an approximate factorization approach, where local gains translate into global improvements.
LLMSelector works for any static compound system with fixed modules (e.g., generator–critic–refiner).
논문 초록(Abstract)
셀프 리파인 및 다중 에이전트 토론과 같은 여러 LLM 호출을 결합한 복합 AI 시스템은 많은 AI 작업에서 강력한 성능을 발휘합니다. 복합 시스템을 최적화하는 데 있어 핵심적인 질문인 시스템의 각 LLM 호출 또는 모듈에 대해 어떤 LLM을 사용할지 어떻게 결정해야 할까요? 이러한 LLM 선택이 품질에 큰 영향을 미치지만 검색 공간은 기하급수적으로 증가한다는 것을 보여줍니다. 저희는 복합 시스템에서 모델 선택을 위한 효율적인 프레임워크인 LLMSelector를 제안하며, 이 프레임워크는 두 가지 주요 경험적 인사이트를 활용합니다. (i) 엔드투엔드 성능은 다른 모든 모듈이 고정된 상태에서 각 모듈의 성능이 단조로운 경우가 많고, (ii) 모듈별 성능은 LLM으로 정확하게 추정할 수 있다는 점입니다. 이러한 인사이트를 바탕으로 LLMSelector는 더 이상 이득이 없을 때까지 하나의 모듈을 반복적으로 선택하고 LLM이 추정하는 모듈별 성능이 가장 높은 모델을 해당 모듈에 할당합니다. LLMSelector는 모듈 수가 제한된 모든 복합 시스템에 적용할 수 있으며, 모듈 수에 따라 API 호출 수가 선형적으로 확장되므로 경험적으로나 이론적으로 고품질 모델 할당을 달성할 수 있습니다. GPT-4o, Claude 3.5 Sonnet, Gemini 1.5와 같은 LLM을 사용하여 다중 에이전트 토론 및 자체 재조정과 같은 널리 사용되는 복합 시스템을 실험한 결과, LLMSelector는 모든 모듈에 동일한 LLM을 사용하는 것보다 5%-70%의 정확도 향상을 가져다주는 것으로 나타났습니다.
Compound AI systems that combine multiple LLM calls, such as self-refine and multi-agent-debate, achieve strong performance on many AI tasks. We address a core question in optimizing compound systems: for each LLM call or module in the system, how should one decide which LLM to use? We show that these LLM choices have a large effect on quality, but the search space is exponential. We propose LLMSelector, an efficient framework for model selection in compound systems, which leverages two key empirical insights: (i) end-to-end performance is often monotonic in how well each module performs, with all other modules held fixed, and (ii) per-module performance can be estimated accurately by an LLM. Building upon these insights, LLMSelector iteratively selects one module and allocates to it the model with the highest module-wise performance, as estimated by an LLM, until no further gain is possible. LLMSelector is applicable to any compound system with a bounded number of modules, and its number of API calls scales linearly with the number of modules, achieving high-quality model allocation both empirically and theoretically. Experiments with popular compound systems such as multi-agent debate and self-refine using LLMs such as GPT-4o, Claude 3.5 Sonnet and Gemini 1.5 show that LLMSelector confers 5%-70% accuracy gains compared to using the same LLM for all modules.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1892945381174210933
ORZ: Open-Reasoner-Zero
논문 소개
오픈-리서처-제로(ORZ)는 추론 기능을 향상시키는 오픈소스 대규모 미니멀리즘 강화 학습(RL) 프레임워크입니다. ORZ는 딥시크-R1-Zero-Qwen-32B의 1/30의 학습 단계만 거치면 GPQA Diamond보다 뛰어난 성능을 발휘하는 상당한 확장성을 보여줍니다. 주요 기여 및 연구 결과는 다음과 같습니다:
- 미니멀리스트 RL 학습 작동: 기존 RLHF 설정과 달리 ORZ는 KL 정규화를 제거하고 GAE(λ=1, γ=1)와 간단한 규칙 기반 보상 기능을 갖춘 바닐라 PPO를 사용해 응답 길이와 추론 정확도를 모두 확장합니다.
- 오픈 소스 모델보다 뛰어난 성능: ORZ-32B는 훨씬 적은 학습 단계를 사용하면서도 GPQA Diamond에서 DeepSeek-R1-Zero-Qwen-32B를 능가하여 간소화된 RL 파이프라인으로 학습 효율성을 대폭 향상시킬 수 있음을 입증했습니다.
- 긴급 추론 능력: ORZ는 응답 길이와 정확도가 갑자기 증가하는 '스텝 모멘트'를 나타내며, 이는 지속적인 학습을 통해 긴급 추론 능력이 향상되었음을 나타냅니다.
- 대규모 확장 가능성: ORZ의 응답 길이 확장성은 DeepSeek-R1-Zero(671B MoE)에서 나타난 추세를 반영하지만 학습 단계는 5.8배 더 적습니다. 학습은 포화 상태의 징후를 보이지 않으며, 지속적인 확장을 통해 더 많은 이득을 얻을 수 있음을 암시합니다.
- 완전한 오픈소스: 학습 코드, 모델 가중치, 데이터, 하이퍼파라미터가 모두 공개되어 재현성을 보장하고 연구 커뮤니티에서 더 폭넓게 채택할 수 있습니다.
- 수학적 및 논리적 추론: ORZ는 정답의 정확성만을 평가하는 간단한 이진 보상 시스템을 통해 MATH500, AIME2024, AIME2025와 같은 벤치마크에서 정확도를 크게 향상시킵니다.
- 일반화: 인스트럭션 튜닝 없이도 ORZ-32B는 MMLU_PRO에서 Qwen2.5-32B Instruct보다 성능이 뛰어나며, 순수하게 RL로만 학습되었음에도 강력한 추론 일반화를 보여줍니다.
Open-Reasoner-Zero (ORZ) is an open-source large-scale minimalist reinforcement learning (RL) framework that enhances reasoning capabilities. ORZ demonstrates significant scalability requiring only 1/30th of the training steps of DeepSeek-R1-Zero-Qwen-32B to outperform it on GPQA Diamond.
Key contributions and findings:
Minimalist RL Training Works– Unlike traditional RLHF setups, ORZ removes KL regularization and relies on vanilla PPO with GAE (λ=1, γ=1) and a simple rule-based reward function to scale both response length and reasoning accuracy.
Outperforms Closed-Source Models– ORZ-32B beats DeepSeek-R1-Zero-Qwen-32B on GPQA Diamond while using significantly fewer training steps, proving that training efficiency can be drastically improved with a streamlined RL pipeline.
Emergent Reasoning Abilities– ORZ exhibits "step moments", where response lengths and accuracy suddenly increase, indicating emergent reasoning capabilities with continued training.
Massive Scaling Potential– ORZ’s response length scaling mirrors trends seen in DeepSeek-R1-Zero (671B MoE), but with 5.8x fewer training steps. Training shows no signs of saturation, hinting at even further gains with continued scaling.
Fully Open-Source– The training code, model weights, data, and hyperparameters are all released, ensuring reproducibility and enabling broader adoption in the research community.
Mathematical & Logical Reasoning– ORZ significantly improves accuracy on benchmarks like MATH500, AIME2024, and AIME2025 with a simple binary reward system that only evaluates answer correctness.
Generalization– Without any instruction tuning, ORZ-32B outperforms Qwen2.5-32B Instruct on MMLU_PRO, showcasing its strong reasoning generalization despite being trained purely on RL.
논문 초록(Abstract)
확장성, 단순성, 접근성에 중점을 둔 대규모 추론 중심 RL 훈련의 첫 번째 오픈 소스 구현인 Open-Reasoner-Zero를 소개합니다. 광범위한 실험을 통해 최소한의 접근 방식인 GAE(𝜆 = 1, 𝛾 = 1)와 KL 정규화 없이 간단한 규칙 기반 보상 함수를 사용하는 바닐라 PPO만으로도 추론 작업에서 응답 길이와 벤치마크 성능을 모두 확장할 수 있으며, 이는 DeepSeek-R1-Zero에서 관찰되는 현상과 유사하다는 것을 입증했습니다. 특히, 우리의 구현은 훈련 단계가 1/30밖에 필요하지 않으면서도 GPQA 다이아몬드 벤치마크에서 DeepSeek-R1-Zero-Qwen-32B보다 성능이 뛰어납니다. 오픈 소스의 정신에 따라 소스 코드, 매개변수 설정, 학습 데이터, 모델 가중치를 공개합니다.
We introduce Open-Reasoner-Zero, the first open source implementation of large-scale reasoning-oriented RL training focusing on scalability, simplicity and accessibility. Through extensive experiments, we demonstrate that a minimalist approach, vanilla PPO with GAE (𝜆 = 1, 𝛾 = 1) and straightforward rule-based reward function, without any KL regularization, is sufficient to scale up both response length and benchmark performance on reasoning tasks, similar to the phenomenon observed in DeepSeek-R1-Zero. Notably, our implementation outperforms DeepSeek-R1-Zero-Qwen-32B on the GPQA Diamond benchmark, while only requiring 1/30 of the training steps. In the spirit of open source, we release our source code, parameter settings, training data, and model weights.
논문 링크
더 읽어보기
https://x.com/CyouSakura/status/1892428094075502960
MoBA: 긴 컨텍스트 LLM에 대한 블록 어텐션의 혼합 / MoBA: Mixture of Block Attention for Long-Context LLMs
논문 소개
MoBA는 강력한 성능을 유지하면서 LLM의 긴 컨텍스트 시퀀스를 처리하는 효율성을 향상시키는 새로운 어텐션 메커니즘입니다. 주요 인사이트는 다음과 같습니다: - 긴 컨텍스트를 위한 적응형 어텐션: MoBA는 어텐션 메커니즘에 전문가 혼합(MoE) 패러다임을 적용하여 각 쿼리 토큰이 전체 컨텍스트가 아닌 가장 관련성이 높은 키-값 블록에 선택적으로 어텐션할 수 있도록 합니다. 이를 통해 모델은 확장된 시퀀스를 효율적으로 처리할 수 있습니다.
- 전체 어텐션과 희소 어텐션 간의 원활한 전환: 슬라이딩 윈도우나 싱크 어텐션과 같은 정적인 희소 어텐션 방식과 달리, MoBA는 전체 어텐션과 희소 어텐션 모드 간에 동적으로 전환할 수 있어 일반화를 희생하지 않고 적응성을 보장합니다.
- 향상된 계산 효율성: MoBA는 시퀀스를 블록으로 분할하고 게이팅 메커니즘을 사용하여 쿼리를 라우팅함으로써 계산 복잡성을 크게 줄여 프리필에서 플래시어텐션보다 최대 6.5배의 속도 향상을 달성하고 계산 시간을 16배 단축하여 10M 토큰까지 효율적으로 확장할 수 있습니다.
- 풀 어텐션과 비교 가능한 성능: 광범위한 실험을 통해 MoBA는 높은 희소성 수준(~95.31%)에서도 언어 모델링 손실 및 벤치마크 성능을 풀 어텐션과 거의 동일하게 달성하는 것으로 나타났습니다. 건초더미 속 바늘 찾기나 RULER@128K와 같은 긴 컨텍스트 벤치마크에서 풀 어텐션과 일치합니다.
- 하이브리드 MoBA-풀 어텐션 전략: MoBA는 표준 Transformer와 유연하게 통합할 수 있어 레이어별 하이브리드화(서로 다른 레이어에서 MoBA와 풀 어텐션을 혼합)가 가능하므로 감독 미세 조정(SFT) 안정성과 긴 컨텍스트 유지가 향상됩니다.
MoBA is a new attention mechanism that enhances efficiency in handling long-context sequences for LLMs while maintaining strong performance.
Key insights:
Adaptive Attention for Long Contexts– MoBA applies the Mixture of Experts (MoE) paradigm to the attention mechanism, allowing each query token to attend selectively to the most relevant key-value blocks rather than the full context. This enables models to handle extended sequences efficiently.
Seamless Transition Between Full and Sparse Attention– Unlike static sparse attention methods like sliding window or sink attention, MoBA can dynamically switch between full and sparse attention modes, ensuring adaptability without sacrificing generalization.
Improved Computational Efficiency– By partitioning sequences into blocks and using a gating mechanism to route queries, MoBA significantly reduces computational complexity, achieving up to 6.5× speedup over FlashAttention in prefill and scaling efficiently to 10M tokens with a 16× reduction in computation time.
Comparable Performance to Full Attention– Extensive experiments show that MoBA achieves language modeling loss and benchmark performance nearly identical to full attention, even at high sparsity levels (~95.31%). It matches full attention in long-context benchmarks like Needle in a Haystack and RULER@128K.
Hybrid MoBA-Full Attention Strategy– MoBA can be integrated flexibly with standard Transformers, allowing for layer-wise hybridization (mixing MoBA and full attention at different layers), which improves supervised fine-tuning (SFT) stability and long-context retention.
논문 초록(Abstract)
대규모 언어 모델(LLM)을 인공 일반 지능(AGI)으로 발전시키기 위해서는 효과적인 문맥 길이를 확장하는 것이 필수적입니다. 그러나 기존의 주의 메커니즘에 내재된 계산 복잡성의 4제곱 증가는 엄청난 오버헤드를 초래합니다. 기존의 접근 방식은 작업에 따라 싱크 또는 창 주의와 같이 강하게 편향된 구조를 적용하거나 주의 메커니즘을 선형 근사치로 근본적으로 수정하여 복합 추론 작업에서의 성능이 제대로 탐구되지 않은 채로 남아 있습니다. 이 연구에서는 미리 정의된 편향을 도입하는 대신 모델이 자율적으로 주의를 기울일 위치를 결정할 수 있도록 '덜 구조화' 원칙을 준수하는 솔루션을 제안합니다. 저희는 전문가 혼합(MoE)의 원리를 주의 메커니즘에 적용하는 혁신적인 접근 방식인 블록 주의 혼합(MoBA)을 도입했습니다. 이 새로운 아키텍처는 긴 컨텍스트 작업에서 우수한 성능을 발휘하는 동시에 전체 주의와 희소 주의 사이를 원활하게 전환하여 성능 저하 위험 없이 효율성을 향상시킬 수 있는 핵심적인 이점을 제공합니다. MoBA는 이미 Kimi의 긴 컨텍스트 요청을 지원하기 위해 배포되었으며, LLM의 효율적인 주의 계산에서 상당한 발전을 보여줍니다. 코드는 GitHub - MoonshotAI/MoBA: MoBA: Mixture of Block Attention for Long-Context LLMs 에서 확인할 수 있습니다.
Scaling the effective context length is essential for advancing large language models (LLMs) toward artificial general intelligence (AGI). However, the quadratic increase in computational complexity inherent in traditional attention mechanisms presents a prohibitive overhead. Existing approaches either impose strongly biased structures, such as sink or window attention which are task-specific, or radically modify the attention mechanism into linear approximations, whose performance in com- plex reasoning tasks remains inadequately explored. In this work, we propose a solution that adheres to the “less structure” principle, allowing the model to determine where to attend autonomously, rather than introducing predefined biases. We intro- duce Mixture of Block Attention (MoBA), an innovative approach that applies the principles of Mixture of Experts (MoE) to the attention mechanism. This novel architecture demonstrates su- perior performance on long-context tasks while offering a key advantage: the ability to seamlessly transition between full and sparse attention, enhancing efficiency without the risk of compromising performance. MoBA has already been deployed to support Kimi’s long-context requests and demon- strates significant advancements in efficient attention computation for LLMs. Our code is available at GitHub - MoonshotAI/MoBA: MoBA: Mixture of Block Attention for Long-Context LLMs
논문 링크
더 읽어보기
https://x.com/Kimi_Moonshot/status/1891825059599352259
지나친 생각의 위험성: 에이전트 작업에서의 추론-행동 딜레마 살펴보기 / The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks
논문 소개
이 논문에서는 모델이 환경과의 상호작용보다 확장된 내부 추론을 우선시하는 현상인 대규모 추론 모델(LRM)의 과잉 사고에 대해 조사합니다. 이 연구는 4,018개의 소프트웨어 엔지니어링 작업 궤적을 분석하여 추론 모델이 에이전트 환경에서 의사 결정을 처리하는 방식을 이해합니다. 주요 결과는 다음과 같습니다:
- 과잉 사고는 작업 성과를 떨어뜨린다: 과잉 사고 점수가 높을수록(실제 피드백보다 내부 추론을 선호할수록) 특히 추론에 최적화된 모델에서 문제 해결률이 낮아집니다. 과잉 사고 점수가 가장 낮은 솔루션을 선택하는 것과 같은 간단한 개입으로 성능을 30% 개선하는 동시에 컴퓨팅 비용을 43% 절감할 수 있습니다.
- 세 가지 실패 패턴 확인: 이 연구에서는 과잉 사고를 다음과 같이 분류했습니다:
- 분석 마비(실행 없는 과도한 계획),
- 불량 행동(피드백을 기다리지 않고 여러 단계를 실행), 그리고
- 조기 이탈(내부 가정에 기반한 작업 포기): 이러한 행동은 모델이 추론의 깊이와 실행 가능한 결정의 균형을 맞추기 위해 고군분투하는 이유를 설명합니다.
- 추론 모델은 과잉 사고에 더 취약함: 비추론 모델에 비해 LRM은 뛰어난 추론 능력에도 불구하고 평균적으로 과잉 사고 점수가 3배 더 높습니다.
- 함수 호출로 과잉 사고 완화: 기본 함수 호출을 지원하는 모델은 과잉 사고 점수가 현저히 낮아 구조화된 실행 경로가 에이전트 환경의 효율성을 개선한다는 것을 시사합니다.
- 확장 및 완화 전략: 연구진은 강력한 추론 능력을 유지하면서 과잉 사고를 억제하기 위해 강화 학습 조정 및 함수 호출 최적화를 제안합니다.
This paper investigates overthinking in Large Reasoning Models (LRMs)—a phenomenon where models prioritize extended internal reasoning over interacting with their environment. Their study analyzes 4,018 software engineering task trajectories to understand how reasoning models handle decision-making in agentic settings.
Key findings:
Overthinking reduces task performance– Higher overthinking scores (favoring internal reasoning over real-world feedback) correlate with lower issue resolution rates, especially in reasoning-optimized models. Simple interventions, like selecting solutions with the lowest overthinking scores, improve performance by 30% while reducing compute costs by 43%.
Three failure patterns identified– The study categorizes overthinking into:
Analysis Paralysis(excessive planning without action),
Rogue Actions(executing multiple steps without awaiting feedback), and
Premature Disengagement(abandoning tasks based on internal assumptions).These behaviors explain why models struggle to balance reasoning depth with actionable decisions.
Reasoning models are more prone to overthinking– Compared to non-reasoning models, LRMs exhibit 3× higher overthinking scores on average, despite their superior reasoning capabilities.
Function calling mitigates overthinking– Models with native function-calling support show significantly lower overthinking scores, suggesting structured execution pathways improve efficiency in agentic environments.
Scaling and mitigation strategies– The researchers propose reinforcement learning adjustments and function-calling optimizations to curb overthinking while maintaining strong reasoning capabilities.
논문 초록(Abstract)
대규모 추론 모델(LRM)은 AI 문제 해결 능력에 있어 획기적인 발전이지만 대화형 환경에서는 그 효과가 제한적일 수 있습니다. 이 논문에서는 LRM의 오버씽킹에 대해 소개하고 분석합니다. 모델이 환경과의 상호작용보다 확장된 내부 추론 사슬을 선호하는 현상입니다. SWE Bench Verified를 사용한 소프트웨어 엔지니어링 작업 실험을 통해 세 가지 반복되는 패턴을 관찰합니다: 분석 마비, 불량 행동, 조기 이탈. 이러한 행동을 연구하기 위한 프레임워크를 제안하고, 이를 전문가 평가와 연관시켜 4018개의 궤적을 분석합니다. 분석 결과, 추론 모델이 비추론 모델에 비해 과잉사고 점수가 높을수록 성과 저하와 상관관계가 있으며, 추론 모델이 과잉사고 경향이 더 강한 것으로 나타났습니다. 분석 결과, 에이전트 환경에서 과잉 사고 점수가 낮은 솔루션을 선택하는 등 과잉 사고를 완화하기 위한 간단한 노력만으로도 모델 성능을 30% 가까이 향상시키면서 계산 비용을 43%까지 줄일 수 있는 것으로 나타났습니다. 이러한 결과는 오버씽킹을 완화하는 것이 실질적인 의미가 있음을 시사합니다. 기본 함수 호출 기능과 선택적 강화 학습을 활용하면 과잉 사고 경향을 완화할 수 있습니다. 또한 이러한 방향의 연구를 촉진하기 위해 평가 프레임워크와 데이터 세트를 오픈소스(GitHub - AlexCuadron/ThinkingAgent: Systematic evaluation framework that automatically rates overthinking behavior in large language models.)로 공개하고 있습니다.
Large Reasoning Models (LRMs) represent a breakthrough in AI problem-solving capabilities, but their effectiveness in interactive environments can be limited. This paper introduces and analyzes overthinking in LRMs. A phenomenon where models favor extended internal reasoning chains over environmental interaction. Through experiments on software engineering tasks using SWE Bench Verified, we observe three recurring patterns: Analysis Paralysis, Rogue Actions, and Premature Disengagement. We propose a framework to study these behaviors, which correlates with human expert assessments, and analyze 4018 trajectories. We observe that higher overthinking scores correlate with decreased performance, with reasoning models exhibiting stronger tendencies toward overthinking compared to non-reasoning models. Our analysis reveals that simple efforts to mitigate overthinking in agentic environments, such as selecting the solution with the lower overthinking score, can improve model performance by almost 30% while reducing computational costs by 43%. These results suggest that mitigating overthinking has strong practical implications. We suggest that by leveraging native function-calling capabilities and selective reinforcement learning overthinking tendencies could be mitigated. We also open-source our evaluation framework and dataset to facilitate research in this direction at GitHub - AlexCuadron/ThinkingAgent: Systematic evaluation framework that automatically rates overthinking behavior in large language models..
논문 링크
더 읽어보기
https://x.com/Alex_Cuadron/status/1890533660434321873
내적 사고 트랜스포머(ITT): 동적 뎁스 스케일링을 활용하여 적응형 내적 사고 촉진하기 / Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking
논문 소개
내부 사고 트랜스포머(ITT, Inner Thinking Transformers)는 동적 깊이 확장을 통해 소규모 LLM의 추론 효율성을 향상시키는 새로운 방법입니다. ITT는 모델 크기를 확장하지 않고도 확장 가능한 추론 효율성을 제공함으로써 LLM의 매개변수 병목 현상을 완화하는 것을 목표로 합니다. 주요 기여는 다음과 같습니다:
- 적응형 토큰 처리: ITT는 적응형 토큰 라우팅을 사용해 복잡한 토큰에 추가 계산을 동적으로 할당합니다. 이를 통해 모델은 어려운 추론 단계에 집중하는 동시에 간단한 토큰을 효율적으로 처리할 수 있습니다.
- 잔여 사고 연결(RTC): 새로운 잔여 축적 메커니즘이 토큰 표현을 반복적으로 개선하여 매개변수를 늘리지 않고도 모델이 스스로 수정할 수 있도록 합니다.
- 추가 매개변수 없이 테스트 시간 확장: ITT는 162만 개의 매개변수만으로 466M Transformer 정확도의 96.5%를 달성하여 11개 벤치마크에서 루프 기반 대안보다 성능이 뛰어나면서도 학습 데이터 필요량을 43.2% 줄였습니다.
- 탄력적 심층 사고: ITT는 추론 시 계산을 유연하게 확장할 수 있어 정확도와 효율성 사이에서 동적으로 최적화할 수 있습니다.
Inner Thinking Transformer (ITT) is a new method that enhances reasoning efficiency in small-scale LLMs via dynamic depth scaling. ITT aims to mitigate parameter bottlenecks in LLMs, providing scalable reasoning efficiency without expanding model size.
Key contributions:
Adaptive Token Processing– ITT dynamically allocates extra computation to complex tokens using Adaptive Token Routing. This allows the model to focus on difficult reasoning steps while efficiently handling simple tokens.
Residual Thinking Connections (RTC)– A new residual accumulation mechanism iteratively refines token representations, allowing the model to self-correct without increasing parameters.
Test-Time Scaling without Extra Parameters– ITT achieves 96.5% of a 466M Transformer’s accuracy using only 162M parameters, reducing training data needs by 43.2% while outperforming loop-based alternatives in 11 benchmarks.
Elastic Deep Thinking– ITT allows flexible scaling of computation at inference time, optimizing between accuracy and efficiency dynamically.
논문 초록(Abstract)
LLM(대규모 언어 모델)은 특히 복잡한 추론이 필요한 중요한 토큰을 처리할 때 매개변수 제약 조건 하에서 내재적인 성능 병목현상에 직면합니다. 경험적 분석에 따르면 까다로운 토큰은 계층 간에 갑작스러운 기울기 급증을 유발하여 표준 트랜스포머의 아키텍처 스트레스 지점을 노출시킵니다. 이러한 인사이트를 바탕으로 계층 계산을 암묵적 사고 단계로 재구상하는 이너씽킹 트랜스포머(ITT)를 제안합니다. ITT는 적응형 토큰 라우팅을 통해 계산을 동적으로 할당하고, 잔여 사고 연결을 통해 표현을 반복적으로 개선하며, 사고 단계 인코딩을 사용해 추론 단계를 구분합니다. ITT는 매개변수 확장 없이 중요한 토큰을 더 심층적으로 처리할 수 있게 해줍니다. 162M-466M 파라미터 모델에 대한 평가 결과, ITT는 162M 파라미터만을 사용해 466M 트랜스포머의 96.5% 성능을 달성하고 학습 데이터를 43.2% 줄이며 11개 벤치마크에서 트랜스포머/루프 변형보다 뛰어난 성능을 보였습니다. 추론 중에 탄력적인 계산 할당을 가능하게 함으로써 ITT는 암시적 사고 경로의 아키텍처 인식 최적화를 통해 성능과 효율성의 균형을 맞춥니다.
Large language models (LLMs) face inherent performance bottlenecks under parameter constraints, particularly in processing critical tokens that demand complex reasoning. Empirical analysis reveals challenging tokens induce abrupt gradient spikes across layers, exposing architectural stress points in standard Transformers. Building on this insight, we propose Inner Thinking Transformer (ITT), which reimagines layer computations as implicit thinking steps. ITT dynamically allocates computation through Adaptive Token Routing, iteratively refines representations via Residual Thinking Connections, and distinguishes reasoning phases using Thinking Step Encoding. ITT enables deeper processing of critical tokens without parameter expansion. Evaluations across 162M-466M parameter models show ITT achieves 96.5% performance of a 466M Transformer using only 162M parameters, reduces training data by 43.2%, and outperforms Transformer/Loop variants in 11 benchmarks. By enabling elastic computation allocation during inference, ITT balances performance and efficiency through architecture-aware optimization of implicit thinking pathways.
논문 링크
더 읽어보기
https://x.com/dair_ai/status/1893308342073991258
원문
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.*
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~