[2024/05/06 ~ 05/12] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/05/06 ~ 05/12] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주 선정된 논문들을 살펴보면, 두 가지 주요 경향이 나타납니다. 첫 번째로는 자연어 처리(NLP)와 관련된 연구가 다수 포함되어 있습니다. 예를 들어, "Is Flash Attention Stable?"와 "Consistency LLMs"는 모두 최근 NLP 분야에서 중요한 주제인 언어 모델의 성능과 안정성에 초점을 맞춘 연구입니다. 두 번째로, 알고리즘 개선 및 새로운 프레임워크 개발에 관한 연구도 두드러집니다. "xLSTM", "AlphaFold 3", "DeepSeek-V2"와 같은 논문들은 기존 모델과 알고리즘을 넘어서 새롭게 발전시키려는 시도를 보여줍니다.

  • 이러한 경향은 몇 가지 이유에서 중요합니다. 우선, NLP 분야는 현재 기계 학습과 인공 지능 연구에서 가장 활발히 발전하고 있는 영역 중 하나입니다. 언어 이해와 생성 능력은 사용자와의 상호작용, 정보 검색, 자동 번역 등 다양한 응용 분야에서 핵심적인 역할을 합니다. 따라서, 언어 모델의 성능과 안정성을 보장하는 것은 매우 중요하며, 이번 주에 선정된 논문들은 이러한 중요한 이슈에 대한 최신 연구 동향을 잘 반영합니다.

  • 또한, 기존 모델과 알고리즘의 한계를 극복하고 새로운 가능성을 모색하는 연구의 증가는 AI 기술의 지속적인 발전을 위해 필수적입니다. 예를 들어, "AlphaFold 3"은 단백질 구조 예측 분야에서 큰 진전을 이룬 사례로, 복잡한 생물학적 문제를 해결하는 데 AI가 얼마나 중요한 역할을 할 수 있는지 보여줍니다. 이처럼, 알고리즘과 프레임워크에 대한 지속적인 연구와 개선은 다양한 분야에서 AI 응용의 효율성과 범위를 넓히는 데 크게 기여할 것입니다.


AlphaFold 3로 생체 분자 상호작용의 정확한 구조 예측 / Accurate structure prediction of biomolecular interactions with AlphaFold 3

논문 소개

분자의 구조와 상호작용을 정확하게 예측하는 새로운 최첨단 모델 출시; 단백질, DNA, RNA 및 더 작은 분자의 3D 구조를 생성할 수 있으며, 이 모델은 Evoformer 모듈의 향상된 버전으로 확산 네트워크를 사용하여 예측을 조립하고 확산 과정은 원자 구름으로 시작하여 최종 분자 구조로 수렴합니다.

Releases a new state-of-the-art model for accurately predicting the structure and interactions of molecules; it can generate the 3D structures of proteins, DNA, RNA, and smaller molecules; the model is an improved version of the Evoformer module and then assembling its predictions using a diffusion network; the diffusion process starts with a cloud of atoms which converges to its final molecular structure.

논문 초록(Abstract)

AlphaFold 2의 도입으로 단백질의 구조와 상호 작용을 모델링하는 데 혁명을 일으켜 단백질 모델링 및 설계에 광범위한 응용이 가능해졌습니다. 이 백서에서는 단백질, 핵산, 저분자, 이온, 변형 잔기를 포함한 복합체의 결합 구조 예측이 가능한 확산 기반 아키텍처를 대폭 업데이트한 AlphaFold 3 모델에 대해 설명합니다. 새로운 AlphaFold 모델은 최첨단 도킹 도구보다 단백질-리간드 상호작용에 대한 정확도가 훨씬 높고, 핵산 특이적 예측 도구보다 단백질-핵산 상호작용에 대한 정확도가 훨씬 높으며, AlphaFold-Multimer v2.3보다 항체-항원 예측 정확도가 훨씬 높은 등 이전의 여러 전문 도구보다 크게 향상된 정확도를 보여줍니다. 이러한 결과를 종합하면 단일 통합 딥 러닝 프레임워크 내에서 생체 분자 공간 전반에 걸쳐 높은 정확도의 모델링이 가능하다는 것을 알 수 있습니다.

The introduction of AlphaFold 2 has spurred a revolution in modelling the structure of proteins and their interactions, enabling a huge range of applications in protein modelling and design. In this paper, we describe our AlphaFold 3 model with a substantially updated diffusion-based architecture, which is capable of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residues. The new AlphaFold model demonstrates significantly improved accuracy over many previous specialised tools: far greater accuracy on protein-ligand interactions than state of the art docking tools, much higher accuracy on protein-nucleic acid interactions than nucleic-acid-specific predictors, and significantly higher antibody-antigen prediction accuracy than AlphaFold-Multimer v2.3. Together these results show that high accuracy modelling across biomolecular space is possible within a single unified deep learning framework.

논문 링크

https://www.nature.com/articles/s41586-024-07487-w

더 읽어보기

https://x.com/GoogleDeepMind/status/1788223454317097172


xLSTM: 확장된 장단기 메모리 / xLSTM: Extended Long Short-Term Memory

논문 소개

최신 LLM의 최신 기술을 사용하여 LSTM을 수십억 개의 파라미터로 확장하고 LSTM의 일반적인 한계를 완화하려는 시도; LSTM이 스토리지 결정을 수정할 수 있도록 하기 위해 지수 게이팅과 새로운 메모리 혼합 메커니즘(sLSTM이라고 함)을 도입; LSTM의 스토리지 용량을 향상시키기 위해 행렬 메모리와 공분산 업데이트 규칙(mLSTM이라고 함) 추가; sLSTM과 xLSTM 셀 모두 동일한 기술을 사용하여 지수 게이트를 안정화합니다; 이러한 확장은 최종 xLSTM 아키텍처에 잔존하는 xLSTM 블록으로 이어지며, 트랜스포머에 비해 xLSTM은 시퀀스 길이와 관련하여 선형 계산과 일정한 메모리 복잡성을 가지며, xLSTM 아키텍처는 긴 맥락 문제의 다양한 측면을 처리하는 데 효율적인 것으로 나타났고, 트랜스포머, SSM 및 RNN과 같은 다른 모델 클래스와 비교할 때 더 나은 검증 난제를 달성합니다.

Attempts to scale LSTMs to billions of parameters using the latest techniques from modern LLMs and mitigating common limitations of LSTMs; to enable LSTMs the ability to revise storage decisions, they introduce exponential gating and a new memory mixing mechanism (termed sLSTM); to enhance the storage capacities of LSTMs, they add a matrix memory and a covariance update rule (termed mLSTM); Both the sLSTM and xLSTM cells stabilize their exponential gates using the same technique; these extensions lead to xLSTM blocks that are residually stacked into the final xLSTM architecture; compared to Transformers, xLSTMs have a linear computation and constant memory complexity concerning the sequence length; the xLSTM architecture is shown to be efficient at handling different aspects of long context problems; achieves better validation perplexities when compared to different model classes like Transformers, SSMs, and RNNs.

논문 초록(Abstract)

1990년대에 상수 오류 캐러셀과 게이팅은 장단기 메모리(LSTM)의 핵심 아이디어로 도입되었습니다. 그 이후로 LSTM은 시간의 시험을 견뎌내며 수많은 딥 러닝 성공 사례에 기여해 왔으며, 특히 최초의 대규모 언어 모델(LLM)을 구성했습니다. 하지만 병렬화가 가능한 셀프 어텐션이 핵심인 트랜스포머 기술이 등장하면서 LSTM의 규모를 앞지르는 새로운 시대가 열렸습니다. 이제 우리는 간단한 질문을 제기합니다: 최신 LLM의 최신 기술을 활용하면서도 LSTM의 알려진 한계를 완화하여 수십억 개의 파라미터로 확장할 때 언어 모델링에서 어느 정도까지 도달할 수 있을까요? 먼저, 적절한 정규화 및 안정화 기법으로 지수 게이팅을 도입합니다. 둘째, LSTM 메모리 구조를 수정하여 (i) 스칼라 메모리, 스칼라 업데이트, 새로운 메모리 믹싱을 갖춘 sLSTM, (ii) 행렬 메모리와 공분산 업데이트 규칙으로 완전히 병렬화할 수 있는 mLSTM을 얻습니다. 이러한 LSTM 확장을 잔여 블록 백본에 통합하면 xLSTM 블록이 생성되고, 이 블록은 xLSTM 아키텍처에 잔여 스택됩니다. 지수 게이팅과 수정된 메모리 구조는 성능과 확장성 모두에서 최첨단 트랜스포머 및 상태 공간 모델과 비교했을 때 xLSTM의 성능을 향상시킵니다.

In the 1990s, the constant error carousel and gating were introduced as the central ideas of the Long Short-Term Memory (LSTM). Since then, LSTMs have stood the test of time and contributed to numerous deep learning success stories, in particular they constituted the first Large Language Models (LLMs). However, the advent of the Transformer technology with parallelizable self-attention at its core marked the dawn of a new era, outpacing LSTMs at scale. We now raise a simple question: How far do we get in language modeling when scaling LSTMs to billions of parameters, leveraging the latest techniques from modern LLMs, but mitigating known limitations of LSTMs? Firstly, we introduce exponential gating with appropriate normalization and stabilization techniques. Secondly, we modify the LSTM memory structure, obtaining: (i) sLSTM with a scalar memory, a scalar update, and new memory mixing, (ii) mLSTM that is fully parallelizable with a matrix memory and a covariance update rule. Integrating these LSTM extensions into residual block backbones yields xLSTM blocks that are then residually stacked into xLSTM architectures. Exponential gating and modified memory structures boost xLSTM capabilities to perform favorably when compared to state-of-the-art Transformers and State Space Models, both in performance and scaling.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1788236090265977224


DeepSeek-V2: 강력하고 경제적이며 효율적인 전문가 혼합 언어 모델 / DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

논문 소개

236억 개의 파라미터로 구성된 강력한 MoE 모델(이 중 21억 개가 각 토큰에 대해 활성화됨), 128K 토큰의 컨텍스트 길이 지원, 키-값(KV) 캐시를 잠재 벡터로 압축하여 효율적인 추론을 위한 다중 헤드 잠재 어텐션(MLA) 사용, DeepSeek-V2와 채팅 버전은 오픈 소스 모델 중 최고 수준의 성능을 달성합니다.

A strong MoE model comprising 236B parameters, of which 21B are activated for each token; supports a context length of 128K tokens and uses Multi-head Latent Attention (MLA) for efficient inference by compressing the Key-Value (KV) cache into a latent vector; DeepSeek-V2 and its chat versions achieve top-tier performance among open-source models.

논문 초록(Abstract)

경제적인 학습과 효율적인 추론이 특징인 강력한 전문가 혼합(MoE) 언어 모델인 DeepSeek-V2를 소개합니다. 총 236억 개의 파라미터로 구성되며, 이 중 21억 개가 각 토큰에 대해 활성화되고 128K 토큰의 컨텍스트 길이를 지원합니다. DeepSeek-V2는 멀티헤드 잠재주의(MLA)와 DeepSeekMoE를 비롯한 혁신적인 아키텍처를 채택하고 있습니다. MLA는 키-값(KV) 캐시를 잠재 벡터로 대폭 압축하여 효율적인 추론을 보장하며, DeepSeekMoE는 스파스 계산을 통해 경제적인 비용으로 강력한 모델을 학습할 수 있게 해줍니다. 딥시크 67B와 비교했을 때 딥시크-V2는 훨씬 더 강력한 성능을 달성하는 동시에 훈련 비용을 42.5% 절감하고, KV 캐시를 93.3% 줄이며, 최대 생성 처리량을 5.76배로 높입니다. 8.1T 토큰으로 구성된 고품질의 다중 소스 말뭉치로 DeepSeek-V2를 사전 학습한 후, 지도 미세 조정(SFT)과 강화 학습(RL)을 추가로 수행하여 잠재력을 완전히 발휘할 수 있도록 했습니다. 평가 결과, 활성화된 파라미터가 21억 개에 불과한 경우에도 DeepSeek-V2와 그 채팅 버전은 오픈 소스 모델 중 최고 수준의 성능을 달성하는 것으로 나타났습니다.

We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models.

논문 링크

더 읽어보기

https://x.com/p_nawrot/status/1788479672067481664


AlphaMath Almost Zero: 프로세스 없는 프로세스 감독 / AlphaMath Almost Zero: process Supervision without process

논문 소개

수학적 추론 능력을 향상시키기 위해 몬테카를로 트리 검색(MCTS)으로 LLM을 강화; MCTS 프레임워크는 탐색과 활용 사이의 보다 효과적인 균형을 달성하기 위해 LLM을 확장; 이 작업의 아이디어는 전문적인 사람의 주석 없이 고품질 수학 추론 데이터를 생성하는 것; 잘 훈련된 LLM은 이미 추론 단계를 생성하기 위한 수학적 지식을 보유하고 있지만 고급 프롬프트 또는 검색 전략과 같은 더 나은 자극이 필요하다는 가정이 전제되어 있습니다; 사고 프로그램이나 연쇄 사고와 같은 다른 방법과 달리 훈련 데이터에는 수학 문제와 답만 있으면 되며, LLM과 가치 모델, MCTS 프레임워크의 통합을 통해 고품질의 수학 추론 데이터를 효과적이고 자율적으로 생성할 수 있고, 가치 모델은 정책 모델이 효과적인 해결 경로를 찾는 데 도움을 줍니다.

Enhances LLMs with Monte Carlo Tree Search (MCTS) to improve mathematical reasoning capabilities; the MCTS framework extends the LLM to achieve a more effective balance between exploration and exploitation; for this work, the idea is to generate high-quality math reasoning data without professional human annotations; the assumption is that a well pre-trained LLM already possesses mathematical knowledge to generate reasoning steps but needs better stimulation such as an advanced prompting or search strategy; unlike other methods such as Program-of-thought and Chain-of-thought, no solutions are required for the training data, just the math questions and the answers; the integration of LLMs, a value model, and the MCTS framework enables an effective and autonomous process of generating high-quality math reasoning data; the value model also aids the policy model in searching for effective solution paths.

논문 초록(Abstract)

최근 대규모 언어 모델(LLM)의 발전으로 수학적 추론 능력이 크게 향상되었습니다. 그러나 이러한 모델은 여전히 여러 추론 단계를 거쳐야 하는 복잡한 문제에 어려움을 겪고 있으며, 논리적 또는 수치적 오류를 자주 발생시킵니다. 수치상의 오류는 코드 인터프리터를 통합하여 대부분 해결할 수 있지만, 중간 단계의 논리적 오류를 식별하는 것은 더 어렵습니다. 게다가 훈련을 위해 이러한 단계에 수동으로 주석을 달려면 비용이 많이 들 뿐만 아니라 전문 지식도 필요합니다. 이 연구에서는 몬테카를로 트리 검색(MCTS) 프레임워크를 활용하여 프로세스 감독과 평가 신호를 모두 자동으로 생성함으로써 수동 주석이 필요 없는 혁신적인 접근 방식을 소개합니다. 기본적으로 LLM이 잘 사전 학습되면 솔루션 없이도 수학적 질문과 최종 답변만 있으면 학습 데이터를 생성할 수 있습니다. 수학 영역에서 LLM의 추론 과정을 개선하도록 설계된 단계별 가치 모델을 훈련합니다. 실험 결과, MCTS로 강화된 LLM이 자동으로 생성한 솔루션을 사용하면 복잡한 수학적 추론 작업을 처리하는 모델의 숙련도가 크게 향상되는 것으로 나타났습니다.

Recent advancements in large language models (LLMs) have substantially enhanced their mathematical reasoning abilities. However, these models still struggle with complex problems that require multiple reasoning steps, frequently leading to logical or numerical errors. While numerical mistakes can largely be addressed by integrating a code interpreter, identifying logical errors within intermediate steps is more challenging. Moreover, manually annotating these steps for training is not only expensive but also demands specialized expertise. In this study, we introduce an innovative approach that eliminates the need for manual annotation by leveraging the Monte Carlo Tree Search (MCTS) framework to generate both the process supervision and evaluation signals automatically. Essentially, when a LLM is well pre-trained, only the mathematical questions and their final answers are required to generate our training data, without requiring the solutions. We proceed to train a step-level value model designed to improve the LLM's inference process in mathematical domains. Our experiments indicate that using automatically generated solutions by LLMs enhanced with MCTS significantly improves the model's proficiency in dealing with intricate mathematical reasoning tasks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1787678940158468283


닥터유레카 / DrEureka

논문 소개

LLM을 사용하여 시뮬레이션-실제 설계를 자동화 및 가속화하고, 목표 작업에 대한 물리 시뮬레이션을 요구하고 보상 함수와 도메인 무작위화 분포를 자동으로 구성하여 실제 세계로의 이전을 지원하며, 4족 보행 및 민첩한 조작 작업에서 기존 인간이 설계한 것과 경쟁할 수 있는 시뮬레이션-실제 구성을 발견하는 방법을 연구합니다.

Investigates using LLMs to automate and accelerate sim-to-real design; it requires the physics simulation for the target task and automatically constructs reward functions and domain randomization distributions to support real-world transfer; discovers sim-to-real configurations competitive with existing human-designed ones on quadruped locomotion and dexterous manipulation tasks.

논문 초록 (Abstract)

시뮬레이션에서 학습한 정책을 현실 세계로 옮기는 것은 로봇 기술을 대규모로 습득하는 데 유망한 전략입니다. 그러나 시뮬레이션에서 현실로 접근하는 방식은 일반적으로 작업 보상 함수와 시뮬레이션 물리 매개변수의 수동 설계 및 조정에 의존하기 때문에 프로세스가 느리고 사람의 노동 집약적입니다. 이 백서에서는 대규모 언어 모델(LLM)을 사용하여 심-투-리얼 설계를 자동화하고 가속화하는 방법을 살펴봅니다. 유니티의 LLM 기반 시뮬레이션 투 리얼 접근 방식은 대상 작업에 대한 물리 시뮬레이션만 필요하며, 적절한 보상 함수와 도메인 무작위화 분포를 자동으로 구성하여 실제 세계로의 이전을 지원합니다. 먼저 4족 보행 및 민첩한 조작 작업에서 기존 인간이 설계한 것과 경쟁할 수 있는 시뮬레이션 대 실제 구성을 발견할 수 있음을 보여줍니다. 그런 다음, 유니티의 접근 방식이 반복적인 수작업 설계 없이도 네발로 균형을 잡거나 요가 볼 위에서 걷기 같은 새로운 로봇 작업을 해결할 수 있음을 보여줍니다.

Transferring policies learned in simulation to the real world is a promising strategy for acquiring robot skills at scale. However, sim-to-real approaches typically rely on manual design and tuning of the task reward function as well as the simulation physics parameters, rendering the process slow and human-labor intensive. In this paper, we investigate using Large Language Models (LLMs) to automate and accelerate sim-toreal design. Our LLM-guided sim-to-real approach requires only the physics simulation for the target task and automatically constructs suitable reward functions and domain randomization distributions to support real-world transfer. We first demonstrate our approach can discover sim-to-real configurations that are competitive with existing human-designed ones on quadruped locomotion and dexterous manipulation tasks. Then, we showcase that our approach is capable of solving novel robot tasks, such as quadruped balancing and walking atop a yoga ball, without iterative manual design.

논문 링크

더 읽어보기

https://x.com/DrJimFan/status/1786429467537088741


CLLM: 일관성 있는 대규모 언어 모델 / CLLMs: Consistency Large Language Models

논문 소개

추론 단계당 n-토큰 시퀀스를 디코딩하여 추론 대기 시간을 줄이는 효율적인 병렬 디코더 제안; 이 작업의 영감은 단어 하나하나를 표현하기 전에 완전한 문장을 형성하는 인간의 능력에서 비롯됨; 이 과정은 병렬 디코딩을 수행하도록 사전 훈련된 LLM을 미세 조정함으로써 모방 및 학습할 수 있음; 무작위로 초기화된 n-토큰 시퀀스를 가능한 한 적은 단계로 자동 회귀(AR) 디코딩으로 얻은 동일한 결과에 매핑하여 병렬 디코딩을 수행하도록 훈련됨; 일관성 손실은 다중 토큰 예측에 도움이 되며 표준 AR 손실은 목표 LLM에서 벗어나는 것을 방지하고 생성 품질을 보장합니다. 생성 품질은 유지하면서 생성 속도가 2.4배에서 3.4배 향상되었습니다.

Proposes efficient parallel decoders that reduce inference latency by decoding n-token sequence per inference step; the inspiration for this work comes from the human's ability to form complete sentences before articulating word by word; this process can be mimicked and learned through fine-tuning pre-trained LLMs to perform parallel decoding; it is trained to perform parallel decoding by mapping randomly initialized n-token sequences to the same result yielded by autoregressive (AR) decoding in as few steps as possible; a consistency loss helps with multiple-token prediction and a standard AR loss prevents deviation from the target LLM and ensures generation quality. Shows 2.4x to 3.4x improvements in generation speed while preserving the generation quality.

논문 초록(Abstract)

Jacobi 디코딩과 같은 병렬 디코딩 방법은 LLM 디코딩 프로세스의 순차적 특성을 깨고 병렬화 가능한 계산으로 변환하기 때문에 보다 효율적인 LLM 추론에 대한 가능성을 보여줍니다. 그러나 실제로는 기존의 자동 회귀(AR) 디코딩에 비해 속도가 거의 향상되지 않는데, 이는 Jacobi 디코딩이 단일 고정점 반복 단계에서 하나 이상의 토큰을 정확하게 예측하는 경우가 드물기 때문입니다. 이 문제를 해결하기 위해 저희는 모든 상태에서 Jacobi 궤적의 고정점까지 빠른 수렴을 실현하는 새로운 접근 방식을 개발했습니다. 이는 모든 상태를 입력으로 주어졌을 때 일관되게 고정점을 예측하도록 목표 LLM을 개선함으로써 달성됩니다. 광범위한 실험을 통해 도메인별 벤치마크와 오픈 도메인 벤치마크 모두에서 생성 품질을 유지하면서 생성 속도가 2.4배에서 3.4배 향상된 것으로 나타나 이 방법의 효과가 입증되었습니다.

Parallel decoding methods such as Jacobi decoding show promise for more efficient LLM inference as it breaks the sequential nature of the LLM decoding process and transforms it into parallelizable computation. However, in practice, it achieves little speedup compared to traditional autoregressive (AR) decoding, primarily because Jacobi decoding seldom accurately predicts more than one token in a single fixed-point iteration step. To address this, we develop a new approach aimed at realizing fast convergence from any state to the fixed point on a Jacobi trajectory. This is accomplished by refining the target LLM to consistently predict the fixed point given any state as input. Extensive experiments demonstrate the effectiveness of our method, showing 2.4$\times$ to 3.4$\times$ improvements in generation speed while preserving generation quality across both domain-specific and open-domain benchmarks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1788594039865958762


플래시 어텐션은 안정적인가요? / Is Flash Attention Stable?

논문 소개

수치 편차의 영향을 이해하는 접근법을 개발하고 이를 널리 채택된 플래시 어텐션 최적화에 적용하여 플래시 어텐션이 BF16에서 기준 어텐션에 비해 대략 몇 배 더 많은 수치 편차를 보인다는 사실을 발견했습니다.

Develops an approach to understanding the effects of numeric deviation and applies it to the widely-adopted Flash Attention optimization; finds that Flash Attention sees roughly an order of magnitude more numeric deviation as compared to Baseline Attention at BF16.

논문 초록(Abstract)

오늘날 워크로드의 규모와 복잡성을 고려할 때 대규모 머신 러닝 모델을 훈련하는 것은 시스템적으로 뚜렷한 과제를 안고 있습니다. 최근 최첨단 생성 AI 모델을 훈련하는 많은 조직에서 훈련 중 불안정한 사례가 보고되고 있으며, 이는 종종 손실 급증의 형태로 나타납니다. 수치 편차는 이러한 훈련 불안정의 잠재적 원인으로 부상했지만, 훈련 실행의 비용이 많이 드는 특성을 고려할 때 이를 정량화하는 것은 특히 어려운 일입니다. 이 연구에서는 수치 편차의 영향을 이해하기 위한 원칙적인 접근 방식을 개발하고, 다운스트림 효과를 정량화하기 어려운 경우 관찰 결과를 맥락에 맞출 수 있는 프록시를 구축합니다. 사례 연구로 이 프레임워크를 적용하여 널리 채택된 플래시 어텐션 최적화를 분석합니다. 플래시 어텐션은 격리된 포워드 패스 중에 측정했을 때 BF16에서 기준 어텐션에 비해 약 10배 이상의 수치 편차를 보이는 것으로 나타났습니다. 그런 다음 바서스타인 거리(Wasserstein Distance)를 기반으로 한 데이터 기반 분석을 사용하여 이 수치 편차가 훈련 중 모델 가중치에 미치는 영향에 대한 상한선을 제공한 결과, 플래시 어텐션에 존재하는 수치 편차가 저정밀 훈련보다 2~5배 덜 중요하다는 사실을 발견했습니다.

Training large-scale machine learning models poses distinct system challenges, given both the size and complexity of today's workloads. Recently, many organizations training state-of-the-art Generative AI models have reported cases of instability during training, often taking the form of loss spikes. Numeric deviation has emerged as a potential cause of this training instability, although quantifying this is especially challenging given the costly nature of training runs. In this work, we develop a principled approach to understanding the effects of numeric deviation, and construct proxies to put observations into context when downstream effects are difficult to quantify. As a case study, we apply this framework to analyze the widely-adopted Flash Attention optimization. We find that Flash Attention sees roughly an order of magnitude more numeric deviation as compared to Baseline Attention at BF16 when measured during an isolated forward pass. We then use a data-driven analysis based on the Wasserstein Distance to provide upper bounds on how this numeric deviation impacts model weights during training, finding that the numerical deviation present in Flash Attention is 2-5 times less significant than low-precision training.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1787674624647414168


소라는 월드 시뮬레이터인가요? 일반 월드 모델과 그 너머에 대한 종합적인 서베이 논문 / Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

논문 소개

월드 모델을 통해 매우 사실적인 시각적 콘텐츠를 합성할 수 있는 동영상 제작의 제너레이티브 방법론에 대한 개요를 제시하고, 월드 모델의 과제와 한계를 살펴보고 향후 발전 방향에 대해 논의합니다.

Presents an overview of generative methodologies in video generation, where world models facilitate the synthesis of highly realistic visual content; examines challenges and limitations of world models, and discusses their potential future directions.

논문 초록(Abstract)

일반 세계 모델은 가상 환경부터 의사 결정 시스템에 이르기까지 다양한 애플리케이션의 초석 역할을 하는 인공 일반 지능(AGI)을 달성하기 위한 중요한 경로입니다. 최근에는 물리 법칙에 대한 초기 이해를 보여주는 놀라운 시뮬레이션 기능으로 인해 소라 모델의 출현이 큰 주목을 받고 있습니다. 이 서베이 논문에서는 세계 모델의 최신 발전에 대한 포괄적인 탐구에 착수합니다. 월드 모델이 매우 사실적인 시각적 콘텐츠의 합성을 촉진하는 중추적인 구성 요소로 자리 잡은 비디오 제작 방법론의 최전선을 탐색합니다. 또한 급성장하고 있는 자율주행 월드 모델 분야를 면밀히 분석하여 교통과 도시 이동성을 재편하는 데 있어 없어서는 안 될 역할을 꼼꼼하게 설명합니다. 또한 자율 에이전트 내에 배포된 월드 모델에 내재된 복잡성을 탐구하여 역동적인 환경 맥락에서 지능적인 상호 작용을 가능하게 하는 데 있어 월드 모델이 갖는 심오한 의미를 조명합니다. 마지막으로 세계 모델의 도전 과제와 한계를 살펴보고 향후 발전 방향에 대해 논의합니다. 이번 서베이 논문이 연구 커뮤니티의 기초 자료로 활용되어 지속적인 혁신에 영감을 줄 수 있기를 바랍니다. 이 서베이 논문은 GitHub - GigaAI-research/General-World-Models-Survey 에서 정기적으로 업데이트됩니다.

General world models represent a crucial pathway toward achieving Artificial General Intelligence (AGI), serving as the cornerstone for various applications ranging from virtual environments to decision-making systems. Recently, the emergence of the Sora model has attained significant attention due to its remarkable simulation capabilities, which exhibits an incipient comprehension of physical laws. In this survey, we embark on a comprehensive exploration of the latest advancements in world models. Our analysis navigates through the forefront of generative methodologies in video generation, where world models stand as pivotal constructs facilitating the synthesis of highly realistic visual content. Additionally, we scrutinize the burgeoning field of autonomous-driving world models, meticulously delineating their indispensable role in reshaping transportation and urban mobility. Furthermore, we delve into the intricacies inherent in world models deployed within autonomous agents, shedding light on their profound significance in enabling intelligent interactions within dynamic environmental contexts. At last, we examine challenges and limitations of world models, and discuss their potential future directions. We hope this survey can serve as a foundational reference for the research community and inspire continued innovation. This survey will be regularly updated at: GitHub - GigaAI-research/General-World-Models-Survey.

논문 링크


MAmmoTH2: 웹에서의 확장 지침 / MAmmoTH2: Scaling Instructions from the Web

논문 소개

사전 학습 웹 코퍼스에서 자연적으로 존재하는 천만 개의 명령어 데이터를 수집하여 LLM 추론을 향상시키고, 먼저 관련 문서를 불러와 명령어-응답 쌍을 추출한 다음 오픈 소스 LLM을 사용하여 추출된 쌍을 정제하는 접근 방식; MAmmoTH2-7B(Mistral)의 성능은 MATH에서 11%에서 34%로, GSM8K에서 36%에서 67%로 향상됩니다.

Harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning; the approach first recalls relevant documents, extracts instruction-response pairs, and then refines the extracted pairs using open-source LLMs; MAmmoTH2-7B's (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K.

논문 초록(Abstract)

인스트럭션 튜닝은 데이터 품질과 확장성이 중요한 요소인 대규모 언어 모델(LLM)의 추론 능력을 향상시킵니다. 대부분의 명령어 튜닝 데이터는 사람이 직접 크라우드 소싱하거나 GPT-4 증류를 통해 수집합니다. 저희는 사전 학습 웹 말뭉치에서 자연적으로 존재하는 천만 개의 명령어 데이터를 효율적으로 수집하여 LLM 추론을 강화하는 패러다임을 제안합니다. 우리의 접근 방식은 (1) 관련 문서를 불러오고, (2) 명령어-응답 쌍을 추출하고, (3) 추출된 쌍을 오픈 소스 LLM을 사용하여 정제하는 것으로 구성됩니다. 이 데이터 세트에서 기본 LLM을 미세 조정하여 추론 벤치마크에서 성능을 크게 향상시키는 MAmmoTH2 모델을 구축합니다. 특히, 도메인 내 데이터에 대한 학습 없이도 MAmmoTH2-7B(Mistral)의 성능은 MATH에서 11%에서 34%로, GSM8K에서 36%에서 67%로 향상되었습니다. 공개 명령어 튜닝 데이터 세트에 대해 MAmmoTH2를 추가로 훈련하면 여러 추론 및 챗봇 벤치마크에서 최첨단 성능을 달성하는 MAmmoTH2-Plus가 생성됩니다. 이 연구는 비용이 많이 드는 사람의 주석이나 GPT-4 증류 없이 대규모의 고품질 명령어 데이터를 수집하는 방법을 보여줌으로써 더 나은 명령어 튜닝 데이터를 구축하기 위한 새로운 패러다임을 제시합니다.

Instruction tuning improves the reasoning abilities of large language models (LLMs), with data quality and scalability being the crucial factors. Most instruction tuning data come from human crowd-sourcing or GPT-4 distillation. We propose a paradigm to efficiently harvest 10 million naturally existing instruction data from the pre-training web corpus to enhance LLM reasoning. Our approach involves (1) recalling relevant documents, (2) extracting instruction-response pairs, and (3) refining the extracted pairs using open-source LLMs. Fine-tuning base LLMs on this dataset, we build MAmmoTH2 models, which significantly boost performance on reasoning benchmarks. Notably, MAmmoTH2-7B's (Mistral) performance increases from 11% to 34% on MATH and from 36% to 67% on GSM8K without training on any in-domain data. Further training MAmmoTH2 on public instruction tuning datasets yields MAmmoTH2-Plus, achieving state-of-the-art performance on several reasoning and chatbot benchmarks. Our work demonstrates how to harvest large-scale, high-quality instruction data without costly human annotation or GPT-4 distillation, providing a new paradigm for building better instruction tuning data.

논문 링크

더 읽어보기

https://x.com/xiangyue96/status/1787684680336097645


Granite 코드 모델: 코드 인텔리전스를 위한 오픈 파운데이션 모델 제품군 / Granite Code Models: A Family of Open Foundation Models for Code Intelligence

논문 소개

116개 프로그래밍 언어로 작성된 코드로 학습된 일련의 코드 모델인 Granite는 애플리케이션 현대화 작업부터 온디바이스 메모리 제약이 있는 사용 사례까지 다양한 애플리케이션에 적합한 30억~340억 개의 파라미터로 구성되어 있으며, 사용 가능한 오픈 소스 코드 LLM 중 최첨단 성능에 도달하는 모델임을 입증합니다.

Introduce Granite, a series of code models trained with code written in 116 programming languages; it consists of models ranging in size from 3 to 34 billion parameters, suitable for applications ranging from application modernization tasks to on-device memory-constrained use cases; demonstrates that the models reach state-of-the-art performance among available open-source code LLMs.

논문 초록(Abstract)

코드에 대해 학습된 대규모 언어 모델(LLM)이 소프트웨어 개발 프로세스에 혁신을 일으키고 있습니다. 인간 프로그래머의 생산성을 향상시키기 위해 소프트웨어 개발 환경에 코드 LLM이 점점 더 많이 통합되고 있으며, 복잡한 작업을 자율적으로 처리할 수 있는 LLM 기반 에이전트가 그 가능성을 보이기 시작했습니다. 코드 LLM의 잠재력을 최대한 실현하려면 코드 생성, 버그 수정, 코드 설명 및 문서화, 리포지토리 유지 관리 등 다양한 기능이 필요합니다. 이번 작업에서는 116개 프로그래밍 언어로 작성된 코드로 학습된 코드 생성 작업을 위한 디코더 전용 코드 모델인 Granite 시리즈를 소개합니다. Granite 코드 모델 제품군은 복잡한 애플리케이션 현대화 작업부터 온디바이스 메모리 제약이 있는 사용 사례에 이르기까지 다양한 애플리케이션에 적합한 30억~340억 개의 파라미터로 구성된 모델들로 구성되어 있습니다. 포괄적인 작업 세트에 대한 평가 결과, Granite Code 모델은 사용 가능한 오픈 소스 코드 LLM 중에서 일관되게 최신 성능에 도달하는 것으로 나타났습니다. Granite Code 모델 제품군은 엔터프라이즈 소프트웨어 개발 워크플로에 최적화되었으며 다양한 코딩 작업(예: 코드 생성, 수정 및 설명)에서 우수한 성능을 발휘하여 다용도 코드 모델로 활용되고 있습니다. 모든 Granite Code 모델은 연구 및 상업적 용도로 Apache 2.0 라이선스에 따라 배포됩니다.

Large Language Models (LLMs) trained on code are revolutionizing the software development process. Increasingly, code LLMs are being integrated into software development environments to improve the productivity of human programmers, and LLM-based agents are beginning to show promise for handling complex tasks autonomously. Realizing the full potential of code LLMs requires a wide range of capabilities, including code generation, fixing bugs, explaining and documenting code, maintaining repositories, and more. In this work, we introduce the Granite series of decoder-only code models for code generative tasks, trained with code written in 116 programming languages. The Granite Code models family consists of models ranging in size from 3 to 34 billion parameters, suitable for applications ranging from complex application modernization tasks to on-device memory-constrained use cases. Evaluation on a comprehensive set of tasks demonstrates that Granite Code models consistently reaches state-of-the-art performance among available open-source code LLMs. The Granite Code model family was optimized for enterprise software development workflows and performs well across a range of coding tasks (e.g. code generation, fixing and explanation), making it a versatile all around code model. We release all our Granite Code models under an Apache 2.0 license for both research and commercial use.

논문 링크

더 읽어보기

https://x.com/rohanpaul_ai/status/1788194161495052343


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: