[2024/05/27 ~ 06/02] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/05/27 ~ 06/02] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들에는 두 가지 주요 경향이 두드러지게 나타납니다. 첫 번째는 (지금까지도 그랬었지만) 언어 모델링 및 자연어 처리(NLP) 관련 연구들이 많았다는 점입니다. 예를 들어, 'Symbolic Chain-of-Thought', 'Are Long-LLMs A Necessity For Long-Context Tasks?', 그리고 'Financial Statement Analysis with LLMs' 등의 논문이 이에 해당합니다. 이러한 논문들은 언어 모델링의 최신 동향, 긴 문맥 처리에 대한 Long-LLMs(Long Language Models)의 필요성, 그리고 특정 분야(금융 문서 분석과 같은)에서의 언어 모델의 적용 방법 등을 탐구하고 있습니다.

  • 두 번째 경향은 다양한 모델링 접근법과 아키텍처 탐색이었습니다. 'Contextual Position Encoding', 'Abacus Embeddings', 'Attention as an RNN' 등은 이 분야에서 눈에 띄는 예입니다. 이러한 논문들은 기존의 모델 아키텍처를 변형하거나 새로운 종류의 임베딩 및 인코딩 방법을 제시하여 기계 학습 모델의 성능을 향상시키는 데 중점을 두고 있습니다. 특히 'Contextual Position Encoding'과 'Abacus Embeddings'는 모델에 위치나 문맥에 관련된 정보를 더 효과적으로 통합하는 새로운 방식을 제안하고 있으며, 'Attention as an RNN'은 기존의 Attention 메커니즘을 순환 신경망(RNN)으로 재해석함으로써 정보 처리 방식을 개선하려는 시도를 보여줍니다.

  • 이런 경향은 인공지능 연구 분야에서 자연어 처리의 중요성이 계속해서 증가하고 있음을 나타냅니다. 언어는 인간의 지능을 이해하고 모방하는데 매우 중요한 요소이기 때문에, 효과적으로 언어를 처리하고 이해할 수 있는 모델을 개발하는 것은 AI 연구의 주요 목표 중 하나입니다. 또한, 모델의 아키텍처와 임베딩 기법의 혁신은 이러한 목표를 달성하기 위한 필수적인 단계로, AI 모델이 더욱 복잡하고 다양한 데이터를 처리할 수 있게 해주고, 모델의 효율성과 성능을 향상시키는 데 기여할 수 있을 것으로 보입니다.


컨텍스트 위치 인코딩(CoPE): 중요한 것을 세는 법 배우기 / Contextual Position Encoding: Learning to Count What's Important

논문 소개

특정 토큰에서만 위치를 증가시켜 문맥에 따라 위치를 조절할 수 있는 새로운 위치 인코딩 방법인 CoPE를 제안합니다. 위치 인코딩은 문맥에 따라 달라지며 다양한 수준의 위치 추상화를 나타낼 수 있고, 일반적인 위치 인코딩 방법은 특정 단어, 명사 또는 문장에 주목할 수 있으며 언어 모델링 및 코딩 작업의 복잡성을 개선할 수 있습니다.

Proposes a new position encoding method, CoPE, to enable the position to be conditioned on context by incrementing position only on certain tokens; the position encoding is context-dependent and can represent different levels of position abstraction; the general position encoding method can attend to the i-th particular word, noun, or sentence; improves perplexity on language modeling and coding tasks.

논문 초록(Abstract)

주의 메커니즘은 시퀀스의 토큰이 서로 상호 작용할 수 있도록 하는 대규모 언어 모델(LLM)의 핵심 구성 요소이지만 순서에 구애받지 않습니다. 위치 인코딩(PE)을 통합하면 i 번째 토큰에 대한 어텐딩과 같이 위치별로 주소를 지정할 수 있습니다. 그러나 현재의 PE 방식은 토큰 수를 사용해 위치를 도출하기 때문에 i 번째 문장에 대한 어텐딩과 같이 더 높은 수준의 추상화로 일반화할 수 없습니다. 이 논문에서는 모델에 의해 결정된 특정 토큰에 대해서만 위치를 증가시킴으로써 문맥에 따라 위치를 조절할 수 있는 새로운 위치 인코딩 방법인 컨텍스트 위치 인코딩(CoPE)을 제안합니다. 이를 통해 특정 단어, 명사 또는 문장에 i 를 붙이는 것과 같은 보다 일반적인 위치 주소 지정이 가능합니다. 우리는 CoPE가 일반적인 위치 임베딩이 실패하는 선택적 복사, 계산 및 플립플롭 작업을 해결할 수 있으며 언어 모델링 및 코딩 작업의 난해성을 개선할 수 있음을 보여줍니다.

The attention mechanism is a critical component of Large Language Models (LLMs) that allows tokens in a sequence to interact with each other, but is order-invariant. Incorporating position encoding (PE) makes it possible to address by position, such as attending to the i-th token. However, current PE methods use token counts to derive position, and thus cannot generalize to higher levels of abstraction, such as attending to the i-th sentence. In this paper, we propose a new position encoding method, Contextual Position Encoding (CoPE), that allows positions to be conditioned on context by incrementing position only on certain tokens determined by the model. This allows more general position addressing such as attending to the i-th particular word, noun, or sentence. We show that CoPE can solve the selective copy, counting and Flip-Flop tasks where popular position embeddings fail, and improves perplexity on language modeling and coding tasks.

논문 링크

더 읽어보기

https://x.com/jaseweston/status/1795978611784089799


상징적 사고 연쇄(Symbolic CoT)를 통한 충실한 논리적 추론 / Faithful Logical Reasoning via Symbolic Chain-of-Thought

논문 소개

기호적 표현과 논리 규칙을 생각의 사슬(CoT) 프롬프트와 통합하여 LLM의 논리적 추론 능력을 향상시키는 방법을 제안합니다. 이 프롬프트 기법을 기호적 생각의 사슬이라고 하며 다음과 같은 주요 단계를 포함하는 완전한 LLM 기반 프레임워크입니다: 1) 자연어 문맥을 기호 형식으로 번역하고, 2) 기호 논리 규칙에 따라 문제를 해결하기 위한 단계별 계획을 도출하며, 3) 검증기를 사용하여 번역 및 추론 체인을 확인합니다.

Proposes a method that improves the logical reasoning capabilities of LLMs by integrating symbolic expressions and logical rules with chain-of-thought (CoT) prompting; the prompting technique is called Symbolic Chain-of-Thought and it’s a fully LLM-based framework with the following key steps: 1) translates natural language context to symbolic format, 2) derives step-by-step plan to solve problems following symbolic logical rules, and 3) uses a verifier to check the translation and reasoning chain.

논문 초록(Abstract)

최근의 생각의 연쇄(CoT) 기법은 마음 이론으로 대규모 언어 모델(LLM)의 추론 능력을 향상시키지만, 상징적 표현과 엄격한 추론 규칙에 많이 의존하는 논리적 추론을 처리하는 데는 여전히 어려움을 겪을 수 있습니다. LLM의 논리적 추론 능력을 강화하기 위해 저희는 상징적 표현과 논리 규칙을 CoT 프롬프트와 통합하는 새로운 상징적 사고 체인, 즉 완전한 LLM 기반 프레임워크인 SymbCoT를 제안합니다. 기술적으로 LLM을 기반으로 하는 SymbCoT는 1) 먼저 자연어 문맥을 기호 형식으로 번역하고, 2) 기호 논리 규칙으로 문제를 해결하기 위한 단계별 계획을 도출한 다음, 3) 검증자가 번역 및 추론 체인을 확인합니다. 일차 논리 및 제약 조건 최적화 기호 표현식이 모두 포함된 5개의 표준 데이터 세트에 대한 철저한 평가를 통해 SymbCoT는 CoT 방식에 비해 지속적으로 눈에 띄는 개선을 보이는 동시에 현재의 최첨단 성능을 갱신합니다. 또한 시스템이 더욱 충실하고 유연하며 설명 가능한 논리적 추론으로 발전했음을 보여줍니다. 저희가 아는 한, LLM을 이용한 논리적 추론을 위해 기호 표현식과 규칙을 CoT에 결합한 것은 이번이 처음입니다. 코드는 GitHub - Aiden0526/SymbCoT: Codes and Data for ACL 2024 Paper "Faithful Logical Reasoning via Symbolic Chain-of-Thought". 에서 공개되어 있습니다.

While the recent Chain-of-Thought (CoT) technique enhances the reasoning ability of large language models (LLMs) with the theory of mind, it might still struggle in handling logical reasoning that relies much on symbolic expressions and rigid deducing rules. To strengthen the logical reasoning capability of LLMs, we propose a novel Symbolic Chain-of-Thought, namely SymbCoT, a fully LLM-based framework that integrates symbolic expressions and logic rules with CoT prompting. Technically, building upon an LLM, SymbCoT 1) first translates the natural language context into the symbolic format, and then 2) derives a step-by-step plan to solve the problem with symbolic logical rules, 3) followed by a verifier to check the translation and reasoning chain. Via thorough evaluations on 5 standard datasets with both First-Order Logic and Constraint Optimization symbolic expressions, SymbCoT shows striking improvements over the CoT method consistently, meanwhile refreshing the current state-of-the-art performances. We further demonstrate that our system advances in more faithful, flexible, and explainable logical reasoning. To our knowledge, this is the first to combine symbolic expressions and rules into CoT for logical reasoning with LLMs. Code is open at GitHub - Aiden0526/SymbCoT: Codes and Data for ACL 2024 Paper "Faithful Logical Reasoning via Symbolic Chain-of-Thought"..

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1795925943543898157


올바른 임베딩으로 산술 연산이 가능한 트랜스포머 / Transformers Can Do Arithmetic with the Right Embeddings

논문 소개

단일 GPU로 20자리 숫자만 학습하여 100자리 덧셈 문제에서 99%의 정확도 달성; 이 작업이 해결하는 주요 과제는 트랜스포머가 숫자의 정확한 위치를 추적할 수 없다는 것인데, 각 숫자에 숫자 시작을 기준으로 위치를 인코딩하는 임베딩을 추가하여 이를 수행하며 이러한 이점은 정렬과 곱셈을 포함한 다단계 추론 작업에도 적용됩니다.

Achieves 99% accuracy on 100-digit addition problems by training on only 20-digit numbers with a single GPU; the main challenge this work addresses is the inability of transformers to track the exact position of digits; they do this by adding an embedding to each digit that encodes its position relative to the start of the number; these gains also transfer to multi-step reasoning tasks that include sorting and multiplication.

논문 초록(Abstract)

산술 작업에서 트랜스포머의 성능이 좋지 않은 것은 큰 숫자 범위 내에서 각 숫자의 정확한 위치를 추적하지 못하기 때문인 것으로 보입니다. 각 숫자에 숫자 시작을 기준으로 위치를 인코딩하는 임베딩을 추가하여 이 문제를 해결했습니다. 이러한 임베딩은 그 자체로 성능을 향상시킬 뿐만 아니라, 입력 주입 및 반복 레이어와 같은 아키텍처 수정을 통해 성능을 더욱 향상시킬 수 있음을 보여줍니다. 위치 문제가 해결되면 트랜스포머의 논리적 외삽 능력을 연구할 수 있습니다. 훈련 데이터보다 더 크고 복잡한 산술 문제를 해결할 수 있을까요? 하루 동안 단일 GPU로 20자리 숫자로만 훈련하면 100자리 덧셈 문제에서 최대 99%의 정확도를 달성하는 최첨단 성능에 도달할 수 있음을 확인했습니다. 또한 이러한 수리 능력의 향상은 정렬과 곱셈을 비롯한 다른 다단계 추론 작업에서도 개선된 결과를 보여줍니다.

The poor performance of transformers on arithmetic tasks seems to stem in large part from their inability to keep track of the exact position of each digit inside of a large span of digits. We mend this problem by adding an embedding to each digit that encodes its position relative to the start of the number. In addition to the boost these embeddings provide on their own, we show that this fix enables architectural modifications such as input injection and recurrent layers to improve performance even further. With positions resolved, we can study the logical extrapolation ability of transformers. Can they solve arithmetic problems that are larger and more complex than those in their training data? We find that training on only 20 digit numbers with a single GPU for one day, we can reach state-of-the-art performance, achieving up to 99% accuracy on 100 digit addition problems. Finally, we show that these gains in numeracy also unlock improvements on other multi-step reasoning tasks including sorting and multiplication.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1795552696432202045


비전 언어 모델링 소개 / An Introduction to Vision-Language Modeling

논문 소개

에서는 시각 언어 모델에 대한 소개와 함께 작동 방식 및 이러한 모델을 효과적으로 훈련하는 방법에 대한 주요 세부 정보를 제공합니다.

presents an introduction to vision-language models along with key details of how they work and how to effectively train these models.

논문 초록(Abstract)

최근 대규모 언어 모델(LLM)의 인기에 힘입어 이를 시각 영역으로 확장하려는 여러 시도가 이루어지고 있습니다. 낯선 환경을 안내하는 시각적 도우미부터 높은 수준의 텍스트 설명만으로 이미지를 생성하는 제너레이티브 모델까지, 비전 언어 모델(VLM) 애플리케이션은 기술과 인간의 관계에 큰 영향을 미칠 것입니다. 그러나 이러한 모델의 신뢰성을 향상시키기 위해 해결해야 할 과제가 많습니다. 언어는 불연속적인 반면, 시각은 훨씬 더 고차원적인 공간에서 진화하기 때문에 개념을 항상 쉽게 구분할 수 없습니다. 비전을 언어에 매핑하는 메커니즘을 더 잘 이해하기 위해, 이 분야에 입문하고자 하는 모든 사람에게 도움이 되기를 바라며 VLM에 대해 소개합니다. 먼저 VLM이 무엇인지, 어떻게 작동하는지, 어떻게 훈련하는지에 대해 소개합니다. 그런 다음 VLM을 평가하는 방법을 제시하고 논의합니다. 이 작업은 주로 이미지를 언어에 매핑하는 데 중점을 두지만, VLM을 동영상으로 확장하는 방법도 논의합니다.

Following the recent popularity of Large Language Models (LLMs), several attempts have been made to extend them to the visual domain. From having a visual assistant that could guide us through unfamiliar environments to generative models that produce images using only a high-level text description, the vision-language model (VLM) applications will significantly impact our relationship with technology. However, there are many challenges that need to be addressed to improve the reliability of those models. While language is discrete, vision evolves in a much higher dimensional space in which concepts cannot always be easily discretized. To better understand the mechanics behind mapping vision to language, we present this introduction to VLMs which we hope will help anyone who would like to enter the field. First, we introduce what VLMs are, how they work, and how to train them. Then, we present and discuss approaches to evaluate VLMs. Although this work primarily focuses on mapping images to language, we also discuss extending VLMs to videos.

논문 링크

더 읽어보기

https://x.com/AIatMeta/status/1795499770519392499


GNN-RAG: 대규모 언어 모델 추론을 위한 그래프 신경망 검색 / GNN-RAG: Graph Neural Retrieval for Large Language Model Reasoning

논문 소개

LLM의 언어 이해 능력과 GNN의 추론 능력을 RAG 스타일로 결합, GNN은 유용하고 관련성 있는 그래프 정보를 추출하고 LLM은 그 정보를 가져와 지식 그래프에 대한 질문 답변(KGQA)을 수행하는 기능을 활용, GNN-RAG는 KGQA에서 바닐라 LLM을 개선하고 7B 튜닝된 LLM으로 GPT-4 성능을 뛰어넘거나 그와 비슷한 성능을 발휘합니다.

Combines the language understanding abilities of LLMs with the reasoning abilities of GNNs in a RAG style; the GNN extracts useful and relevant graph information while the LLM takes the information and leverages its capabilities to perform question answering over knowledge graphs (KGQA); GNN-RAG improves vanilla LLMs on KGQA and outperforms or matches GPT-4 performance with a 7B tuned LLM.

논문 초록(Abstract)

지식 그래프(KG)는 사람이 만든 사실적 지식을 세 쌍둥이(머리, 관계, 꼬리) 형태로 나타내며, 이 세 쌍둥이가 모여 그래프를 형성합니다. KG에 대한 질문 답변(KGQA)은 KG가 제공하는 정보에 근거한 추론을 바탕으로 자연스러운 질문에 답변하는 작업입니다. 대규모 언어 모델(LLM)은 자연어 이해 능력이 뛰어나기 때문에 QA 작업에 사용되는 최첨단 모델입니다. 반면, 그래프 신경망(GNN)은 KG에 저장된 복잡한 그래프 정보를 처리할 수 있어 KGQA에 널리 사용되어 왔습니다. 본 연구에서는 LLM의 언어 이해 능력과 GNN의 추론 능력을 검색 증강 생성(RAG) 방식으로 결합하는 새로운 방법인 GNN-RAG를 소개합니다. 먼저, GNN은 조밀한 KG 하위 그래프를 추론하여 주어진 질문에 대한 답변 후보를 검색합니다. 둘째, KG에서 질문 엔티티와 답변 후보를 연결하는 최단 경로를 추출하여 KG 추론 경로를 나타냅니다. 추출된 경로는 언어화되어 RAG를 사용한 LLM 추론의 입력으로 제공됩니다. GNN-RAG 프레임워크에서 GNN은 유용한 그래프 정보를 추출하는 고밀도 하위 그래프 추론자 역할을 하고, LLM은 자연어 처리 능력을 활용하여 궁극적인 KGQA를 수행합니다. 또한, 검색 증강(RA) 기술을 개발하여 GNN-RAG로 KGQA 성능을 더욱 향상시킵니다. 실험 결과에 따르면 GNN-RAG는 널리 사용되는 두 가지 KGQA 벤치마크(WebQSP 및 CWQ)에서 최첨단 성능을 달성하여 7B로 튜닝된 LLM을 사용한 GPT-4 성능을 능가하거나 이와 비슷한 성능을 보였습니다. 또한 GNN-RAG는 멀티홉 및 다중 엔티티 질문에서 탁월한 성능을 발휘하여 정답 F1에서 경쟁 접근 방식보다 8.9~15.5% 포인트 더 높은 성능을 보입니다.

Knowledge Graphs (KGs) represent human-crafted factual knowledge in the form of triplets (head, relation, tail), which collectively form a graph. Question Answering over KGs (KGQA) is the task of answering natural questions grounding the reasoning to the information provided by the KG. Large Language Models (LLMs) are the state-of-the-art models for QA tasks due to their remarkable ability to understand natural language. On the other hand, Graph Neural Networks (GNNs) have been widely used for KGQA as they can handle the complex graph information stored in the KG. In this work, we introduce GNN-RAG, a novel method for combining language understanding abilities of LLMs with the reasoning abilities of GNNs in a retrieval-augmented generation (RAG) style. First, a GNN reasons over a dense KG subgraph to retrieve answer candidates for a given question. Second, the shortest paths in the KG that connect question entities and answer candidates are extracted to represent KG reasoning paths. The extracted paths are verbalized and given as input for LLM reasoning with RAG. In our GNN-RAG framework, the GNN acts as a dense subgraph reasoner to extract useful graph information, while the LLM leverages its natural language processing ability for ultimate KGQA. Furthermore, we develop a retrieval augmentation (RA) technique to further boost KGQA performance with GNN-RAG. Experimental results show that GNN-RAG achieves state-of-the-art performance in two widely used KGQA benchmarks (WebQSP and CWQ), outperforming or matching GPT-4 performance with a 7B tuned LLM. In addition, GNN-RAG excels on multi-hop and multi-entity questions outperforming competing approaches by 8.9--15.5% points at answer F1.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1796578239105679585


Aaren: RNN으로서의 어텐션 / Attention as an RNN

논문 소개

트랜스포머처럼 병렬로 훈련할 수 있고 추론에 지속적인 메모리 사용이 필요한 새로운 토큰(예: RNN)으로 효율적으로 업데이트할 수 있는 새로운 어텐션 메커니즘을 제시합니다. 어텐션 공식은 병렬 접두사 스캔 알고리즘을 기반으로 하여 어텐션의 many-to-many RNN 출력을 효율적으로 계산할 수 있으며 38개 데이터 세트에서 트랜스포머와 비슷한 성능을 달성하면서도 시간과 메모리 효율은 더 높습니다.

Presents a new attention mechanism that can be trained in parallel (like Transformers) and be updated efficiently with new tokens requiring constant memory usage for inferences (like RNNs); the attention formulation is based on the parallel prefix scan algorithm which enables efficient computation of attention’s many-to-many RNN output; achieves comparable performance to Transformers on 38 datasets while being more time and memory-efficient.

논문 초록(Abstract)

트랜스포머의 등장은 시퀀스 모델링의 획기적인 발전을 가져왔으며, GPU 병렬 처리를 활용할 수 있는 고성능 아키텍처를 제공했습니다. 그러나 트랜스포머는 추론 시 계산 비용이 많이 들기 때문에 특히 모바일 및 임베디드 장치와 같이 리소스가 부족한 환경에서는 적용이 제한됩니다. 이 문제를 해결하기 위해 (1) 주의력을 특수한 순환 신경망(RNN)으로 볼 수 있으며, 그 \textit{many-to-one} RNN 출력을 효율적으로 계산할 수 있습니다. 그런 다음 (2) 트랜스포머와 같이 널리 사용되는 주의 기반 모델을 RNN 변형으로 볼 수 있음을 보여줍니다. 그러나 기존 RNN(예: LSTM)과 달리 이러한 모델은 시퀀스 모델링에서 중요한 속성인 새로운 토큰으로 효율적으로 업데이트할 수 없습니다. 이 문제를 해결하기 위해 (3) 병렬 접두사 스캔 알고리즘을 기반으로 주의의 \textit{many-to-many} RNN 출력을 계산하는 새롭고 효율적인 방법을 도입합니다. (4) 새로운 주의 공식에 기반하여 (1) Transformers처럼 병렬로 훈련할 수 있을 뿐만 아니라 (2) 새로운 토큰으로 효율적으로 업데이트할 수 있으며 (3) 기존 RNN처럼 추론을 위해 일정한 메모리만 필요로 하는 주의 기반 모듈인 \textbf{Aaren} 을 소개합니다. 경험적으로, 강화 학습, 이벤트 예측, 시계열 분류, 시계열 예측 작업 등 네 가지 인기 있는 순차적 문제 설정에 걸쳐 38 데이터 세트에서 Aarens가 Transformers와 비슷한 성능을 달성하면서도 시간과 메모리 효율은 더 높다는 것을 보여줍니다.

The advent of Transformers marked a significant breakthrough in sequence modelling, providing a highly performant architecture capable of leveraging GPU parallelism. However, Transformers are computationally expensive at inference time, limiting their applications, particularly in low-resource settings (e.g., mobile and embedded devices). Addressing this, we (1) begin by showing that attention can be viewed as a special Recurrent Neural Network (RNN) with the ability to compute its \textit{many-to-one} RNN output efficiently. We then (2) show that popular attention-based models such as Transformers can be viewed as RNN variants. However, unlike traditional RNNs (e.g., LSTMs), these models cannot be updated efficiently with new tokens, an important property in sequence modelling. Tackling this, we (3) introduce a new efficient method of computing attention's \textit{many-to-many} RNN output based on the parallel prefix scan algorithm. Building on the new attention formulation, we (4) introduce \textbf{Aaren}, an attention-based module that can not only (i) be trained in parallel (like Transformers) but also (ii) be updated efficiently with new tokens, requiring only constant memory for inferences (like traditional RNNs). Empirically, we show Aarens achieve comparable performance to Transformers on 38 datasets spread across four popular sequential problem settings: reinforcement learning, event forecasting, time series classification, and time series forecasting tasks while being more time and memory-efficient.

논문 링크

더 읽어보기

https://x.com/iScienceLuvr/status/1793933723756286075


Aya 23: 다국어 발전을 위한 오픈 웨이트 출시 / Aya 23: Open Weight Releases to Further Multilingual Progress

논문 소개

최대 23개 언어를 지원할 수 있는 다국어 언어 모델 제품군은 의도적으로 적은 수의 언어에 집중하고 이러한 언어에 더 많은 용량을 할당하여 특정 언어에서 다른 대규모 다중 모드 모델보다 뛰어난 성능을 발휘할 수 있음을 보여줍니다.

A family of multilingual language models that can serve up to 23 languages; it intentionally focuses on fewer languages and allocates more capacity to these languages; shows that it can outperform other massive multimodal models on those specific languages.

논문 초록(Abstract)

이 기술 보고서에서는 다국어 언어 모델 제품군인 Aya 23을 소개합니다. Aya 23은 최근 출시된 Aya 모델("Ust"un 외, 2024)을 기반으로 구축되었으며, 고성능 사전 학습 모델을 최근 출시된 Aya 컬렉션(Singh 외, 2024)과 결합하는 데 중점을 두고 있습니다. 그 결과 23개 언어를 지원하는 강력한 다국어 대규모 언어 모델이 탄생하여 전 세계 인구의 약 절반을 대상으로 최첨단 언어 모델링 기능을 확장할 수 있게 되었습니다. Aya 모델은 101개 언어를 대상으로 한 반면, Aya 23은 깊이와 폭을 비교하는 실험으로, 사전 학습 시 더 적은 수의 언어에 더 많은 용량을 할당하는 것이 어떤 영향을 미치는지 탐구했습니다. Aya 23은 광범위한 판별 및 생성 작업에서 Aya 101과 같은 이전의 대규모 다국어 모델뿐만 아니라 Gemma, Mistral, Mixtral과 같이 널리 사용되는 모델보다 더 뛰어난 성능을 발휘합니다. 다국어 진행에 대한 접근성을 확대하기 위한 지속적인 노력의 일환으로 8B 및 35B 모델 모두에 대한 개방형 가중치를 출시합니다.

This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model ("Ust"un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world's population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.

논문 링크

더 읽어보기

https://x.com/CohereForAI/status/1794044201677574446


긴 컨텍스트가 필요한 작업에 Long-LLM이 필요한가요? / Are Long-LLMs A Necessity For Long-Context Tasks?

논문 소개

긴 맥락의 과제를 해결하기 위해 긴 맥락이 반드시 필요한 것은 아니라고 주장하고, 제시된 과제에 따라 맥락에 적응적으로 접근하고 활용함으로써 짧은 맥락의 과제를 해결할 수 있는 추론 프레임워크를 제안하며, 긴 맥락을 짧은 맥락으로 분해하고 의사결정 프로세스를 사용하여 처리합니다.

Claims that long-LLMs are not a necessity to solve long-context tasks; proposes a reasoning framework to enable short-LLMs to address long-context tasks by adaptively accessing and utilizing the context based on the presented tasks; it decomposes the long context into short contexts and processes them using a decision-making process.

논문 초록(Abstract)

최근의 진전에도 불구하고 Long-LLM의 학습과 배포는 여전히 어려운 문제로 남아 있습니다. 이 작업에서는 일반적인 긴 컨텍스트 작업은 짧은 컨텍스트에서 해결 가능하므로, 즉 긴 컨텍스트 작업의 입력 내에서 오라클 짧은 컨텍스트로 순수하게 작업하여 해결할 수 있으므로 긴 컨텍스트 작업을 해결하기 위해 긴-LLM이 반드시 필요한 것은 아니라고 주장합니다. 이러한 논거를 바탕으로 저희는 LC-Boost(긴 컨텍스트 부트스트래퍼)라는 프레임워크를 제안하여 짧은-LLM이 부트스트래핑 방식으로 긴 컨텍스트 작업을 처리할 수 있도록 합니다. 이 프레임워크에서는 짧은-LLM이 스스로 두 가지 중요한 결정을 내리도록 유도합니다: 1) 입력된 컨텍스트 내에서 적절한 부분에 액세스하는 방법, 2) 액세스한 컨텍스트를 효과적으로 활용하는 방법. 제시된 작업에 따라 컨텍스트에 적응적으로 접근하고 활용함으로써 LC-Boost는 다양한 긴 컨텍스트 처리 문제를 처리하는 일반적인 프레임워크 역할을 할 수 있습니다. 널리 사용되는 긴 컨텍스트 벤치마크에서 다양한 유형의 작업을 종합적으로 평가한 결과, LC-Boost는 훨씬 적은 리소스 소비로 상당히 향상된 성능을 달성할 수 있었습니다.

The learning and deployment of long-LLMs remains a challenging problem despite recent progresses. In this work, we argue that the long-LLMs are not a necessity to solve long-context tasks, as common long-context tasks are short-context solvable, i.e. they can be solved by purely working with oracle short-contexts within the long-context tasks' inputs. On top of this argument, we propose a framework called LC-Boost (Long-Context Bootstrapper), which enables a short-LLM to address the long-context tasks in a bootstrapping manner. In our framework, the short-LLM prompts itself to reason for two critical decisions: 1) how to access to the appropriate part of context within the input, 2) how to make effective use of the accessed context. By adaptively accessing and utilizing the context based on the presented tasks, LC-Boost can serve as a general framework to handle diversified long-context processing problems. We comprehensively evaluate different types of tasks from popular long-context benchmarks, where LC-Boost is able to achieve a substantially improved performance with a much smaller consumption of resource.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1795188655243264299


LLM을 사용한 재무 제표 분석 / Financial Statement Analysis with LLMs

논문 소개

LLM이 추세 및 재무 비율 분석을 통해 유용한 인사이트를 생성할 수 있다고 주장하고, GPT-4가 좁게 전문화된 모델과 동등한 성능을 보이며, GPT의 예측을 기반으로 수익성 있는 트레이딩 전략을 달성할 수 있다고 주장합니다.

Claims that LLMs can generate useful insights from its analysis of trends and financial ratios; shows that GPT-4 performs on par with narrowly specialized models; and achieves a profitable trading strategy based on GPT’s predictions.

논문 초록 (Abstract)

우리는 LLM이 전문 인간 분석가와 유사한 방식으로 재무제표 분석을 성공적으로 수행할 수 있는지 여부를 조사합니다. 표준화된 익명의 재무제표를 GPT4에 제공하고 모델에 이를 분석하여 향후 수익의 방향을 결정하도록 지시합니다. 내러티브나 산업별 정보가 없어도 LLM은 수익 변화를 예측하는 능력에서 재무 분석가보다 뛰어난 성능을 보입니다. LLM은 애널리스트가 어려움을 겪는 상황에서 인간 애널리스트에 비해 상대적인 우위를 보입니다. 또한, LLM의 예측 정확도는 좁게 훈련된 최신 ML 모델의 성능과 동등한 수준인 것으로 나타났습니다. LLM 예측은 학습 메모리에서 비롯된 것이 아닙니다. 대신, LLM은 기업의 미래 실적에 대한 유용한 내러티브 인사이트를 생성한다는 사실을 발견했습니다. 마지막으로, GPT의 예측에 기반한 트레이딩 전략은 다른 모델에 기반한 전략보다 더 높은 샤프 비율과 알파를 산출합니다. 이러한 결과를 종합해 볼 때 LLM이 의사 결정에서 중심적인 역할을 할 수 있음을 시사합니다.

We investigate whether an LLM can successfully perform financial statement analysis in a way similar to a professional human analyst. We provide standardized and anonymous financial statements to GPT4 and instruct the model to analyze them to determine the direction of future earnings. Even without any narrative or industry-specific information, the LLM outperforms financial analysts in its ability to predict earnings changes. The LLM exhibits a relative advantage over human analysts in situations when the analysts tend to struggle. Furthermore, we find that the prediction accuracy of the LLM is on par with the performance of a narrowly trained state-of-the-art ML model. LLM prediction does not stem from its training memory. Instead, we find that the LLM generates useful narrative insights about a company's future performance. Lastly, our trading strategies based on GPT's predictions yield a higher Sharpe ratio and alphas than strategies based on other models. Taken together, our results suggest that LLMs may take a central role in decision-making.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1794120780428546503


SimPO: 참조 없는 보상을 통한 간단한 환경 설정 최적화 / SimPO: Simple Preference Optimization with a Reference-Free Reward

논문 소개

참조 없는 보상으로 선호도 최적화를 위한 더 간단하고 효과적인 접근 방식, 시퀀스의 평균 로그 확률을 암시적 보상으로 사용하므로(즉, 참조 모델이 필요하지 않음) 컴퓨팅 및 메모리 효율이 더 높으며, DPO와 같은 기존 접근 방식보다 성능이 뛰어나고 가장 강력한 8B 오픈 소스 모델을 생성한다고 주장합니다.

A simpler and more effective approach for preference optimization with a reference-free reward; uses the average log probability of a sequence as an implicit reward (i.e., no reference model required) which makes it more compute and memory efficient; demonstrates that it outperforms existing approaches like DPO and claims to produce the strongest 8B open-source model.

논문 초록(Abstract)

직접 선호도 최적화(DPO)는 강화 학습에서 보상 함수를 인간의 피드백(RLHF)으로부터 재파라미터화하여 단순성과 학습 안정성을 향상시키는 널리 사용되는 오프라인 선호도 최적화 알고리즘입니다. 이 연구에서는 더 간단하면서도 효과적인 접근 방식인 SimPO를 제안합니다. SimPO의 효과는 시퀀스의 평균 로그 확률을 암시적 보상으로 사용하는 핵심 설계에 기인합니다. 이 보상 공식은 모델 생성에 더 잘 부합하고 참조 모델이 필요하지 않으므로 컴퓨팅 및 메모리 효율성이 향상됩니다. 또한, 브래들리-테리 목표에 목표 보상 마진을 도입하여 이긴 응답과 진 응답 사이의 마진을 더 크게 하여 알고리즘의 성능을 더욱 향상시킵니다. 기본 모델과 Mistral, Llama-3와 같은 인스트럭션 튜닝 모델을 포함한 다양한 최신 훈련 설정에서 SimPO와 DPO 및 최신 변형을 비교했습니다. AlphacaEval 2, MTBench, 최근의 까다로운 Arena-Hard 벤치마크 등 광범위한 인스트럭션을 따르는 벤치마크에서 평가했습니다. 그 결과, SimPO는 응답 시간을 크게 늘리지 않으면서도 기존 접근 방식보다 일관되고 현저하게 뛰어난 성능을 발휘하는 것으로 나타났습니다. 특히, SimPO는 알파카에벌 2에서는 최대 6.4점, 아레나-하드에서는 최대 7.5점까지 DPO를 능가하는 성능을 보였습니다. Llama3-8B-Instruct를 기반으로 구축된 최고 성능의 모델은 AlapcaEval 2에서 44.7의 놀라운 길이 제어 승률을 달성하여 리더보드에서 Claude-3 Opus를 능가하고 Arena-Hard에서 33.8의 승률을 기록하여 가장 강력한 8B 오픈 소스 모델입니다.

Direct Preference Optimization (DPO) is a widely used offline preference optimization algorithm that reparameterizes reward functions in reinforcement learning from human feedback (RLHF) to enhance simplicity and training stability. In this work, we propose SimPO, a simpler yet more effective approach. The effectiveness of SimPO is attributed to a key design: using the average log probability of a sequence as the implicit reward. This reward formulation better aligns with model generation and eliminates the need for a reference model, making it more compute and memory efficient. Additionally, we introduce a target reward margin to the Bradley-Terry objective to encourage a larger margin between the winning and losing responses, further enhancing the algorithm's performance. We compare SimPO to DPO and its latest variants across various state-of-the-art training setups, including both base and instruction-tuned models like Mistral and Llama3. We evaluated on extensive instruction-following benchmarks, including AlpacaEval 2, MT-Bench, and the recent challenging Arena-Hard benchmark. Our results demonstrate that SimPO consistently and significantly outperforms existing approaches without substantially increasing response length. Specifically, SimPO outperforms DPO by up to 6.4 points on AlpacaEval 2 and by up to 7.5 points on Arena-Hard. Our top-performing model, built on Llama3-8B-Instruct, achieves a remarkable 44.7 length-controlled win rate on AlpacaEval 2 -- surpassing Claude 3 Opus on the leaderboard, and a 33.8 win rate on Arena-Hard -- making it the strongest 8B open-source model.

논문 링크

더 읽어보기

https://x.com/rasbt/status/1794711330085036061


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

2개의 좋아요