[2024/02/05 ~ 02/11] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/02/05 ~ 02/11] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들은 대형 언어 모델(Large Language Models, LLMs)과 관련된 연구가 주류를 차지하는 경향이 두드러지며, 특히 이러한 모델들을 다양한 문제 해결 과정이나 복잡한 추론 작업에 활용하는 방법에 관한 논의가 많았습니다. "Indirect Reasoning with LLMs," "LLMs for Table Processing," 및 "LLM-based Multi-Agents" 같은 논문들이 이를 잘 보여주고 있습니다.

  • 이러한 경향은 최근 몇 년간 인공지능 연구 분야에서 관찰된 바이며, GPT-3와 같은 대형 언어 모델들이 인간 수준의 성능을 보이는 다양한 언어 이해 및 생성 작업에서 뛰어난 성과를 보이고 있는 것과 관련이 있습니다. 특히, 이번 주 논문들은 언어 모델을 활용하여 비정형 데이터 처리, 복합적인 추론 능력 향상, 다중 에이전트 시스템에서의 사용과 같이 전통적인 언어 이해의 범위를 넘어선 연구들을 포함하고 있습니다. 이렇게 LLM은 추론, 의사결정, 그리고 데이터 처리의 새로운 지평을 열어가고 있습니다.

  • 이런 추세는 대형 언어 모델들이 보유하고 있는 방대한 정보와 추론 능력을 다양한 영역에서 활용하고자 하는 연구자들의 시도로 볼 수 있습니다. 여기에는 언어 이해 능력뿐만 아니라, 데이터의 패턴을 인식하고 복잡한 관계를 해석하는 능력도 포함되며, 이를 통해 보다 지능적이고 유연한 인공지능 시스템의 개발이 가능해질 것으로 예상됩니다. 또한, 이런 논문들의 추세는 향후 인공지능 기술의 진화를 이끌어갈 주요 연구 분야 중 하나로 자리 잡을 가능성을 시사합니다.

  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:


검색 없는 그랜드 마스터 레벨 체스 / Grandmaster-Level Chess Without Search

논문 소개

  • 최대 150억 개의 데이터 포인트가 포함된 천만 개의 체스 게임 데이터셋에 대해 지도 학습으로 270M 규모의 파라미터 트랜스포머 모델을 학습하고, 인간을 상대로 lichess blitz elo 2,895에 도달하며, 일련의 까다로운 체스 퍼즐을 풀면서 도메인별 조정이나 명시적인 검색 알고리즘 없이 체스에 대한 대규모 학습의 가능성을 보여줬습니다.

    Trains a 270m parameter transformer model with supervised learning on a dataset of 10 million chess games with up to 15 billion data points; reaches a lichess blitz elo of 2895 against humans, and solves a series of challenging chess puzzles; it shows the potential of training at scale for chess and without the need for any domain-specific tweaks or explicit search algorithms.

논문 초록(Abstract)

  • 최근 머신러닝의 획기적인 성공은 주로 규모, 즉 대규모 어텐션 기반 아키텍처와 전례 없는 규모의 데이터셋에 기인합니다. 이 논문에서는 체스에 대한 대규모 학습의 영향에 대해 살펴봅니다. 복잡한 휴리스틱, 명시적 검색 또는 이 둘의 조합에 의존하는 기존의 체스 엔진과 달리, 저희는 천만 개의 체스 게임 데이터셋에 대한 지도 학습으로 2억 7천만 개의 파라미터 트랜스포머 모델을 학습합니다. 강력한 Stockfish 16 엔진에서 제공하는 액션 값으로 데이터 세트의 각 판에 주석을 달아 약 150억 개의 데이터 포인트를 생성합니다. 가장 큰 모델은 인간을 상대로 2895의 체스 블리츠 엘로에 도달했으며, 도메인별 조정이나 명시적인 검색 알고리즘 없이도 일련의 까다로운 체스 퍼즐을 성공적으로 풀었습니다. 또한 우리 모델이 알파제로의 정책 및 가치 네트워크(MCTS를 사용하지 않음)와 GPT-3.5 터보 인스트럭트보다 우수한 성능을 보였음을 보여줍니다. 모델과 데이터 세트 크기에 대한 체계적인 조사를 통해 강력한 체스 성능은 충분한 규모에서만 발생한다는 것을 알 수 있습니다. 결과를 검증하기 위해 설계 선택과 하이퍼파라미터를 광범위하게 제거한 일련의 실험을 수행했습니다.

    The recent breakthrough successes in machine learning are mainly attributed to scale: namely large-scale attention-based architectures and datasets of unprecedented scale. This paper investigates the impact of training at scale for chess. Unlike traditional chess engines that rely on complex heuristics, explicit search, or a combination of both, we train a 270M parameter transformer model with supervised learning on a dataset of 10 million chess games. We annotate each board in the dataset with action-values provided by the powerful Stockfish 16 engine, leading to roughly 15 billion data points. Our largest model reaches a Lichess blitz Elo of 2895 against humans, and successfully solves a series of challenging chess puzzles, without any domain-specific tweaks or explicit search algorithms. We also show that our model outperforms AlphaZero's policy and value networks (without MCTS) and GPT-3.5-turbo-instruct. A systematic investigation of model and dataset size shows that strong chess performance only arises at sufficient scale. To validate our results, we perform an extensive series of ablations of design choices and hyperparameters.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1755466387798020229


AnyTool: 대규모 API 호출을 위한 자기 반영적 계층형 에이전트 / AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls

논문 소개

  • 신속한 API의 16k API를 활용할 수 있는 LLM 기반 에이전트로, 1) 쿼리와 관련된 API 후보를 식별하는 계층적 API-Retriever, 2) 사용자 쿼리를 해결하는 솔버, 3) 초기 솔루션이 실행 불가능할 경우 어떤 도구를 다시 활성화하는 자체 반영 메커니즘으로 구성된 간단한 프레임워크를 제안합니다; 이 도구는 GPT-4의 함수 호출 기능을 활용하므로 추가 교육이 필요하지 않으며, 계층적 API-Retriever는 분할 및 정복 접근 방식에서 영감을 받아 에이전트의 검색 범위를 줄여 LLM의 컨텍스트 길이에 대한 한계를 극복하고, 자체 반영 구성 요소는 쉽고 복잡한 쿼리를 효율적으로 해결하는 데 도움이 됩니다.

    An llm-based agent that can utilize 16k apis from rapid api; proposes a simple framework consisting of 1) a hierarchical api-retriever to identify relevant api candidates to a query, 2) a solver to resolve user queries, and 3) a self-reflection mechanism to reactivate anytool if the initial solution is impracticable; this tool leverages the function calling capability of gpt-4 so no further training is needed; the hierarchical api-retriever is inspired by a divide-and-conquer approach to help reduce the search scope of the agents which leads to overcoming limitations around context length in llms; the self-reflection component helps with resolving easy and complex queries efficiently.

논문 초록(Abstract)

  • 사용자 쿼리를 처리하는 데 있어 방대한 도구의 활용을 혁신적으로 개선하기 위해 설계된 대규모 언어 모델 에이전트인 AnyTool을 소개합니다. Rapid API의 16,000개 이상의 API를 활용하며, 이러한 API의 하위 집합이 쿼리를 잠재적으로 해결할 수 있다는 가정 하에 작동합니다. AnyTool은 기본적으로 계층적 구조를 가진 API 검색기, 선택된 API 후보 집합을 사용하여 사용자 쿼리를 해결하기 위한 솔버, 초기 솔루션이 실행 불가능하다고 판명되면 AnyTool을 다시 활성화하는 자체 반영 메커니즘의 세 가지 요소를 통합합니다. AnyTool은 GPT-4의 함수 호출 기능으로 구동되므로 외부 모듈을 교육할 필요가 없습니다. 또한 이전 연구에서 도입한 평가 프로토콜을 재검토하여 인위적으로 높은 합격률을 초래하는 이 프로토콜의 한계를 파악했습니다. 실제 적용 시나리오를 더 잘 반영하도록 평가 프로토콜을 수정하여 AnyToolBench라는 추가 벤치마크를 도입했습니다. 다양한 데이터셋에 대한 실험을 통해 도구 활용에 맞게 조정된 ToolLLM 및 GPT-4 변형과 같은 강력한 기준선보다 AnyTool의 우수성이 입증되었습니다. 예를 들어 ToolBench의 평균 합격률 측면에서 AnyTool은 ToolLLM보다 +35.4% 더 우수한 성능을 보였습니다. 코드는 GitHub - dyabel/AnyTool 에서 확인할 수 있습니다.

    We introduce AnyTool, a large language model agent designed to revolutionize the utilization of a vast array of tools in addressing user queries. We utilize over 16,000 APIs from Rapid API, operating under the assumption that a subset of these APIs could potentially resolve the queries. AnyTool primarily incorporates three elements: an API retriever with a hierarchical structure, a solver aimed at resolving user queries using a selected set of API candidates, and a self-reflection mechanism, which re-activates AnyTool if the initial solution proves impracticable. AnyTool is powered by the function calling feature of GPT-4, eliminating the need for training external modules. We also revisit the evaluation protocol introduced by previous works and identify a limitation in this protocol that leads to an artificially high pass rate. By revising the evaluation protocol to better reflect practical application scenarios, we introduce an additional benchmark, termed AnyToolBench. Experiments across various datasets demonstrate the superiority of our AnyTool over strong baselines such as ToolLLM and a GPT-4 variant tailored for tool utilization. For instance, AnyTool outperforms ToolLLM by +35.4% in terms of average pass rate on ToolBench. Code will be available at GitHub - dyabel/AnyTool.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1755065033791283601


닷-프로덕트 어텐션의 해결 가능한 모델에서 위치 학습과 의미 학습 사이의 위상 전환 / A phase transition between positional and semantic learning in a solvable model of dot-product attention

논문 소개

  • 위치 어텐션와 의미 어텐션 사이의 상호작용을 탐구함으로써 주의력 계층을 사용한 학습에 대한 이론적 이해를 조사하고 확장합니다. 닷-프로덕트 어텐션의 장난감 모델을 사용하고 의미 학습과 위치 학습 사이의 출현 단계 전환을 식별하며 충분한 데이터가 제공되면 닷-프로덕트 어텐션 계층이 의미 메커니즘을 사용할 때 선형 위치 베이스라인보다 성능이 뛰어나다는 것을 보여줍니다.

    Investigates and expands the theoretical understanding of learning with attention layers by exploring the interplay between positional and semantic attention; it employs a toy model of dot-product attention and identifies an emergent phase transition between semantic and positional learning; shows that if provided with sufficient data, dot-product attention layer outperforms a linear positional baseline when using the semantic mechanism.

논문 초록(Abstract)

  • 닷-프로덕트 어텐션 계층이 위치 어텐션 행렬(토큰이 각각의 위치에 따라 서로 주의하는 방식)과 의미 어텐션 행렬(토큰이 의미에 따라 서로 주의하는 방식)을 학습하는 방법을 살펴봅니다. 알고리즘 작업의 경우, 동일한 간단한 아키텍처가 위치 또는 의미 메커니즘을 사용하여 솔루션을 구현하는 방법을 어떻게 학습할 수 있는지 실험적으로 보여줍니다. 이론적인 측면에서는 학습 가능한 묶음 및 낮은 순위 쿼리와 키 행렬을 사용한 비선형 자기 어텐션 계층의 학습을 연구합니다. 고차원 데이터와 비교적 많은 수의 학습 샘플의 점근 한계에서 비볼록한 경험적 손실 환경의 전역 최소값에 대한 폐쇄형 특성화를 제공합니다. 이 최소값은 위치 또는 의미 메커니즘에 해당하며, 샘플 복잡성이 증가함에 따라 전자에서 후자로의 위상 전이가 발생한다는 것을 보여줍니다. 마지막으로, 닷-프로덕트 어텐션 계층을 선형 위치 기준선과 비교하여 충분한 데이터에 액세스할 수 있는 경우 의미론적 메커니즘을 사용하는 것이 후자보다 성능이 뛰어나다는 것을 보여줍니다.

    We investigate how a dot-product attention layer learns a positional attention matrix (with tokens attending to each other based on their respective positions) and a semantic attention matrix (with tokens attending to each other based on their meaning). For an algorithmic task, we experimentally show how the same simple architecture can learn to implement a solution using either the positional or semantic mechanism. On the theoretical side, we study the learning of a non-linear self-attention layer with trainable tied and low-rank query and key matrices. In the asymptotic limit of high-dimensional data and a comparably large number of training samples, we provide a closed-form characterization of the global minimum of the non-convex empirical loss landscape. We show that this minimum corresponds to either a positional or a semantic mechanism and evidence an emergent phase transition from the former to the latter with increasing sample complexity. Finally, we compare the dot-product attention layer to linear positional baseline, and show that it outperforms the latter using the semantic mechanism provided it has access to sufficient data.

논문 링크

더 읽어보기

https://x.com/zdeborova/status/1755158457785704771


간접 추론자로서의 대규모 언어 모델: 자동화된 추론을 위한 모순과 모순: 역설과 모순 / Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning

논문 소개

  • 사실 추론 및 수학적 증명과 같은 IR 과제를 해결하기 위해 모순과 모순의 논리를 사용하는 간접 추론 방법을 제안하며, 두 가지 핵심 단계로 구성됩니다: 1) 데이터와 규칙(즉, 모순의 논리적 동등성)을 보강하여 LLM의 이해도를 높이고, 2) 모순에 의한 증명에 기반한 간접 추론을 구현하도록 llms를 자극하는 프롬프트 템플릿을 설계합니다; GPT-3.5-turbo 및 Gemini pro와 같은 LLM에 대한 실험 결과 제안 된 방법은 기존의 직접 추론 방법에 비해 사실 추론의 전체 정확도를 27.33 , 수학적 증명을 31.43 향상시키는 것으로 나타났습니다.

    Proposes an indirect reasoning method to strengthen the reasoning power of llms; it employs the logic of contrapositives and contradictions to tackle ir tasks such as factual reasoning and mathematic proof; it consists of two key steps: 1) enhance the comprehensibility of llms by augmenting data and rules (i.e., the logical equivalence of contrapositive), and 2) design prompt templates to stimulate llms to implement indirect reasoning based on proof by contradiction; experiments on llms like gpt-3.5-turbo and gemini pro show that the proposed method enhances the overall accuracy of factual reasoning by 27.33% and mathematic proof by 31.43% compared to traditional direct reasoning methods.

논문 초록(Abstract)

  • 최근 대규모 언어 모델(LLM)이 복잡한 추론을 수행할 수 있는 능력을 향상시키는 데 관심이 집중되고 있습니다. 그러나 기존의 연쇄 추론(Chain-of-Thought), 자기 일관성(Self-Consistency) 등의 방법은 주로 직접 추론(DR) 프레임워크를 따르기 때문에 DR로는 해결할 수 없는 수많은 실세계 과제를 해결하는 데 어려움을 겪게 됩니다. 따라서 본 논문에서는 사실 추론이나 수학적 증명과 같은 IR 과제를 해결하기 위해 모순과 모순의 논리를 활용하는 새로운 간접 추론(IR) 방법을 제안합니다. 구체적으로 이 방법론은 두 단계로 구성됩니다. 먼저, 역설의 논리적 등가성을 활용하여 데이터와 규칙을 보강하여 LLM의 이해도를 높입니다. 둘째, 원래의 DR 프로세스와 논리적으로 동등한 모순에 의한 증명을 기반으로 LLM이 IR을 수행하도록 유도하는 일련의 프롬프트 템플릿을 설계합니다. 우리의 IR 방식은 간단하면서도 효과적이며, 기존 DR 방식과 바로 통합하여 LLM의 추론 능력을 더욱 향상시킬 수 있습니다. GPT-3.5-turbo, Gemini-pro 등 널리 사용되는 LLM에 대한 실험 결과에 따르면, IR 방식은 기존 DR 방식에 비해 사실 추론의 정확도를 27.33%, 수학적 증명을 31.43% 향상시키는 것으로 나타났습니다. 또한 IR과 DR을 결합한 방법은 IR 또는 DR만 사용하는 방법보다 훨씬 뛰어난 성능을 보여 우리 전략의 효과를 더욱 입증했습니다.

    Recently, increasing attention has been focused drawn on to improve the ability of Large Language Models (LLMs) to perform complex reasoning. However, previous methods, such as Chain-of-Thought and Self-Consistency, mainly follow Direct Reasoning (DR) frameworks, so they will meet difficulty in solving numerous real-world tasks which can hardly be solved via DR. Therefore, to strengthen the reasoning power of LLMs, this paper proposes a novel Indirect Reasoning (IR) method that employs the logic of contrapositives and contradictions to tackle IR tasks such as factual reasoning and mathematic proof. Specifically, our methodology comprises two steps. Firstly, we leverage the logical equivalence of contrapositive to augment the data and rules to enhance the comprehensibility of LLMs. Secondly, we design a set of prompt templates to trigger LLMs to conduct IR based on proof by contradiction that is logically equivalent to the original DR process. Our IR method is simple yet effective and can be straightforwardly integrated with existing DR methods to further boost the reasoning abilities of LLMs. The experimental results on popular LLMs, such as GPT-3.5-turbo and Gemini-pro, show that our IR method enhances the overall accuracy of factual reasoning by 27.33% and mathematical proof by 31.43%, when compared with traditional DR methods. Moreover, the methods combining IR and DR significantly outperform the methods solely using IR or DR, further demonstrating the effectiveness of our strategy.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1755254627866419707


ALOHA 2

논문 소개

  • 알로하의 성능, 사용자 편의성, 내구성을 개선하는 양방향 원격 조작을 위한 저비용 시스템, 그리퍼와 같은 하드웨어 개선, 고품질 시뮬레이션 모델을 통한 중력 보정 등의 노력을 통해 보다 복잡한 작업에 대한 대규모 데이터 수집이 가능해져 로봇 학습의 고급 연구에 도움이 될 것으로 기대됩니다.

    A low-cost system for bimanual teleoperation that improves the performance, user-friendliness, and durability of aloha; efforts include hardware improvements such as grippers and gravity compensation with a higher quality simulation model; this potentially enables large-scale data collection on more complex tasks to help advanced research in robot learning.

논문 링크

더 읽어보기

https://x.com/tonyzzhao/status/1755380475118719407


더 많은 상담원만 있으면 됩니다 / More Agents Is All You Need

논문 소개

  • LLM으로 인스턴스화된 원시 에이전트의 확장 속성에 대한 연구를 발표하고, 단순히 샘플링 및 투표 방법을 사용하여 에이전트를 늘릴 때 성능이 확장된다는 사실을 발견합니다.

    Presents a study on the scaling property of raw agents instantiated by llms; finds that performance scales when increasing agents by simply using a sampling-and-voting method.

논문 초록(Abstract)

  • 우리는 샘플링 및 투표 방법을 통해 대규모 언어 모델(LLM)의 성능이 인스턴스화된 에이전트의 수에 따라 확장된다는 사실을 발견했습니다. 또한 이 방법은 기존의 복잡한 방법과 직교하여 LLM을 더욱 향상시킬 수 있으며, 그 향상 정도는 작업 난이도와 상관관계가 있습니다. 저희는 다양한 LLM 벤치마크에서 종합적인 실험을 수행하여 발견한 결과를 검증하고 이를 촉진할 수 있는 속성을 연구하고 있습니다. 저희의 코드는 다음 주소에서 공개적으로 사용할 수 있습니다: \URL{Anonymous Github}.

    We find that, simply via a sampling-and-voting method, the performance of large language models (LLMs) scales with the number of agents instantiated. Also, this method is orthogonal to existing complicated methods to further enhance LLMs, while the degree of enhancement is correlated to the task difficulty. We conduct comprehensive experiments on a wide range of LLM benchmarks to verify the presence of our finding, and to study the properties that can facilitate its occurrence. Our code is publicly available at: \url{Anonymous Github}.

논문 링크

더 읽어보기

https://anonymous.4open.science/r/more_agent_is_all_you_need

https://x.com/omarsar0/status/1755794341069455376


자기 발견: 대규모 언어 모델 스스로 추론 구조 작성하기 / Self-Discover: Large Language Models Self-Compose Reasoning Structures

논문 소개

  • LLM이 여러 추론 기법(예: 비판적 사고 및 단계별 사고) 중에서 선택하여 작업별 추론 전략을 구성할 수 있는 새로운 프레임워크인 자기 발견을 제안하고, 빅벤치 하드 실험에서 코트(gpt-4 및 팜 2에 적용)보다 성능이 뛰어나고 코트-자기 일관성과 같은 다른 추론 집약적 방법보다 10-40배 적은 추론 연산이 필요하며, 자기 발견 추론 구조는 LLM과 소규모 언어 모델(SLM; Small Language Model) 간에 잘 전달된다고 보고되어 있습니다.

    Proposes a new framework, self-discover, that enables llms to select from multiple reasoning techniques (e.g., critical thinking and thinking step-by-step) to compose task-specific reasoning strategies; outperforms cot (applied to gpt-4 and palm 2) on bigbench-hard experiments and requires 10-40x fewer inference compute than other inference-intensive methods such as cot-self-consistency; the self-discovered reasoning structures are also reported to transfer well between llms and small language models (slms).

논문 초록(Abstract)

  • 일반적인 프롬프트 방식으로는 해결하기 어려운 복잡한 추론 문제를 해결하기 위해 LLM이 과제에 내재된 추론 구조를 스스로 발견할 수 있는 일반적인 프레임워크인 SELF-DISCOVER를 소개합니다. 이 프레임워크의 핵심은 LLM이 비판적 사고, 단계적 사고와 같은 여러 가지 원자적 추론 모듈을 선택하고 이를 해독하는 동안 LLM이 따를 수 있는 명시적 추론 구조로 구성하는 자기 발견 프로세스입니다. SELF-DISCOVER는 빅벤치하드, 근거 에이전트 추론, 수학 등 까다로운 추론 벤치마크에서 GPT-4 및 PaLM 2의 성능을 CoT(Chain of Thought) 대비 최대 32%까지 크게 향상시킵니다. 또한, 셀프 디스커버리는 추론 연산이 10~40배 더 적게 필요하면서도 CoT-Self-Consistency와 같은 추론 집약적인 방법보다 20% 이상 뛰어난 성능을 발휘합니다. 마지막으로, 자체 발견한 추론 구조가 PaLM 2-L에서 GPT-4, GPT-4에서 Llama2에 이르기까지 모델 제품군 전반에 걸쳐 보편적으로 적용 가능하며 인간의 추론 패턴과 공통점을 공유한다는 것을 보여줍니다.

    We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process where LLMs select multiple atomic reasoning modules such as critical thinking and step-by-step thinking, and compose them into an explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER substantially improves GPT-4 and PaLM 2's performance on challenging reasoning benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER outperforms inference-intensive methods such as CoT-Self-Consistency by more than 20%, while requiring 10-40x fewer inference compute. Finally, we show that the self-discovered reasoning structures are universally applicable across model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share commonalities with human reasoning patterns.

논문 링크

더 읽어보기

https://x.com/peizNLP/status/1755265197953146997


DeepSeekMath: 개방형 언어 모델에서 수학적 추론의 한계를 뛰어넘는 딥서치 수학 / DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

논문 소개

  • 120B 수학 관련 토큰으로 코드 기반 모델을 계속 사전 학습하고, 메모리 사용 최적화 체계를 통해 수학적 추론을 향상시키고 학습 리소스를 줄이기 위해 GRPO(PPO의 변형)를 도입하고, DeepSeekMath 7b는 수학에서 51.7%를 달성하여 gemini-ultra(53.2%) 및 gpt-4(52.9%)의 성능 수준에 근접하며 자체 일관성을 사용할 경우 성능이 60.9%로 향상됩니다.

continues pretraining a code base model with 120b math-related tokens; introduces grpo (a variant to ppo) to enhance mathematical reasoning and reduce training resources via a memory usage optimization scheme; deepseekmath 7b achieves 51.7% on math which approaches the performance level of gemini-ultra (53.2%) and gpt-4 (52.9%); when self-consistency is used the performance improves to 60.9%.

논문 초록(Abstract)

  • 수학적 추론은 복잡하고 구조화된 특성으로 인해 언어 모델에 상당한 도전 과제를 안겨줍니다. 이 논문에서는 자연어 및 코드 데이터와 함께 커먼 크롤링에서 제공된 120억 개의 수학 관련 토큰으로 DeepSeek-Coder-Base-v1.5 7B를 계속 사전 학습하는 DeepSeekMath 7B에 대해 소개합니다. DeepSeekMath 7B는 외부 툴킷이나 투표 기술에 의존하지 않고도 경쟁사 수준의 수학 벤치마크에서 51.7%라는 인상적인 점수를 달성하여 Gemini-Ultra 및 GPT-4의 성능 수준에 근접했습니다. 64개 샘플에 대한 DeepSeekMath 7B의 자체 일관성은 MATH에서 60.9%를 달성했습니다. 딥시크매쓰의 수학적 추론 능력은 두 가지 주요 요인에 기인합니다: 첫째, 세심하게 설계된 데이터 선택 파이프라인을 통해 공개적으로 사용 가능한 웹 데이터의 상당한 잠재력을 활용합니다. 둘째, 근사 정책 최적화(PPO)의 변형인 그룹 상대 정책 최적화(GRPO)를 도입하여 수학적 추론 능력을 향상시키는 동시에 PPO의 메모리 사용량을 최적화합니다.

    Mathematical reasoning poses a significant challenge for language models due to its complex and structured nature. In this paper, we introduce DeepSeekMath 7B, which continues pre-training DeepSeek-Coder-Base-v1.5 7B with 120B math-related tokens sourced from Common Crawl, together with natural language and code data. DeepSeekMath 7B has achieved an impressive score of 51.7% on the competition-level MATH benchmark without relying on external toolkits and voting techniques, approaching the performance level of Gemini-Ultra and GPT-4. Self-consistency over 64 samples from DeepSeekMath 7B achieves 60.9% on MATH. The mathematical reasoning capability of DeepSeekMath is attributed to two key factors: First, we harness the significant potential of publicly available web data through a meticulously engineered data selection pipeline. Second, we introduce Group Relative Policy Optimization (GRPO), a variant of Proximal Policy Optimization (PPO), that enhances mathematical reasoning abilities while concurrently optimizing the memory usage of PPO.

논문 링크

더 읽어보기

https://x.com/deepseek_ai/status/1754701472363958581


테이블 처리를 위한 대규모 언어 모델: 서베이 논문 / Large Language Model for Table Processing: A Survey

논문 소개

  • 메서드, 벤치마크, 프롬프트 기법 등 테이블 처리를 위한 LLM에 대한 개요를 제공합니다.

    Provides an overview of llms for table processing, including methods, benchmarks, prompting techniques, and much more.

논문 초록(Abstract)

  • 일반적으로 대량의 데이터를 저장하기 위해 2차원으로 구조화된 테이블은 데이터베이스 쿼리, 스프레드시트 계산, 웹 테이블에서 보고서 생성 등 일상적인 활동에 필수적입니다. 대규모 언어 모델(LLM)로 이러한 테이블 중심 작업을 자동화하면 상당한 공익적 이점을 얻을 수 있어 학계와 업계의 관심을 받고 있습니다. 이 설문조사는 테이블 질문 답변(Table QA) 및 사실 검증과 같은 전통적인 영역뿐만 아니라 테이블 조작 및 고급 테이블 데이터 분석과 같이 새롭게 강조되는 측면을 포함하여 테이블 작업에 대한 광범위한 개요를 제공합니다. 또한 소규모 언어 모델을 사전 교육하고 미세 조정하는 초기 전략을 넘어 LLM 사용의 최신 패러다임을 포함합니다. 특히 LLM 영역 내에서 인스트럭션 튜닝, 프롬프트 및 에이전트 기반 접근 방식에 중점을 둡니다. 마지막으로 비공개 배포 및 효율적인 추론부터 테이블 조작 및 고급 데이터 분석을 위한 광범위한 벤치마크 개발에 이르기까지 몇 가지 과제를 강조합니다.

    Tables, typically two-dimensional and structured to store large amounts of data, are essential in daily activities like database queries, spreadsheet calculations, and generating reports from web tables. Automating these table-centric tasks with Large Language Models (LLMs) offers significant public benefits, garnering interest from academia and industry. This survey provides an extensive overview of table tasks, encompassing not only the traditional areas like table question answering (Table QA) and fact verification, but also newly emphasized aspects such as table manipulation and advanced table data analysis. Additionally, it goes beyond the early strategies of pre-training and fine-tuning small language models, to include recent paradigms in LLM usage. The focus here is particularly on instruction-tuning, prompting, and agent-based approaches within the realm of LLMs. Finally, we highlight several challenges, ranging from private deployment and efficient inference to the development of extensive benchmarks for table manipulation and advanced data analysis.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1755789530710339788


대규모 언어 모델 기반 다중 에이전트: 진행 상황과 과제에 대한 조사 / Large Language Model based Multi-Agents: A Survey of Progress and Challenges

논문 소개

  • LLM 기반 다중 에이전트 시스템의 필수적인 측면에 대해 논의하고, 문제 해결 및 단어 시뮬레이션을 위한 최근 애플리케이션에 대한 요약과 함께 연구자와 실무자의 추가 연구 개발을 장려하기 위한 데이터 세트, 벤치마크, 과제 및 향후 기회에 대해서도 설명합니다.

    Discusses the essential aspects of llm-based multi-agent systems; it includes a summary of recent applications for problem-solving and word simulation; it also discusses datasets, benchmarks, challenges, and future opportunities to encourage further research and development from researchers and practitioners.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)은 다양한 작업에서 괄목할 만한 성공을 거두었습니다. LLM의 뛰어난 계획 및 추론 능력으로 인해 많은 작업을 자동으로 수행하는 자율 에이전트로 사용되어 왔습니다. 최근에는 하나의 LLM을 단일 계획 또는 의사 결정 에이전트로 사용하는 개발로 LLM 기반 다중 에이전트 시스템은 복잡한 문제 해결과 월드 시뮬레이션에서 상당한 진전을 이루었습니다. 커뮤니티에 이 역동적인 분야에 대한 개요를 제공하기 위해 이번 설문조사를 통해 LLM 기반 다중 에이전트 시스템의 필수적인 측면과 도전 과제에 대해 심도 있는 논의를 진행하고자 합니다. 우리의 목표는 독자들이 다음 질문에 대한 실질적인 인사이트를 얻는 것입니다: LLM 기반 멀티 에이전트는 어떤 도메인과 환경을 시뮬레이션할 수 있나요? 이러한 에이전트는 어떻게 프로파일링되며 어떻게 커뮤니케이션할 수 있나요? 에이전트의 역량 성장에 기여하는 메커니즘은 무엇인가요? 이 연구 분야에 관심이 있는 분들이 편리하게 접근할 수 있도록 일반적으로 사용되는 데이터 세트 또는 벤치마크도 요약해 놓았습니다. 연구자들이 최신 연구에 대한 최신 정보를 얻을 수 있도록 LLM 기반 멀티 에이전트 시스템에 대한 연구를 개괄적으로 소개하는 오픈소스 GitHub 저장소를 관리하고 있습니다.

    Large Language Models (LLMs) have achieved remarkable success across a wide array of tasks. Due to the impressive planning and reasoning abilities of LLMs, they have been used as autonomous agents to do many tasks automatically. Recently, based on the development of using one LLM as a single planning or decision-making agent, LLM-based multi-agent systems have achieved considerable progress in complex problem-solving and world simulation. To provide the community with an overview of this dynamic field, we present this survey to offer an in-depth discussion on the essential aspects of multi-agent systems based on LLMs, as well as the challenges. Our goal is for readers to gain substantial insights on the following questions: What domains and environments do LLM-based multi-agents simulate? How are these agents profiled and how do they communicate? What mechanisms contribute to the growth of agents' capacities? For those interested in delving into this field of study, we also summarize the commonly used datasets or benchmarks for them to have convenient access. To keep researchers updated on the latest studies, we maintain an open-source GitHub repository, dedicated to outlining the research on LLM-based multi-agent systems.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1754710117734375429


원문


:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

5개의 좋아요