[2024/10/07 ~ 10/13] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/10/07 ~ 10/13] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주의 논문들에서 주목할 만한 경향성은 정보 검색 및 처리와 관련된 기술 발전에 대한 관심이 높다는 점입니다. "Differential Transformer", "Astute RAG", "Long-Context LLMs Meet RAG"와 같은 논문들이 이러한 경향을 잘 보여주고 있으며, 정보 검색 프로세스를 개선하거나 장기 문맥을 처리하는 기법들이 주로 다루어졌습니다. 또한 "MLE-Bench", "ToolGen"과 같은 벤치마크 및 생성 도구에 관한 연구도 돋보입니다. 이는 최근 AI가 복합적이고 동적인 환경에서 효율적으로 정보를 처리하는 데 중점을 두고 있다는 것을 나타냅니다.

  • 이러한 경향이 나타나는 이유는 대량의 데이터를 효과적으로 검색하고 처리하는 것이 현대 인공지능 시스템의 성능 향상에 중요한 역할을 하기 때문입니다. 특히, 정보의 홍수 속에서 유용한 정보를 신속하게 추출할 수 있는 능력은 인공지능이 실질적 응용 분야에서 성공적으로 활용되기 위한 필수 요소가 되고 있습니다. 따라서, 이러한 연구들은 인공지능 시스템이 점점 더 복잡한 문제를 다룰 수 있게 하는 데 기여할 것입니다.

  • 마지막으로, "Persuasion and Anti-social Ability of LLMs", "GSM-Symbolic"와 같은 논문들이 언급된 것을 볼 때, AI의 윤리적 활용 및 사회적 영향에 대해서도 여전히 높은 관심이 있음을 알 수 있습니다. 인공지능의 설득력과 사회적 상호작용의 측면은 기술이 발전함에 따라 더욱 심층적으로 탐구되어야 할 부분이며, 이는 사회에서 AI를 수용하고 통합하는 데 중요한 역할을 할 것입니다.


MLE 벤치마크: 머신러닝 엔지니어링 관점에서의 ML 에이전트 평가 / MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

논문 소개

머신러닝 엔지니어링 역량에 대한 머신러닝 에이전트 평가의 새로운 벤치마크 제시, 모델 학습, 데이터 세트 준비, 실험 실행 등 MLE 기술에 대한 75개의 ML 엔지니어링 관련 대회에서 Kaggle 테스트 포함, AIDE 스캐폴딩을 사용한 OpenAI의 o1-preview는 대회 16.9%에서 Kaggle 동메달 수준의 성적을 거뒀습니다.

Proposes a new benchmark for the evaluation of machine learning agents on machine learning engineering capabilities; includes 75 ML engineering-related competition from Kaggle testing on MLE skills such as training models, preparing datasets, and running experiments; OpenAI’s o1-preview with the AIDE scaffolding achieves Kaggle bronze medal level in 16.9% of competitions.

논문 초록(Abstract)

머신러닝 엔지니어링에서 AI 에이전트가 얼마나 잘 수행하는지 측정하는 벤치마크인 MLE-bench를 소개합니다. 이를 위해 75개의 ML 엔지니어링 관련 대회를 큐레이팅하여 모델 훈련, 데이터 세트 준비, 실험 실행과 같은 실제 ML 엔지니어링 기술을 테스트하는 다양한 도전 과제를 제공합니다. 각 대회의 인적 기준선은 공개적으로 제공되는 Kaggle의 리더보드를 사용하여 설정합니다. 오픈 소스 에이전트 스캐폴드를 사용하여 벤치마크에서 여러 프론티어 언어 모델을 평가한 결과, 가장 성능이 좋은 설정인 OpenAI의 o1-preview with AIDE 스캐폴딩이 16.9%의 대회에서 최소한 Kaggle 동메달 수준을 달성하는 것으로 나타났습니다. 주요 결과 외에도 AI 에이전트를 위한 다양한 형태의 리소스 확장과 사전 학습으로 인한 오염의 영향에 대해 조사합니다. 향후 AI 에이전트의 ML 엔지니어링 기능을 이해하기 위한 연구를 촉진하기 위해 벤치마크 코드를 오픈소스(GitHub - openai/mle-bench: MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering)로 공개하고 있습니다.

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (GitHub - openai/mle-bench: MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering) to facilitate future research in understanding the ML engineering capabilities of AI agents.

논문 링크

더 읽어보기

https://x.com/OpenAI/status/1844429536353714427


차등 트랜스포머(Diff Transformer) / Differential Transformer

논문 소개

노이즈를 상쇄하면서 관련 컨텍스트에 대한 주의를 증폭시키는 차등 주의 메커니즘을 제안합니다. 차등 트랜스포머는 모델 크기와 훈련 토큰을 확장할 때 트랜스포머보다 성능이 뛰어납니다. 저자는 이 아키텍처가 관련 없는 컨텍스트에 의해 '산만'해지지 않기 때문에 긴 컨텍스트 모델링, 핵심 정보 검색, 환각 완화, 상황 내 학습, 활성화 이상치 감소 등의 애플리케이션에서 잘 작동할 수 있다고 주장합니다.

Proposes a differential attention mechanism that amplifies attention to the relevant context while canceling noise; Differential Transformer outperforms Transformer when scaling up model size and training tokens; the authors claim that since this architecture gets less "distracted" by irrelevant context, it can do well in applications such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers.

논문 초록(Abstract)

트랜스포머는 관련 없는 문맥에 주의를 집중하는 경향이 있습니다. 이 연구에서는 노이즈를 제거하면서 관련 컨텍스트에 대한 주의력을 증폭시키는 차등 주의력 메커니즘을 소개합니다. 구체적으로, 차등 주의 메커니즘은 두 개의 개별 소프트맥스 주의도 사이의 차이로 주의도 점수를 계산합니다. 차등주의 메커니즘은 노이즈를 상쇄하여 희소 주의 패턴의 출현을 촉진합니다. 언어 모델링에 대한 실험 결과에 따르면 모델 크기와 훈련 토큰을 확장하는 다양한 설정에서 Diff Transformer가 Transformer보다 성능이 뛰어난 것으로 나타났습니다. 더욱 흥미로운 점은 장문맥 모델링, 핵심 정보 검색, 환각 완화, 인컨텍스트 학습, 활성화 이상값 감소와 같은 실제 애플리케이션에서 주목할 만한 이점을 제공한다는 점입니다. 관련 없는 문맥으로 인해 방해받지 않기 때문에 Diff Transformer는 질문 답변과 텍스트 요약에서 환각을 완화할 수 있습니다. 문맥 내 학습의 경우, Diff Transformer는 정확도를 향상시킬 뿐만 아니라 고질적인 견고성 문제로 여겨지던 순열에 대해서도 더욱 견고합니다. 이러한 결과를 통해 Diff Transformer는 대규모 언어 모델을 발전시키는 데 매우 효과적이고 유망한 아키텍처로 자리매김했습니다.

Transformer tends to overallocate attention to irrelevant context. In this work, we introduce Diff Transformer, which amplifies attention to the relevant context while canceling noise. Specifically, the differential attention mechanism calculates attention scores as the difference between two separate softmax attention maps. The subtraction cancels noise, promoting the emergence of sparse attention patterns. Experimental results on language modeling show that Diff Transformer outperforms Transformer in various settings of scaling up model size and training tokens. More intriguingly, it offers notable advantages in practical applications, such as long-context modeling, key information retrieval, hallucination mitigation, in-context learning, and reduction of activation outliers. By being less distracted by irrelevant context, Diff Transformer can mitigate hallucination in question answering and text summarization. For in-context learning, Diff Transformer not only enhances accuracy but is also more robust to order permutation, which was considered as a chronic robustness issue. The results position Diff Transformer as a highly effective and promising architecture to advance large language models.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1843694897020150216


Astute RAG: 대규모 언어 모델의 불완전한 검색 증강 및 지식 충돌 극복하기 / Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models

논문 소개

LLM의 불완전한 검색 증강과 지식 충돌을 처리하기 위해 새로운 RAG 접근 방식을 제안합니다. Astute RAG는 LLM의 내부 지식에서 필수 정보를 적응적으로 추출한 다음, 소스 인식을 통해 내부 및 외부 지식을 반복적으로 통합합니다. Astute RAG는 대화형 통합 메커니즘(즉, 일관된 구절을 식별하고 그 안에서 충돌하는 정보를 감지하고 관련 없는 정보를 필터링)을 통해 내부 및 외부 정보를 더 잘 결합하도록 설계되어 있습니다.

Proposes a novel RAG approach to deal with the imperfect retrieval augmentation and knowledge conflicts of LLMs; Astute RAG adaptively elicits essential information from LLMs' internal knowledge; then it iteratively consolidates internal and external knowledge with source awareness; Astute RAG is designed to better combine internal and external information through an interactive consolidation mechanism (i.e., identifying consistent passages, detecting conflicting information in them, and filtering out irrelevant information).

논문 초록(Abstract)

검색 증강 생성(RAG)은 대규모 언어 모델(LLM)의 한계를 해결하기 위해 외부 지식을 통합하는 데 효과적이지만, 불완전한 검색으로 인해 관련성이 없거나 오해의 소지가 있거나 심지어 악의적인 정보가 포함될 수 있습니다. 이러한 중요성에도 불구하고 이전 연구에서는 불완전한 검색으로 인한 오류가 어떻게 발생하고 전파되는지, LLM의 내부 지식과 외부 소스 간에 잠재적인 충돌이 어떻게 발생하는지에 대한 공동 분석을 통해 RAG의 동작을 탐구한 경우는 거의 없었습니다. 현실적인 조건에서 통제된 분석을 통해 불완전한 검색 증강이 불가피하고 상당히 해로울 수 있음을 발견했습니다. 검색에서 발생하는 LLM 내부 지식과 외부 지식 간의 지식 충돌을 RAG의 검색 후 단계에서 극복해야 할 병목 현상으로 파악했습니다. 불완전한 검색에 탄력적으로 대응할 수 있도록 LLM의 내부 지식에서 필수 정보를 적응적으로 추출하고, 소스 인식을 통해 내부 및 외부 지식을 반복적으로 통합하며, 정보 신뢰도에 따라 답을 최종 확정하는 새로운 RAG 접근 방식인 Astute RAG를 제안합니다. Gemini와 Claude를 사용한 실험 결과, Astute RAG는 기존의 견고성 강화 RAG 방법보다 훨씬 뛰어난 성능을 보였습니다. 특히, 최악의 시나리오에서 RAG가 없는 LLM의 성능과 일치하거나 이를 능가하는 유일한 접근 방식이 바로 Astute RAG입니다. 추가 분석 결과, Astute RAG는 지식 충돌을 효과적으로 해결하여 RAG 시스템의 안정성과 신뢰성을 향상시키는 것으로 나타났습니다.

Retrieval-Augmented Generation (RAG), while effective in integrating external knowledge to address the limitations of large language models (LLMs), can be undermined by imperfect retrieval, which may introduce irrelevant, misleading, or even malicious information. Despite its importance, previous studies have rarely explored the behavior of RAG through joint analysis on how errors from imperfect retrieval attribute and propagate, and how potential conflicts arise between the LLMs' internal knowledge and external sources. We find that imperfect retrieval augmentation might be inevitable and quite harmful, through controlled analysis under realistic conditions. We identify the knowledge conflicts between LLM-internal and external knowledge from retrieval as a bottleneck to overcome in the post-retrieval stage of RAG. To render LLMs resilient to imperfect retrieval, we propose Astute RAG, a novel RAG approach that adaptively elicits essential information from LLMs' internal knowledge, iteratively consolidates internal and external knowledge with source-awareness, and finalizes the answer according to information reliability. Our experiments using Gemini and Claude demonstrate that Astute RAG significantly outperforms previous robustness-enhanced RAG methods. Notably, Astute RAG is the only approach that matches or exceeds the performance of LLMs without RAG under worst-case scenarios. Further analysis reveals that Astute RAG effectively resolves knowledge conflicts, improving the reliability and trustworthiness of RAG systems.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1844435988019544565


ToolGen: 생성를 통한 통합 도구 검색 및 호출 / ToolGen: Unified Tool Retrieval and Calling via Generation

논문 소개

도구를 고유 토큰으로 표현하여 LLM에 직접 도구 지식을 통합함으로써 도구 호출과 인수를 생성할 수 있도록 하여 원활한 도구 호출과 언어 생성을 가능하게 합니다. 47,000개 이상의 도구를 사용한 실험 결과에 따르면 ToolGen은 도구 검색과 자율적 작업 완료 모두에서 우수한 결과를 달성했습니다.

Integrates tool knowledge directly into LLMs by representing tools as a unique token which allows the LLM to generate tool calls and arguments, enabling seamless tool invocation and language generation; experimental results with over 47,000 tools show that ToolGen achieves superior results in both tool retrieval and autonomous task completion.

논문 초록(Abstract)

대규모 언어 모델(LLM)이 발전함에 따라 외부 도구와 직접 상호 작용하여 작업을 자율적으로 실행할 수 없다는 점은 여전히 중요한 한계로 남아 있습니다. 기존 방식은 도구 설명을 컨텍스트로 입력하는 데 의존하는데, 이는 컨텍스트 길이의 제약을 받고 별도의 비효율적인 검색 메커니즘이 필요합니다. 각 도구를 고유한 토큰으로 표현하여 도구 지식을 LLM의 매개변수에 직접 통합하는 패러다임 전환인 ToolGen을 소개합니다. 이를 통해 LLM은 다음 토큰 예측 기능의 일부로 도구 호출 및 인수를 생성하여 도구 호출과 언어 생성을 원활하게 결합할 수 있습니다. 이 프레임워크를 통해 LLM은 추가 검색 단계 없이 방대한 양의 도구에 액세스하고 활용할 수 있어 성능과 확장성이 크게 향상됩니다. 47,000개 이상의 도구를 사용한 실험 결과에 따르면 ToolGen은 도구 검색과 자율적 작업 완료 모두에서 우수한 결과를 달성할 뿐만 아니라 다양한 영역의 도구에 적응할 수 있는 새로운 AI 에이전트의 시대를 열었습니다. 도구 검색을 생성 프로세스로 근본적으로 전환함으로써 ToolGen은 더욱 다양하고 효율적이며 자율적인 AI 시스템을 위한 기반을 마련합니다. ToolGen은 엔드투엔드 도구 학습을 가능하게 하고, 연쇄 사고 및 강화 학습과 같은 다른 고급 기술과의 통합 기회를 열어 LLM의 실질적인 기능을 확장합니다.

As large language models (LLMs) advance, their inability to autonomously execute tasks by directly interacting with external tools remains a critical limitation. Traditional methods rely on inputting tool descriptions as context, which is constrained by context length and requires separate, often inefficient, retrieval mechanisms. We introduce ToolGen, a paradigm shift that integrates tool knowledge directly into the LLM's parameters by representing each tool as a unique token. This enables the LLM to generate tool calls and arguments as part of its next token prediction capabilities, seamlessly blending tool invocation with language generation. Our framework allows the LLM to access and utilize a vast amount of tools with no additional retrieval step, significantly enhancing both performance and scalability. Experimental results with over 47,000 tools show that ToolGen not only achieves superior results in both tool retrieval and autonomous task completion but also sets the stage for a new era of AI agents that can adapt to tools across diverse domains. By fundamentally transforming tool retrieval into a generative process, ToolGen paves the way for more versatile, efficient, and autonomous AI systems. ToolGen enables end-to-end tool learning and opens opportunities for integration with other advanced techniques such as chain-of-thought and reinforcement learning, thereby expanding the practical capabilities of LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1843491766114422930


긴 컨텍스트 LLM, RAG를 만나다: RAG에서 긴 입력에 대한 과제 극복하기 / Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

논문 소개

많은 긴 문맥 LLM의 경우 구절 수가 증가함에 따라 출력의 품질이 저하된다는 것을 발견하고, 성능 손실이 검색된 하드 네거티브 때문이라고 보고하며, 긴 문맥 LLM 기반 RAG를 개선하는 두 가지 방법, 즉 검색 재정렬과 관련성 식별에 도움이 되는 중간 추론을 통한 RAG별 튜닝을 제안하고, 이러한 접근 방식이 긴 문맥 RAG 성능에서 상당한 정확도와 견고성 향상을 입증한다고 설명합니다.

Finds that for many long-context LLMs, the quality of outputs declines as the number of passages increases; reports that the performance loss is due to retrieved hard negatives; they propose two ways to improve long-context LLM-based RAG: retrieval reordering and RAG-specific tuning with intermediate reasoning to help with relevance identification; that approaches demonstrate significant accuracy and robustness improvements on long-context RAG performance.

논문 초록(Abstract)

검색-증강 생성(RAG)은 대규모 언어 모델(LLM)이 외부 지식 소스를 활용할 수 있도록 지원합니다. 더 긴 입력 시퀀스를 처리할 수 있는 LLM의 용량이 증가하면 더 많은 검색 정보를 제공할 수 있는 길이 열려 생성된 출력의 품질을 잠재적으로 향상시킬 수 있습니다. 검색 세트가 클수록 더 많은 관련 정보(더 높은 회상률)가 포함되어 성능이 향상될 수 있다고 가정하는 것이 타당합니다. 그러나 경험적 연구 결과에 따르면 많은 긴 문맥의 LLM에서 생성된 출력의 품질이 처음에는 향상되지만 이후 검색되는 구절의 수가 증가함에 따라 품질이 저하되는 것으로 나타났습니다. 이 백서에서는 이 현상을 조사하여 검색된 '하드 네거티브'의 해로운 영향을 주요 원인으로 파악합니다. 이를 완화하고 긴 컨텍스트 LLM 기반 RAG의 견고성을 향상시키기 위해 훈련이 필요 없는 접근 방식과 훈련 기반 접근 방식을 모두 제안합니다. 먼저 간단하면서도 강력한 학습 없이 최적화할 수 있는 검색 재정렬의 효과를 소개합니다. 또한 훈련 기반 방법, 특히 RAG에 특화된 암시적 LLM 미세 조정과 중간 추론을 통한 RAG 지향 미세 조정을 살펴봄으로써 상당한 성능 향상을 가져올 수 있는 능력을 입증합니다. 마지막으로 데이터 분포, 리트리버 선택, 훈련 컨텍스트 길이 등 이러한 훈련 기반 방법의 설계 선택에 대한 체계적인 분석을 수행합니다.

Retrieval-augmented generation (RAG) empowers large language models (LLMs) to utilize external knowledge sources. The increasing capacity of LLMs to process longer input sequences opens up avenues for providing more retrieved information, to potentially enhance the quality of generated outputs. It is plausible to assume that a larger retrieval set would contain more relevant information (higher recall), that might result in improved performance. However, our empirical findings demonstrate that for many long-context LLMs, the quality of generated output initially improves first, but then subsequently declines as the number of retrieved passages increases. This paper investigates this phenomenon, identifying the detrimental impact of retrieved "hard negatives" as a key contributor. To mitigate this and enhance the robustness of long-context LLM-based RAG, we propose both training-free and training-based approaches. We first showcase the effectiveness of retrieval reordering as a simple yet powerful training-free optimization. Furthermore, we explore training-based methods, specifically RAG-specific implicit LLM fine-tuning and RAG-oriented fine-tuning with intermediate reasoning, demonstrating their capacity for substantial performance gains. Finally, we conduct a systematic analysis of design choices for these training-based methods, including data distribution, retriever selection, and training context length.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1844828836619334066


GSM-심볼릭: 대규모 언어 모델에서 수학적 추론의 한계 이해하기 / GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

논문 소개

다양한 수학 문제가 가능한 기호 템플릿으로 만든 벤치마크에서 여러 SoTA 모델을 테스트한 결과, 동일한 질문의 변형에 응답할 때 LLM이 편차를 보이고, 질문의 수치 값을 조정하면 모든 모델의 성능이 저하되며, 질문이 더 어려워질수록(예: 절 수를 늘리면) 성능이 크게 저하되는 것을 발견했습니다. 저자는 관찰된 성능 저하가 현재 LLM의 논리적 추론이 부족하기 때문이라고 가설을 세웠습니다.

Tests several SoTA models on a benchmark created with symbolic templates that enable diverse mathematical problems; they find that LLMs exhibit variance when responding to variations of the same questions; the performance of all the models declines by adjusting the numerical values in the question; as questions are made more challenging (e.g., increasing the number of clauses) the performance significantly deteriorates; the authors hypothesize that the observed decline in performance is due to a lack of logical reasoning in current LLMs.

논문 초록(Abstract)

최근 대규모 언어 모델(LLM)의 발전으로 특히 수학에서 형식적 추론 능력에 대한 관심이 높아졌습니다. GSM8K 벤치마크는 초등학교 수준의 문제에 대한 모델의 수학적 추론을 평가하는 데 널리 사용됩니다. 최근 몇 년 동안 GSM8K에서 LLM의 성능이 크게 향상되었지만, 수학적 추론 능력이 진정으로 발전했는지는 여전히 불분명하여 보고된 지표의 신뢰성에 대한 의문이 제기되고 있습니다. 이러한 우려를 해소하기 위해 여러 SOTA 개방형 및 폐쇄형 모델에 대한 대규모 연구를 진행했습니다. 기존 평가의 한계를 극복하기 위해 다양한 질문 세트를 생성할 수 있는 기호 템플릿으로 만든 개선된 벤치마크인 GSM-Symbolic을 도입했습니다. GSM-Symbolic은 보다 제어 가능한 평가를 가능하게 하여 모델의 추론 능력을 측정하기 위한 핵심 인사이트와 보다 신뢰할 수 있는 지표를 제공하며, 연구 결과에 따르면 LLM은 동일한 질문의 다양한 인스턴스에 응답할 때 눈에 띄는 편차를 보이는 것으로 나타났습니다. 특히 GSM-심볼릭 벤치마크에서 질문의 숫자 값만 변경될 경우 모든 모델의 성능이 저하되는 것으로 나타났습니다. 또한 이러한 모델에서 수학적 추론의 취약성을 조사하여 문제의 절 수가 증가함에 따라 성능이 크게 저하됨을 보여줍니다. 이러한 성능 저하는 현재의 LLM이 진정한 논리적 추론을 수행하지 못하고 훈련 데이터에서 추론 단계를 복제하기 때문이라는 가설을 세웠습니다. 질문과 관련이 있어 보이는 절 하나를 추가하면 해당 절이 최종 답변에 필요한 추론 체인에 기여하지 않더라도 모든 최신 모델에서 상당한 성능 저하(최대 65%)를 초래합니다. 전반적으로 이번 연구를 통해 수학적 추론에서 LLM의 능력과 한계를 보다 미묘하게 이해할 수 있게 되었습니다.

Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning.

논문 링크

더 읽어보기

https://x.com/MFarajtabar/status/1844456880971858028


옵티마(Optima): LLM 기반 멀티 에이전트 시스템의 효과 및 효율성 최적화 / Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

논문 소개

LLM 트레이닝을 통해 LLM 기반 멀티 에이전트 시스템에서 통신 효율성과 작업 효과성을 모두 향상시키는 새로운 프레임워크, 성능, 토큰 사용 및 통신 효율성을 개선하기 위해 보상 기능을 갖춘 반복적인 생성, 순위 지정, 선택 및 트레이닝 패러다임 제안, 몬테카를로 트리 검색에서 영감을 얻은 기술을 DPO 데이터 생성에 통합하여 다양한 탐색을 장려, 정보 교환이 많은 작업에서 10% 미만의 토큰으로 2.8배의 성능 향상으로 단일 에이전트 기준선 및 바닐라 MAS 기반 Llama 3 8B에 비해 지속적인 개선을 보임, 정보 교환이 필요한 작업의 경우 토큰이 10% 미만인 상태에서 2.8배의 성능 향상.

A novel framework to enhance both communication efficiency and task effectiveness in LLM-based multi-agent systems through LLM training; proposes an iterative generate, rank, select, and train paradigm with a reward function to improve performance, token use, and communication efficiency; integrates Monte Carlo Tree Search-inspired techniques for DPO data generation to encourage diverse exploration; shows consistent improvements over single-agent baselines and vanilla MAS based on Llama 3 8B, with 2.8x performance gain with less than 10% tokens on tasks requiring heavy information exchange.

논문 초록(Abstract)

대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)은 협업 문제 해결에 있어 놀라운 잠재력을 보여주지만 낮은 통신 효율성, 낮은 확장성, 효과적인 파라미터 업데이트 최적화 방법의 부재 등 여전히 중요한 과제에 직면해 있습니다. 저희는 LLM 트레이닝을 통해 LLM 기반 MAS의 커뮤니케이션 효율성과 작업 효과를 크게 향상시켜 이러한 문제를 해결하는 새로운 프레임워크인 Optima를 소개합니다. 옵티마는 반복적인 생성, 순위 지정, 선택, 훈련 패러다임과 함께 작업 성능, 토큰 효율성, 통신 가독성 간의 균형을 맞추는 보상 함수를 사용합니다. 감독 미세 조정, 직접 선호도 최적화 및 하이브리드 접근 방식을 포함한 다양한 RL 알고리즘을 살펴보고 효과성과 효율성의 절충점에 대한 인사이트를 제공합니다. DPO 데이터 생성을 위해 몬테카를로 트리 검색에서 영감을 얻은 기술을 통합하여 대화를 트리 노드로 취급하여 다양한 상호 작용 경로를 탐색합니다. 정보 비대칭 질문 답변과 복잡한 추론을 포함한 일반적인 다중 에이전트 작업에 대해 평가한 결과, Optima는 단일 에이전트 기준선 및 Llama 3 8B 기반 바닐라 MAS에 비해 일관되고 상당한 개선을 보였으며, 정보 교환이 많은 작업에서 10% 미만의 토큰으로 최대 2.8배의 성능 향상을 달성했습니다. 또한 옵티마의 효율성 향상은 추론 컴퓨팅을 보다 효과적으로 활용할 수 있는 새로운 가능성을 열어주며, 추론 시간 확장 법칙의 개선으로 이어집니다. LLM 기반 MAS의 근본적인 문제를 해결함으로써 Optima는 확장 가능하고 효율적이며 효과적인 MAS를 향한 잠재력을 보여줍니다(Optima: <u>Opti</u>mizing Effectiveness and Efficiency for LLM-Based <u>M</u>ulti-<u>A</u>gent System).

Large Language Model (LLM) based multi-agent systems (MAS) show remarkable potential in collaborative problem-solving, yet they still face critical challenges: low communication efficiency, poor scalability, and a lack of effective parameter-updating optimization methods. We present Optima, a novel framework that addresses these issues by significantly enhancing both communication efficiency and task effectiveness in LLM-based MAS through LLM training. Optima employs an iterative generate, rank, select, and train paradigm with a reward function balancing task performance, token efficiency, and communication readability. We explore various RL algorithms, including Supervised Fine-Tuning, Direct Preference Optimization, and their hybrid approaches, providing insights into their effectiveness-efficiency trade-offs. We integrate Monte Carlo Tree Search-inspired techniques for DPO data generation, treating conversation turns as tree nodes to explore diverse interaction paths. Evaluated on common multi-agent tasks, including information-asymmetric question answering and complex reasoning, Optima shows consistent and substantial improvements over single-agent baselines and vanilla MAS based on Llama 3 8B, achieving up to 2.8x performance gain with less than 10% tokens on tasks requiring heavy information exchange. Moreover, Optima's efficiency gains open new possibilities for leveraging inference-compute more effectively, leading to improved inference-time scaling laws. By addressing fundamental challenges in LLM-based MAS, Optima shows the potential towards scalable, efficient, and effective MAS (Optima: <u>Opti</u>mizing Effectiveness and Efficiency for LLM-Based <u>M</u>ulti-<u>A</u>gent System).

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1844578931732844963


사이언스에이전트벤치: 데이터 기반 과학적 발견을 위한 언어 에이전트의 엄격한 평가를 향하여 / ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

논문 소개

과학적 워크플로우를 위해 구축된 에이전트를 엄격하게 평가하는 새로운 벤치마크로, 오픈 웨이트 및 독점 LLM에서 테스트한 결과 최고 성능의 에이전트는 32.4%의 작업만 독립적으로, 34.3%는 전문가가 제공한 지식으로 해결할 수 있는 것으로 나타났습니다.

A new benchmark to rigorously assess agents built for scientific workflows; after testing it on open-weight and proprietary LLMs, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge.

논문 초록(Abstract)

언어 언어 모델(LLM)의 발전으로 과학적 검색을 엔드 투 엔드로 자동화하기 위한 LLM 기반 언어 에이전트 개발에 대한 관심이 높아지면서 이러한 에이전트의 진정한 기능에 대한 기대와 회의가 동시에 촉발되었습니다. 이 연구에서는 에이전트가 과학적 검색을 완전히 자동화하려면 워크플로우의 모든 필수 작업을 완료할 수 있어야 한다고 주장합니다. 따라서 엔드투엔드 자동화에 대한 대담한 주장을 하기 전에 과학 워크플로우의 개별 작업에 대한 에이전트의 엄격한 평가가 필요합니다. 이를 위해 데이터 기반 과학적 발견을 위한 언어 에이전트 평가를 위한 새로운 벤치마크인 ScienceAgentBench를 소개합니다. 이 벤치마크의 과학적 신뢰성과 실제 관련성을 보장하기 위해 4개 분야의 44개 피어 리뷰 출판물에서 102개 작업을 추출하고 9명의 분야별 전문가를 참여시켜 검증합니다. 모든 작업의 목표 결과물을 독립된 Python 프로그램 파일로 통합하고 다양한 평가 지표를 사용하여 생성된 프로그램, 실행 결과 및 비용을 조사합니다. 각 작업은 주석 품질과 과학적 타당성을 보장하기 위해 주석 작성자와 주제별 전문가가 여러 차례의 수작업 검증을 거칩니다. 또한 데이터 오염 문제를 완화하기 위한 두 가지 효과적인 전략을 제안합니다. 저희의 벤치마크를 사용하여 직접 프롬프트, OpenHands, 자체 디버그의 세 가지 프레임워크를 각각 갖춘 5개의 개방형 및 독점적 LLM을 평가합니다. 각 작업에 대해 세 번의 시도가 주어졌을 때 가장 성능이 좋은 에이전트는 32.4%의 작업만 독립적으로 해결할 수 있고 34.3%는 전문가가 제공한 지식으로 해결할 수 있습니다. 이러한 결과는 과학 연구를 위한 엔드투엔드 자동화는 말할 것도 없고 데이터 기반 검색을 위한 코드를 생성하는 데 있어 현재 언어 에이전트의 능력이 제한적이라는 점을 강조합니다.

The advancements of language language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about the true capabilities of such agents. In this work, we argue that for an agent to fully automate scientific discovery, it must be able to complete all essential tasks in the workflow. Thus, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To this end, we present ScienceAgentBench, a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using our benchmark, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. These results underscore the limited capacities of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1843697964243382586


에너지 효율적인 언어 모델을 위한 추가 기능만 있으면 됩니다 / Addition is All You Need for Energy-efficient Language Models

논문 소개

정수 덧셈 연산으로 부동 소수점 곱셈을 근사화하는 알고리즘을 제안하며, 8비트 부동 소수점보다 계산 집약적이지만 더 높은 정밀도를 달성합니다. 저자는 텐서 처리 하드웨어에 의도된 L-Mul 연산을 적용하면 요소별 부동 소수점 텐서 곱셈의 에너지 비용은 95%, 점 곱의 에너지 비용은 80% 줄일 수 있다고 보고합니다.

Proposes an algorithm that approximates floating point multiplication with integer addition operations; it is less computationally intensive than 8-bit floating point but achieves higher precision; the authors report that applying the purposed L-Mul operation in tensor processing hardware can potentially reduce 95% energy cost by elementwise floating point tensor multiplications and 80% energy cost of dot products.

논문 초록(Abstract)

대규모 신경망은 부동 소수점 텐서 곱셈에 대부분의 연산을 사용합니다. 이 연구에서는 부동 소수점 곱셈기를 하나의 정수 덧셈기로 높은 정밀도로 근사화할 수 있음을 발견했습니다. 정수 덧셈 연산으로 부동 소수점 수 곱셈을 근사화하는 선형 복잡도 곱셈 L-Mul 알고리즘을 제안합니다. 이 새로운 알고리즘은 8비트 부동 소수점 곱셈보다 훨씬 적은 계산 리소스를 사용하지만 더 높은 정밀도를 달성합니다. 8비트 부동 소수점 곱셈에 비해 제안된 방법은 더 높은 정밀도를 달성하지만 비트 수준 계산을 훨씬 적게 소비합니다. 부동 소수점 수 곱셈은 정수 덧셈 연산에 비해 훨씬 더 많은 에너지를 필요로 하기 때문에 텐서 처리 하드웨어에 L-Mul 연산을 적용하면 요소별 부동 소수점 텐서 곱셈의 에너지 비용은 95%, 도트 곱의 에너지 비용은 80%까지 줄일 수 있습니다. 저희는 L-Mul의 이론적 오류 기대치를 계산하고 자연어 이해, 구조적 추론, 수학, 상식적인 질문에 대한 답변 등 다양한 텍스트, 시각, 기호 작업에 대해 알고리즘을 평가했습니다. 수치 분석 실험은 이론적 오차 추정과 일치하며, 4비트 만티사가 있는 L-Mul은 float8_e4m3 곱셈과 비슷한 정밀도를 달성하고 3비트 만티사가 있는 L-Mul은 float8_e5m2보다 성능이 뛰어나다는 것을 나타냅니다. 유명 벤치마크의 평가 결과에 따르면 주의 메커니즘에 L-Mul을 직접 적용하면 거의 손실이 없는 것으로 나타났습니다. 또한 트랜스포머 모델에서 모든 부동 소수점 곱셈을 3비트 만티사 L-Mul로 대체하면 미세 조정과 추론 모두에서 float8_e4m3을 누적 정밀도로 사용하는 것과 동등한 정밀도를 얻을 수 있음을 보여 줍니다.

Large neural networks spend most computation on floating point tensor multiplications. In this work, we find that a floating point multiplier can be approximated by one integer adder with high precision. We propose the linear-complexity multiplication L-Mul algorithm that approximates floating point number multiplication with integer addition operations. The new algorithm costs significantly less computation resource than 8-bit floating point multiplication but achieves higher precision. Compared to 8-bit floating point multiplications, the proposed method achieves higher precision but consumes significantly less bit-level computation. Since multiplying floating point numbers requires substantially higher energy compared to integer addition operations, applying the L-Mul operation in tensor processing hardware can potentially reduce 95% energy cost by element-wise floating point tensor multiplications and 80% energy cost of dot products. We calculated the theoretical error expectation of L-Mul, and evaluated the algorithm on a wide range of textual, visual, and symbolic tasks, including natural language understanding, structural reasoning, mathematics, and commonsense question answering. Our numerical analysis experiments agree with the theoretical error estimation, which indicates that L-Mul with 4-bit mantissa achieves comparable precision as float8_e4m3 multiplications, and L-Mul with 3-bit mantissa outperforms float8_e5m2. Evaluation results on popular benchmarks show that directly applying L-Mul to the attention mechanism is almost lossless. We further show that replacing all floating point multiplications with 3-bit mantissa L-Mul in a transformer model achieves equivalent precision as using float8_e4m3 as accumulation precision in both fine-tuning and inference.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1844043652966072742


자유롭고 싶어요! 사회적 계층 구조가 있는 다중 에이전트 환경에서 LLM의 반사회적 행동과 설득 능력 / I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy

논문 소개

사회적 위계가 있는 다중 에이전트 환경에서 LLM의 상호작용 패턴을 연구한 이 연구는 교도관과 추가 외출 시간 또는 탈옥을 원하는 죄수가 포함된 특정 환경에서 수행되었으며, 권력 역학이 관련된 다중 에이전트 환경에서 LLM은 대화에 실패하며 에이전트의 페르소나가 에이전트의 행동을 유도하는 데 중요하다는 것을 발견했습니다. 또한 명시적인 지시 없이 단순히 에이전트의 역할을 할당하는 것만으로도 반사회적 행동으로 이어질 수 있습니다.

Studies the interaction patterns of LLMs in a multi-agent setting with social hierarchy; the study was done in a specific setting involving a guard and a prisoner who seeks additional yard time or escaping from prison; finds that in the multi-agent setting where power dynamics are involved, the LLMs fail to have a conversation; they also report that agents' personas are critical in driving the behaviors of the agents. In addition, and without explicit prompting, simply assigning agents' roles lead to anti-social behavior.

논문 초록(Abstract)

대규모 언어 모델(LLM) 기반 에이전트가 점점 더 자율화되고 서로 더 자유롭게 상호작용하게 되면서, 새로운 현상과 잠재적 위험을 예측하기 위해 에이전트 간의 상호작용을 연구하는 것이 중요해지고 있습니다. 널리 알려진 스탠포드 감옥 실험에서 영감을 얻은 저희는 엄격한 사회적 위계가 특징인 상황에서 LLM 에이전트의 상호작용 패턴을 연구함으로써 이러한 연구 분야에 기여하고 있습니다. 이를 위해 교도관과 특정 목표(예: 추가 외출 시간 확보 또는 탈옥)를 달성하려는 죄수 에이전트가 등장하는 시뮬레이션 시나리오에서 설득과 반사회적 행동이라는 두 가지 유형의 현상을 구체적으로 연구합니다. 5개의 서로 다른 인기 LLM에서 총 2,000건의 기계와 기계 간의 대화에 대한 200개의 실험 시나리오를 활용하여 주목할 만한 결과를 도출했습니다. 먼저 힘의 역학이 작용하는 다중 에이전트 설정에서 일부 모델이 대화를 수행하는 데 지속적으로 실패하는 방법을 문서화했습니다. 그런 다음 성공적인 상호작용에 성공한 모델의 경우, 에이전트가 달성하도록 설정된 목표가 주로 설득력에 영향을 미치는 반면 에이전트의 반사회적 행동에 대해서는 미미한 영향을 미친다는 사실을 경험적으로 보여줍니다. 셋째, 상담원의 페르소나, 특히 교도관의 성격이 죄수를 설득하는 데 성공할 가능성과 반사회적 행동의 출현에 어떻게 영향을 미치는지 강조합니다. 넷째, 특정 성격을 명시적으로 요구하지 않더라도 단순히 상담원의 역할을 부여하는 것만으로도 반사회적 행동이 나타난다는 것을 보여줍니다. 이러한 결과는 대화형 LLM 에이전트의 개발과 사회적 영향에 대한 논쟁에 시사점을 줍니다.

As Large Language Model (LLM)-based agents become increasingly autonomous and will more freely interact with each other, studying interactions between them becomes crucial to anticipate emergent phenomena and potential risks. Drawing inspiration from the widely popular Stanford Prison Experiment, we contribute to this line of research by studying interaction patterns of LLM agents in a context characterized by strict social hierarchy. We do so by specifically studying two types of phenomena: persuasion and anti-social behavior in simulated scenarios involving a guard and a prisoner agent who seeks to achieve a specific goal (i.e., obtaining additional yard time or escape from prison). Leveraging 200 experimental scenarios for a total of 2,000 machine-machine conversations across five different popular LLMs, we provide a set of noteworthy findings. We first document how some models consistently fail in carrying out a conversation in our multi-agent setup where power dynamics are at play. Then, for the models that were able to engage in successful interactions, we empirically show how the goal that an agent is set to achieve impacts primarily its persuasiveness, while having a negligible effect with respect to the agent's anti-social behavior. Third, we highlight how agents' personas, and particularly the guard's personality, drive both the likelihood of successful persuasion from the prisoner and the emergence of anti-social behaviors. Fourth, we show that even without explicitly prompting for specific personalities, anti-social behavior emerges by simply assigning agents' roles. These results bear implications for the development of interactive LLM agents as well as the debate on their societal impact.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1844427182141211054


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: