[2024/06/17 ~ 06/23] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/06/17 ~ 06/23] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주 선정된 논문들을 살펴보면, 크게 두 가지 주요 추세를 확인할 수 있습니다. 먼저, 대부분의 논문이 자연어 처리(NLP)와 관련된 주제에 집중하고 있음을 알 수 있습니다. 그 중에서도 특히, 장문의 맥락을 다루는 언어 모델(LM), 정보 검색 및 질의 응답(QA) 시스템의 효율성을 높이기 위한 방법들이 주요 관심사로 떠오르고 있습니다. 예를 들어, ‘Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?’ 와 같은 논문은 긴 맥락을 이해하는 언어 모델의 가능성을 탐구하고 있으며, ‘PlanRAG’과 ‘From RAG to Rich Parameters’는 정보 검색과 질의 응답 시스템을 개선하기 위한 새로운 접근 방식을 제시하고 있습니다.

  • 또 다른 주목할만한 추세는 언어 모델의 memorization(암기 현상)을 완화하거나 자기 정제(self-refine) 과정을 통해 성능을 향상시키려는 시도입니다. ‘Mitigating Memorization in LLMs’와 ‘Monte Carlos Tree Self-Refine'은 이러한 관점에서 주목할 만합니다. 암기 현상의 완화는 언어 모델이 단순히 훈련 데이터를 답습하는 것이 아니라, 보다 일반화된 지식을 학습하고 창의적인 응답을 생성할 수 있도록 하는 데 중요합니다. 이는 언어 모델의 실용성과 유용성을 극대화하는 열쇠 중 하나입니다.

  • 이런 추세는 다양한 요인에 의해 촉진되고 있을 것입니다. 첫째로, 인공지능 분야에서 자연어 처리의 중요성이 날로 증가하고 있으며, 이를 위한 기술적 진보가 빠르게 이루어지고 있습니다. 둘째로, 정보의 양이 방대해짐에 따라, 이를 효과적으로 처리하고 사용자에게 유용한 정보를 제공할 수 있는 기술의 필요성이 증가하고 있습니다. 마지막으로, 최근의 언어 모델은 점점 더 복잡하고 파워풀해지고 있지만, 그러한 모델들이 직면한 문제점들을 해결하기 위한 새로운 접근 방법이 지속적으로 요구되고 있는 상황입니다. 이러한 요구를 충족시키기 위해, 연구자들은 기존의 프레임워크를 넘어서는 새로운 아이디어와 방법론을 지속적으로 모색하고 있습니다.


클로드 3.5 소네트 / Claude 3.5 Sonnet

논문 소개

MMLU 및 HumanEval과 같은 여러 일반적인 벤치마크에서 최첨단 성능을 달성하는 새로운 모델로, 수학 단어 문제 풀이 작업을 제외한 여러 벤치마크에서 Claude 3 Opus 및 GPT-4o보다 뛰어난 성능을 발휘하며 이미지 텍스트 전사 및 인공물 생성과 같은 여러 새로운 기능을 지원하는 비전 작업에서도 강력한 성능을 발휘합니다.

A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.

논문 링크

더 읽어보기

https://x.com/AnthropicAI/status/1803790676988920098


DeepSeek-Coder-V2

논문 소개

코드 및 수학 생성 작업에서 클로즈드 소스 모델과 경쟁, HumanEval에서 90.2%, MATH에서 75.7% 달성, 보고서에 따르면 이러한 결과는 GPT-4-Turbo-0409 성능보다 높으며 128K 컨텍스트 길이의 16B 및 236B 파라미터 모델을 포함함.

Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.

논문 초록 (Abstract)

코드별 작업에서 GPT4-Turbo에 필적하는 성능을 달성하는 오픈 소스 전문가 혼합(MoE) 코드 언어 모델인 DeepSeek-Coder-V2를 소개합니다. 특히, 딥시크 코더-V2는 딥시크-V2의 중간 체크포인트에서 6조 개의 토큰을 추가적으로 사전 학습합니다. 이러한 지속적인 사전 학습을 통해 DeepSeek-Coder-V2는 일반 언어 작업에서 비슷한 성능을 유지하면서 DeepSeek-V2의 코딩 및 수학적 추론 능력을 크게 향상시킵니다. DeepSeek-Coder-33B에 비해 DeepSeek-Coder-V2는 추론 및 일반 기능뿐만 아니라 코드 관련 작업의 다양한 측면에서 상당한 발전을 보여줍니다. 또한, DeepSeek-Coder-V2는 프로그래밍 언어 지원을 86개에서 338개로 확장하고 컨텍스트 길이를 16K에서 128K로 확장했습니다. 표준 벤치마크 평가에서 DeepSeek-Coder-V2는 코딩 및 수학 벤치마크에서 GPT4-Turbo, Claude 3 Opus, Gemini 1.5 Pro와 같은 비공개 소스 모델에 비해 우수한 성능을 달성했습니다.

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1803078095219417475


TextGrad: 텍스트를 통한 자동 '미분' / TextGrad: Automatic "Differentiation" via Text

논문 소개

LLM이 제공하는 텍스트 피드백에 대한 역전파를 통해 자동 차별화를 위한 새로운 프레임워크, 개별 구성 요소를 개선하고 자연어가 계산 그래프 최적화에 도움, 프롬프트나 구성 요소를 조정하지 않고 객관적인 함수를 제공함으로써 작동, GPT4o와 결합 시 GPQA에서 LeetCodeHard 최고 점수 및 SoTA 성능을 달성한다고 주장합니다.

A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.

논문 초록(Abstract)

AI는 여러 개의 대규모 언어 모델(LLM)과 기타 복잡한 구성 요소를 조율하는 시스템으로 획기적인 발전을 이루며 패러다임의 변화를 겪고 있습니다. 따라서 복합적인 AI 시스템을 위한 원칙적이고 자동화된 최적화 방법을 개발하는 것이 가장 중요한 새로운 과제 중 하나입니다. 신경망도 초창기에는 비슷한 문제에 직면했지만, 역전파와 자동 차별화를 통해 최적화가 턴키 방식으로 이루어지면서 이 분야가 변모했습니다. 이에 영감을 받아 텍스트를 통해 자동 '차별화'를 수행하는 강력한 프레임워크인 TextGrad를 소개합니다. TextGrad는 LLM이 제공하는 텍스트 피드백을 역전파하여 복합 AI 시스템의 개별 구성 요소를 개선합니다. 저희 프레임워크에서 LLM은 코드 조각에서 분자 구조에 이르기까지 계산 그래프의 변수를 최적화하기 위해 풍부하고 일반적인 자연어 제안을 제공합니다. TextGrad는 PyTorch의 구문과 추상화를 따르며 유연하고 사용하기 쉽습니다. 사용자가 프레임워크의 구성 요소나 프롬프트를 조정할 필요 없이 목적 함수만 제공하면 다양한 작업에 바로 사용할 수 있습니다. 질문 답변 및 분자 최적화부터 방사선 치료 계획에 이르기까지 다양한 애플리케이션에서 TextGrad의 효과와 범용성을 보여드립니다. 프레임워크를 수정하지 않고도 TextGrad는 구글 프루프 질문 답변에서 GPT-4o의 제로 샷 정확도를 51\% 에서 55\% 로 향상시키고, LeetCode-Hard 코딩 문제 솔루션 최적화에서 20\% 의 상대적 성능 향상을 가져오고, 추론을 위한 프롬프트 개선, 바람직한 인실리카 결합으로 신약과 같은 소분자를 설계하고, 높은 특이도로 방사선 종양학 치료 계획을 설계할 수 있게 해줍니다. TextGrad는 차세대 AI 시스템 개발을 가속화할 수 있는 기반을 마련합니다.

AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from 51\% to 55\%, yields 20\% relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.

논문 링크

더 읽어보기

https://x.com/james_y_zou/status/1800917174124740667


긴 컨텍스트 언어 모델이 검색, RAG, SQL 등을 대체할 수 있나요? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

논문 소개

컨텍스트 내 검색 및 추론에 대한 긴 컨텍스트 LLM의 심층적인 성능 분석 수행, 1백만 개의 토큰 컨텍스트가 필요한 실제 작업으로 벤치마크 제시, 작업에 대한 명시적인 교육 없이도 긴 컨텍스트 LLM이 최첨단 검색 및 RAG 시스템과 경쟁할 수 있다고 보고, SQL과 유사한 작업에서 필요한 구성 추론이 이러한 LLM에 여전히 어렵다고 제안, 고급 프롬프트 전략에 대한 지속적인 연구 필요성 강조 긴 컨텍스트 문제에 적용할 때 성능이 크게 향상되는 것을 확인한 바 있습니다.

Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.

논문 초록(Abstract)

장문 언어 모델(LCLM)은 검색 시스템이나 데이터베이스와 같은 외부 도구에 의존하던 작업에 대한 접근 방식을 혁신적으로 바꿀 수 있는 잠재력을 가지고 있습니다. 전체 정보 코퍼스를 기본적으로 수집하고 처리하는 LCLM의 기능을 활용하면 많은 이점을 얻을 수 있습니다. 도구에 대한 전문 지식이 필요 없어 사용자 편의성이 향상되고, 복잡한 파이프라인에서 연쇄적인 오류를 최소화하는 강력한 엔드투엔드 모델링을 제공하며, 전체 시스템에 걸쳐 정교한 프롬프트 기법을 적용할 수 있습니다. 이러한 패러다임의 변화를 평가하기 위해, 컨텍스트 내 검색 및 추론에 대한 LCLM의 성능을 평가하도록 설계된 최대 수백만 개의 토큰이 필요한 실제 작업의 벤치마크인 LOFT를 소개합니다. 연구 결과, LCLM은 이러한 작업에 대해 명시적으로 훈련된 적이 없음에도 불구하고 최첨단 검색 및 RAG 시스템과 경쟁할 수 있는 놀라운 능력을 갖추고 있는 것으로 나타났습니다. 그러나 LCLM은 SQL과 유사한 작업에서 요구되는 구성 추론과 같은 영역에서는 여전히 어려움을 겪고 있습니다. 특히 프롬프트 전략이 성능에 큰 영향을 미치므로 문맥 길이가 길어질수록 지속적인 연구가 필요함을 강조합니다. 전반적으로 LOFT는 모델 기능이 확장됨에 따라 기존 패러다임을 대체하고 새로운 작업을 처리할 수 있는 잠재력을 보여주며 LCLM을 위한 엄격한 테스트 장을 제공합니다.

Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1804184820806766875


PlanRAG: 의사 결정권자로서 생성적 대규모 언어 모델을 위한 계획 후 검색 증강 생성기 / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers

논문 소개

반복적 계획 후 RAG(PlanRAG)라는 새로운 RAG 기법으로 의사 결정을 개선하며, 두 단계로 이루어집니다: 1) LM이 데이터 스키마와 질문을 검토하여 의사 결정을 위한 계획을 생성하고 2) 검색기가 데이터 분석을 위한 쿼리를 생성합니다. 마지막 단계에서는 추가 분석을 위한 새로운 계획이 필요한지 확인하고 이전 단계를 반복하거나 데이터에 대한 결정을 내립니다. PlanRAG는 제안된 의사 결정 QA 작업에 대해 반복적 RAG보다 더 효과적인 것으로 밝혀졌습니다.

Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.

논문 초록(Abstract)

이 논문에서는 복잡한 데이터 분석이 필요한 의사결정을 위한 솔루션으로 LLM을 활용하는 연구를 수행합니다. 의사결정 QA를 의사결정 질문 Q, 비즈니스 규칙 R, 데이터베이스 D 에 대해 최선의 결정인 d_{best} 에 대한 답을 구하는 작업으로 정의합니다. 의사 결정 QA를 검사할 수 있는 벤치마크가 없기 때문에 의사 결정 QA 벤치마크인 DQA를 제안합니다. 이 벤치마크는 의사 결정 QA와 거의 동일한 목표를 가진 두 개의 비디오 게임(유로파 유니버설리스 IV와 빅토리아 3)으로 구성된 두 가지 시나리오, 로케이션과 빌딩으로 구성되어 있습니다. 유니티는 Decision QA를 효과적으로 처리하기 위해 반복적 계획 후 검색 증강 생성(PlanRAG)이라는 새로운 RAG 기법도 제안합니다. PlanRAG 기반 LM은 첫 번째 단계로 의사 결정을 위한 계획을 생성하고, 두 번째 단계로 데이터 분석을 위한 쿼리를 검색기가 생성합니다. 제안된 방법은 최신 반복적 RAG 방법보다 위치 찾기 시나리오에서 15.8%, 구축 시나리오에서 7.4% 각각 더 나은 성능을 보였습니다. 코드와 벤치마크는 GitHub - myeon9h/PlanRAG: PlanRAG: A Plan-then-Retrieval Augmentated Generation Technique for Decision-makings 에 공개되어 있습니다.

In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, d_{best}, for a decision-making question Q, business rules R and a database D. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at GitHub - myeon9h/PlanRAG: PlanRAG: A Plan-then-Retrieval Augmentated Generation Technique for Decision-makings.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1803262374574448757


금붕어처럼 외우지 마세요! 제너레이티브 LLM에서 암기 완화하기 / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

논문 소개

금붕어 손실이라는 다음 토큰 예측 목표를 수정하여 암기된 훈련 데이터의 문자 그대로 생성을 완화하고, 훈련 시 훈련 토큰의 의사 랜덤 하위 집합을 제외하는 간단한 기술을 사용하며, 금붕어 손실이 암기에 저항하고 모델을 유용하게 유지하지만 훈련 데이터에서 더 효과적으로 학습하려면 더 오래 훈련해야 할 수 있음을 보여줍니다.

Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.

논문 초록(Abstract)

대규모 언어 모델은 학습 데이터를 암기하고 반복할 수 있어 개인정보 보호 및 저작권 위험을 초래할 수 있습니다. 암기를 완화하기 위해 다음 토큰 학습 목표에 금붕어 손실이라는 미묘한 수정을 도입했습니다. 훈련 중에 무작위로 샘플링된 토큰의 하위 집합은 손실 계산에서 제외됩니다. 이렇게 삭제된 토큰은 모델이 기억하지 않으므로 훈련 세트에서 전체 토큰 체인이 그대로 재현되는 것을 방지할 수 있습니다. 사전 학습된 모델과 처음부터 학습된 모델 모두에서 수십억 개 규모의 라마 2 모델을 훈련하는 광범위한 실험을 실행한 결과, 다운스트림 벤치마크에 거의 영향을 주지 않으면서 추출 가능한 암기량이 크게 감소했음을 입증했습니다.

Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1802729440163647754


몬테카를로 트리를 통해 GPT-4 수준의 수학 올림피아드 솔루션에 액세스하기 LLaMa-3 8B로 자체 개선하기 / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B

논문 소개

LLM과 몬테카를로 트리 검색을 통합하는 접근 방식을 사용하여 GPT-4 수준의 수학 올림피아드 솔루션을 달성한 것으로 보고되었습니다. 이 접근 방식은 체계적인 탐색, 자기 개선, 자기 평가 등의 기능을 통해 시스템의 수학적 추론 성능을 향상시키는 데 중점을 둡니다.

Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.

논문 초록(Abstract)

이 백서에서는 복잡한 수학적 추론 작업의 성능을 향상시키기 위해 설계된 대규모 언어 모델(LLM)과 몬테카를로 트리 검색(MCTS)을 혁신적으로 통합한 MCT 자체 재정의(MCTSr) 알고리즘을 소개합니다. 특히 전략 및 수학적 추론에서 LLM의 정확성과 신뢰성 문제를 해결하는 MCTSr은 체계적인 탐색과 휴리스틱 자체 수정 메커니즘을 활용하여 LLM 내의 의사 결정 프레임워크를 개선합니다. 이 알고리즘은 선택, 자체 수정, 자체 평가, 역전파의 반복적인 프로세스를 통해 몬테카를로 탐색 트리를 구성하고, 향상된 상위 신뢰 한계(UCB) 공식을 활용하여 탐색-탐색 균형을 최적화합니다. 광범위한 실험을 통해 올림피아드 수준의 수학 문제를 푸는 데 있어 MCTSr의 효능이 입증되었으며, GSM8K, GSM Hard, MATH 및 수학 오디세이, AIME, 올림피아드 벤치마크 등 여러 데이터 세트에서 성공률을 크게 향상시켰습니다. 이 연구는 복잡한 추론 작업에서 LLM의 적용을 발전시키고 향후 AI 통합을 위한 기반을 마련하여 LLM 기반 애플리케이션에서 의사 결정의 정확성과 신뢰성을 향상시킵니다.

This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.

논문 링크

더 읽어보기

https://x.com/rohanpaul_ai/status/1801259208341373013


RAG에서 풍부한 파라미터까지: 언어 모델이 사실 쿼리를 위해 매개변수 정보에 대한 외부 지식을 활용하는 방법 조사하기 / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries

논문 소개

사실 쿼리에 대해 LLM이 매개변수 정보보다 외부 지식을 활용하는 방식을 더 면밀히 조사한 결과, RAG 파이프라인에서 LLM은 '지름길'을 택하고 질문에 답하기 위해 맥락 정보만 활용하고 매개변수 메모리는 최소한으로 의존하는 편향성이 강하다는 사실을 발견했습니다.

Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.

논문 초록(Abstract)

검색 증강 생성(RAG)은 언어 모델이 외부 컨텍스트를 사용하여 추론하는 기능을 강화하여 주어진 사용자 프롬프트에 대한 응답을 보강합니다. 이 접근 방식은 검색, 질문/답변, 챗봇 등 다양한 분야에서 언어 모델을 실제로 적용하면서 인기가 높아졌습니다. 그러나 이 접근 방식이 어떻게 작동하는지에 대한 정확한 특성은 명확하게 이해되지 않았습니다. 이 백서에서는 RAG 파이프라인을 기계적으로 조사하여 언어 모델이 지름길을 택하고 문맥 정보만 활용하여 질문에 답하는 편향성이 강하며 파라메트릭 메모리에 최소한으로 의존한다는 점을 강조합니다. 언어 모델의 이러한 기계론적 행동을 다음과 같이 조사합니다: (i) 인과적 매개 분석을 통해 질문에 답할 때 파라메트릭 메모리가 최소한으로 활용된다는 것을 보여주고, (ii) 주의 기여와 녹아웃을 통해 마지막 토큰 잔류 스트림이 질문의 주제 토큰으로부터 강화되지 않고 문맥의 다른 정보 토큰으로부터 강화된다는 것을 보여줍니다. 이러한 뚜렷한 지름길 동작은 LLaMa와 Phi 모델군 모두에서 사실로 밝혀졌습니다.

Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1803254134289895555


오픈소라 / Open-Sora

논문 소개

16초 720p 동영상을 생성할 수 있는 오픈소스 동영상 생성 모델, 30억 개 이상의 데이터로 학습된 11억 개의 파라미터 모델로 이제 이미지-비디오를 지원, 공간 및 시간 압축을 위해 향상된 확산 모델과 동영상 압축 네트워크를 제공하며, 생성 제어 가능성을 높이고 학습 비용을 절감합니다.

An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.

논문 링크

Open-Sora 1.2 Report

더 읽어보기

https://x.com/omarsar0/status/1803176105010171957


언어 모델 에이전트에 대한 트리 검색 / Tree Search for Language Model Agents

논문 소개

LM 에이전트가 탐색을 수행하고 다단계 추론을 가능하게 하는 추론 시간 트리 검색 알고리즘을 제안하고, 대화형 웹 환경에서 테스트하고 GPT-4o에 적용하여 성능을 크게 개선하고, 테스트 시간 컴퓨팅을 늘리면 성능이 확장되는 것을 입증합니다.

Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.

논문 초록(Abstract)

언어 모델(LM)로 구동되는 자율 에이전트는 웹 자동화와 같은 의사 결정 작업을 수행하는 능력에서 가능성을 보여주었습니다. 하지만 근본적인 과제가 남아 있습니다: 주로 자연어 이해 및 생성에 최적화된 LM은 현실적인 컴퓨터 작업을 해결하려고 할 때 다단계 추론, 계획, 환경 피드백 활용에 어려움을 겪습니다. 이 문제를 해결하기 위해 대화형 웹 환경에서 LM 에이전트가 탐색과 다단계 계획을 명시적으로 수행할 수 있는 추론 시간 검색 알고리즘을 제안합니다. 우리의 접근 방식은 실제 환경 공간 내에서 작동하는 최적 우선 트리 검색의 한 형태이며, 대부분의 기존 최신 에이전트와 상호 보완적입니다. 실제 웹 작업에서 효과를 보여주는 최초의 LM 에이전트용 트리 검색 알고리즘입니다. 까다로운 VisualWebArena 벤치마크에서 GPT-4o 에이전트 위에 검색 알고리즘을 적용하면 검색을 적용하지 않은 동일한 기준선에 비해 성공률이 39.7% 증가하여 26.4%의 최신 성공률을 기록했습니다. 웹아레나에서도 검색은 기준 에이전트 대비 28.0%의 상대적 개선 효과를 가져와 19.2%의 경쟁사 성공률을 기록했습니다. 이 실험은 웹 에이전트 검색의 효율성을 강조하며, 테스트 시간 계산이 증가함에 따라 성능이 확장된다는 사실을 입증합니다. 결과를 철저히 분석하여 검색의 개선점, 한계점, 향후 작업의 유망한 방향성을 강조합니다.

Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.

논문 링크

더 읽어보기

https://x.com/kohjingyu/status/1803604487216701653


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: