[2023/10/09 ~ 10/15] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 제공된 논문들을 살펴보면 대부분 '언어 모델'에 관련해 연구되었음을 알 수 있습니다. 특히, 'Universal Simulator', 'Overview of Factuality in LLMs', 'LLMs can Learn Rules', 'Meta Chain-of-Thought Prompting', 'A Survey of LLMs for Healthcare', 'Improving Retrieval-Augmented LMs with Compressors', 'Instruct-Retro', 'MemWalker', 'Toward Language Agent Fine-tuning' 등 대다수의 논문들이 언어 모델, 그 중에서도 LLM(Large Language Models)에 주목하고 있음을 확인할 수 있습니다.

이렇게 언어 모델에 대한 연구가 늘어나는 경향은 인공지능 기술이 자연어 처리 분야에 깊이 뿌리내리며, 보다 사람처럼 자연스러운 언어를 파악하고 생성하는 기술 발전에 중점을 둔 결과로 보입니다. 이들 논문들 중 'LLMs can Learn Rules', 'Instruct-Retro', 'Improving Retrieval-Augmented LMs with Compressors' 같은 논문들은 LLMs의 학습 방법론에 관한 내용을 포함하고 있어, 이런 역량을 향상시키기 위한 심층 학습 모델 개발이 진행중임을 보여주고 있습니다.

또한, 'A Survey of LLMs for Healthcare', 'Toward Language Agent Fine-tuning' 등의 논문에서는 LLMs를 특정 분야에 적용하는 시도를 볼 수 있습니다. 실제로, 관련 분야에서 실질적인 문제를 해결하려는 논문도 많이 보여, 이론뿐만 아니라 실용성 또한 추구하는 연구 경향을 확인할 수 있습니다. 이를 통해, 기계학습 및 딥러닝 기반의언어 모델이 다양한 분야에 깊이 적용될 가능성을 보여주고 있습니다.


무한에 가까운 컨텍스트를 위한 블록형 트랜스포머로 링 어텐션 제공 / Ring Attention with Blockwise Transformers for Near-Infinite Context

논문 소개

  • 자체 어텐션의 블록 단위 계산을 활용하여 긴 시퀀스를 여러 장치에 분산함으로써 트랜스포머 아키텍처에 내재된 메모리 한계를 극복하는 메모리 효율적인 접근 방식으로, 학습 및 추론 중에 긴 시퀀스를 처리할 수 있으며, 성능을 유지하면서 장치 수에 따라 컨텍스트 길이를 확장할 수 있어 어텐션 근사치 없이 컨텍스트 길이가 1억을 초과할 수 있습니다.

    A memory-efficient approach that leverages blockwise computation of self-attention to distribute long sequences across multiple devices to overcome the memory limitations inherent in transformer architectures, enabling handling of longer sequences during training and inference; enables scaling the context length with the number of devices while maintaining performance, exceeding context length of 100 million without attention approximations.

논문 초록

  • 트랜스포머는 다양한 AI 애플리케이션에서 뛰어난 성능을 보여주며 많은 최신 AI 모델에서 선택하는 아키텍처로 부상했습니다. 하지만 트랜스포머는 메모리 요구량으로 인해 긴 시퀀스를 처리하는데 한계가 있어 확장된 시퀀스나 장기적인 종속성을 포함하는 작업에 어려움을 겪습니다. 유니티는 블록 단위의 자체 어텐션 계산을 활용하여 긴 시퀀스를 여러 장치에 분산하는 동시에 키-값 블록의 통신을 블록 단위 어텐션 계산과 겹치는 독특한 접근 방식인 링 어텐션(Ring Attention)을 제시합니다. 링 어텐션은 이전의 메모리 효율적인 트랜스포머보다 최대 몇 배 더 많은 디바이스 수에 해당하는 시퀀스를 학습하고 추론할 수 있어 개별 디바이스의 메모리 제약을 효과적으로 제거할 수 있습니다. 언어 모델링 작업에 대한 광범위한 실험을 통해 링 어텐션이 대규모 시퀀스 입력 크기를 허용하고 성능을 개선하는 데 효과적이라는 것이 입증되었습니다.

    Transformers have emerged as the architecture of choice for many state-of-the-art AI models, showcasing exceptional performance across a wide range of AI applications. However, the memory demands imposed by Transformers limit their ability to handle long sequences, thereby creating challenges for tasks involving extended sequences or long-term dependencies. We present a distinct approach, Ring Attention, which leverages blockwise computation of self-attention to distribute long sequences across multiple devices while overlapping the communication of key-value blocks with the computation of blockwise attention. Ring Attention enables training and inference of sequences that are up to device count times longer than those of prior memory-efficient Transformers, effectively eliminating the memory constraints imposed by individual devices. Extensive experiments on language modeling tasks demonstrate the effectiveness of Ring Attention in allowing large sequence input size and improving performance.

논문 링크

더 읽어보기

https://x.com/haoliuhl/status/1709630382457733596


UniSim: 인터랙티브 실제 세계 시뮬레이터 학습 / Learning Interactive Real-World Simulators

논문 소개

  • 제너레이티브 모델링을 적용하여 실제 상호작용의 범용 시뮬레이터를 학습하고, 높은 수준의 명령과 낮은 수준의 제어의 시각적 결과를 시뮬레이션하여 인간과 에이전트가 세상과 상호작용하는 방식을 에뮬레이션할 수 있으며, 비전 언어 플래너, 낮은 수준의 강화 학습 정책을 학습하고 비디오 캡션을 수행하는 시스템에도 이 시스템을 사용할 수 있습니다.

    Applies generative modeling to learn a universal simulator of real-world interactions; can emulate how humans and agents interact with the world by simulating the visual outcome of high instruction and low-level controls; the system can be used to train vision-language planners, low-level reinforcement learning policies, and even for systems that perform video captioning.

논문 초록

  • 인터넷 데이터로 학습된 제너레이티브 모델은 텍스트, 이미지, 동영상 콘텐츠 제작 방식에 혁신을 가져왔습니다. 제너레이티브 모델의 다음 이정표는 사람, 로봇, 기타 대화형 에이전트가 취하는 행동에 반응하여 실제와 같은 경험을 시뮬레이션하는 것입니다. 실제 시뮬레이터의 응용 분야는 게임과 영화에서 제어 가능한 콘텐츠 제작부터 실제 세계에 직접 배포할 수 있는 시뮬레이션으로만 구현된 에이전트를 학습하는 것까지 다양합니다. 유니티는 제너레이티브 모델링을 통해 실제 상호작용을 학습할 수 있는 범용 시뮬레이터(UniSim)의 가능성을 탐구합니다. 먼저 실제 세계 시뮬레이터 학습에 사용할 수 있는 자연 데이터 세트는 이미지 데이터의 풍부한 객체, 로봇 데이터의 조밀하게 샘플링된 동작, 내비게이션 데이터의 다양한 움직임 등 다양한 축을 따라 풍부한 경우가 많다는 중요한 관찰을 수행합니다. 전체 경험의 각기 다른 측면을 제공하는 다양한 데이터셋을 신중하게 오케스트레이션함으로써 UniSim은 정적인 장면과 오브젝트에서 "서랍을 열어라"와 같은 높은 수준의 명령과 "x, y로 이동"과 같은 낮은 수준의 컨트롤의 시각적 결과를 시뮬레이션하여 인간과 에이전트가 세계와 상호 작용하는 방식을 에뮬레이션할 수 있습니다. 이러한 실제 시뮬레이터에는 수많은 사용 사례가 있습니다. 예를 들어 유니티는 UniSim을 사용하여 높은 수준의 비전 언어 플래너와 낮은 수준의 강화 학습 정책을 모두 학습하고 있으며, 각 정책은 학습된 실제 세계 시뮬레이터에서만 학습한 후 실제 세계로 바로 전이되는 제로샷을 보여줍니다. 또한 유니티는 비디오 캡션 모델과 같은 다른 유형의 인텔리전스도 UniSim의 시뮬레이션 경험을 통해 학습함으로써 더 광범위한 애플리케이션에 활용할 수 있음을 보여줍니다. 동영상 데모는 https://universal-simulator.github.io 에서 확인할 수 있습니다.

    Generative models trained on internet data have revolutionized how text, image, and video content can be created. Perhaps the next milestone for generative models is to simulate realistic experience in response to actions taken by humans, robots, and other interactive agents. Applications of a real-world simulator range from controllable content creation in games and movies, to training embodied agents purely in simulation that can be directly deployed in the real world. We explore the possibility of learning a universal simulator (UniSim) of real-world interaction through generative modeling. We first make the important observation that natural datasets available for learning a real-world simulator are often rich along different axes (e.g., abundant objects in image data, densely sampled actions in robotics data, and diverse movements in navigation data). With careful orchestration of diverse datasets, each providing a different aspect of the overall experience, UniSim can emulate how humans and agents interact with the world by simulating the visual outcome of both high-level instructions such as "open the drawer" and low-level controls such as "move by x, y" from otherwise static scenes and objects. There are numerous use cases for such a real-world simulator. As an example, we use UniSim to train both high-level vision-language planners and low-level reinforcement learning policies, each of which exhibit zero-shot real-world transfer after training purely in a learned real-world simulator. We also show that other types of intelligence such as video captioning models can benefit from training with simulated experience in UniSim, opening up even wider applications. Video demos can be found at https://universal-simulator.github.io.

논문 링크

더 읽어보기

https://x.com/mengjiao_yang/status/1712153304757915925


대규모 언어 모델의 사실성에 대한 조사: 지식, 검색 및 도메인 특이성 / Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity

논문 소개

  • LLM의 사실성에 대한 논문들을 통합적으로 살펴봄으로써 LLM의 사실성을 평가하는 방법과 이를 개선하는 방법에 대한 인사이트를 제공합니다. survey-paper llm

    A survey of factuality in llms providing insights into how to evaluate factuality in llms and how to enhance it.

논문 초록

  • 이 서베이 논문은 대규모 언어 모델(LLM)에서 사실성이라는 중요한 문제를 다룹니다. LLM이 다양한 도메인에 걸쳐 적용됨에 따라 결과물의 신뢰성과 정확성이 중요해졌습니다. 사실성 문제를 LLM이 확립된 사실과 일치하지 않는 콘텐츠를 생성할 확률로 정의합니다. 먼저 이러한 부정확성의 의미를 살펴보고, LLM 결과물의 사실 오류로 인해 발생할 수 있는 잠재적 결과와 과제를 강조합니다. 그런 다음, 사실 오류의 주요 원인을 찾기 위해 LLM이 사실을 저장하고 처리하는 메커니즘을 분석합니다. 그런 다음 주요 지표, 벤치마크 및 연구를 강조하면서 LLM의 사실성을 평가하는 방법론으로 논의의 초점을 전환합니다. 또한 특정 도메인에 맞춤화된 접근 방식을 포함하여 LLM 사실성을 향상시키기 위한 전략을 살펴봅니다. 독립형 LLM과 외부 데이터를 활용하는 검색 증강 LLM이라는 두 가지 주요 LLM 구성에 초점을 맞추고, 각 구성의 고유한 과제와 잠재적인 개선 사항을 자세히 설명합니다. 이번 설문조사는 LLM의 사실 신뢰성을 강화하고자 하는 연구자를 위한 체계적인 가이드를 제공합니다.

    This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1712469661118517740


HtT: 대규모 언어 모델도 규칙 학습 가능 / Large Language Models can Learn Rules

논문 소개

  • 첫 번째 단계(유도/induction)에서는 학습 예제에 대한 규칙을 생성하고 검증하도록 유도하고, 규칙 라이브러리는 자주 나타나고 정답으로 이어지는 규칙으로 구성되며, 두 번째 단계(연역/deduction)에서는 학습된 규칙 라이브러리를 사용하여 추론을 수행하고 테스트 문제에 답하도록 유도하고, 수치 추론 및 관계 추론 문제에 대한 결과를 개선하는 2단계 프레임워크를 제시합니다.

    Presents a two-stage framework that learns a rule library for reasoning with llms; in the first stage (induction), an llm is prompted to generate and verify rules over training examples; the rule library will consist of rules that often appear and lead to correct answers; the second stage (deduction) prompts the llm to employ the learned rule library to perform reasoning and answer test questions; improves results on numerical reasoning and relational reasoning problems.

논문 초록

  • 몇 가지 예시와 중간 단계를 제시하는 경우, 대규모 언어 모델(LLM)은 다양한 추론 작업에서 인상적인 성능을 보여주었습니다. 그러나 LLM의 암묵적 지식에 의존하는 프롬프트 방식은 암묵적 지식이 잘못되었거나 과제와 일치하지 않을 때 종종 오답을 유도하는 경우가 있습니다. 이러한 문제를 해결하기 위해, 저희는 LLM으로 추론하기 위한 규칙 라이브러리를 학습하는 프레임워크인 가설 대 이론(HtT)을 제시합니다. HtT는 유도 단계와 추론 단계의 두 단계로 구성됩니다. 유도 단계에서는 먼저 학습 예제 세트에 대한 규칙을 생성하고 검증하도록 LLM에 요청합니다. 충분히 자주 나타나고 정답으로 이어지는 규칙은 수집되어 규칙 라이브러리를 형성합니다. 그런 다음 추론 단계에서는 학습된 규칙 라이브러리를 사용하여 시험 문제에 답하기 위한 추론을 수행하라는 메시지가 LLM에 표시됩니다. 수치 추론과 관계 추론 문제에 대한 실험 결과, HtT는 기존 프롬프트 방식을 개선하여 11~27%의 절대적인 정확도를 높인 것으로 나타났습니다. 또한 학습된 규칙은 다른 모델이나 동일한 문제의 다른 형태에도 적용할 수 있습니다.

    When prompted with a few examples and intermediate steps, large language models (LLMs) have demonstrated impressive performance in various reasoning tasks. However, prompting methods that rely on implicit knowledge in an LLM often hallucinate incorrect answers when the implicit knowledge is wrong or inconsistent with the task. To tackle this problem, we present Hypotheses-to-Theories (HtT), a framework that learns a rule library for reasoning with LLMs. HtT contains two stages, an induction stage and a deduction stage. In the induction stage, an LLM is first asked to generate and verify rules over a set of training examples. Rules that appear and lead to correct answers sufficiently often are collected to form a rule library. In the deduction stage, the LLM is then prompted to employ the learned rule library to perform reasoning to answer test questions. Experiments on both numerical reasoning and relational reasoning problems show that HtT improves existing prompting methods, with an absolute gain of 11-27% in accuracy. The learned rules are also transferable to different models and to different forms of the same problem.

논문 링크

더 읽어보기

https://x.com/zhu_zhaocheng/status/1712582734550647091


Meta-CoT: 대규모 언어 모델을 사용하는 혼합 작업 시나리오에서 일반화 가능한 연쇄 사고 프롬프트 / Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models

논문 소개

  • 입력 질문의 유형을 알 수 없는 혼합 작업 시나리오에서 일반화 가능한 연쇄적 사고(메타 코트) 프롬프트 방법으로, 세 단계로 구성됩니다: 1) 시나리오 식별: 입력 질문을 기반으로 시나리오를 자동으로 분류하는 데 도움이 되는 맥락 내 학습 데모로 개별 질문을 샘플링 2) 데모 선택: 첫 번째 단계에서 얻은 시나리오를 기반으로 풀에서 다양한 데모를 구성 3) 답변 도출: 이전에 가져온 데모를 사용하여 입력 질문에 대한 최종 답변 유추를 수행합니다. chain-of-thought

    A generalizable chain-of-thought (meta-cot) prompting method in mixed-task scenarios where the type of input questions is unknown; comprises of three phases: 1) scenario identification: samples distinct questions as in-context learning demonstrations to help automatically categorize scenarios based on input questions 2) demonstration selection: constructs diverse demonstrations from a pool based on the scenario obtained in the first phase 3) answer derivation: performs a final answer inference on the input question using previously fetched demonstrations.

논문 초록

  • 대규모 언어 모델(LLM)은 답을 도출하기 위한 근거가 되는 중간 추론 사슬을 생성하는 생각의 사슬(CoT) 프롬프트를 활용하여 놀라운 추론 능력을 보여줬습니다. 그러나 현재의 CoT 방식은 단순히 '단계별로 생각해 봅시다'와 같은 일반적인 프롬프트를 사용하거나, 바람직한 성능을 얻기 위해 수작업으로 만든 과제별 데모에 크게 의존하기 때문에 성능과 일반화 사이에 피할 수 없는 격차가 존재합니다. 이러한 격차를 해소하기 위해 입력 질문의 유형을 알 수 없는 혼합 작업 시나리오에서 일반화할 수 있는 CoT 프롬프트 방법인 Meta-CoT를 제안합니다. Meta-CoT는 먼저 입력 질문에 따라 시나리오를 분류한 후 해당 데이터 풀에서 다양한 데모를 자동 패턴으로 구성합니다. Meta-CoT는 10개의 공개 벤치마크 추론 과제에서 괄목할 만한 성능과 우수한 일반화 능력을 동시에 갖추고 있습니다. 특히, Meta-CoT는 추가적인 프로그램 지원 방법 없이도 SVAMP에서 93.7%라는 최고 수준의 결과를 달성했습니다. 5개의 분산되지 않은 데이터셋에 대한 추가 실험을 통해 Meta-CoT의 안정성과 일반성을 검증했습니다.

    Large language models (LLMs) have unveiled remarkable reasoning capabilities by exploiting chain-of-thought (CoT) prompting, which generates intermediate reasoning chains to serve as the rationale for deriving the answer. However, current CoT methods either simply employ general prompts such as Let's think step by step, or heavily rely on handcrafted task-specific demonstrations to attain preferable performances, thereby engendering an inescapable gap between performance and generalization. To bridge this gap, we propose Meta-CoT, a generalizable CoT prompting method in mixed-task scenarios where the type of input questions is unknown. Meta-CoT firstly categorizes the scenario based on the input question and subsequently constructs diverse demonstrations from the corresponding data pool in an automatic pattern. Meta-CoT simultaneously enjoys remarkable performances on ten public benchmark reasoning tasks and superior generalization capabilities. Notably, Meta-CoT achieves the state-of-the-art result on SVAMP (93.7%) without any additional program-aided methods. Our further experiments on five out-of-distribution datasets verify the stability and generality of Meta-CoT.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1712835499256090972


의료용 대규모 언어 모델에 대한 조사: 데이터, 기술, 애플리케이션에서 책임과 윤리에 이르기까지 / A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics

논문 소개

  • 헬스케어 도메인에 적용되는 LLM에 대한 포괄적인 개요입니다. llm medical survey-paper

    A comprehensive overview of llms applied to the healthcare domain.

논문 초록

  • 특정 전문 지식이 있는 자유 텍스트 쿼리에 효과적으로 대응할 수 있는 능력으로 인해 의료 분야에서 대규모 언어 모델(LLM)의 활용은 기대와 우려를 동시에 불러일으켰습니다. 이 설문조사에서는 현재 개발된 의료용 LLM의 기능을 개괄적으로 살펴보고 개발 프로세스를 설명하며, 기존의 사전 학습된 언어 모델(PLM)에서 LLM으로의 개발 로드맵에 대한 개요를 제공합니다. 특히, 먼저 다양한 헬스케어 애플리케이션의 효율성과 효과성을 향상시킬 수 있는 LLM의 잠재력을 살펴보고 강점과 한계를 짚어봅니다. 둘째, 이전 PLM과 최신 LLM을 비교하고 다양한 LLM을 서로 비교합니다. 그런 다음 관련 헬스케어 교육 데이터, 교육 방법, 최적화 전략 및 사용법을 요약합니다. 마지막으로, 특히 공정성, 책임성, 투명성, 윤리와 관련하여 의료 환경에서 LLM을 배포하는 것과 관련된 고유한 우려 사항을 조사합니다. 이번 설문조사는 컴퓨터 과학과 헬스케어 전문 분야의 관점에서 종합적인 조사를 제공합니다. 의료 문제에 대한 논의 외에도 접근 가능한 데이터 세트, 최신 방법론, 코드 구현 및 평가 벤치마크와 같은 오픈소스 리소스 모음을 Github에 컴파일하여 컴퓨터 과학 커뮤니티를 지원합니다. 요약하자면, PLM에서 LLM으로 전환하는 중요한 패러다임 전환이 진행 중이라고 주장합니다. 이러한 변화에는 차별적 AI 접근 방식에서 생성적 AI 접근 방식으로의 전환과 모델 중심 방법론에서 데이터 중심 방법론으로의 전환이 포함됩니다.

    The utilization of large language models (LLMs) in the Healthcare domain has generated both excitement and concern due to their ability to effectively respond to freetext queries with certain professional knowledge. This survey outlines the capabilities of the currently developed LLMs for Healthcare and explicates their development process, with the aim of providing an overview of the development roadmap from traditional Pretrained Language Models (PLMs) to LLMs. Specifically, we first explore the potential of LLMs to enhance the efficiency and effectiveness of various Healthcare applications highlighting both the strengths and limitations. Secondly, we conduct a comparison between the previous PLMs and the latest LLMs, as well as comparing various LLMs with each other. Then we summarize related Healthcare training data, training methods, optimization strategies, and usage. Finally, the unique concerns associated with deploying LLMs in Healthcare settings are investigated, particularly regarding fairness, accountability, transparency and ethics. Our survey provide a comprehensive investigation from perspectives of both computer science and Healthcare specialty. Besides the discussion about Healthcare concerns, we supports the computer science community by compiling a collection of open source resources, such as accessible datasets, the latest methodologies, code implementations, and evaluation benchmarks in the Github. Summarily, we contend that a significant paradigm shift is underway, transitioning from PLMs to LLMs. This shift encompasses a move from discriminative AI approaches to generative AI approaches, as well as a shift from model-centered methodologies to datacentered methodologies.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1711755055777415485


RECOMP: 압축 및 선택적 증강을 통해 검색 증강 LM 개선하기 / RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation

논문 소개

  • 검색된 문서를 문맥에 맞게 미리 보류하기 전에 텍스트 요약으로 압축하는 두 가지 접근 방식을 제시합니다: 1) 추출 압축기 - 검색된 문서에서 유용한 문장 선택 2) 추상 압축기 - 여러 문서의 정보를 합성하여 요약 생성 언어 모델링 작업 및 개방형 도메인 질문 답변 작업에서 성능 손실을 최소화하면서 6%의 낮은 압축률 달성 제안된 학습 체계는 검색된 문서가 작업과 관련이 없거나 도움이 되지 않을 때 빈 요약을 생성하는 데 도움이 되는 선택적 증강을 수행합니다.

    Presents two approaches to compress retrieved documents into text summaries before pre-pending them in-context: 1) extractive compressor - selects useful sentences from retrieved documents 2) abstractive compressor - generates summaries by synthesizing information from multiple documents; achieves a compression rate of as low as 6% with minimal loss in performance on language modeling tasks and open domain question answering tasks; the proposed training scheme performs selective augmentation which helps to generate empty summaries when retrieved docs are irrelevant or unhelpful for a task.

논문 초록

  • 문서를 검색하여 추론 시점에 문맥에 맞게 추가하면 다양한 작업에서 언어 모델(LM)의 성능이 향상됩니다. 하지만 수백 개의 단어로 구성된 이러한 문서는 추론에 상당한 비용이 소요됩니다. 따라서 검색된 문서를 문맥 내 통합 전에 텍스트 요약으로 압축할 것을 제안합니다. 이렇게 하면 계산 비용을 줄일 수 있을 뿐만 아니라 검색된 긴 문서에서 관련 정보를 식별해야 하는 LM의 부담도 덜어줍니다. 검색된 문서에서 유용한 문장을 선택하는 추출 압축기와 여러 문서의 정보를 종합하여 요약을 생성하는 추상 압축기의 두 가지 압축기를 제공합니다. 두 압축기 모두 생성된 요약이 LM의 입력에 추가될 때 최종 작업에서 LM의 성능을 향상시키면서 요약을 간결하게 유지하도록 학습되며, 검색된 문서가 입력과 관련이 없거나 LM에 추가 정보를 제공하지 않는 경우 압축기는 빈 문자열을 반환하여 선택적 증강을 구현할 수 있으며, 언어 모델링 작업과 오픈 도메인 질문 답변 작업에서 우리의 접근 방식을 평가합니다. 두 작업 모두에서 성능 손실을 최소화하면서 6%의 낮은 압축률을 달성하여 기성 요약 모델보다 훨씬 뛰어난 성능을 보였습니다. 하나의 LM에 대해 학습된 압축기가 언어 모델링 작업에서 다른 LM으로 이전되어 검색된 문서에 대체로 충실한 요약을 제공할 수 있음을 보여줍니다.

    Retrieving documents and prepending them in-context at inference time improves performance of language model (LMs) on a wide range of tasks. However, these documents, often spanning hundreds of words, make inference substantially more expensive. We propose compressing the retrieved documents into textual summaries prior to in-context integration. This not only reduces the computational costs but also relieves the burden of LMs to identify relevant information in long retrieved documents. We present two compressors -- an extractive compressor which selects useful sentences from retrieved documents and an abstractive compressor which generates summaries by synthesizing information from multiple documents. Both compressors are trained to improve LMs' performance on end tasks when the generated summaries are prepended to the LMs' input, while keeping the summary concise.If the retrieved documents are irrelevant to the input or offer no additional information to LM, our compressor can return an empty string, implementing selective augmentation.We evaluate our approach on language modeling task and open domain question answering task. We achieve a compression rate of as low as 6% with minimal loss in performance for both tasks, significantly outperforming the off-the-shelf summarization models. We show that our compressors trained for one LM can transfer to other LMs on the language modeling task and provide summaries largely faithful to the retrieved documents.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1711384213092479130


InstructRetro: 검색 후 인스트럭션 튜닝-증강 사전 교육 / InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

논문 소개

  • 검색으로 사전 학습된 가장 큰 LLM인 레트로 48b를 도입하고, 1.2t 토큰에서 검색(레트로 증강 방법 사용)하여 추가 100b 토큰에 대해 43b 파라미터 gpt 모델을 계속 사전 학습하며, 레트로 48b 모델은 gpt 43b에 비해 상당한 난해성 개선을 보였습니다. 레트로 모델을 48b로 확장하면 인스트럭션 튜닝이 더 효과적으로 이루어질 수 있습니다. 이 연구에서는 인스트럭션 튜닝을 레트로 48b에 적용하여 제로 샷 질문-답변 과제에서 인스트럭션 튜닝된 gpt에 비해 상당한 개선(+7%)을 보여주었습니다.

    Introduces retro 48b, the largest llm pretrained with retrieval; continues pretraining a 43b parameter gpt model on an additional 100b tokens by retrieving from 1.2t tokens (using the retro augmentation method); the retro 48b model shows significant perplexity improvement over its gpt 43b counterpart. scaling the retro model to 48b means it can be instruction-tuned more effectively. this work applies instruction tuning to retro 48b and demonstrates significant improvement (+7%) over the instruction-tuned gpt on zero-shot question-answering tasks.

논문 초록

  • 검색 기능이 있는 자동 회귀 대규모 언어 모델(LLM)을 사전 학습하면 외부 데이터베이스를 활용하여 더 나은 난해성과 사실 정확도를 보여줄 수 있습니다. 하지만 기존의 사전 학습된 검색 증강 LLM의 크기는 여전히 제한적이어서(예: Retro는 75억 개의 파라미터를 가지고 있음) 명령어 튜닝과 제로 샷 일반화의 효과가 제한적입니다. 이번 연구에서는 명령어 튜닝 전에 검색을 통해 사전 학습된 가장 큰 규모의 LLM인 Retro 48B를 소개합니다. 구체적으로는 1조 2천억 개의 토큰에서 검색하여 Retro 증강 방법을 사용하여 추가로 1천억 개의 토큰에 대해 43B GPT 모델을 계속 사전 학습합니다. 이렇게 얻은 파운데이션 모델인 Retro 48B는 난해성 측면에서 기존 43B GPT보다 성능이 크게 향상되었습니다. Retro에 대한 인스트럭션 튜닝 후, 인스트럭트 레트로는 제로 샷 질문 답변(QA) 작업에서 인스트럭트 튜닝된 GPT에 비해 상당한 개선이 이루어졌음을 보여줍니다. 구체적으로, 8개의 짧은 형식의 QA 작업에서 InstructRetro의 평균 개선율은 GPT에 비해 7%, 4개의 까다로운 긴 형식의 QA 작업에서 GPT에 비해 10% 더 높았습니다. 놀랍게도, 인코더를 InstructRetro 아키텍처에서 제거하고 디코더 백본을 직접 사용해도 비슷한 결과를 얻을 수 있다는 사실을 발견했습니다. 검색을 통한 사전 학습이 디코더가 QA를 위한 컨텍스트를 통합하는 데 효과적이라는 가설을 세웠습니다. 우리의 결과는 인스트럭션 튜닝 전에 검색을 통한 지속적인 사전 학습을 통해 QA를 위한 더 나은 GPT 디코더를 얻을 수 있는 유망한 방향을 제시합니다.

    Pretraining auto-regressive large language models (LLMs) with retrieval demonstrates better perplexity and factual accuracy by leveraging external databases. However, the size of existing pretrained retrieval-augmented LLM is still limited (e.g., Retro has 7.5B parameters), which limits the effectiveness of instruction tuning and zero-shot generalization. In this work, we introduce Retro 48B, the largest LLM pretrained with retrieval before instruction tuning. Specifically, we continue to pretrain the 43B GPT model on additional 100 billion tokens using the Retro augmentation method by retrieving from 1.2 trillion tokens. The obtained foundation model, Retro 48B, largely outperforms the original 43B GPT in terms of perplexity. After instruction tuning on Retro, InstructRetro demonstrates significant improvement over the instruction tuned GPT on zero-shot question answering (QA) tasks. Specifically, the average improvement of InstructRetro is 7% over its GPT counterpart across 8 short-form QA tasks, and 10% over GPT across 4 challenging long-form QA tasks. Surprisingly, we find that one can ablate the encoder from InstructRetro architecture and directly use its decoder backbone, while achieving comparable results. We hypothesize that pretraining with retrieval makes its decoder good at incorporating context for QA. Our results highlights the promising direction to obtain a better GPT decoder for QA through continued pretraining with retrieval before instruction tuning.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1712466049428521433


MemWalker: 기억의 미로 걷기 - 대화형 독서를 통한 문맥의 한계 넘어서기 / Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading

논문 소개

  • 반복적인 프롬프트를 통해 텍스트를 읽는 방법을 결정할 수 있는 대화형 에이전트로 취급하여 긴 텍스트의 이해도를 높이는 방법으로, 먼저 긴 문맥을 여름 노드의 트리로 처리하고 쿼리를 입력하여 트리를 가로지르며 관련 정보를 찾고 적절한 응답을 작성하며, 이 과정은 추론을 통해 이루어지며 추론 단계를 통해 효과적인 읽기가 가능하고 설명력을 향상시킵니다.

    A method to enhance long-text understanding by treating the llm as an interactive agent that can decide how to read the text via iterative prompting; it first processes long context into a tree of summer nodes and reads in a query to traverse the tree, seeking relevant information and crafting a suitable response; this process is achieved through reasoning and enables effective reading and enhances explainability through reasoning steps.

논문 초록

  • 모든 토큰을 한 번에 처리하고 비교하는 자기 어텐션 메커니즘의 효과로 인해 대규모 언어 모델(LLM)은 큰 발전을 이루었습니다. 그러나 이 메커니즘은 미리 정해진 컨텍스트 창이 제한적일 수밖에 없다는 근본적인 문제를 안고 있습니다. 위치 임베딩을 추정하거나, 재귀를 사용하거나, 긴 시퀀스에서 필수적인 부분을 선택적으로 검색하는 등의 방법을 통해 컨텍스트 창을 확장하려는 시도에도 불구하고 긴 텍스트를 이해하는 것은 여전히 어려운 과제입니다. 저희는 LLM을 대화형 에이전트로 취급하여 반복적인 프롬프트를 통해 텍스트를 읽는 방법을 결정할 수 있도록 하는 대안을 제안합니다. 먼저 긴 문맥을 요약 노드 트리로 처리하는 방법인 MemWalker를 소개합니다. 쿼리를 받으면 모델은 이 트리를 탐색하여 관련 정보를 찾고, 충분한 정보를 수집하면 응답합니다. 긴 텍스트 질문 답변 작업에서 이 방법은 긴 컨텍스트 창, 반복 및 검색을 사용하는 기본 접근 방식보다 성능이 뛰어납니다. 멤워커는 텍스트를 효과적으로 읽는 것 외에도 텍스트를 대화형으로 읽을 때 추론 단계를 강조 표시하고 쿼리와 관련된 관련 텍스트 세그먼트를 정확히 찾아냄으로써 설명 가능성을 향상시킵니다.

    Large language models (LLMs) have advanced in large strides due to the effectiveness of the self-attention mechanism that processes and compares all tokens at once. However, this mechanism comes with a fundamental issue -- the predetermined context window is bound to be limited. Despite attempts to extend the context window through methods like extrapolating the positional embedding, using recurrence, or selectively retrieving essential parts of the long sequence, long-text understanding continues to be a challenge. We propose an alternative approach which instead treats the LLM as an interactive agent, allowing it to decide how to read the text via iterative prompting. We introduce MemWalker, a method that first processes the long context into a tree of summary nodes. Upon receiving a query, the model navigates this tree in search of relevant information, and responds once it gathers sufficient information. On long-text question answering tasks our method outperforms baseline approaches that use long context windows, recurrence, and retrieval. We show that, beyond effective reading, MemWalker enhances explainability by highlighting the reasoning steps as it interactively reads the text; pinpointing the relevant text segments related to the query.

논문 링크

더 읽어보기

https://x.com/__howardchen/status/1711584916708938042


FireAct: 언어 에이전트 미세 조정을 향하여 / FireAct: Toward Language Agent Fine-tuning

논문 소개

  • 언어 에이전트를 얻기 위해 LLM을 미세 조정하는 방향을 탐색하고, 백본 언어 모델을 미세 조정한 후 언어 에이전트가 지속적으로 개선되었음을 발견하고, 500개의 에이전트 궤적(gpt-4에 의해 생성됨)으로 llama2-7b를 미세 조정하면 핫팟QA(hotpotqa) 성능이 77% 향상됨을 주장합니다. fine-tuning

    Explores the direction of fine-tuning llms to obtain language agents; finds that language agents consistently improved after fine-tuning their backbone language model; claims that fine-tuning a llama2-7b with 500 agent trajectories (generated by gpt-4) leads to a 77% hotpotqa performance increase.

논문 초록

  • 최근의 노력은 외부 도구나 환경으로 언어 모델(LM)을 보강하여 추론하고 행동할 수 있는 언어 에이전트의 개발로 이어졌습니다. 그러나 이러한 에이전트 대부분은 기성 LM을 사용한 단발성 프롬프트 기법에 의존하고 있습니다. 이 논문에서는 언어 에이전트를 얻기 위해 LM을 미세 조정하는 데 간과된 방향을 조사하고 주장합니다. Google 검색 API를 사용한 질문 답변(QA) 설정을 사용하여 다양한 기본 LM, 프롬프트 방법, 데이터 미세 조정 및 QA 작업을 살펴보고, 백본 LM을 미세 조정한 후 언어 에이전트가 지속적으로 개선되는 것을 확인합니다. 예를 들어, GPT-4에서 생성된 500개의 에이전트 궤적을 사용하여 Llama2-7B를 미세 조정한 결과 핫팟QA 성능이 77% 향상되었습니다. 또한 여러 작업 및 프롬프트 방법의 궤적을 사용하여 LM을 미세 조정하는 새로운 접근 방식인 FireAct를 제안하고, 더 다양한 미세 조정 데이터를 보유하면 에이전트를 더욱 개선할 수 있음을 보여줍니다. 확장 효과, 견고성, 일반화, 효율성 및 비용에 관한 다른 연구 결과와 함께, 당사의 연구는 에이전트를 위한 LM 미세 조정의 포괄적인 이점을 확립하고 언어 에이전트 미세 조정을 위한 초기 실험 설계, 인사이트 및 열린 질문을 제공합니다.

    Recent efforts have augmented language models (LMs) with external tools or environments, leading to the development of language agents that can reason and act. However, most of these agents rely on few-shot prompting techniques with off-the-shelf LMs. In this paper, we investigate and argue for the overlooked direction of fine-tuning LMs to obtain language agents. Using a setup of question answering (QA) with a Google search API, we explore a variety of base LMs, prompting methods, fine-tuning data, and QA tasks, and find language agents are consistently improved after fine-tuning their backbone LMs. For example, fine-tuning Llama2-7B with 500 agent trajectories generated by GPT-4 leads to a 77% HotpotQA performance increase. Furthermore, we propose FireAct, a novel approach to fine-tuning LMs with trajectories from multiple tasks and prompting methods, and show having more diverse fine-tuning data can further improve agents. Along with other findings regarding scaling effects, robustness, generalization, efficiency and cost, our work establishes comprehensive benefits of fine-tuning LMs for agents, and provides an initial set of experimental designs, insights, as well as open questions toward language agent fine-tuning.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1711757242905534479

원문