[2023/10/02 ~ 10/08] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 주어진 논문들을 살펴본 결과, 장기간 컨텍스트(Long Context)를 다루는 언어 모델(Language Models, LLM)에 대한 연구들이 많았습니다. 특히 'LLMs Represent Space and Time', 'Retrieval meets Long Context LLMs', 'StreamingLLM', 'The Dawn of LLMs', 'Training LLMs with Pause Tokens' 등의 논문들에서는 LLM의 다양한 측면을 조명하고 있습니다.

이러한 트렌드는 머신러닝과 딥러닝에서 언어 모델의 중요성이 계속 증가하고 있음을 보여주는 대표적인 예입니다. LLM은 대량의 언어 데이터를 학습하여 문장 생성, 기계 번역, 철자 교정 등 다양한 언어 이해 작업에서 전반적인 성능 향상을 가능하게 하는 기술입니다. 그러나 장기간의 컨텍스트를 처리하는 데에는 여전히 많은 어려움이 있습니다. 이를 해결하기 위한 다양한 접근 방식들이 제시되고 있는 것으로 보입니다.

또한 'Neural Developmental Programs', 'Recursively Self-Improving Code Generation', 'Retrieval-Augmented Dual Instruction Tuning'과 같은 논문들에서는 AI의 자가학습 및 코드 생성, 지시어 튜닝 등의 주제를 탐구하고 있습니다. 이는 AI에서 더욱 새로운 방법론들이 등장하고 있다는 것을 보여주며, 이러한 연구들은 AI 기술의 자체 학습 능력과 적응성을 향상시키는 데 매우 중요한 역할을 할 것으로 예상됩니다. 따라서 이번주 논문들의 트렌드는 언어 모델의 장기 컨텍스트 처리와 AI의 자가학습 및 코드 생성 분야에서의 새로운 연구 방향성을 보여주고 있다고 할 수 있습니다.


공간과 시간을 표현하는 언어 모델 / Language Models Represent Space and Time

논문 소개

  • 언어 모델이 여러 척도에 걸쳐 공간과 시간의 선형적 표현을 학습하고, 이러한 표현은 변형을 유도하는 데 강력하며 다양한 개체 유형에 걸쳐 통합되어 있음을 발견하고, 언어 모델이 피상적인 통계가 아닌 문자 그대로의 세계 모델을 학습한다고 주장하면서 공간과 시간과 같은 기본적인 구조화된 지식을 습득한다는 사실을 입증했습니다. llm llama2

    Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.

논문 초록

  • 대규모 언어 모델(LLM)의 기능은 이러한 시스템이 피상적인 통계의 방대한 모음을 학습하는 것인지 아니면 데이터 생성 프로세스의 일관된 모델, 즉 세계 모델을 학습하는 것인지에 대한 논쟁을 불러일으키고 있습니다. 우리는 Llama-2 모델 제품군에서 세 가지 공간 데이터 세트(세계, 미국, 뉴욕 장소)와 세 가지 시간 데이터 세트(역사적 인물, 예술 작품, 뉴스 헤드라인)의 학습된 표현을 분석하여 후자에 대한 증거를 찾았습니다. 그 결과, LLM이 여러 척도에 걸쳐 공간과 시간의 선형적 표현을 학습한다는 사실을 발견했습니다. 이러한 표현은 다양한 변형을 유도하는 데 강력하며 다양한 엔티티 유형(예: 도시 및 랜드마크)에 걸쳐 통합됩니다. 또한 공간 및 시간 좌표를 안정적으로 인코딩하는 개별 '공간 뉴런'과 '시간 뉴런'을 식별합니다. 우리의 분석은 현대의 LLM이 공간과 시간과 같은 기본 차원에 대한 구조화된 지식을 습득하여 피상적인 통계가 아니라 문자 그대로의 세계 모델을 학습한다는 견해를 뒷받침합니다.

    The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual space neurons'' and time neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.

논문 링크

더 읽어보기

https://x.com/wesg52/status/1709551516577902782


검색과 긴 문맥의 대규모 언어 모델의 만남 / Retrieval meets Long Context Large Language Models

논문 소개

  • 다운스트림 작업에 대한 검색 증강과 긴 컨텍스트 창을 비교하여 두 가지 방법을 결합하여 두 가지 장점을 모두 얻을 수 있는지 조사합니다. 간단한 래그를 사용하는 4K 컨텍스트 창을 가진 llm은 16K 컨텍스트를 가진 미세 조정된 llm과 비슷한 성능을 얻을 수 있으며, 검색은 확장된 컨텍스트 창 크기와 관계없이 llm의 성능을 크게 향상시킬 수 있으며, 32K 컨텍스트 창을 가진 검색 증강 llama2-70b는 질문 답변 및 쿼리 기반 요약 등 7개의 긴 컨텍스트 작업에서 gpt-3.5-turbo-16k보다 성능이 뛰어납니다. llama llama2-7b-32k-context llama2-long 100k-context-window streamingllm

    Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.

논문 초록

  • 대규모 언어 모델(LLM)의 컨텍스트 창을 확장하는 것이 최근 인기를 얻고 있는 반면, 검색을 통해 LLM을 보강하는 솔루션은 수년 전부터 존재해 왔습니다. 자연스러운 질문은 i) 검색 증강과 긴 컨텍스트 창 중 어떤 것이 다운스트림 작업에 더 적합한가? ii) 두 가지 방법을 결합하여 두 가지 장점을 모두 얻을 수 있는가? 이 연구에서는 두 가지 최신 사전 학습된 LLM, 즉 독점적인 43B GPT와 LLaMA2-70B를 사용하여 두 가지 솔루션을 연구함으로써 이러한 질문에 답합니다. 놀랍게도, 생성 시 간단한 검색 증강을 사용하는 4K 컨텍스트 창을 가진 LLM이 긴 컨텍스트 작업에서 위치 보간을 통해 16K 컨텍스트 창을 가진 미세 조정된 LLM과 비슷한 성능을 달성하면서도 훨씬 적은 계산을 할 수 있다는 사실을 발견했습니다. 더 중요한 것은 검색이 확장된 컨텍스트 창 크기에 관계없이 LLM의 성능을 크게 향상시킬 수 있음을 입증했다는 점입니다. 32K 컨텍스트 창을 사용하는 검색 증강 LLaMA2-70B는 질문 답변 및 쿼리 기반 요약 등 7개의 긴 컨텍스트 작업에서 평균 점수 측면에서 GPT-3.5-turbo-16k 및 Davinci003보다 성능이 뛰어납니다. 또한 비검색 LLaMA2-70B-32k 기준선보다 큰 차이로 성능이 뛰어나며 생성 속도도 훨씬 빠릅니다. 이 연구는 실무자가 검색 증강과 긴 문맥 확장 중 어떤 것을 선택할지 고민하는 데 도움이 되는 일반적인 인사이트를 제공합니다.

    Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1709749178199318545


주의 싱크가 있는 효율적인 스트리밍 언어 모델 / Efficient Streaming Language Models with Attention Sinks

논문 소개

  • 초기 토큰의 kv 상태가 창 주의 성능을 크게 회복하는 현상인 주의 싱크가 있는 효율적인 스트리밍 llms를 가능하게 하는 프레임워크; 주의 싱크의 출현은 초기 토큰에 대한 강력한 주의 점수 때문이며, 이 접근 방식을 사용하면 유한 길이의 주의 창으로 학습된 llms가 추가적인 미세 조정 없이 무한한 시퀀스 길이로 일반화할 수 있습니다. streamingllm

    A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.

논문 초록

  • 긴 상호작용이 예상되는 다중 라운드 대화와 같은 스트리밍 애플리케이션에 대규모 언어 모델(LLM)을 배포하는 것은 시급히 필요하지만 두 가지 주요 과제가 있습니다. 첫째, 디코딩 단계에서 이전 토큰의 키 및 값 상태(KV)를 캐싱하는 데 많은 메모리가 소모된다는 점입니다. 둘째, 널리 사용되는 LLM은 학습 시퀀스 길이보다 긴 텍스트에는 일반화할 수 없습니다. 가장 최근의 KV만 캐싱하는 윈도우 어텐션은 자연스러운 접근 방식이지만, 텍스트 길이가 캐시 크기를 초과하면 실패하는 것으로 나타났습니다. 초기 토큰의 KV를 유지하면 윈도우 어텐션의 성능이 크게 회복된다는 흥미로운 현상, 즉 어텐션 싱크가 관찰됩니다. 본 논문에서는 먼저 주의 싱크의 출현이 의미적으로 중요하지 않더라도 '싱크'로서 초기 토큰에 대한 주의 점수가 높기 때문임을 증명합니다. 위의 분석을 바탕으로 유한 길이의 주의 윈도우로 학습된 LLM을 미세 조정 없이 무한한 시퀀스 길이로 일반화할 수 있는 효율적인 프레임워크인 StreamingLLM을 소개합니다. StreamingLLM을 통해 최대 4백만 개 이상의 토큰으로 안정적이고 효율적인 언어 모델링을 수행할 수 있는 Llama-2, MPT, Falcon, Pythia의 성능을 보여드립니다. 또한 사전 학습 중에 플레이스홀더 토큰을 전용 주의 싱크로 추가하면 스트리밍 배포를 더욱 개선할 수 있다는 사실도 발견했습니다. 스트리밍 설정에서 StreamingLLM은 슬라이딩 윈도우 재계산 기준선보다 최대 22.2배 빠른 성능을 발휘합니다. 코드와 데이터 세트는 GitHub - mit-han-lab/streaming-llm: Efficient Streaming Language Models with Attention Sinks 에서 확인할 수 있습니다.

    Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at GitHub - mit-han-lab/streaming-llm: Efficient Streaming Language Models with Attention Sinks.

논문 링크

더 읽어보기

https://x.com/Guangxuan_Xiao/status/1708943505731801325


신경 발달 프로그램을 통한 인공 신경망 자가 조립을 향하여 / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

논문 소개

  • 생물학적 유기체의 배아 발달 특성을 반영하는 발달 과정(신경 발달 프로그램이라고 함)을 통해 스스로 조립되는 신경망을 사용할 것을 제안하고, 연속 제어 문제와 성장하는 토폴로지에서 이 접근법의 가능성을 보여줍니다.

    Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.

논문 초록

  • 생물학적 신경 시스템은 현재의 인공 신경망과는 근본적으로 다른 방식으로 만들어졌습니다. 딥러닝은 다양한 영역에서 인상적인 결과를 보여주지만, 고성능 신경 아키텍처를 설계하는 데 상당한 엔지니어링 노력이 필요한 경우가 많습니다. 이와 대조적으로 생물학적 신경계는 역동적인 자기 조직화 과정을 통해 성장합니다. 이 논문에서는 생물학적 유기체에서 배아 발달의 주요 특성을 반영하는 발달 과정을 통해 성장하는 신경망을 향한 초기 단계를 밟습니다. 성장 과정은 신경 발달 프로그램(NDP)이라고 부르는 또 다른 신경망에 의해 안내되며, 이 신경망은 국소적 통신만으로 작동합니다. 다양한 머신러닝 벤치마크와 다양한 최적화 방법(진화적 학습, 온라인 RL, 오프라인 RL, 지도 학습)에서 신경 성장의 역할을 조사합니다. 또한, 신경망의 성장을 주도하는 자기 조직화를 통해 가능한 미래의 연구 방향과 기회에 대해서도 살펴봅니다.

    Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.

논문 링크

더 읽어보기

https://x.com/risi1979/status/1708888992224362742


LMM의 여명기: GPT-4V(ision)를 사용한 예비 탐색 / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

논문 소개

  • 대규모 멀티모달 모델(LMM)에 대한 이해를 심화하기 위해 gpt-4v를 종합적으로 분석하고, 다양한 애플리케이션 시나리오에서 gpt-4v를 프로빙하는 데 중점을 두며, 비전을 갖춘 코드 기능부터 검색 증강 LMM에 이르기까지 다양한 예제를 제공합니다. multimodal gpt-4v

    A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.

논문 초록

  • 대형 다중모달 모델(LMM)은 시각적 이해와 같은 다감각 능력을 갖춘 대형 언어 모델(LLM)을 확장하여 더 강력한 일반 지능을 달성합니다. 이 논문에서는 최신 모델인 GPT-4V(ision)를 분석하여 LMM에 대한 이해를 깊게 합니다. 이 분석은 GPT-4V가 수행할 수 있는 흥미로운 작업에 초점을 맞추고 있으며, GPT-4V 기능의 품질과 범용성, 지원되는 입력 및 작업 모드, 모델을 효과적으로 유도하는 방법을 조사하기 위한 테스트 샘플을 포함하고 있습니다. GPT-4V를 탐색하는 접근 방식에서는 다양한 영역과 작업에 걸쳐 신중하게 설계된 정성적 샘플 모음을 큐레이팅하고 구성합니다. 이러한 샘플을 통해 관찰한 결과, 임의로 인터리빙된 멀티모달 입력을 처리하는 GPT-4V의 전례 없는 능력과 그 기능의 범용성이 결합되어 강력한 멀티모달 제너럴리스트 시스템이 될 수 있음을 입증했습니다. 또한 입력 이미지에 그려진 시각적 마커를 이해하는 GPT-4V의 고유한 기능은 시각적 참조 프롬프트와 같은 새로운 인간-컴퓨터 상호 작용 방법을 창출할 수 있습니다. 본 보고서에서는 새로운 응용 시나리오와 GPT-4V 기반 시스템의 향후 연구 방향에 대한 심도 있는 논의를 끝으로 보고서를 마무리합니다. 이 예비 탐색이 차세대 멀티모달 작업 공식화, 실제 문제 해결을 위해 LMM을 활용하고 향상시키는 새로운 방법, 멀티모달 기반 모델에 대한 더 나은 이해에 대한 향후 연구에 영감을 줄 수 있기를 기대합니다.

    Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1708860551110041871


말하기 전에 먼저 생각하세요: 일시 정지 토큰으로 언어 모델 학습하기 / Think before you speak: Training Language Models With Pause Tokens

논문 소개

  • 학습 가능한 토큰을 사용하여 llms에 대한 학습 및 추론을 수행하여 모델의 답변 생성을 지연시키고 상식적인 질의응답 및 수학 단어 문제 해결과 같은 일반적인 이해 작업에서 성능 향상을 달성하는 데 도움이 됩니다. 실험 결과, 관련 및 다운스트림 미세 조정 모두에서 지연이 도입되는 경우에만 이점이 있는 것으로 나타났습니다. pause-for-thought

    Performs training and inference on llms with a learnable token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.

논문 초록

  • 언어 모델은 일련의 토큰을 연속적으로 생성하여 응답을 생성합니다. (K+1)^{th} 토큰은 레이어당 K 개의 숨겨진 벡터를 조작한 결과이며, 이전 토큰당 하나의 벡터를 조작한 결과입니다. 대신 모델이 (K+1)^{th} 토큰을 출력하기 전에 K+10 개의 숨겨진 벡터를 조작하도록 한다면 어떨까요? 이 아이디어는 입력 접두사에 추가되는 시퀀스인 (학습 가능한) \textit{pause} 토큰으로 언어 모델에 대한 학습과 추론을 수행함으로써 작동합니다. 그런 다음 마지막 일시 중지 토큰이 표시될 때까지 모델의 출력 추출을 지연시켜 모델이 답을 내리기 전에 추가 계산을 처리할 수 있도록 합니다. C4에 대한 인과적 사전 학습이 포함된 1B 및 1억 3천만 개의 매개변수로 구성된 디코더 전용 모델과 추론, 질문-답변, 일반적인 이해 및 사실 회상을 포함하는 다운스트림 작업에서 \textit{pause-training} 을 경험적으로 평가합니다. 주요 결과는 모델을 사전 학습하고 지연을 통해 미세 조정할 때 추론 시간 지연이 개선된다는 것입니다. 1B 모델의 경우, 9개 과제 중 8개 과제에서 개선이 있었으며, 가장 눈에 띄는 것은 SQuAD의 QA 과제에서 EM\ 점수가\ 18\%, CommonSenseQA에서\ 8\%, GSM8k의\ 추론\ 과제에서\ 정확도가\ 1\% 향상되었다는 점입니다. 저희의 연구는 지연된 다음 토큰 예측을 널리 적용할 수 있는 새로운 패러다임으로 만들기 위한 다양한 개념적, 실용적 미래 연구 질문을 제기합니다.

    Language models generate responses by producing a series of tokens in immediate succession: the (K+1)^{th} token is an outcome of manipulating K hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, K+10 hidden vectors, before it outputs the (K+1)^{th} token? We operationalize this idea by performing training and inference on language models with a (learnable) \textit{pause} token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate \textit{pause-training} on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of 18\% EM score on the QA task of SQuAD, 8\% on CommonSenseQA and 1\% accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1709573238123122959


자가 학습 최적화 도구(STOP): 재귀적으로 스스로 개선되는 코드 생성 / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

논문 소개

  • 언어 모델이 주입된 스캐폴딩 프로그램을 사용하여 재귀적으로 스스로를 개선하고, 시드 개선자가 먼저 최상의 솔루션을 반환하는 입력 프로그램을 개선한 다음 추가 작업을 통해 스스로를 개선하고, gpt-4 모델이 스스로를 개선하기 위해 스스로를 호출할 수 있는 코드를 작성할 수 있음을 보여 줍니다. self-training-survey-paper

    Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.

논문 초록

  • 최근 AI 시스템의 몇 가지 발전(예: 사고의 나무 및 프로그램 지원 언어 모델)은 언어 모델에 대한 여러 호출을 구조화하여 더 나은 출력을 생성하는 '스캐폴딩' 프로그램을 제공함으로써 문제를 해결합니다. 스캐폴딩 프로그램은 Python과 같은 프로그래밍 언어로 작성됩니다. 이 작업에서는 언어 모델이 주입된 스캐폴딩 프로그램을 사용하여 스스로 개선합니다. 언어 모델을 여러 번 쿼리하고 최적의 솔루션을 반환하여 주어진 유틸리티 함수에 따라 입력 프로그램을 개선하는 시드 '개선자'로 시작합니다. 그런 다음 이 시드 임프로버를 실행하여 스스로 개선합니다. 작은 다운스트림 작업 세트에 걸쳐 결과적으로 개선된 개선자는 시드 개선자보다 훨씬 더 나은 성능을 가진 프로그램을 생성합니다. 그런 다음 빔 검색, 유전 알고리즘, 시뮬레이션 어닐링 등 언어 모델에서 제안한 다양한 자체 개선 전략을 분석합니다. 언어 모델 자체는 변경되지 않으므로 완전한 재귀적 자기 개선은 아닙니다. 그럼에도 불구하고 개념 증명 실험에서 최신 언어 모델인 GPT-4가 스스로를 개선하기 위해 호출할 수 있는 코드를 작성할 수 있다는 것을 보여줍니다. 저희는 자기 개선 기술 개발에 대한 우려를 비판적으로 고려하고 생성된 코드가 샌드박스를 우회하는 빈도를 평가합니다.

    Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.

논문 링크

더 읽어보기

https://x.com/ericzelikman/status/1709721771937587541


RA-DIT: 검색 증강 이중 명령어 튜닝 / RA-DIT: Retrieval-Augmented Dual Instruction Tuning

논문 소개

  • 검색 기능을 갖춘 인공신경망에 경량 미세 조정 방법을 제안합니다. 1) 사전 학습된 인공신경망을 업데이트하여 검색된 정보를 더 잘 활용하고 2) 검색기가 더 관련성 높은 결과를 반환하도록 업데이트하는 2단계 접근 방식을 포함합니다. 결과는 지식 활용과 문맥 인식이 모두 필요한 작업에 대한 미세 조정이 각 단계에서 추가적인 이득으로 이어짐을 보여줍니다. 65b 모델은 다양한 지식 집약적 제로 샷 및 소수 샷 학습 벤치마크에서 최첨단 결과를 달성하며 기존 검색 증강 언어 접근 방식보다 최대 +8 더 우수한 성능을 발휘합니다.제로 샷에서는 9, 5샷에서는 +1.4%. rag instruct-tuning

    Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.

논문 초록

  • 검색 증강 언어 모델(RALM)은 외부 데이터 저장소의 롱테일 및 최신 지식에 액세스하여 성능을 향상시키지만 구축하기가 어렵습니다. 기존 접근 방식은 LM 사전 학습에 많은 비용이 드는 검색 관련 수정 작업을 수행하거나 데이터 저장소의 사후 통합을 사용해야 하므로 성능이 최적화되지 않습니다. 저희는 검색 기능이 있는 모든 LLM을 개조하여 세 번째 옵션을 제공하는 경량 미세 조정 방법론인 검색 증강 이중 명령어 튜닝(RA-DIT)을 소개합니다. 유니티의 접근 방식은 두 가지 미세 조정 단계로 작동합니다: (1) 하나는 검색된 정보를 더 잘 활용하도록 사전 학습된 LM을 업데이트하고, (2) 다른 하나는 LM이 선호하는 대로 더 관련성 높은 결과를 반환하도록 검색기를 업데이트하는 것입니다. 지식 활용과 문맥 인식이 모두 필요한 작업에 대한 미세 조정을 통해 각 단계가 상당한 성능 향상을 가져오고, 두 단계를 모두 사용하면 추가적인 이득을 얻을 수 있음을 입증했습니다. 최고의 모델인 RA-DIT 65B는 다양한 지식 집약적 제로 샷 및 소수 샷 학습 벤치마크에서 최첨단 성능을 달성하여 기존의 인컨텍스트 RALM 접근 방식보다 평균적으로 0샷 설정에서 최대 +8.9%, 5샷 설정에서 +1.4%의 성능을 크게 뛰어넘습니다.

    Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1709204756013490494


Kosmos-G: 멀티모달 대규모 언어 모델을 사용하여 컨텍스트에 맞는 이미지 생성 / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

논문 소개

  • 여러 이미지에 걸친 일반화된 비전 언어 입력에서 고충실도 제로샷 이미지 생성을 수행하고, 제로샷 피사체 중심 이미지 생성을 다중 엔티티 시나리오로 확장하며, 클립을 대체하여 컨트롤넷, 로라 등 다른 U-Net 기술로 새로운 애플리케이션의 잠금을 해제할 수 있는 모델입니다. multimodal

    A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.

논문 초록

  • 최근 텍스트-대-이미지(T2I) 및 시각-언어-대-이미지(VL2I) 생성 기술이 크게 발전했습니다. 그러나 특히 여러 이미지를 포함하는 일반화된 시각 언어 입력으로부터의 생성은 아직 충분히 연구되지 않은 상태입니다. 이 논문에서는 앞서 언급한 과제를 해결하기 위해 다중 모드 대규모 언어 모델(MLLM)의 고급 인식 기능을 활용하는 모델인 Kosmos-G를 소개합니다. 당사의 접근 방식은 텍스트 양식을 앵커로 사용하여 MLLM의 출력 공간을 CLIP과 정렬하고 큐레이팅된 데이터에 대해 구성 명령어 튜닝을 수행합니다. 코스모스-G는 제로샷 멀티 엔티티 피사체 중심 생성이라는 독보적인 기능을 보여줍니다. 특히 스코어 증류 인스트럭션 튜닝은 이미지 디코더를 수정할 필요가 없습니다. 따라서 CLIP을 원활하게 대체하고 세밀한 제어부터 개인화된 이미지 디코더 변형에 이르기까지 무수히 많은 U-Net 기술과 손쉽게 통합할 수 있습니다. 우리는 코스모스-G를 "이미지 생성에서 외국어로서의 이미지"라는 목표를 향한 초기 시도로 간주합니다

    Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1709934741158510625


유추 추론자로서의 대규모 언어 모델 / Large Language Models as Analogical Reasoners

논문 소개

  • 이 접근 방식은 추론 프로세스에 대한 레이블이 지정된 예시가 필요하지 않다는 점에서 연쇄 사고와 다르며, 유추 추론에서 영감을 받아 맥락에서 관련 예시나 지식을 스스로 생성하도록 유도하는 새로운 프롬프트 접근 방식입니다. llm-reasoning chain-of-thought

    A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.

논문 초록

  • 언어 모델에 대한 연쇄적 사고(CoT) 프롬프트는 추론 작업 전반에서 인상적인 성능을 보여주지만, 일반적으로 추론 과정의 예시 라벨이 필요합니다. 이번 연구에서는 대규모 언어 모델의 추론 과정을 자동으로 안내하도록 설계된 새로운 프롬프트 접근 방식인 유추 프롬프트를 소개합니다. 인간이 새로운 문제를 해결하기 위해 관련성 있는 과거 경험을 활용하는 인지 과정인 유추 추론에서 영감을 얻은 이 접근 방식은 언어 모델이 주어진 문제를 해결하기 전에 맥락에 맞는 예시나 지식을 스스로 생성하도록 프롬프트합니다. 이 방법은 예제에 라벨을 붙이거나 검색할 필요가 없어 일반성과 편의성을 제공하며, 생성된 예제와 지식을 각 문제에 맞게 조정할 수 있어 적응성을 제공한다는 몇 가지 장점이 있습니다. 실험 결과에 따르면 이 접근 방식은 GSM8K 및 MATH의 수학 문제 해결, Codeforces의 코드 생성, BIG-Bench의 기타 추론 작업 등 다양한 추론 작업에서 0샷 CoT 및 수동 소수 샷 CoT보다 우수한 성능을 보였습니다.

    Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

논문 링크

더 읽어보기

https://x.com/michiyasunaga/status/1709582150025240854

원문

1개의 좋아요