[2023/11/06 ~ 11/12] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 선정된 논문을 살펴보면 트랜스포머(Transformer) 모델과 대규모 언어 모델(Large Language Models, LLM)에 대한 연구가 다수 있는 것으로 나타납니다. 특히 'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers', 'S-LoRA' 등의 제목에서는 트랜스포머 모델의 구조와 학습 메커니즘에 대한 이해를 깊게 하는데 초점을 맞춘 것으로 보입니다. 또한, 'Hallucination in LLMs', 'On the Road with GPT-4V(ision)', 'GPT4All'은 GPT와 같은 대규모 언어 모델들의 성능과 적용사례를 다루고 있어 대규모 언어 모델의 발전과 응용에 중점을 두고 있는 경향이 강하게 나타납니다.

이러한 추세는 인공지능 분야에서 트랜스포머 기반의 모델이 매우 중요한 역할을 하고 있음을 반영합니다. 트랜스포머 구조는 주로 자연어 처리(NLP) 영역에서 효과적인 성능을 나타내며 이제는 다양한 응용 분야로 확장되고 있는데, 이는 'MusicGen' 같은 창작물 생성이나 'On the Road with GPT-4V(ision)'과 같은 시각적 자료 이해에 이르기까지 여러 분야에 걸쳐 트랜스포머 모델이 활용되고 있음을 보여줍니다. 더불어, 대규모 언어 모델의 확장성과 범용성을 다룬 연구는 언어 모델이 더욱 복잡하고 다양한 작업을 수행할 수 있음을 시사하며, 동시에 이러한 모델들의 한계를 극복하기 위한 연구 또한 활발함을 나타냅니다.

종합적으로 이번 주에 선정된 논문들은 인공지능의 핵심 트렌드 중 하나인 자연어 처리와 이를 가능하게 하는 트랜스포머 모델, 그리고 대규모 언어 모델에 초점을 두고 있습니다. 이는 이 분야의 심화된 연구와 함께 시스템의 효율성 및 응용 가능성을 높이기 위한 기술적 혁신이 지속적으로 이루어지고 있음을 암시합니다.


대규모 언어 모델의 환각에 관한 조사: 원칙, 분류법, 도전 과제, 미해결 과제 / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

논문 소개

  • LLM의 환각에 대한 포괄적인 서베이 논문(50페이지 이상)으로, LLM의 환각 문제와 관련된 원칙, 분류, 과제 및 공개 질문에 대한 정보를 제공합니다. survey-paper hallucination

    A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.

논문 초록

  • 대규모 언어 모델(LLM)의 등장은 자연어 처리(NLP)의 획기적인 발전으로 이어져 텍스트 이해 및 생성에 괄목할 만한 발전을 가져왔습니다. 하지만 이러한 발전과 함께 LLM은 실제 사실이나 사용자 입력과 일치하지 않는 콘텐츠를 생성하는 심각한 경향을 보이고 있습니다. 이러한 현상은 실제 배포에 상당한 어려움을 야기하고 실제 시나리오에서 LLM의 신뢰성에 대한 우려를 불러일으키며, 이러한 착각을 감지하고 완화하기 위한 관심이 높아지고 있습니다. 이번 설문조사에서는 LLM 환각 분야의 최근 발전에 대한 철저하고 심층적인 개요를 제공하고자 합니다. 먼저 LLM 환각에 대한 혁신적인 분류법으로 시작한 다음, 환각의 원인이 되는 요인에 대해 자세히 살펴봅니다. 이어서 환각 감지 방법과 벤치마크에 대한 포괄적인 개요를 제시합니다. 또한 환각을 완화하기 위해 고안된 대표적인 접근 방식을 그에 따라 소개합니다. 마지막으로, 현재의 한계를 강조하는 과제를 분석하고 미해결 질문을 공식화하여 향후 LLM에서 환각에 대한 연구를 위한 경로를 설명합니다.

    The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1722985251129966705


트랜스포머 블록 단순화 / Simplifying Transformer Blocks

논문 소개

  • 트랜스포머 블록을 단순화하여 많은 블록 구성 요소를 제거해도 학습 속도의 손실 없이 많은 블록 구성 요소를 제거할 수 있음을 발견하고, 자동 회귀 디코더 전용 및 버트 인코더 전용 모델과 같은 다양한 아키텍처를 사용하여 단순화된 블록은 표준 트랜스포머의 업데이트당 학습 속도와 성능을 에뮬레이션하고 더 적은 매개 변수(15%)로 15% 더 빠른 학습 처리량을 달성할 수도 있습니다.

    Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).

논문 초록

  • 딥 트랜스포머를 위한 간단한 설계 레시피는 동일한 빌딩 블록을 구성하는 것입니다. 하지만 표준 트랜스포머 블록은 스킵 연결 및 정규화 레이어가 있는 주의와 MLP 하위 블록이 정밀한 배열로 얽혀 있어 단순하지 않습니다. 이러한 복잡성은 사소한 변경으로 인해 학습 속도가 크게 저하되거나 모델을 학습할 수 없게 되는 취약한 아키텍처로 이어집니다. 이 연구에서는 표준 트랜스포머 블록을 어느 정도까지 단순화할 수 있을까요? 신호 전파 이론과 경험적 관찰을 결합하여 건너뛰기 연결, 투영 또는 값 매개변수, 순차적 하위 블록, 정규화 레이어 등 많은 블록 구성 요소를 학습 속도의 손실 없이 제거할 수 있는 수정 동기를 부여합니다. 자동 회귀 디코더 전용 모델과 BERT 인코더 전용 모델에 대한 실험에서 간소화된 트랜스포머는 표준 트랜스포머의 업데이트당 학습 속도와 성능을 모방하면서도 15% 더 빠른 학습 처리량과 15% 더 적은 수의 파라미터를 사용했습니다.

    A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.

논문 링크

더 읽어보기

https://x.com/maksym_andr/status/1722235666724192688


사전 학습 데이터 혼합을 통해 트랜스포머 모델에서 더 좁은 범위의 모델 선택 기능 지원 / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

논문 소개

  • 트랜스포머가 사전 학습 데이터 혼합을 얼마나 효과적으로 연결하여 사전 학습 분포 안팎의 새로운 작업을 식별하고 학습할 수 있는지 조사합니다. 연구 대상 체제에서 모델의 상황 내 학습 행동이 사전 학습 데이터를 넘어 일반화할 수 있다는 증거는 제한적입니다.

    Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.

논문 초록

  • 트랜스포머 모델, 특히 대규모 언어 모델(LLM)은 명시적인 모델 학습 없이도 보이지 않는 입출력 예시를 제시하면 새로운 작업을 수행하는 컨텍스트 내 학습(ICL)을 수행할 수 있는 놀라운 능력을 갖추고 있습니다. 이 연구에서는 트랜스포머가 여러 개의 서로 다른 작업군으로 구성된 사전 학습 데이터 혼합을 얼마나 효과적으로 연결하여 사전 학습 분포의 내부와 외부에 있는 새로운 작업을 컨텍스트 내에서 식별하고 학습할 수 있는지 연구합니다. 이전 연구를 바탕으로 자연어가 아닌 (x, f(x)) 쌍의 시퀀스에 대해 학습된 트랜스포머 모델을 연구하는 통제된 환경에서 이 문제를 조사합니다. 실험 결과, 트랜스포머는 사전 학습 데이터에 태스크 패밀리가 잘 표현되어 있을 때 다양한 태스크 패밀리를 먼저 문맥 내에서 식별하고 그 안에서 문맥 내에서 학습하는 능력에서 거의 최적의 비지도 모델 선택 능력을 보여줬습니다. 그러나 사전 학습 데이터의 영역을 벗어난 작업이나 함수가 제시되면 트랜스포머의 다양한 실패 모드와 간단한 외삽 작업에서도 일반화 성능이 저하되는 것으로 나타났습니다. 이러한 결과를 종합하면 대용량 시퀀스 모델의 인상적인 ICL 능력은 근본적인 일반화 능력을 생성하는 귀납적 편향보다 사전 학습 데이터 혼합의 커버리지와 더 밀접하게 연관되어 있을 수 있음을 강조합니다.

    Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of (x, f(x)) pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.

논문 링크

더 읽어보기

https://x.com/abacaj/status/1721223737729581437


간단하고 제어 가능한 음악 생성 / Simple and Controllable Music Generation

논문 소개

  • 압축된 개별 음악 표현의 여러 스트림에 걸쳐 작동하는 단일 스테이지 트랜스포머 기반 llm으로, 텍스트 설명이나 멜로디 특징에 따라 조절하면서 고품질 샘플(모노 및 스테레오)을 생성할 수 있습니다.

    A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.

논문 초록

논문 링크

더 읽어보기

https://x.com/AIatMeta/status/1723043913638810025


효율적인 트랜스포머 모델을 위한 교대 업데이트 / Alternating Updates for Efficient Transformers

논문 소개

  • 계산 비용을 늘리지 않고도 트랜스포머 모델의 규모와 용량 증가를 활용할 수 있는 방법으로, 각 계층에서 확장된 표현의 하위 블록을 작업하고 예측 및 수정 메커니즘을 사용하여 비활성화된 블록을 업데이트함으로써 학습 표현을 확장하는 동시에 지연 시간을 무시할 수 있을 정도로만 증가시킬 수 있습니다.

    A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.

논문 초록

  • 딥 트랜스포머 네트워크의 규모가 커지면 품질과 성능이 향상된다는 것은 이미 잘 알려진 사실입니다. 그러나 이러한 규모의 증가는 종종 컴퓨팅 비용과 추론 대기 시간의 엄청난 증가를 수반합니다. 퓨어스토리지는 계산 부담 없이 모델의 용량을 늘릴 수 있는 간단한 구현 방법인 대체 업데이트(AltUp)를 소개합니다. AltUp을 사용하면 학습된 표현, 즉 토큰 임베딩을 확장하면서 지연 시간을 무시할 수 있을 정도로만 증가시킬 수 있습니다. AltUp은 각 레이어에서 확장된 표현의 하위 블록을 작업하고 예측 및 수정 메커니즘을 사용하여 비활성화된 블록을 업데이트함으로써 이를 달성합니다. 우리는 시퀀스 차원에 대한 적용 가능성 등 AltUp의 확장성을 제시하고, AltUp을 스파스 전문가 혼합 모델과 같은 기존 접근 방식과 시너지 효과를 발휘하여 더 높은 용량의 효율적인 모델을 얻을 수 있는 방법을 시연합니다. 벤치마크 트랜스포머 모델과 언어 작업에 대한 실험을 통해 다양한 시나리오에서 AltUp의 일관된 효과를 확인할 수 있습니다. 특히 SuperGLUE 및 SQuAD 벤치마크에서 AltUp은 동일한 정확도에서 밀도가 높은 기준선 대비 최대 $87%$의 속도 향상을 지원합니다.

    It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to 87\% speedup relative to the dense baselines at the same accuracy.

논문 링크

더 읽어보기

https://x.com/GoogleAI/status/1722004366201418132


다시 말하기 및 응답하기: 대규모 언어 모델이 스스로 더 나은 질문을 하도록 하기 / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

논문 소개

  • LLM들을 사용하여 인간이 제기하는 질문을 바꾸고 확장하여 전반적인 성능을 향상시키는 효과적인 프롬프트 방법으로, 광범위한 작업에서 다양한 모델의 성능을 향상시킬 수 있으며, 이 접근 방식을 연쇄 사고와 결합하여 성능을 더욱 향상시킬 수 있습니다.

    An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.

논문 초록

  • 오해는 대인 커뮤니케이션뿐만 아니라 인간과 대규모 언어 모델(LLM) 사이에서도 발생합니다. 이러한 불일치로 인해 LLM은 모호해 보이는 질문을 예상치 못한 방식으로 해석하여 잘못된 응답을 내놓을 수 있습니다. 질문과 같은 프롬프트의 품질이 LLM이 제공하는 응답의 품질에 큰 영향을 미친다는 사실은 널리 알려져 있지만, LLM이 더 잘 이해할 수 있는 질문을 만드는 체계적인 방법은 아직 개발이 미흡한 상태입니다. 이 논문에서는 사람이 던진 질문을 재구성하고 확장하여 한 번의 프롬프트에 답변을 제공할 수 있는 '재구성 및 응답'(RaR)이라는 방법을 제시합니다. 이 접근 방식은 성능을 개선하기 위한 간단하면서도 효과적인 프롬프트 방법입니다. 또한, RaR의 2단계 변형을 도입하여, 먼저 질문의 문구를 수정하는 LLM이 질문을 수정한 다음 원래 질문과 수정된 질문을 다른 응답 LLM에게 함께 전달합니다. 이를 통해 한 LLM에서 생성된 문구를 다른 LLM에서 효과적으로 활용할 수 있습니다. 실험 결과, 이 방식은 다양한 작업에서 여러 모델의 성능을 크게 향상시키는 것으로 나타났습니다. 또한 이론적, 경험적으로 RaR과 널리 사용되는 생각의 연쇄(CoT) 방법을 포괄적으로 비교합니다. 이를 통해 RaR이 CoT와 상호보완적이며 CoT와 결합하여 더 나은 성과를 달성할 수 있음을 보여줍니다. 우리의 연구는 LLM 성능을 효율적이고 효과적으로 향상시키는 데 기여할 뿐만 아니라 LLM 기능에 대한 공정한 평가에 대해서도 조명합니다. 데이터와 코드는 GitHub - uclaml/Rephrase-and-Respond: Official repo of Respond-and-Respond: data, code, and evaluation 에서 확인할 수 있습니다.

    Misunderstandings arise not only in interpersonal communication but also between humans and Large Language Models (LLMs). Such discrepancies can make LLMs interpret seemingly unambiguous questions in unexpected ways, yielding incorrect responses. While it is widely acknowledged that the quality of a prompt, such as a question, significantly impacts the quality of the response provided by LLMs, a systematic method for crafting questions that LLMs can better comprehend is still underdeveloped. In this paper, we present a method named `Rephrase and Respond' (RaR), which allows LLMs to rephrase and expand questions posed by humans and provide responses in a single prompt. This approach serves as a simple yet effective prompting method for improving performance. We also introduce a two-step variant of RaR, where a rephrasing LLM first rephrases the question and then passes the original and rephrased questions together to a different responding LLM. This facilitates the effective utilization of rephrased questions generated by one LLM with another. Our experiments demonstrate that our methods significantly improve the performance of different models across a wide range to tasks. We further provide a comprehensive comparison between RaR and the popular Chain-of-Thought (CoT) methods, both theoretically and empirically. We show that RaR is complementary to CoT and can be combined with CoT to achieve even better performance. Our work not only contributes to enhancing LLM performance efficiently and effectively but also sheds light on a fair evaluation of LLM capabilities. Data and codes are available at GitHub - uclaml/Rephrase-and-Respond: Official repo of Respond-and-Respond: data, code, and evaluation.

논문 링크

더 읽어보기

https://x.com/QuanquanGu/status/1722364144379396513


GPT-4V(ision)와 함께 도로 위를 달립니다: 자율 주행에 대한 시각 언어 모델의 초기 탐색 / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

논문 소개

  • 최신 시각 언어 모델인 GPT-4V(ision)와 이를 자율주행에 적용하여 기존 자율주행 시스템과 비교하여 장면 이해 및 인과 추론에서 우수한 성능을 보이는 모델을 철저하게 평가합니다.

    Provides an exhaustive evaluation of the latest state-of-the-art visual language model, gpt-4v(ision), and its application in autonomous driving; the model demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems.

논문 초록

  • 자율 주행 기술의 실현은 인식, 의사 결정, 제어 시스템의 정교한 통합에 달려 있습니다. 데이터 기반 및 규칙 기반의 기존 접근 방식은 복잡한 주행 환경의 미묘한 차이와 다른 도로 사용자의 의도를 파악하지 못한다는 한계가 있었습니다. 이는 특히 안전하고 신뢰할 수 있는 자율 주행에 필요한 상식적인 추론과 미묘한 장면 이해를 개발하는 데 있어 큰 걸림돌이었습니다. 시각 언어 모델(VLM)의 등장은 완전 자율주행을 실현하는 데 있어 새로운 지평을 열었습니다. 이 보고서에서는 최신 최첨단 VLM과 자율주행 시나리오에서의 적용에 대한 철저한 평가를 제공합니다. 주행 장면을 이해하고 추론하여 의사 결정을 내리고 궁극적으로 운전자처럼 행동할 수 있는 모델의 능력을 살펴봅니다. 기본적인 장면 인식부터 복잡한 인과 관계 추론, 다양한 조건에서의 실시간 의사 결정에 이르기까지 포괄적인 테스트를 진행했습니다. 테스트 결과, '모델명'은 기존 자율주행 시스템에 비해 장면 이해와 인과 추론에서 우수한 성능을 보였습니다. 이는 실제 주행 상황에서 배포 범위를 벗어난 시나리오를 처리하고 의도를 인식하며 정보에 입각한 의사 결정을 내릴 수 있는 잠재력을 보여줍니다. 하지만 방향 식별, 신호등 인식, 시각 기반, 공간 추론 작업 등의 과제는 여전히 남아 있습니다. 이러한 한계는 추가 연구 및 개발의 필요성을 강조합니다. 이 프로젝트는 현재 깃허브에서 누구나 액세스하여 활용할 수 있습니다: URL{GitHub - PJLab-ADG/GPT4V-AD-Exploration: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving}

    The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{GitHub - PJLab-ADG/GPT4V-AD-Exploration: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving}

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1722795897359139057


GPT4All: 오픈소스 압축 언어 모델 생태계 / GPT4All: An Ecosystem of Open Source Compressed Language Models

논문 소개

  • LLM 접근의 민주화를 목표로 하는 오픈소스 저장소와 함께 GPT4All 모델 제품군에 대한 기술적 세부 사항을 간략하게 설명합니다.

    Outlines technical details of the gpt4all model family along with the open-source repository that aims to democratize access to llms.

논문 초록

  • 최근 대규모 언어 모델(LLM)은 다양한 전문 및 학술 벤치마크에서 인간 수준의 성능을 달성했습니다. 이러한 모델의 접근성은 성능에 비해 뒤쳐져 있습니다. 최신 LLM은 고가의 인프라가 필요하고, 속도 제한, 지역 제한, 검열된 웹 인터페이스를 통해서만 액세스할 수 있으며, 공개적으로 사용 가능한 코드 및 기술 보고서가 부족합니다. 이 논문에서는 LLM에 대한 액세스의 민주화를 목표로 하는 인기 있는 오픈소스 저장소인 GPT4All에 대한 이야기를 들려드립니다. 또한, 오리지널 GPT4All 모델 제품군의 기술적 세부 사항과 단일 모델에서 본격적인 오픈소스 에코시스템으로 발전한 GPT4All 프로젝트에 대해 간략하게 설명합니다. 이 논문이 오리지널 GPT4All 모델에 대한 기술적 개요뿐만 아니라 GPT4All 오픈소스 생태계의 후속 성장에 대한 사례 연구로도 활용되기를 바랍니다.

    Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1722833378590793915


S-LoRA: 수천 개의 동시 LoRA 어댑터에 서비스 제공 / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

논문 소개

  • 모든 어댑터를 메인 메모리에 저장하고 현재 실행 중인 쿼리의 어댑터를 GPU 메모리로 가져오고, 새로운 텐서 병렬 처리 전략과 고도로 최적화된 맞춤형 쿠다 커널을 사용하여 로라 계산의 이기종 일괄 처리, 다른 솔루션에 비해 처리량 4배 향상, 제공되는 어댑터 수 몇 배 증가 등 많은 로라 어댑터의 확장 가능한 서빙을 가능하게 하는 접근 방식입니다.

    An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.

논문 초록

  • 대규모 언어 모델 배포에는 일반적으로 "선학습 후 미세 조정" 패러다임이 채택됩니다. 매개변수 효율적 미세 조정 방법인 로우랭크 적응(LoRA)은 기본 모델을 여러 작업에 적용하는 데 자주 사용되며, 그 결과 하나의 기본 모델에서 파생된 상당한 양의 LoRA 적응기가 생성됩니다. 이러한 패러다임은 서비스를 제공하는 동안 일괄 추론에 상당한 기회를 제공합니다. 이러한 기회를 활용하기 위해 많은 LoRA 어댑터의 확장 가능한 서빙을 위해 설계된 시스템인 S-LoRA를 소개합니다. S-LoRA는 모든 어댑터를 메인 메모리에 저장하고 현재 실행 중인 쿼리에 사용되는 어댑터를 GPU 메모리로 가져옵니다. GPU 메모리를 효율적으로 사용하고 조각화를 줄이기 위해 S-LoRA는 통합 페이징을 제안합니다. 통합 페이징은 통합 메모리 풀을 사용하여 다양한 순위의 동적 어댑터 가중치와 다양한 시퀀스 길이의 KV 캐시 텐서를 관리합니다. 또한 S-LoRA는 새로운 텐서 병렬 처리 전략과 고도로 최적화된 커스텀 CUDA 커널을 사용하여 LoRA 계산의 이기종 일괄 처리를 지원합니다. 이러한 기능을 종합하면 S-LoRA는 적은 오버헤드로 단일 GPU 또는 여러 GPU에 걸쳐 수천 개의 LoRA 어댑터를 지원할 수 있습니다. 허깅페이스 PEFT나 vLLM과 같은 최신 라이브러리(LoRA 서비스를 기본적으로 지원)와 비교했을 때, S-LoRA는 처리량을 최대 4배까지 개선하고 서비스되는 어댑터의 수를 몇 배로 늘릴 수 있습니다. 결과적으로 S-LoRA는 많은 작업별 미세 조정 모델의 확장 가능한 서빙을 가능하게 하고 대규모 맞춤형 미세 조정 서비스의 잠재력을 제공합니다. 코드는 GitHub - S-LoRA/S-LoRA: S-LoRA: Serving Thousands of Concurrent LoRA Adapters 에서 확인할 수 있습니다

    The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at GitHub - S-LoRA/S-LoRA: S-LoRA: Serving Thousands of Concurrent LoRA Adapters

논문 링크

더 읽어보기

https://x.com/ai_database/status/1722190708797592013


FreshLLM: 검색 엔진 보강을 통한 대규모 언어 모델 새로 고침 / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

논문 소개

  • LLM이 생성한 텍스트의 사실성을 테스트하기 위한 동적 QA 벤치마크(FreshQA)를 제안하고, 검색 엔진에서 검색한 관련성 있는 최신 정보를 프롬프트에 통합하여 FreshQA에서 LLM의 성능을 크게 향상시키는 간단한 몇 번의 프롬프트 방법인 FreshPrompt를 제안하며, LLM이 간결하고 직접적인 답변을 생성하도록 지시하면 장황한 답변을 권장하는 것보다 환상을 줄이는 데 도움이 된다는 사실을 발견합니다.

    Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.

논문 초록

  • 대부분의 대규모 언어 모델(LLM)은 한 번만 학습되고 업데이트되지 않기 때문에 끊임없이 변화하는 세상에 동적으로 적응할 수 있는 능력이 부족합니다. 이 연구에서는 현재 세계 지식을 테스트하는 질문에 답하는 맥락에서 LLM으로 생성된 텍스트의 사실성에 대한 자세한 연구를 수행합니다. 특히 빠르게 변화하는 세계 지식이 필요한 질문과 반박해야 하는 잘못된 전제가 있는 질문 등 다양한 질문과 답변 유형을 포괄하는 새로운 동적 QA 벤치마크인 FreshQA를 소개합니다. 정답률과 오답률을 모두 측정할 수 있는 두 가지 모드의 평가 절차에 따라 다양한 폐쇄형 및 오픈소스 LLM을 벤치마킹합니다. 5만 건 이상의 판단을 포함하는 인간 평가를 통해 이러한 모델의 한계를 밝히고 개선의 여지가 크다는 것을 입증했습니다. 예를 들어, 모델 규모에 관계없이 모든 모델이 빠르게 변화하는 지식과 잘못된 전제를 포함하는 질문에 어려움을 겪는다는 사실을 발견했습니다. 이러한 결과를 바탕으로 검색 엔진에서 검색된 관련성 높은 최신 정보를 프롬프트에 통합하여 FreshQA에서 LLM의 성능을 크게 향상시키는 간단한 몇 번의 프롬프트 방법인 FreshPrompt를 소개합니다. 실험 결과, FreshPrompt는 Self-Ask(Press et al., 2022)와 같은 경쟁 검색 엔진 증강 프롬프트 방식은 물론 Perplexity.AI와 같은 상용 시스템보다 우수한 성능을 보였습니다. FreshPrompt에 대한 추가 분석 결과, 검색된 증거의 수와 그 순서가 LLM이 생성한 답변의 정답에 영향을 미치는 데 중요한 역할을 하는 것으로 나타났습니다. 또한, 간결하고 직접적인 답변을 생성하도록 LLM에 지시하는 것이 장황한 답변을 유도하는 것보다 오답을 줄이는 데 도움이 되는 것으로 나타났습니다. 향후 작업을 용이하게 하기 위해 FreshQA를 GitHub - freshllms/freshqa 에 공개하고 정기적으로 업데이트할 것을 약속합니다.

    Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at GitHub - freshllms/freshqa and commit to updating it at regular intervals.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1710108355157487635


원문