[2024/08/19 ~ 08/25] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/08/19 ~ 08/25] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들에서는 특히 대형 언어 모델(LLM)에 관한 연구가 두드러지게 나타났다는 것을 확인할 수 있습니다. "LLM Pruning and Distillation in Practice", "Enhancing Robustness in LLMs", "Controllable Text Generation for LLMs", 그리고 "Challenges and Responses in the Practice of LLMs" 등 여러 논문이 LLM의 성능 향상, 실용적 적용, 그리고 안정성 증진 등을 다루고 있습니다. 또한, "Language Modeling on Tabular Data"와 같은 논문을 통해 LLM의 응용 분야가 다양한 영역으로 확대되고 있음을 볼 수 있습니다.

  • 이와 같은 트렌드는 대형 언어 모델이 자연어 처리(NLP) 분야에서 매우 중요한 연구 주제로 떠올랐음을 반영합니다. LLM은 복잡한 언어 구조를 이해하고 생성할 수 있는 능력을 가지고 있어, 텍스트 생성, 번역, 문서 요약 등 다양한 응용 프로그램에서 광범위하게 사용되고 있습니다. 이들 모델의 성능을 더욱 정교하게 하고, 효율적으로 운영하며, 보다 안정적으로 만들기 위한 다양한 접근법들이 계속해서 연구되고 있습니다.

  • 또한, 이번 주에는 그래프 관련 연구도 눈에 띄게 나타났습니다. "A Comprehensive Overview of GraphRAG Methods"는 대표적으로 그래프 기반의 검색 및 수정 생성 방법에 관한 포괄적인 개요를 제공하고 있습니다. 이는 그래프 신경망(GNN)과 관련된 연구가 지속적으로 활발히 진행되고 있음을 나타냅니다. 그래프 구조는 데이터 간의 관계를 효과적으로 표현할 수 있어, 추천 시스템, 생물정보학, 소셜 네트워크 분석 등 다양한 분야에서 중요한 연구 주제로 부상하고 있습니다.

  • 따라서, 이번 주의 연구 경향을 보면 대형 언어 모델(LLM)을 중심으로 한 자연어 처리 기술의 발전과 그래프 신경망을 포함한 데이터 간의 관계를 다루는 기술들이 주목받고 있음을 알 수 있습니다. 이는 AI 기술이 점점 더 복잡한 데이터 구조와 다양한 응용 분야에서 중요한 역할을 하고 있음을 시사합니다.


에이전트 시스템의 자동화된 설계 / Automated Design of Agentic Systems

논문 소개

이전 발견의 증가하는 아카이브를 기반으로 새로운 에이전트를 반복적으로 프로그래밍하고 테스트하는 메타 에이전트인 메타 에이전트 검색을 소개하고, 이 접근 방식을 사용하면 프롬프트, 도구 사용, 제어 흐름 등을 포함한 모든 가능한 에이전트 시스템을 학습할 수 있다고 주장하며, 검색 공간(에이전트 정의), 검색 알고리즘(검색 공간 탐색), 평가 기능(후보 에이전트 평가)이라는 3가지 주요 요소에 집중하여 이를 달성할 수 있다고 주장합니다.

Presents Meta Agent Search, a meta agent that iteratively programs and tests new agents based on a growing archive of previous discoveries; claims that with their approach it is possible to learn any possible agentic system including prompts, tool use, control flows, and more; they achieve this by focusing on three main components referred to as search space (define agents), search algorithm (explore search space), and the evaluation function (evaluate candidate agents).

논문 초록(Abstract)

연구자들은 강력한 범용 에이전트를 개발하는 데 상당한 노력을 투자하고 있으며, 기초 모델은 에이전트 시스템 내에서 모듈로 사용됩니다(예: 연쇄 사고, 자기 반성, 도구 형성). 그러나 머신러닝의 역사는 수작업으로 설계된 솔루션이 결국 학습된 솔루션으로 대체된다는 것을 가르쳐 줍니다. 저희는 새로운 빌딩 블록을 발명하거나 새로운 방식으로 결합하는 등 강력한 에이전트 시스템 설계를 자동으로 생성하는 것을 목표로 하는 새로운 연구 분야인 에이전트 시스템 자동 설계(ADAS)를 공식화했습니다. 또한 에이전트를 코드로 정의하고 코드에서 더 나은 에이전트를 프로그래밍하는 메타 에이전트를 통해 새로운 에이전트를 자동으로 발견할 수 있는 미지의 유망한 접근 방식이 ADAS에 존재한다는 것을 보여줍니다. 프로그래밍 언어가 튜링 완전형이라는 점을 감안할 때 이 접근 방식은 이론적으로 새로운 프롬프트, 도구 사용, 제어 흐름 및 이들의 조합을 포함하여 가능한 모든 에이전트 시스템의 학습을 가능하게 합니다. 이 아이디어를 입증하기 위해 메타 에이전트 검색이라는 간단하면서도 효과적인 알고리즘을 소개하며, 메타 에이전트는 지속적으로 증가하는 이전 발견의 아카이브를 기반으로 흥미로운 새 에이전트를 반복적으로 프로그래밍합니다. 코딩, 과학, 수학 등 여러 영역에 걸친 광범위한 실험을 통해 저희 알고리즘이 수작업으로 설계된 최신 에이전트보다 훨씬 뛰어난 성능을 발휘하는 새로운 디자인의 에이전트를 점진적으로 발명할 수 있음을 보여주었습니다. 중요한 것은 메타 에이전트 검색으로 발명된 에이전트가 여러 도메인과 모델로 옮겨도 우수한 성능을 유지하여 견고함과 일반성을 입증한다는 놀라운 결과를 지속적으로 관찰하고 있다는 점입니다. 안전하게 개발하기만 한다면, 우리의 연구는 인류를 위해 더욱 강력한 에이전트 시스템을 자동으로 설계하는 새로운 연구 방향의 잠재력을 보여줍니다.

Researchers are investing substantial effort in developing powerful general-purpose agents, wherein Foundation Models are used as modules within agentic systems (e.g. Chain-of-Thought, Self-Reflection, Toolformer). However, the history of machine learning teaches us that hand-designed solutions are eventually replaced by learned solutions. We formulate a new research area, Automated Design of Agentic Systems (ADAS), which aims to automatically create powerful agentic system designs, including inventing novel building blocks and/or combining them in new ways. We further demonstrate that there is an unexplored yet promising approach within ADAS where agents can be defined in code and new agents can be automatically discovered by a meta agent programming ever better ones in code. Given that programming languages are Turing Complete, this approach theoretically enables the learning of any possible agentic system: including novel prompts, tool use, control flows, and combinations thereof. We present a simple yet effective algorithm named Meta Agent Search to demonstrate this idea, where a meta agent iteratively programs interesting new agents based on an ever-growing archive of previous discoveries. Through extensive experiments across multiple domains including coding, science, and math, we show that our algorithm can progressively invent agents with novel designs that greatly outperform state-of-the-art hand-designed agents. Importantly, we consistently observe the surprising result that agents invented by Meta Agent Search maintain superior performance even when transferred across domains and models, demonstrating their robustness and generality. Provided we develop it safely, our work illustrates the potential of an exciting new research direction toward automatically designing ever-more powerful agentic systems to benefit humanity.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1825378027347271719


실무에서의 LLM 가지치기 및 증류: 미니트론 접근법 / LLM Pruning and Distillation in Practice: The Minitron Approach

논문 소개

라마 3.1 및 미스트랄 NeMo 모델을 압축하는 효과적인 방법에 대한 포괄적인 보고서를 제공합니다. 원본 모델에 적용된 가지치기 및 증류 접근법을 제시하여 각각 4B 및 8B 파라미터 모델을 생성하고, 가지치기 전에 데이터 세트에서 교사 모델을 미세 조정하여 증류를 개선하고, 압축 전략으로 일반적인 언어 모델링 벤치마크에서 비슷한 크기의 모든 모델보다 성능이 뛰어난 최신 8B 모델(MN-Minitron-8B)을 산출합니다.

Provides a comprehensive report on effective methods for compressing Llama 3.1 and Mistral NeMo models; it presents pruning and distillation approaches applied to the original models to produce 4B and 8B parameter models, respectively; before pruning, they also fine-tune the teacher model on their datasets leading to better distillation; their compression strategy yields a state-of-the-art 8B model (MN-Minitron-8B) which outperforms all similarly-sized models on common language modeling benchmarks.

논문 초록(Abstract)

가지치기와 증류를 사용해 Llama 3.1 8B와 Mistral NeMo 12B 모델을 각각 4B와 8B 파라미터로 압축하는 방법에 대한 종합 보고서를 발표합니다. (1) 깊이 가지치기와 (2) 조인트 숨김/어텐션/MLP(폭) 가지치기의 두 가지 가지 가지치기 전략을 살펴보고 LM 평가 하네스의 공통 벤치마크에서 결과를 평가합니다. 그런 다음 모델을 NeMo 얼라이너로 정렬하고 지침에 따라 조정된 버전으로 테스트합니다. 이 접근 방식은 Llama 3.1 8B에서 강력한 4B 모델을 생성하고, Mistral NeMo 12B에서 최첨단 Mistral-NeMo-Minitron-8B(간결함을 위해 MN-Minitron-8B) 모델을 생성합니다. 원본 데이터에 액세스할 수 없는 경우, 증류 데이터 세트에서 교사 모델을 약간 미세 조정하는 것이 도움이 된다는 사실을 발견했습니다. 저희는 허깅 페이스의 기본 모델 가중치를 허용 라이선스를 통해 오픈소스화했습니다.

We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1826676365044675042


비주얼리제이션 가우스 프로세스 밴디트 알고리즘 / The Vizier Gaussian Process Bandit Algorithm

논문 소개

Google이 수백만 건의 최적화와 연구에 사용한 가우스 프로세스 밴디트 최적화 기반 알고리즘인 Vizier를 소개하고, 광범위한 적용 가능성을 입증하는 벤치마킹 결과를 포함하여 Vizier 알고리즘의 오픈 소스 Python 구현을 제공합니다.

Presents Vizier, an algorithm based on Gaussian process bandit optimization used by Google for millions of optimizations and research; it provides an open-source Python implementation of the Vizier algorithm, including benchmarking results that demonstrate its wider applicability.

논문 초록(Abstract)

Google Vizier는 수백만 건의 최적화를 수행하고 Google의 수많은 연구 및 생산 시스템을 가속화하여 대규모 서비스로서 베이지안 최적화의 성공을 입증했습니다. 수년에 걸쳐 수많은 연구 노력과 사용자 피드백의 집합적인 경험을 통해 알고리즘이 상당히 개선되었습니다. 이 기술 보고서에서는 현재 오픈 소스 비주얼리제이션에서 제공하는 기본 알고리즘의 구현 세부 사항과 디자인 선택에 대해 설명합니다. 표준화된 벤치마크에 대한 실험을 통해 여러 실용적인 모드에서 잘 정립된 업계 기준선에 대한 견고성과 다용도성을 확인했습니다.

Google Vizier has performed millions of optimizations and accelerated numerous research and production systems at Google, demonstrating the success of Bayesian optimization as a large-scale service. Over multiple years, its algorithm has been improved considerably, through the collective experiences of numerous research efforts and user feedback. In this technical report, we discuss the implementation details and design choices of the current default algorithm provided by Open Source Vizier. Our experiments on standardized benchmarks reveal its robustness and versatility against well-established industry baselines on multiple practical modes.

논문 링크

더 읽어보기

https://x.com/XingyouSong/status/1826554454084333723


표 형식 데이터의 언어 모델링 / Language Modeling on Tabular Data

논문 소개

표 형식 데이터에 대한 언어 모델링 기법에 대한 포괄적인 조사를 제시합니다. 표 형식 데이터 구조 및 데이터 유형의 분류, 모델 학습 및 평가에 사용되는 데이터 세트, 모델링 기법 및 학습 목표, 데이터 처리 방법, 널리 사용되는 아키텍처, 과제 및 향후 연구 방향 등의 주제를 다룹니다.

Presents a comprehensive survey of language modeling techniques for tabular data; includes topics such as categorization of tabular data structures and data types, datasets used for model training and evaluation, modeling techniques and training objectives, data processing methods, popular architectures, and challenges and future research directions.

논문 초록 (Abstract)

다양한 영역에서 널리 사용되는 데이터 유형인 테이블 형식 데이터는 이질적인 특성과 복잡한 구조적 관계로 인해 고유한 과제를 안고 있습니다. 표 형식 데이터 분석에서 높은 예측 성능과 견고성을 달성하는 것은 수많은 애플리케이션에 상당한 가능성을 제시합니다. 최근 자연어 처리, 특히 트랜스포머 아키텍처의 발전에 영향을 받아 표 형식 데이터 모델링을 위한 새로운 방법이 등장했습니다. 초기 기술은 처음부터 트랜스포머를 사전 학습시키는 데 집중했기 때문에 확장성 문제에 직면하는 경우가 많았습니다. 그 후 BERT와 같이 사전 학습된 언어 모델을 활용하는 방법이 개발되었는데, 이는 더 적은 데이터를 필요로 하고 향상된 성능을 제공합니다. 최근 GPT 및 LLaMA와 같은 대규모 언어 모델이 등장하면서 이 분야는 더욱 혁신적으로 발전하여 최소한의 미세 조정으로 더욱 고급스럽고 다양한 애플리케이션을 구현할 수 있게 되었습니다. 이러한 관심 증가에도 불구하고 표 형식 데이터에 대한 언어 모델링 기법에 대한 서베이 논문은 아직 부재한 상태입니다. 이 논문에서는 (1) 다양한 표 형식 데이터 구조와 데이터 유형의 분류, (2) 모델 학습에 사용되는 주요 데이터 세트와 평가에 사용되는 작업의 검토, (3) 널리 채택된 데이터 처리 방법, 널리 사용되는 아키텍처 및 학습 목표를 포함한 모델링 기법의 요약, (4) 기존의 사전 훈련/사전 학습 언어 모델 적용에서 대규모 언어 모델 활용으로의 진화, (5) 표 형식 데이터 분석을 위한 언어 모델링의 지속적인 과제 및 향후 연구 방향의 식별을 다룹니다. 이 서베이 논문과 관련된 깃허브 페이지는 다음 링크에서 확인할 수 있습니다: GitHub - lanxiang1017/Language-Modeling-on-Tabular-Data-Survey: A collection of AWESOME language modeling techniques on tabular data applications.

Tabular data, a prevalent data type across various domains, presents unique challenges due to its heterogeneous nature and complex structural relationships. Achieving high predictive performance and robustness in tabular data analysis holds significant promise for numerous applications. Influenced by recent advancements in natural language processing, particularly transformer architectures, new methods for tabular data modeling have emerged. Early techniques concentrated on pre-training transformers from scratch, often encountering scalability issues. Subsequently, methods leveraging pre-trained language models like BERT have been developed, which require less data and yield enhanced performance. The recent advent of large language models, such as GPT and LLaMA, has further revolutionized the field, facilitating more advanced and diverse applications with minimal fine-tuning. Despite the growing interest, a comprehensive survey of language modeling techniques for tabular data remains absent. This paper fills this gap by providing a systematic review of the development of language modeling for tabular data, encompassing: (1) a categorization of different tabular data structures and data types; (2) a review of key datasets used in model training and tasks used for evaluation; (3) a summary of modeling techniques including widely-adopted data processing methods, popular architectures, and training objectives; (4) the evolution from adapting traditional Pre-training/Pre-trained language models to the utilization of large language models; (5) an identification of persistent challenges and potential future research directions in language modeling for tabular data analysis. GitHub page associated with this survey is available at: this https URL.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1826094372179366023


대규모 언어 모델의 견고성 향상: 관련 없는 정보의 영향 완화를 위한 프롬프트 제공 / Enhancing Robustness in Large Language Models: Prompting for Mitigating the Impact of Irrelevant Information

논문 소개

문맥에서 관련 없는 정보를 제거하는 2단계 프롬프트 기법을 제안하여 관련 없는 정보를 먼저 식별한 다음 필터링하는 자체 완화 프로세스를 통해 모델의 견고성을 향상시키고 추론 작업의 전반적인 성능을 향상시킵니다.

Proposes a two-stage prompting technique to remove irrelevant information from context; it serves as a self-mitigation process that first identifies the irrelevant information and then filters it out; this leads to enhancement in robustness of the model and overall better performance on reasoning tasks.

논문 초록(Abstract)

최근 몇 년 동안 대규모 언어 모델(LLM)은 복잡한 추론 작업에서 뛰어난 성능으로 인해 큰 주목을 받고 있습니다. 그러나 최근 연구에 따르면 고급 프롬프트 기법을 사용하더라도 문제 설명에 관련 없는 정보가 포함되어 있는 경우 추론 능력이 현저히 저하될 수 있습니다. 이 문제를 더 자세히 조사하기 위해 관련 없는 정보가 포함된 초등학교 수학 문제 데이터 세트인 GSMIR을 구축했습니다. 이 데이터세트에 대해 대표적인 LLM과 프롬프트 기법을 테스트한 결과, LLM이 관련 없는 정보를 식별할 수는 있지만, 일단 식별된 후에는 간섭을 효과적으로 완화하지 못한다는 사실이 밝혀졌습니다. 이러한 단점을 해결하기 위해 LLM이 관련 없는 정보의 영향을 식별하고 자체적으로 완화하는 능력을 향상시키는 새로운 자동 구성 방법인 ATF가 제안되었습니다. 이 방법은 먼저 관련 없는 정보를 분석한 다음 필터링하는 두 단계로 작동합니다. 실험 결과를 통해 입증된 바와 같이 ATF 방법은 GSMIR 데이터 세트에 관련 없는 정보가 있는 경우에도 LLM과 프롬프트 기술의 추론 성능을 크게 향상시킵니다.

In recent years, Large language models (LLMs) have garnered significant attention due to their superior performance in complex reasoning tasks. However, recent studies may diminish their reasoning capabilities markedly when problem descriptions contain irrelevant information, even with the use of advanced prompting techniques. To further investigate this issue, a dataset of primary school mathematics problems containing irrelevant information, named GSMIR, was constructed. Testing prominent LLMs and prompting techniques on this dataset revealed that while LLMs can identify irrelevant information, they do not effectively mitigate the interference it causes once identified. A novel automatic construction method, ATF, which enhances the ability of LLMs to identify and self-mitigate the influence of irrelevant information, is proposed to address this shortcoming. This method operates in two steps: first, analysis of irrelevant information, followed by its filtering. The ATF method, as demonstrated by experimental results, significantly improves the reasoning performance of LLMs and prompting techniques, even in the presence of irrelevant information on the GSMIR dataset.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1826451091774447983


그래프 검색-증강 생성: 서베이 논문 / Graph Retrieval-Augmented Generation: A Survey

논문 소개

그래프 기반 인덱싱, 그래프 가이드 검색, 그래프 강화 생성 등 GraphRAG 워크플로우에 적용되는 기술에 초점을 맞추고 GraphRAG의 작업, 애플리케이션, 평가, 산업 사용 사례에 대해 살펴봅니다.

Focuses on techniques applied to the GraphRAG workflow (graph-based indexing, graph-guided retrieval, and graph-enhanced generation); examines tasks, applications, evaluation, and industrial use cases of GraphRAG.

논문 초록(Abstract)

최근 검색 증강 세대(RAG)는 재교육 없이도 대규모 언어 모델(LLM)의 문제를 해결하는 데 괄목할 만한 성공을 거두었습니다. RAG는 외부 지식 베이스를 참조하여 LLM 결과를 개선함으로써 '환각', 도메인별 지식 부족, 오래된 정보 등의 문제를 효과적으로 완화합니다. 그러나 데이터베이스의 여러 엔티티 간의 복잡한 관계 구조는 RAG 시스템에 문제를 야기합니다. 이에 대응하여 GraphRAG는 엔티티 전반의 구조 정보를 활용하여 보다 정확하고 포괄적인 검색을 가능하게 함으로써 관계 지식을 포착하고 보다 정확하고 맥락을 인식하는 응답을 촉진합니다. GraphRAG의 참신함과 잠재력을 고려할 때, 현재 기술에 대한 체계적인 검토는 필수적입니다. 이 백서는 GraphRAG 방법론에 대한 최초의 포괄적인 개요를 제공합니다. 그래프 기반 인덱싱, 그래프 가이드 검색, 그래프 강화 생성을 포괄하는 GraphRAG 워크플로우를 공식화합니다. 그런 다음 각 단계의 핵심 기술과 훈련 방법을 간략하게 설명합니다. 또한 GraphRAG의 다운스트림 작업, 애플리케이션 도메인, 평가 방법론 및 산업 사용 사례에 대해 살펴봅니다. 마지막으로, 향후 연구 방향을 살펴봄으로써 이 분야의 추가 연구와 발전을 위한 영감을 얻습니다.

Recently, Retrieval-Augmented Generation (RAG) has achieved remarkable success in addressing the challenges of Large Language Models (LLMs) without necessitating retraining. By referencing an external knowledge base, RAG refines LLM outputs, effectively mitigating issues such as ``hallucination'', lack of domain-specific knowledge, and outdated information. However, the complex structure of relationships among different entities in databases presents challenges for RAG systems. In response, GraphRAG leverages structural information across entities to enable more precise and comprehensive retrieval, capturing relational knowledge and facilitating more accurate, context-aware responses. Given the novelty and potential of GraphRAG, a systematic review of current technologies is imperative. This paper provides the first comprehensive overview of GraphRAG methodologies. We formalize the GraphRAG workflow, encompassing Graph-Based Indexing, Graph-Guided Retrieval, and Graph-Enhanced Generation. We then outline the core technologies and training methods at each stage. Additionally, we examine downstream tasks, application domains, evaluation methodologies, and industrial use cases of GraphRAG. Finally, we explore future research directions to inspire further inquiries and advance progress in the field.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1825937537782698377


MagicDec: 추측적 디코딩으로 긴 컨텍스트 생성을 위한 지연 시간-처리량 트레이드오프 극복하기 / MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

논문 소개

긴 컨텍스트 생성 시나리오에서 추측적 디코딩이 어떻게 처리량을 향상하고 지연 시간을 줄이며 정확도를 유지할 수 있는지 보여줍니다. 시퀀스 길이와 배치 크기가 증가함에 따라 병목 현상이 컴퓨팅에서 메모리로 이동하고, 이러한 인사이트를 통해 큰 배치 크기를 사용하는 경우에도 긴 시퀀스에 대해 추측적 디코딩을 보다 효과적으로 사용할 수 있다는 사실을 발견합니다.

Shows how speculative decoding can enhance throughput, reduce latency, and maintain accuracy in long context generation scenarios; it finds that as sequence length and batch size increase, bottlenecks shift from compute-bound to memory-bound; using these insights, they show it's possible to more effectively use speculative decoding for longer sequences, even when using large batch sizes.

논문 초록(Abstract)

대화형 챗봇, 문서 분석, 상담원 워크플로우 등 긴 컨텍스트가 필요한 애플리케이션에서 대규모 언어 모델(LLM)이 널리 사용되고 있지만 짧은 지연 시간과 높은 처리량으로 긴 컨텍스트 요청을 처리하기란 쉽지 않습니다. 추측 디코딩(SD)은 성능 저하 없이 지연 시간을 줄이기 위해 널리 사용되는 기술이지만, 기존의 통념에 따르면 그 효과는 작은 배치 크기로 제한됩니다. MagicDec에서는 놀랍게도 SD가 중간에서 긴 시퀀스에 대한 높은 처리량의 추론 체계에서도 속도 향상을 달성할 수 있음을 보여줍니다. 더 흥미로운 점은 엄격한 분석에 기반한 지능형 초안 작성 전략이 배치 크기를 늘림으로써 더 나은 속도 향상을 달성할 수 있다는 것입니다. MagicDec은 먼저 배치 크기와 시퀀스 길이 증가에 따른 병목 현상을 파악하고, 이러한 인사이트를 사용해 높은 처리량 추론을 위해 추측 디코딩을 보다 효과적으로 배포합니다. 그런 다음, 희소 KV 캐시가 있는 초안 모델을 활용하여 시퀀스 길이와 배치 크기 모두에 따라 확장되는 KV 병목 현상을 해결합니다. 이 발견은 정확도 저하 없이 처리량을 향상시키고 지연 시간을 줄일 수 있는 추측 디코딩이 긴 컨텍스트 서비스에서 광범위하게 적용 가능하다는 점을 강조합니다. 중간에서 긴 시퀀스의 경우, 8개의 NVIDIA A100 GPU에서 32에서 256 사이의 배치 크기를 제공할 때 LLaMA-2-7B-32K의 경우 최대 2배, LLaMA-3.1-8B의 경우 1.84배의 속도 향상을 입증했습니다. 코드는 GitHub - Infini-AI-Lab/MagicDec: Breaking Throughput-Latency Trade-off for Long Sequences with Speculative Decoding 에서 확인할 수 있습니다.

Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size. This finding underscores the broad applicability of speculative decoding in long-context serving, as it can enhance throughput and reduce latency without compromising accuracy. For moderate to long sequences, we demonstrate up to 2x speedup for LLaMA-2-7B-32K and 1.84x speedup for LLaMA-3.1-8B when serving batch sizes ranging from 32 to 256 on 8 NVIDIA A100 GPUs. The code is available at GitHub - Infini-AI-Lab/MagicDec: Breaking Throughput-Latency Trade-off for Long Sequences with Speculative Decoding.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1826090969906778122


대규모 언어 모델을 위한 제어 가능한 텍스트 생성: 서베이 논문 / Controllable Text Generation for Large Language Models: A Survey

논문 소개

LLM에서 제어 가능한 텍스트 생성 방법에 대한 포괄적인 서베이를 제공하고 안전성, 일관성, 스타일, 유용성 등의 문제에 대해 논의합니다.

Provides a comprehensive survey on methods for controllable text generation in LLMs; discusses issues like safety, consistency, style, and helpfulness.

논문 초록(Abstract)

자연어 처리(NLP)에서 대규모 언어 모델(LLM)은 높은 텍스트 생성 품질을 입증해 왔습니다. 하지만 실제 애플리케이션에서 LLM은 점점 더 복잡해지는 요구 사항을 충족해야 합니다. 오해의 소지가 있거나 부적절한 콘텐츠를 피하는 것 외에도 LLM은 특정 글쓰기 스타일을 모방하거나 시적 풍부함이 담긴 텍스트를 생성하는 등 특정 사용자 요구 사항을 충족해야 합니다. 이러한 다양한 요구로 인해 안전, 정서, 주제 일관성, 언어 스타일 등 사전 정의된 제어 조건을 준수하는 동시에 높은 수준의 유용성, 유창성, 다양성을 보장하는 제어 가능한 텍스트 생성(CTG) 기술이 개발되고 있습니다. 이 백서에서는 LLM을 위한 CTG의 최신 발전 사항을 체계적으로 검토하여 핵심 개념을 포괄적으로 정의하고 제어 조건 및 텍스트 품질에 대한 요구 사항을 명확히 제시합니다. CTG 작업을 콘텐츠 제어와 속성 제어라는 두 가지 주요 유형으로 분류합니다. 모델 재교육, 미세 조정, 강화 학습, 프롬프트 엔지니어링, 잠재 공간 조작, 디코딩 시간 개입 등 주요 방법에 대해 설명합니다. 각 방법의 특징, 장점, 한계를 분석하여 세대 제어를 달성하기 위한 미묘한 통찰력을 제공합니다. 또한 CTG 평가 방법을 검토하고 여러 영역에 걸쳐 적용 사례를 요약하며, 유창성 및 실용성 저하 등 현재 연구의 주요 과제를 해결합니다. 또한 향후 연구에서 실제 적용에 더 중점을 두는 등 몇 가지 제언을 제시합니다. 이 백서는 해당 분야의 연구자와 개발자에게 유용한 지침을 제공하는 것을 목표로 합니다. 참조 목록과 중국어 버전은 GitHub - IAAR-Shanghai/CTGSurvey: Controllable Text Generation for Large Language Models: A Survey 에서 오픈소스로 제공됩니다.

In Natural Language Processing (NLP), Large Language Models (LLMs) have demonstrated high text generation quality. However, in real-world applications, LLMs must meet increasingly complex requirements. Beyond avoiding misleading or inappropriate content, LLMs are also expected to cater to specific user needs, such as imitating particular writing styles or generating text with poetic richness. These varied demands have driven the development of Controllable Text Generation (CTG) techniques, which ensure that outputs adhere to predefined control conditions--such as safety, sentiment, thematic consistency, and linguistic style--while maintaining high standards of helpfulness, fluency, and diversity. This paper systematically reviews the latest advancements in CTG for LLMs, offering a comprehensive definition of its core concepts and clarifying the requirements for control conditions and text quality. We categorize CTG tasks into two primary types: content control and attribute control. The key methods are discussed, including model retraining, fine-tuning, reinforcement learning, prompt engineering, latent space manipulation, and decoding-time intervention. We analyze each method's characteristics, advantages, and limitations, providing nuanced insights for achieving generation control. Additionally, we review CTG evaluation methods, summarize its applications across domains, and address key challenges in current research, including reduced fluency and practicality. We also propose several appeals, such as placing greater emphasis on real-world applications in future research. This paper aims to offer valuable guidance to researchers and developers in the field. Our reference list and Chinese version are open-sourced at GitHub - IAAR-Shanghai/CTGSurvey: Controllable Text Generation for Large Language Models: A Survey.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1826824199010132429


PEDAL: 다양한 예제를 사용하여 대규모 언어 모델로 욕심 많은 디코딩 향상하기 / PEDAL: Enhancing Greedy Decoding with Large Language Models using Diverse Exemplars

논문 소개

하이브리드 자체 조합 방식(다양한 예제 기반)을 사용하여 LLM의 전반적인 성능을 개선합니다. 즉, 다양한 예제를 사용하여 여러 후보 응답을 생성한 다음 LLM을 사용하여 집계하여 최종 응답을 생성하는 방식으로, 탐욕스러운 디코딩에 비해 정확도가 향상되고 자체 일관성 방식에 비해 비용이 저렴합니다.

Uses a hybrid self-ensembling approach (based on diverse exemplars) to improve the overall performance of LLMs; specifically, it uses diverse exemplars to generate multiple candidate responses and then aggregates them using an LLM to generate a final response; this approach achieves better accuracy compared to greedy decoding and lower cost compared to self-consistency approaches.

논문 초록(Abstract)

자기 일관성과 같은 다양한 추론 경로를 갖춘 자가 조합 기법은 대규모 언어 모델(LLM)을 사용한 텍스트 생성에서 놀라운 성능 향상을 보여주었습니다. 그러나 이러한 기술은 여러 출력물에 걸쳐 집계할 수 있는 정확한 답변 추출 프로세스의 가용성에 달려 있습니다. 또한, 상대적으로 더 많은 수의 출력 토큰을 생성하기 때문에 탐욕스러운 디코딩에 비해 추론 비용이 더 많이 듭니다. 연구에 따르면 자기 일관성의 자유 형식 텍스트 출력은 LLM을 사용하여 안정적으로 집계하여 최종 출력을 생성할 수 있는 것으로 나타났습니다. 또한, 최근 LLM 추론의 발전으로 프롬프트에 다양한 예시를 사용하면 LLM 출력의 다양성을 유도할 수 있음이 입증되었습니다. 이러한 입증된 기법은 텍스트 생성에서 향상된 결과를 얻기 위해 자가 조합 기반 접근 방식으로 쉽게 확장할 수 있습니다. 이 백서에서는 다양한 예시 기반 프롬프트와 LLM 기반 어그리게이션의 강점을 결합하여 전반적인 성능 향상을 달성하는 하이브리드 셀프 엠블링 접근 방식인 PEDAL(Prompts based on Exemplar Diversity Aggregated using LLMs)을 소개합니다. 공개적으로 사용 가능한 SVAMP 및 ARC 데이터 세트에 대한 실험 결과, PEDAL은 자체 일관성 기반 접근 방식에 비해 낮은 추론 비용으로 욕심 디코딩 기반 전략보다 더 나은 정확도를 달성할 수 있는 것으로 나타났습니다.

Self-ensembling techniques with diverse reasoning paths such as Self-Consistency have demonstrated remarkable performance gains in text generation with Large Language Models (LLMs). However, such techniques depend on the availability of an accurate answer extraction process to aggregate across multiple outputs. Moreover, they acquire higher inference cost, in comparison to Greedy Decoding, due to generation of relatively higher number of output tokens. Research has shown that the free form text outputs from Self-Consistency can be aggregated reliably using LLMs to produce the final output. Additionally, recent advancements in LLM inference have demonstrated that usage of diverse exemplars in prompts have the ability to induce diversity in the LLM outputs. Such proven techniques can be easily extended to self-ensembling based approaches to achieve enhanced results in text generation. In this paper, we introduce PEDAL (Prompts based on Exemplar Diversity Aggregated using LLMs), a hybrid self-ensembling approach, that combines the strengths of diverse exemplar based prompts and LLM based aggregation to achieve improvement in overall performance. On the publicly available SVAMP and ARC datasets, our experiments reveal that PEDAL can achieve better accuracy than Greedy Decoding based strategies with lower inference cost compared to Self Consistency based approaches.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1825373675631071609


대규모 언어 모델 실무에서의 도전과 대응 / Challenges and Responses in the Practice of Large Language Models

논문 소개

인프라, 소프트웨어 아키텍처, 데이터, 애플리케이션, 뇌 과학 등의 주제별로 질문이 분류되어 있으며, 통찰력 있는 답변이 포함된 중요한 질문 세트를 큐레이션합니다.

Curates a set of important questions with insightful answers; questions are categorized across topics such as infrastructure, software architecture, data, application, and brain science.

논문 초록(Abstract)

이 논문은 업계 동향, 학술 연구, 기술 혁신, 비즈니스 애플리케이션 등 여러 측면을 포괄하는 현재 주목받고 있는 AI 분야에 초점을 맞춰 각계각층의 광범위하고 심오한 질문을 신중하게 요약한 것입니다. 이 논문은 생각을 자극하고 실질적으로 관련성이 있는 질문을 세심하게 선별하여 각 질문에 대한 미묘하고 통찰력 있는 답변을 제공합니다. 이 논문은 독자들의 이해와 참조를 돕기 위해 컴퓨팅 파워 인프라, 소프트웨어 아키텍처, 데이터 리소스, 애플리케이션 시나리오, 뇌 과학의 다섯 가지 핵심 차원에서 이러한 질문을 체계적이고 세심하게 분류하고 정리했습니다. 이 작업은 독자들에게 포괄적이고 심도 있는 최첨단 AI 지식 프레임워크를 제공하여 각계각층의 사람들이 AI 개발의 흐름을 파악하고 혁신적인 사고를 자극하며 산업 발전을 촉진하는 데 도움을 주는 것을 목표로 합니다.

This paper carefully summarizes extensive and profound questions from all walks of life, focusing on the current high-profile AI field, covering multiple dimensions such as industry trends, academic research, technological innovation and business applications. This paper meticulously curates questions that are both thought-provoking and practically relevant, providing nuanced and insightful answers to each. To facilitate readers' understanding and reference, this paper specifically classifies and organizes these questions systematically and meticulously from the five core dimensions of computing power infrastructure, software architecture, data resources, application scenarios, and brain science. This work aims to provide readers with a comprehensive, in-depth and cutting-edge AI knowledge framework to help people from all walks of life grasp the pulse of AI development, stimulate innovative thinking, and promote industrial progress.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1825932441980162374


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요