[2024/04/15 ~ 04/21] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/04/15 ~ 04/21] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 제출된 논문들을 살펴보면, 주로 언어 모델(Language Models), 특히 대규모 언어 모델(Large Language Models, LLMs)과 그것들의 성능 향상이나 응용에 초점을 맞추고 있음을 알 수 있습니다. 특히 'Llama 3', 'Mixtral 8x22B', 'Chinchilla Scaling: A replication attempt' 같은 논문들은 모델 스케일링과 관련된 연구를 다루고 있으며, 이는 최근 몇 년 동안 AI 연구의 핵심 동향 중 하나입니다. 또한, 'How Faithful are RAG Models?', 'A Survey on Retrieval-Augmented Text Generation for LLMs', 'Reducing Hallucination in Structured Outputs via RAG' 처럼 검색 기반 텍스트 생성(Search-based Text Generation)을 통한 모델의 정확도와 신뢰성 증진에 관한 연구도 눈에 띕니다.

  • 이와 같은 연구 동향은 AI 및 머신러닝 연구에서 대규모 언어 모델의 중요성이 증가하고 있음을 시사합니다. 대규모 언어 모델들은 다양한 NLP(자연어 처리) 문제들을 해결하는 데 있어 놀라운 성능을 보여주고 있으며, 이로 인해 이 분야에 대한 연구와 개발이 활발히 이루어지고 있습니다. 모델의 크기를 조정하고, 검색을 통해 정보를 통합하며, 출력의 정확성을 개선하려는 시도는 이러한 모델들이 실제 세계 응용에서 더욱 효과적으로 작동하도록 만드는 데 중요한 단계입니다.

  • 또한, 여러 논문들에서 'State Space Models'와 같은 구체적인 모델 구조나 'RAG(Retrieval-Augmented Generation)'와 같은 기법들에 대한 논의는 이 분야에서 기술적 혁신이 계속됨을 보여줍니다. 이런 연구는 기존의 문제점들을 해결하고 새로운 가능성을 모색하는 데 중요하며, AI 연구의 방향성을 제시합니다. 전반적으로 이번 주에 제출된 논문들은 AI 및 머신러닝 연구에서 언어 모델의 발전과 응용이 중요한 연구 영역임을 재확인시켜주며, 이 영역이 향후에도 계속해서 많은 관심을 받을 것임을 예측하게 합니다.


라마 3 / Llama 3

모델 소개

8B 및 70B 사전 학습 및 인스트럭션 튜닝 모델을 포함하는 LLM 제품군으로, Llama 3 8B는 Gemma 7B 및 Mistral 7B Instruct보다 성능이 뛰어나고, Llama 3 70은 Gemini Pro 1.5 및 Claude 3 Sonnet보다 성능이 월등히 뛰어납니다.

A family of LLMs that include 8B and 70B pretrained and instruction-tuned models; Llama 3 8B outperforms Gemma 7B and Mistral 7B Instruct; Llama 3 70 broadly outperforms Gemini Pro 1.5 and Claude 3 Sonnet.

모델 페이지

더 읽어보기

https://x.com/AIatMeta/status/1780997403979735440


Mixtral 8x22B / Mixtral 8x22B

모델 소개

새로운 오픈소스 희소 전문가 혼합 모델은 다른 커뮤니티 모델과 비교했을 때 MMLU에서 최고의 성능/비용 비율을 제공하며 추론, 지식 검색, 수학 및 코딩에서 강력한 성능을 보여준다고 보고했습니다.

A new open-source sparse mixture-of-experts model that reports that compared to the other community models, it delivers the best performance/cost ratio on MMLU; shows strong performance on reasoning, knowledge retrieval, maths, and coding.

모델 페이지

더 읽어보기

https://x.com/MistralAILabs/status/1780596888473072029


친칠라 스케일링: 복제 시도 / Chinchilla Scaling: A replication attempt

논문 소개

호프만 외(2022)에서 제안한 계산 최적 스케일링 법칙의 세 번째 추정 절차(즉, 친칠라 스케일링)를 재현하려고 시도한 결과, "보고된 추정치가 처음 두 추정 방법과 일치하지 않고 추출된 데이터를 맞추지 못하며 믿을 수 없을 정도로 좁은 신뢰 구간을 보고한다"는 사실을 확인했습니다

Attempts to replicate the third estimation procedure of the compute-optimal scaling law proposed in Hoffmann et al. (2022) (i.e., Chinchilla scaling); finds that “the reported estimates are inconsistent with their first two estimation methods, fail at fitting the extracted data, and report implausibly narrow confidence intervals.”

논문 초록(Abstract)

Hoffmann 등(2022)은 계산 최적 스케일링 법칙을 추정하는 세 가지 방법을 제안합니다. 우리는 그들의 세 번째 추정 절차를 재현하려고 시도하는데, 이는 플롯의 데이터 재구성에 파라메트릭 손실 함수를 맞추는 것을 포함합니다. 보고된 추정치가 처음 두 가지 추정 방법과 일치하지 않고, 추출된 데이터에 맞지 않으며, 믿을 수 없을 정도로 좁은 신뢰 구간(이 좁은 구간은 500개 미만의 실험만 실행했을 가능성이 있는 반면, 600,000개 이상의 실험이 필요함)을 보고한다는 사실을 발견했습니다. 이와는 대조적으로, 세 번째 접근법을 사용하여 스케일링 법칙을 다시 도출한 결과 호프만 등이 설명한 처음 두 가지 추정 절차의 결과와 양립할 수 있는 결과가 도출되었습니다.

Hoffmann et al. (2022) propose three methods for estimating a compute-optimal scaling law. We attempt to replicate their third estimation procedure, which involves fitting a parametric loss function to a reconstruction of data from their plots. We find that the reported estimates are inconsistent with their first two estimation methods, fail at fitting the extracted data, and report implausibly narrow confidence intervals--intervals this narrow would require over 600,000 experiments, while they likely only ran fewer than 500. In contrast, our rederivation of the scaling law using the third approach yields results that are compatible with the findings from the first two estimation procedures described by Hoffmann et al.

논문 링크

더 읽어보기

https://x.com/tamaybes/status/1780639257389904013


RAG 모델은 얼마나 충실할까요? RAG와 LLM의 내부 선행 간의 줄다리기를 정량화하기 / How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior

논문 소개

RAG와 LLM의 내부 선행 사이의 줄다리기를 정량화하는 것을 목표로 하며, 분석을 위한 질문 답변에서 GPT-4 및 기타 LLM에 초점을 맞추고, 올바른 검색 정보를 제공하면 대부분의 모델 실수가 수정된다는 사실(정확도 94%), 문서에 잘못된 값이 많고 LLM의 내부 선행이 약하면 LLM이 잘못된 정보를 암송할 가능성이 높다는 사실, LLM이 더 강한 선행이 있을 때 더 저항력이 있다는 사실 등을 발견합니다.

Aims to quantify the tug-of-war between RAG and LLMs' internal prior; it focuses on GPT-4 and other LLMs on question answering for the analysis; finds that providing correct retrieved information fixes most of the model mistakes (94% accuracy); when the documents contain more incorrect values and the LLM's internal prior is weak, the LLM is more likely to recite incorrect information; the LLMs are found to be more resistant when they have a stronger prior.

논문 초록(Abstract)

검색 증강 생성(RAG)은 종종 환각을 수정하고 대규모 언어 모델(LLM)에 최신 지식을 제공하는 데 사용됩니다. 하지만 LLM만으로는 질문에 대한 답이 틀린 경우 올바른 검색 콘텐츠를 제공하면 항상 오류가 수정될까요? 반대로 검색된 콘텐츠가 잘못된 경우, LLM은 잘못된 정보를 무시하거나 오류를 다시 요약하는 것을 알고 있을까요? 이러한 질문에 답하기 위해 저희는 LLM의 내부 지식(즉, 이전 지식)과 설정에서 검색된 정보가 일치하지 않는 경우의 줄다리기를 체계적으로 분석합니다. 우리는 참조 문서가 있는 데이터 세트와 없는 데이터 세트에 대한 질문 답변 능력에 대해 GPT-4 및 기타 LLM을 테스트합니다. 예상대로 검색된 정보를 올바르게 제공하면 대부분의 모델 실수가 수정됩니다(정확도 94%). 그러나 참조 문서가 잘못된 값의 증가로 교란될 때, LLM은 내부 선행이 약할 때는 잘못된 수정된 정보를 암송할 가능성이 더 높지만 선행이 강할 때는 저항력이 더 강해집니다. 마찬가지로, 수정된 정보가 모델의 선행 정보에서 더 많이 벗어날수록 모델이 이를 선호할 가능성이 낮아진다는 사실도 발견했습니다. 이러한 결과는 모델의 사전 지식과 참조 문서에 제시된 정보 사이의 근본적인 긴장을 강조합니다.

Retrieval augmented generation (RAG) is often used to fix hallucinations and provide up-to-date knowledge for large language models (LLMs). However, in cases when the LLM alone incorrectly answers a question, does providing the correct retrieved content always fix the error? Conversely, in cases where the retrieved content is incorrect, does the LLM know to ignore the wrong information, or does it recapitulate the error? To answer these questions, we systematically analyze the tug-of-war between a LLM's internal knowledge (i.e. its prior) and the retrieved information in settings when they disagree. We test GPT-4 and other LLMs on question-answering abilities across datasets with and without reference documents. As expected, providing the correct retrieved information fixes most model mistakes (94% accuracy). However, when the reference document is perturbed with increasing levels of wrong values, the LLM is more likely to recite the incorrect, modified information when its internal prior is weaker but is more resistant when its prior is stronger. Similarly, we also find that the more the modified information deviates from the model's prior, the less likely the model is to prefer it. These results highlight an underlying tension between a model's prior knowledge and the information presented in reference documents.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1780613738585903182


대규모 언어 모델을 위한 검색 증강 텍스트 생성에 관한 설문 조사 / A Survey on Retrieval-Augmented Text Generation for Large Language Models

논문 소개

RAG 도메인, 그 진화 및 과제에 대한 포괄적인 개요를 제시하며, 검색 전, 검색, 검색 후, 생성 등 RAG 시스템의 네 가지 중요한 측면에 대한 자세한 논의가 포함되어 있습니다.

Presents a comprehensive overview of the RAG domain, its evolution, and challenges; it includes a detailed discussion of four important aspects of RAG systems: pre-retrieval, retrieval, post-retrieval, and generation.

논문 초록(Abstract)

검색 증강 생성(RAG)은 검색 방법과 딥 러닝의 발전을 결합하여 최신 외부 정보를 동적으로 통합함으로써 대규모 언어 모델(LLM)의 정적 한계를 해결합니다. 주로 텍스트 영역에 초점을 맞춘 이 방법론은 그럴듯하지만 잘못된 응답을 생성하는 LLM에 비용 효율적인 솔루션을 제공하여 실제 데이터를 사용하여 출력의 정확성과 신뢰성을 향상시킵니다. RAG의 복잡성이 증가하고 성능에 영향을 미칠 수 있는 여러 개념이 통합됨에 따라 이 백서에서는 RAG 패러다임을 검색 전, 검색, 검색 후, 생성의 네 가지 범주로 정리하여 검색 관점에서 세부적인 관점을 제시합니다. 이 백서에서는 RAG의 진화 과정을 개괄적으로 설명하고 주요 연구 분석을 통해 이 분야의 발전에 대해 논의합니다. 또한 이 백서에서는 RAG에 대한 평가 방법을 소개하고 직면한 과제를 해결하고 향후 연구 방향을 제안합니다. 이 연구는 체계적인 프레임워크와 분류를 제공함으로써 RAG에 대한 기존 연구를 통합하고, 기술적 토대를 명확히 하며, LLM의 적응성과 적용 범위를 넓힐 수 있는 잠재력을 강조하는 것을 목표로 합니다.

Retrieval-Augmented Generation (RAG) merges retrieval methods with deep learning advancements to address the static limitations of large language models (LLMs) by enabling the dynamic integration of up-to-date external information. This methodology, focusing primarily on the text domain, provides a cost-effective solution to the generation of plausible but incorrect responses by LLMs, thereby enhancing the accuracy and reliability of their outputs through the use of real-world data. As RAG grows in complexity and incorporates multiple concepts that can influence its performance, this paper organizes the RAG paradigm into four categories: pre-retrieval, retrieval, post-retrieval, and generation, offering a detailed perspective from the retrieval viewpoint. It outlines RAG's evolution and discusses the field's progression through the analysis of significant studies. Additionally, the paper introduces evaluation methods for RAG, addressing the challenges faced and proposing future research directions. By offering an organized framework and categorization, the study aims to consolidate existing research on RAG, clarify its technological underpinnings, and highlight its potential to broaden the adaptability and applications of LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1780961995178594324


상태-공간 모델에서 상태의 환상 / The Illusion of State in State-Space Models

논문 소개

는 상태 공간 모델(SSM)의 표현력을 조사하여 SSM이 복잡도 클래스 𝖳𝖢^0을 벗어난 계산을 표현할 수 없다는 점에서 트랜스포머와 마찬가지로 제한이 있음을 밝히고, 순열 구성과 같은 상태 추적 문제와 코드 평가 또는 긴 내러티브의 개체 추적 같은 기타 작업은 SSM으로 해결할 수 없다는 사실을 발견했습니다.

investigates the expressive power of state space models (SSMs) and reveals that it is limited similar to transformers in that SSMs cannot express computation outside the complexity class 𝖳𝖢^0; finds that SSMs cannot solve state-tracking problems like permutation composition and other tasks such as evaluating code or tracking entities in a long narrative.

논문 초록(Abstract)

상태 공간 모델(SSM)은 이전의 유비쿼터스 트랜스포머 아키텍처에 비해 대규모 언어 모델(LLM)을 구축하기 위한 잠재적인 대안 아키텍처로 부상했습니다. 트랜스포머의 이론적 약점 중 하나는 특정 종류의 순차적 연산과 상태 추적을 표현할 수 없다는 점인데(Merrill and Sabharwal, 2023), SSM은 순환 신경망(RNN)과 구조적 유사성을 통해 이를 명시적으로 해결하도록 설계되었습니다. 하지만 SSM이 상태 추적을 위한 표현력에서 (트랜스포머보다) 정말 우위에 있을까요? 놀랍게도 대답은 '아니오'입니다. 분석 결과 SSM의 표현력은 트랜스포머와 매우 유사하게 제한되어 있는 것으로 나타났습니다: SSM은 복잡도 클래스 \mathsf{TC}^0 밖의 계산을 표현할 수 없습니다. 특히 순열 구성과 같은 간단한 상태 추적 문제는 풀 수 없다는 뜻입니다. 따라서 SSM은 특정 표기법으로 체스 수를 정확하게 추적하거나 코드를 평가하거나 긴 내러티브에서 엔티티를 추적할 수 없다는 것이 증명되었습니다. 공식적인 분석을 보완하기 위해, 저희는 맘바 스타일의 SSM이 실제로 상태 추적에 어려움을 겪고 있음을 보여주는 실험을 보고합니다. 따라서 반복되는 공식에도 불구하고 SSM의 '상태'는 환상에 불과합니다: SSM은 트랜스포머와 같은 비재귀 모델과 유사한 표현력 제한이 있어 실제 상태 추적 문제를 해결하는 능력을 근본적으로 제한할 수 있습니다.

State-space models (SSMs) have emerged as a potential alternative architecture for building large language models (LLMs) compared to the previously ubiquitous transformer architecture. One theoretical weakness of transformers is that they cannot express certain kinds of sequential computation and state tracking (Merrill and Sabharwal, 2023), which SSMs are explicitly designed to address via their close architectural similarity to recurrent neural networks (RNNs). But do SSMs truly have an advantage (over transformers) in expressive power for state tracking? Surprisingly, the answer is no. Our analysis reveals that the expressive power of SSMs is limited very similarly to transformers: SSMs cannot express computation outside the complexity class \mathsf{TC}^0. In particular, this means they cannot solve simple state-tracking problems like permutation composition. It follows that SSMs are provably unable to accurately track chess moves with certain notation, evaluate code, or track entities in a long narrative. To supplement our formal analysis, we report experiments showing that Mamba-style SSMs indeed struggle with state tracking. Thus, despite its recurrent formulation, the "state" in an SSM is an illusion: SSMs have similar expressiveness limitations to non-recurrent models like transformers, which may fundamentally limit their ability to solve real-world state-tracking problems.

논문 링크

더 읽어보기

https://x.com/lambdaviking/status/1780246351520887281


검색 증강 생성을 통한 구조화된 출력의 환각 감소 / Reducing hallucination in structured outputs via Retrieval-Augmented Generation

논문 소개

구조화된 출력 작업을 위해 효율적인 RAG 시스템을 배포하는 방법, 작은 언어 모델과 매우 작은 리트리버를 결합한 RAG 시스템, 제한된 리소스 환경에서 강력한 LLM 기반 시스템을 배포하는 동시에 환각과 같은 문제를 완화하고 출력의 안정성을 높일 수 있는 방법을 설명합니다.

Discusses how to deploy an efficient RAG system for structured output tasks; the RAG system combines a small language model with a very small retriever; it shows that RAG can enable deploying powerful LLM-powered systems in limited-resource settings while mitigating issues like hallucination and increasing the reliability of outputs.

논문 초록(Abstract)

생성 AI(GenAI)의 일반적이고 근본적인 한계는 환각에 빠지기 쉽다는 점입니다. 대규모 언어 모델(LLM)이 전 세계를 강타하고 있지만, 환각을 제거하거나 최소한 줄이지 않으면 실제 GenAI 시스템은 사용자 채택에 어려움을 겪을 수 있습니다. 자연어 요구사항을 기반으로 워크플로를 생성하는 엔터프라이즈 애플리케이션을 배포하는 과정에서 이러한 워크플로를 나타내는 구조화된 출력의 품질을 크게 개선하기 위해 검색 증강 생성(RAG)을 활용하는 시스템을 고안했습니다. RAG를 구현한 덕분에 우리가 제안한 시스템은 출력의 환상을 크게 줄이고 도메인 외부 환경에서 LLM의 일반화를 개선했습니다. 또한, 잘 훈련된 소형 리트리버 인코더를 사용하면 수반되는 LLM의 크기를 줄일 수 있으므로 LLM 기반 시스템의 배포가 리소스 집약적이지 않다는 것을 보여줍니다.

A common and fundamental limitation of Generative AI (GenAI) is its propensity to hallucinate. While large language models (LLM) have taken the world by storm, without eliminating or at least reducing hallucinations, real-world GenAI systems may face challenges in user adoption. In the process of deploying an enterprise application that produces workflows based on natural language requirements, we devised a system leveraging Retrieval Augmented Generation (RAG) to greatly improve the quality of the structured output that represents such workflows. Thanks to our implementation of RAG, our proposed system significantly reduces hallucinations in the output and improves the generalization of our LLM in out-of-domain settings. In addition, we show that using a small, well-trained retriever encoder can reduce the size of the accompanying LLM, thereby making deployments of LLM-based systems less resource-intensive.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1779896289745846778


추론, 계획 및 도구 호출을 위한 새로운 AI 에이전트 아키텍처의 환경: 설문조사 / The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey

논문 소개

새로운 AI 에이전트 아키텍처에 대한 간결한 요약을 제시하고, 복잡한 AI 기반 에이전트 워크플로 및 시스템을 구축하는 데 필요한 추론, 계획, 도구 호출과 같은 기능에 대한 논의를 집중적으로 다루며, 현재의 기능, 한계, 인사이트, 향후 AI 에이전트 설계 개발을 위한 아이디어가 포함되어 있습니다.

Presents a concise summary of emerging AI agent architectures; it focuses the discussion on capabilities like reasoning, planning, and tool calling which are all needed to build complex AI-powered agentic workflows and systems; the report includes current capabilities, limitations, insights, and ideas for future development of AI agent design.

논문 초록(Abstract)

이 설문조사 백서는 향상된 추론, 계획 및 도구 실행 기능이 필요한 복잡한 목표를 달성하는 능력에 중점을 두고 최근 AI 에이전트 구현의 발전 상황을 살펴봅니다. 이 작업의 주요 목표는 a) 기존 AI 에이전트 구현의 현재 기능과 한계를 알리고, b) 이러한 시스템을 실제로 관찰하여 얻은 인사이트를 공유하며, c) 향후 AI 에이전트 설계의 발전을 위한 중요한 고려 사항을 제시하는 것입니다. 이를 위해 단일 에이전트 및 다중 에이전트 아키텍처에 대한 개요를 제공하고, 설계 선택의 주요 패턴과 차이를 식별하며, 제공된 목표를 달성하는 데 미치는 전반적인 영향을 평가함으로써 이를 달성합니다. 이 기고문에서는 에이전트 아키텍처를 선택할 때의 주요 주제, 리더십이 에이전트 시스템에 미치는 영향, 에이전트 커뮤니케이션 스타일, 강력한 AI 에이전트 시스템을 구현하기 위한 계획, 실행, 반영의 주요 단계를 간략하게 설명합니다.

This survey paper examines the recent advancements in AI agent implementations, with a focus on their ability to achieve complex goals that require enhanced reasoning, planning, and tool execution capabilities. The primary objectives of this work are to a) communicate the current capabilities and limitations of existing AI agent implementations, b) share insights gained from our observations of these systems in action, and c) suggest important considerations for future developments in AI agent design. We achieve this by providing overviews of single-agent and multi-agent architectures, identifying key patterns and divergences in design choices, and evaluating their overall impact on accomplishing a provided goal. Our contribution outlines key themes when selecting an agentic architecture, the impact of leadership on agent systems, agent communication styles, and key phases for planning, execution, and reflection that enable robust AI agent systems.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1780958785785200756


LLM 컨텍스트 내 리콜은 프롬프트에 따라 달라집니다 / LLM In-Context Recall is Prompt Dependent

논문 소개

T - 여러 가지 건초 더미 테스트를 사용하여 다양한 LLM의 상황 내 리콜 성능을 분석하고, 다양한 LLM이 서로 다른 길이와 깊이에서 사실을 리콜하는 것을 보여주고, 모델의 리콜 성능이 프롬프트의 작은 변화에 크게 영향을 받는다는 사실과 프롬프트 내용과 학습 데이터 간의 상호 작용이 응답 품질을 저하시킬 수 있으며, 모델의 리콜 능력은 크기 증가, 주의 메커니즘 강화, 다양한 학습 전략 시도, 미세 조정 적용으로 향상될 수 있음을 발견합니다.

T - analyzes the in-context recall performance of different LLMs using several needle-in-a-haystack tests; shows various LLMs recall facts at different lengths and depths; finds that a model's recall performance is significantly affected by small changes in the prompt; the interplay between prompt content and training data can degrade the response quality; the recall ability of a model can be improved with increasing size, enhancing the attention mechanism, trying different training strategies, and applying fine-tuning.

논문 초록(Abstract)

대규모 언어 모델(LLM)의 확산은 비교 우위, 한계 및 최적의 사용 사례를 파악하기 위해 철저한 평가를 수행하는 것이 매우 중요하다는 점을 강조합니다. 특히 중요한 것은 주어진 프롬프트에 포함된 정보를 정확하게 검색할 수 있는 능력을 평가하는 것입니다. 이 작업을 수행하는 모델의 능력은 맥락적 세부 정보를 얼마나 효과적으로 활용할 수 있는지에 큰 영향을 미치므로 실제 애플리케이션에서 실질적인 효율성과 신뢰성에 영향을 미칩니다. 이 연구에서는 건초 더미에서 바늘 찾기 방법을 사용하여 다양한 LLM의 컨텍스트 내 리콜 성능을 분석합니다. 이 접근 방식에서는 팩토이드('바늘')가 필러 텍스트 블록('건초더미') 안에 포함되어 모델이 검색하도록 요청받습니다. 다양한 건초 더미 길이와 다양한 바늘 배치에 따른 각 모델의 리콜 성능을 평가하여 성능 패턴을 파악합니다. 이 연구는 LLM의 리콜 능력이 프롬프트의 내용에 따라 달라질 뿐만 아니라 학습 데이터의 편향으로 인해 손상될 수 있음을 보여줍니다. 반대로 모델 아키텍처, 훈련 전략 또는 미세 조정을 조정하면 성능을 향상시킬 수 있습니다. 크리테오의 분석은 LLM의 행동에 대한 인사이트를 제공하여 보다 효과적인 LLM 애플리케이션 개발을 위한 방향을 제시합니다.

The proliferation of Large Language Models (LLMs) highlights the critical importance of conducting thorough evaluations to discern their comparative advantages, limitations, and optimal use cases. Particularly important is assessing their capacity to accurately retrieve information included in a given prompt. A model's ability to do this significantly influences how effectively it can utilize contextual details, thus impacting its practical efficacy and dependability in real-world applications. Our research analyzes the in-context recall performance of various LLMs using the needle-in-a-haystack method. In this approach, a factoid (the "needle") is embedded within a block of filler text (the "haystack"), which the model is asked to retrieve. We assess the recall performance of each model across various haystack lengths and with varying needle placements to identify performance patterns. This study demonstrates that an LLM's recall capability is not only contingent upon the prompt's content but also may be compromised by biases in its training data. Conversely, adjustments to model architecture, training strategy, or fine-tuning can improve performance. Our analysis provides insight into LLM behavior, offering direction for the development of more effective applications of LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1780244042007122129


트랜스포머를 대체할 차세대 네트워크를 위한 상태 공간 모델: 설문 조사 / State Space Model for New-Generation Network Alternative to Transformers: A Survey

논문 소개

실험 비교 및 분석이 포함된 상태 공간 모델(SSM)에 대한 조사 논문으로, 현재의 SSM, 대안과 비교한 개선 사항, 과제, 적용 사례를 검토합니다.

A survey paper on state space models (SSMs) with experimental comparison and analysis; it reviews current SSMs, improvements compared to alternatives, challenges, and their applications.

논문 초록(Abstract)

딥러닝 이후 시대에 트랜스포머 아키텍처는 사전 학습된 대규모 모델과 다양한 다운스트림 작업에서 강력한 성능을 입증했습니다. 하지만 이 아키텍처의 엄청난 연산 요구량으로 인해 많은 연구자들이 주저하고 있습니다. 주의 모델의 복잡성을 더욱 줄이기 위해 보다 효율적인 방법을 설계하기 위한 수많은 노력이 있었습니다. 그중에서도 최근 몇 년 동안 자기 주의 기반 트랜스포머 모델을 대체할 수 있는 상태 공간 모델(SSM)이 점점 더 많은 관심을 받고 있습니다. 본 논문에서는 이러한 연구들을 종합적으로 검토하고 실험적 비교와 분석을 통해 SSM의 특징과 장점을 보다 잘 보여줄 수 있는 방법을 제시합니다. 특히, 독자들이 SSM의 핵심 아이디어를 빠르게 파악할 수 있도록 먼저 원리에 대한 자세한 설명을 제공합니다. 그런 다음 자연어 처리, 컴퓨터 비전, 그래프, 멀티모달 및 멀티미디어, 포인트 클라우드/이벤트 스트림, 시계열 데이터 및 기타 영역을 포함한 기존 SSM과 다양한 애플리케이션에 대한 검토를 자세히 살펴봅니다. 또한 이러한 모델에 대한 통계적 비교와 분석을 통해 독자들이 다양한 작업에서 다양한 구조의 효과를 이해하는 데 도움이 되기를 바랍니다. 그리고 이론적 모델의 발전과 SSM의 적용을 더욱 촉진하기 위해 이러한 방향으로 가능한 연구 포인트를 제안합니다. 더 많은 관련 작업은 다음 깃허브(GitHub - Event-AHU/Mamba_State_Space_Model_Paper_List: [Mamba-Survey-2024] Paper list for State-Space-Model/Mamba and it's Applications)에서 지속적으로 업데이트될 예정입니다.

In the post-deep learning era, the Transformer architecture has demonstrated its powerful performance across pre-trained big models and various downstream tasks. However, the enormous computational demands of this architecture have deterred many researchers. To further reduce the complexity of attention models, numerous efforts have been made to design more efficient methods. Among them, the State Space Model (SSM), as a possible replacement for the self-attention based Transformer model, has drawn more and more attention in recent years. In this paper, we give the first comprehensive review of these works and also provide experimental comparisons and analysis to better demonstrate the features and advantages of SSM. Specifically, we first give a detailed description of principles to help the readers quickly capture the key ideas of SSM. After that, we dive into the reviews of existing SSMs and their various applications, including natural language processing, computer vision, graph, multi-modal and multi-media, point cloud/event stream, time series data, and other domains. In addition, we give statistical comparisons and analysis of these models and hope it helps the readers to understand the effectiveness of different structures on various tasks. Then, we propose possible research points in this direction to better promote the development of the theoretical model and application of SSM. More related works will be continuously updated on the following GitHub: GitHub - Event-AHU/Mamba_State_Space_Model_Paper_List: [Mamba-Survey-2024] Paper list for State-Space-Model/Mamba and it's Applications.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1781430319926686190


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

2개의 좋아요