[2024/08/05 ~ 08/11] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR
-
이번 주에 선정된 논문들에서는 몇 가지 두드러진 트렌드가 관찰되었습니다. 첫 번째로, 대규모 언어 모델(LLMs)을 활용한 연구가 주를 이루고 있습니다. 논문 제목을 보면, 'From LLMs to LLM-based Agents for Software Engineering', 'Enhancing LLMs for RAG', 'Synthesizing Text-to-SQL Data from Weak and Strong LLMs'와 같은 제목들이 포함되어 있습니다. 이는 대규모 언어 모델의 응용과 관련된 연구가 활발히 진행되고 있다는 것을 보여줍니다.
-
두 번째 트렌드는 설명 가능 인공지능(XAI)과 관련된 연구입니다. 이 주제는 'Transformer Explainer' 논문에서 잘 드러나며, 그 외에도 'Self-Taught Evaluators'와 같은 논문이 이와 관련된 내용을 다루고 있습니다. 이러한 연구들은 인공지능 모델의 내부 작동 방식을 더 잘 이해하고 설명할 수 있는 기법들을 개발하는 데 초점을 맞추고 있습니다.
-
이러한 트렌드가 두드러지는 이유는 여러 가지가 있습니다. 첫째, 대규모 언어 모델은 최근 몇 년 동안 비약적인 성능 향상을 보여 왔기 때문에 많은 연구자들이 이를 다양한 도메인에 적용하여 새로운 가능성을 탐구하고 있습니다. 특히 소프트웨어 엔지니어링이나 데이터 기반 질의 생성 등 특정 분야에 특화된 LLM 사용 사례가 증가하고 있습니다.
-
둘째, 설명 가능 인공지능(XAI, eXplainable AI)에 대한 관심은 인공지능 모델의 투명성과 신뢰성을 높이기 위한 필수 요소로 자리매김하고 있습니다. 모델의 결정 과정을 이해하고 설명할 수 있는 능력은 다양한 실세계 응용 분야에서 필수적입니다. 따라서 XAI 기술을 연구하는 것은 모델의 신뢰성과 사용자 수용성을 높이는 데 중요한 역할을 합니다.
SAM 2
논문 소개
이미지와 비디오에서 실시간으로 즉시 객체 분할이 가능한 개방형 통합 모델, 사용자 지정 조정 없이 보이지 않는 시각 콘텐츠에 적용 가능, 비디오에서 정확한 마스크 예측을 위해 메모리 메커니즘을 도입하여 객체와 이전 상호 작용에 대한 정보를 저장, 메모리 모듈은 임의의 길이의 비디오도 실시간으로 처리 가능, SAM2는 17개의 제로 샷 비디오 데이터 세트에서 대화형 비디오 분할에서 이전 접근 방식보다 훨씬 뛰어난 성능을 발휘하면서도 3배 적은 사람 개입을 필요로 함, 사람 개입이 필요하지 않습니다.
An open unified model for real-time, promptable object segmentation in images and videos; can be applied to unseen visual content without the need for custom adaptation; to enable accurate mask prediction in videos, a memory mechanism is introduced to store information on the object and previous interactions; the memory module also allows real-time processing of arbitrarily long videos; SAM2 significantly outperforms previous approaches on interactive video segmentation across 17 zero-shot video datasets while requiring three times fewer human-in-the-loop interactions.
논문 초록(Abstract)
이미지와 동영상에서 즉각적인 시각적 세분화를 해결하기 위한 기초 모델인 Segment Anything Model 2(SAM 2)를 소개합니다. 사용자 상호작용을 통해 모델과 데이터를 개선하는 데이터 엔진을 구축하여 지금까지 가장 큰 규모의 비디오 분할 데이터 세트를 수집합니다. 우리의 모델은 실시간 비디오 처리를 위한 스트리밍 메모리를 갖춘 간단한 트랜스포머 아키텍처입니다. 데이터로 훈련된 SAM 2는 다양한 작업에서 강력한 성능을 제공합니다. 비디오 세분화에서는 이전 접근 방식보다 3배 더 적은 상호작용을 사용해 정확도가 향상되었습니다. 이미지 세분화에서는 Segment Anything Model(SAM)보다 더 정확하고 6배 빠른 속도를 자랑합니다. 저희는 데이터, 모델, 인사이트가 비디오 세분화 및 관련 인식 작업에 중요한 이정표가 될 것이라고 믿습니다. 현재 모델 버전과 데이터 세트, 인터랙티브 데모를 공개하고 있습니다.
We present Segment Anything Model 2 (SAM 2 ), a foundation model towards solving promptable visual segmentation in images and videos. We build a data engine, which improves model and data via user interaction, to collect the largest video segmentation dataset to date. Our model is a simple transformer architecture with streaming memory for real-time video processing. SAM 2 trained on our data provides strong performance across a wide range of tasks. In video segmentation, we observe better accuracy, using 3x fewer interactions than prior approaches. In image segmentation, our model is more accurate and 6x faster than the Segment Anything Model (SAM). We believe that our data, model, and insights will serve as a significant milestone for video segmentation and related perception tasks. We are releasing a version of our model, the dataset and an interactive demo.
논문 링크
더 읽어보기
https://x.com/AIatMeta/status/1818055906179105010
자유롭게 말할 수 있을까요? 형식 제한이 대규모 언어 모델의 성능에 미치는 영향에 관한 연구 / Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models
논문 소개
구조화된 생성이 LLM의 추론 및 도메인 지식 종합 능력에 영향을 미칠 수 있는지 조사하고, 자유 형식 응답에 비해 형식 제한을 적용할 때 LLM의 추론 능력이 크게 저하되는 것을 관찰하고, 추론 과제에 더 엄격한 형식 제한을 적용할 때 이러한 저하 효과가 더욱 증폭되는 것을 확인했습니다.
Investigates if structured generation can impact an LLM’s reasoning and domain knowledge comprehensive capabilities; observes that there is a significant decline in LLM’s reasoning abilities when applying format restrictions compared to free-form responses; this degradation effect is further amplified when applying stricter format constraints to reasoning tasks.
논문 초록(Abstract)
구조화된 생성은 JSON 및 XML과 같은 표준화된 형식으로 콘텐츠를 생성하는 프로세스로, 대규모 언어 모델(LLM)에서 주요 출력 정보를 추출하기 위해 실제 애플리케이션에서 널리 활용되고 있습니다. 이 연구에서는 생성 공간에 대한 이러한 제약이 추론과 도메인 지식 이해 등 LLM의 능력에 영향을 미치는지 여부를 조사합니다. 특히, 다양한 일반적인 작업에서 구조화된 형식을 준수하도록 제한했을 때와 자유 형식의 응답을 생성하도록 제한했을 때 LLM의 성능을 평가합니다. 놀랍게도 형식이 제한되었을 때 LLM의 추론 능력이 현저히 떨어지는 것을 관찰할 수 있었습니다. 또한 형식 제약이 엄격할수록 일반적으로 추론 과제에서 더 큰 성능 저하를 초래한다는 사실도 발견했습니다.
Structured generation, the process of producing content in standardized formats like JSON and XML, is widely utilized in real-world applications to extract key output information from large language models (LLMs). This study investigates whether such constraints on generation space impact LLMs' abilities, including reasoning and domain knowledge comprehension. Specifically, we evaluate LLMs' performance when restricted to adhere to structured formats versus generating free-form responses across various common tasks. Surprisingly, we observe a significant decline in LLMs' reasoning abilities under format restrictions. Furthermore, we find that stricter format constraints generally lead to greater performance degradation in reasoning tasks.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1822357786820284555
소프트웨어 엔지니어링을 위한 LLM에서 LLM 기반 에이전트까지: 현재, 도전 과제 및 미래에 대한 서베이 논문 / From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future
논문 소개
요구 사항 엔지니어링, 코드 생성, 테스트 생성, 자율적 의사 결정과 같은 중요한 주제를 다루며 다양한 소프트웨어 엔지니어링 애플리케이션에서 사용되는 벤치마크, 메트릭 및 모델에 대한 최신 사례와 소프트웨어 엔지니어링용 LLM 기반 에이전트의 솔루션에 대한 조사 논문입니다.
A survey paper on current practices and solutions for LLM-based agents for software engineering; covers important topics such as requirement engineering, code generation, test generation, and autonomous decision making; it also includes benchmarks, metrics, and models used in different software engineering applications.
논문 초록(Abstract)
대규모 언어 모델(LLM)이 부상하면서 연구자들은 소프트웨어 엔지니어링과 같은 다양한 수직 영역에서 이를 적용하는 방법을 점점 더 많이 모색하고 있습니다. LLM은 코드 생성 및 취약성 탐지와 같은 분야에서 괄목할 만한 성공을 거두었습니다. 하지만 수많은 한계와 단점도 존재합니다. 인공 일반 지능(AGI)의 잠재력을 지닌 새로운 기술인 LLM 기반 에이전트는 LLM을 의사 결정과 행동의 핵심으로 결합하여 자율성 및 자기 개선 부족과 같은 LLM의 내재적 한계를 해결합니다. 소프트웨어 엔지니어링에서 LLM의 활용 가능성을 모색하는 수많은 연구와 설문조사에도 불구하고, LLM과 LLM 기반 에이전트를 명확히 구분하는 것은 부족합니다. LLM 솔루션을 해당 영역에서 LLM 기반 에이전트로 인정하기 위한 통합 표준과 벤치마킹은 아직 초기 단계에 머물러 있습니다. 이 설문조사에서는 소프트웨어 엔지니어링을 위한 LLM 및 LLM 기반 에이전트의 현재 관행과 솔루션을 광범위하게 조사합니다. 특히 요구사항 엔지니어링, 코드 생성, 자율적 의사결정, 소프트웨어 설계, 테스트 생성, 소프트웨어 유지보수 등 6가지 주요 주제를 요약하여 살펴봅니다. 이 여섯 가지 주제에서 LLM과 LLM 기반 에이전트의 작업을 검토하고 차별화하여 작업, 벤치마크 및 평가 지표의 차이점과 유사점을 살펴봅니다. 마지막으로 사용된 모델과 벤치마크에 대해 논의하고 소프트웨어 엔지니어링에서의 적용과 효과에 대한 종합적인 분석을 제공합니다. 이 연구가 향후 소프트웨어 엔지니어링 분야에서 LLM 기반 에이전트의 경계를 넓히는 데 도움이 되기를 기대합니다.
With the rise of large language models (LLMs), researchers are increasingly exploring their applications in var ious vertical domains, such as software engineering. LLMs have achieved remarkable success in areas including code generation and vulnerability detection. However, they also exhibit numerous limitations and shortcomings. LLM-based agents, a novel tech nology with the potential for Artificial General Intelligence (AGI), combine LLMs as the core for decision-making and action-taking, addressing some of the inherent limitations of LLMs such as lack of autonomy and self-improvement. Despite numerous studies and surveys exploring the possibility of using LLMs in software engineering, it lacks a clear distinction between LLMs and LLM based agents. It is still in its early stage for a unified standard and benchmarking to qualify an LLM solution as an LLM-based agent in its domain. In this survey, we broadly investigate the current practice and solutions for LLMs and LLM-based agents for software engineering. In particular we summarise six key topics: requirement engineering, code generation, autonomous decision-making, software design, test generation, and software maintenance. We review and differentiate the work of LLMs and LLM-based agents from these six topics, examining their differences and similarities in tasks, benchmarks, and evaluation metrics. Finally, we discuss the models and benchmarks used, providing a comprehensive analysis of their applications and effectiveness in software engineering. We anticipate this work will shed some lights on pushing the boundaries of LLM-based agents in software engineering for future research.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1821549401866686604
트랜스포머 설명자: 텍스트 생성 모델의 대화형 학습 / Transformer Explainer: Interactive Learning of Text-Generative Models
논문 소개
트랜스포머 모델의 내부 작동 방식을 배울 수 있는 오픈 소스 대화형 도구로, 사용자 브라우저에서 로컬로 GPT-2 인스턴스를 실행하고 직접 입력값을 실험해 볼 수 있습니다.
Presents an open-source interactive tool to learn about the inner workings of a Transformer model; it runs a GPT-2 instance locally in the user's browser and allows experimenting with your own inputs.
논문 초록(Abstract)
트랜스포머는 머신 러닝에 혁신을 가져왔지만, 그 내부 작동 원리는 여전히 많은 사람들에게 불투명합니다. 비전문가도 GPT-2 모델을 통해 트랜스포머에 대해 배울 수 있도록 설계된 대화형 시각화 도구인 트랜스포머 익스플로러를 소개합니다. 이 도구는 모델 개요를 통합하고 추상화 수준의 수학적 연산과 모델 구조 간에 원활한 전환을 가능하게 함으로써 사용자가 복잡한 트랜스포머 개념을 이해할 수 있도록 도와줍니다. 이 도구는 사용자의 브라우저에서 로컬로 라이브 GPT-2 인스턴스를 실행하여 사용자가 직접 입력한 내용을 실험하고 Transformer의 내부 구성 요소와 파라미터가 다음 토큰을 예측하기 위해 어떻게 함께 작동하는지 실시간으로 관찰할 수 있도록 지원합니다. 이 도구는 설치나 특별한 하드웨어가 필요하지 않으므로 최신 제너레이티브 AI 기술에 대한 대중의 교육 접근성을 넓힐 수 있습니다. 오픈 소스 도구는 Transformer Explainer 에서 확인할 수 있습니다. 동영상 데모는 https://youtu.be/ECR4oAwocjs 에서 확인할 수 있습니다.
Transformers have revolutionized machine learning, yet their inner workings remain opaque to many. We present Transformer Explainer, an interactive visualization tool designed for non-experts to learn about Transformers through the GPT-2 model. Our tool helps users understand complex Transformer concepts by integrating a model overview and enabling smooth transitions across abstraction levels of mathematical operations and model structures. It runs a live GPT-2 instance locally in the user's browser, empowering users to experiment with their own input and observe in real-time how the internal components and parameters of the Transformer work together to predict the next tokens. Our tool requires no installation or special hardware, broadening the public's education access to modern generative AI techniques. Our open-sourced tool is available at Transformer Explainer. A video demo is available at https://youtu.be/ECR4oAwocjs.
논문 링크
더 읽어보기
https://poloclub.github.io/transformer-explainer/
https://x.com/omarsar0/status/1821986172215742716
RAG 파운드리: 검색 증강 세대를 위한 LLM 향상을 위한 프레임워크 / RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation
논문 소개
데이터 생성, 학습, 추론, 평가를 지원하는 RAG 사용 사례용 증강 LLM을 위한 오픈 소스 프레임워크인 RAGFoundry를 소개하며, RAG 설정에서 LLM을 튜닝하고 평가하기 위한 데이터 증강 데이터 세트 생성에 유용한 애플리케이션 중 하나를 소개합니다.
Introduces RAGFoundry, an open-source framework for augmented LLMs for RAG use cases; it supports data creation, training, inference, and evaluation; one useful application is the creation of data-augmented datasets for tuning and evaluating LLMs in RAG settings.
논문 초록(Abstract)
검색 증강 생성(RAG) 시스템을 구현하는 것은 본질적으로 복잡하기 때문에 데이터, 사용 사례, 복잡한 설계 결정에 대한 깊은 이해가 필요합니다. 또한 이러한 시스템을 평가하는 데는 상당한 어려움이 따르기 때문에 다각적인 접근 방식을 통해 검색 정확도와 생성 품질을 모두 평가해야 합니다. RAG 사용 사례를 위해 대규모 언어 모델을 보강하기 위한 오픈 소스 프레임워크인 RAG Foundry를 소개합니다. RAG Foundry는 데이터 생성, 훈련, 추론 및 평가를 단일 워크플로우로 통합하여 RAG 환경에서 대규모 언어 모델을 훈련하고 평가하기 위한 데이터 증강 데이터 세트 생성을 용이하게 합니다. 이러한 통합을 통해 다양한 RAG 기법으로 신속한 프로토타이핑과 실험이 가능하므로 사용자는 내부 또는 전문 지식 소스를 사용하여 데이터 세트를 쉽게 생성하고 RAG 모델을 훈련할 수 있습니다. 다양한 RAG 구성으로 Llama-3 및 Phi-3 모델을 보강하고 미세 조정하여 세 가지 지식 집약적 데이터 세트에서 일관된 개선 효과를 보여줌으로써 프레임워크의 효율성을 입증합니다. 코드는 GitHub - IntelLabs/RAGFoundry: Framework for enhancing LLMs for RAG tasks using fine-tuning. 에서 오픈 소스로 공개됩니다.
Implementing Retrieval-Augmented Generation (RAG) systems is inherently complex, requiring deep understanding of data, use cases, and intricate design decisions. Additionally, evaluating these systems presents significant challenges, necessitating assessment of both retrieval accuracy and generative quality through a multi-faceted approach. We introduce RAG Foundry, an open-source framework for augmenting large language models for RAG use cases. RAG Foundry integrates data creation, training, inference and evaluation into a single workflow, facilitating the creation of data-augmented datasets for training and evaluating large language models in RAG settings. This integration enables rapid prototyping and experimentation with various RAG techniques, allowing users to easily generate datasets and train RAG models using internal or specialized knowledge sources. We demonstrate the framework effectiveness by augmenting and fine-tuning Llama-3 and Phi-3 models with diverse RAG configurations, showcasing consistent improvements across three knowledge-intensive datasets. Code is released as open-source in GitHub - IntelLabs/RAGFoundry: Framework for enhancing LLMs for RAG tasks using fine-tuning..
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1820864003590995973
약하고 강력한 LLM에서 텍스트-SQL 데이터 합성하기 / Synthesizing Text-to-SQL Data from Weak and Strong LLMs
논문 소개
통합 합성 데이터를 제안하여 SENSE라는 고도로 전문화된 SoTA Text-to-SQL 모델을 구축하고, 강력한 모델의 합성 데이터는 데이터 다양성을 향상시키며, 약한 모델의 가치 있는 오류 데이터를 실행기와 결합하여 실행 피드백으로부터 학습하고, 선호 학습을 사용하여 올바른 샘플과 잘못된 샘플 모두로부터 학습하도록 LLM을 명령어로 조정하고, SENSE는 오픈 소스 모델과 폐쇄 소스 모델을 사용하는 방법 간의 성능 격차를 해소하는 SPIDER 및 BIRD 벤치마크에서 최첨단 결과를 달성합니다.
Proposes integrated synthetic data to build a highly specialized SoTA text-to-SQL model called SENSE; the synthetic data from strong models enhances data diversity while valuable erroneous data from weaker models combined with an executor to learn from execution feedback; preference learning is used to instruction-tune LLMs to learn from both correct and incorrect samples; SENSE achieves state-of-the-art results on the SPIDER and BIRD benchmarks, which bridges the performance gap between open-source models and methods that use closed-source models.
논문 초록(Abstract)
오픈 소스 및 폐쇄 소스 대규모 언어 모델(LLM) 간의 기능 격차는 텍스트-SQL 작업에서 여전히 과제로 남아 있습니다. 이 백서에서는 더 크고 강력한 모델(강력한 모델)에서 생성된 데이터와 잘 정렬되지 않은 더 작은 모델(약한 모델)에서 생성된 오류 정보 데이터를 결합하는 합성 데이터 접근 방식을 소개합니다. 이 방법은 텍스트-SQL 모델의 도메인 일반화를 향상시킬 뿐만 아니라 선호도 학습을 통해 오류 데이터 감독의 잠재력을 탐구합니다. 또한 오픈 소스 LLM의 명령어 튜닝을 위해 합성 데이터 접근 방식을 사용하여 전문화된 텍스트-to-SQL 모델인 SENSE를 개발했습니다. 오픈 소스 모델과 폐쇄 소스 모델에 의해 유도된 방법 간의 성능 격차를 해소하는 SENSE의 효과는 SPIDER 및 BIRD 벤치마크의 최신 결과를 통해 입증되었습니다.
The capability gap between open-source and closed-source large language models (LLMs) remains a challenge in text-to-SQL tasks. In this paper, we introduce a synthetic data approach that combines data produced by larger, more powerful models (strong models) with error information data generated by smaller, not well-aligned models (weak models). The method not only enhances the domain generalization of text-to-SQL models but also explores the potential of error data supervision through preference learning. Furthermore, we employ the synthetic data approach for instruction tuning on open-source LLMs, resulting SENSE, a specialized text-to-SQL model. The effectiveness of SENSE is demonstrated through state-of-the-art results on the SPIDER and BIRD benchmarks, bridging the performance gap between open-source models and methods prompted by closed-source models.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1821227584920621061
대화형 프롬프트 엔지니어링 / Conversational Prompt Engineering
논문 소개
상호작용을 통해 사용자가 선호하는 출력을 명시함으로써 개인화된 프롬프트를 만들 수 있도록 지원하는 접근 방식을 제안하며, 두 단계로 구성됩니다: 1) 사용자가 제공한 레이블이 없는 데이터를 기반으로 모델에 의해 형성된 초기 지침, 2) 모델이 출력을 공유하고 사용자가 출력 및 지침에 대한 개선 사항을 피드백하는 단계; 이 반복적인 과정을 통해 원하는 작업을 더 잘 수행하고 최적으로 수행하는 개인화된 몇 문장의 프롬프트가 만들어집니다.
Proposes an approach to help users create personalized prompts by articulating the preferred outputs via interactions; it involves two stages: 1) an initial instruction shaped by the model based on user-provided unlabeled data, and 2) the model shares the output and the user provides feedback with refinements on outputs and instruction; this iterative process results in a personalized few-shot prompt that performs better and more optimally on the desired task.
논문 초록(Abstract)
프롬프트는 사람이 LLM과 소통하는 방식입니다. 유익한 프롬프트는 LLM이 원하는 결과물을 생성하도록 안내하는 데 필수적입니다. 그러나 프롬프트 엔지니어링은 종종 지루하고 시간이 많이 걸리며 상당한 전문 지식이 필요하기 때문에 널리 사용되는 데 한계가 있습니다. 저희는 사용자가 특정 작업에 맞는 맞춤형 프롬프트를 만들 수 있는 사용자 친화적인 도구인 대화형 프롬프트 엔지니어링(CPE)을 제안합니다. CPE는 채팅 모델을 사용하여 사용자와 간단한 상호작용을 통해 사용자가 원하는 결과물을 명확하게 표현하고 이를 프롬프트에 통합할 수 있도록 도와줍니다. 이 프로세스에는 두 가지 주요 단계가 포함됩니다. 먼저, 모델이 사용자가 제공한 레이블이 지정되지 않은 데이터를 사용하여 데이터 기반 질문을 생성하고 사용자 응답을 활용하여 초기 안내를 구체화합니다. 그런 다음 모델은 인스트럭션에 의해 생성된 출력을 공유하고 사용자 피드백을 사용하여 인스트럭션과 출력을 더욱 구체화합니다. 최종 결과는 사용자가 승인한 출력이 몇 개의 예시로 제공되는 몇 개의 샷 프롬프트입니다. 요약 작업에 대한 사용자 연구는 개인화된 고성능 프롬프트를 만드는 데 있어 CPE의 가치를 보여줍니다. 연구 결과에 따르면 제로 샷 프롬프트는 훨씬 더 긴 몇 샷 프롬프트와 비슷하여 대량의 텍스트가 포함된 반복적인 작업 시나리오에서 상당한 시간 절약 효과가 있는 것으로 나타났습니다.
Prompts are how humans communicate with LLMs. Informative prompts are essential for guiding LLMs to produce the desired output. However, prompt engineering is often tedious and time-consuming, requiring significant expertise, limiting its widespread use. We propose Conversational Prompt Engineering (CPE), a user-friendly tool that helps users create personalized prompts for their specific tasks. CPE uses a chat model to briefly interact with users, helping them articulate their output preferences and integrating these into the prompt. The process includes two main stages: first, the model uses user-provided unlabeled data to generate data-driven questions and utilize user responses to shape the initial instruction. Then, the model shares the outputs generated by the instruction and uses user feedback to further refine the instruction and the outputs. The final result is a few-shot prompt, where the outputs approved by the user serve as few-shot examples. A user study on summarization tasks demonstrates the value of CPE in creating personalized, high-performing prompts. The results suggest that the zero-shot prompt obtained is comparable to its - much longer - few-shot counterpart, indicating significant savings in scenarios involving repetitive tasks with large text volumes.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1821981401861718488
독학 평가자 / Self-Taught Evaluators
논문 소개
합성 훈련 데이터만을 사용하여 모델 기반 평가자를 개선하는 접근 방식, 먼저 대조되는 출력(좋은 모델 응답과 나쁜 모델 응답)을 생성하고 추론 추적과 최종 판단을 생성하도록 LLM-as-a-Judge를 훈련, 자기 개선 체계는 개선된 예측을 사용하여 반복적인 방식으로 훈련 과정을 반복, GPT-4와 같은 LLM-심판을 능가하고 라벨링된 예제로 훈련된 최고 성능의 보상 모델을 일치, 강력한 LLM(Llama3-70BInstruct) 75에서 88.4에서 88.3(과반수 득표 시 88.7)으로 향상되었습니다.
An approach to improve model-based evaluators using synthetic training data only; it first generates contrasting outputs (good and bad model responses) and trains an LLM-as-a-Judge to produce reasoning traces and final judgments; the self-improvement scheme repeats the training process in an iterative way using its improved predictions; claims to outperform LLM-judges such as GPT-4 and match top-performing reward models trained on labeled examples; improves a strong LLM (Llama3-70BInstruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench.
논문 초록(Abstract)
모델 기반 평가는 훈련에 대한 보상 모델이자 사람의 평가를 대체할 수 있는 성공적인 모델 개발의 핵심입니다. 이러한 평가자를 훈련시키기 위해 표준 접근 방식은 모델 응답에 대한 인간의 선호도 판단을 대량으로 수집하는 것인데, 이는 비용이 많이 들고 모델이 개선됨에 따라 데이터가 부실해집니다. 이 연구에서는 사람의 주석 없이 합성 훈련 데이터만을 사용해 평가자를 개선하는 접근 방식을 제시합니다. 레이블이 없는 지침에서 시작하는 반복적 자가 개선 체계는 대조적인 모델 출력을 생성하고 LLM-as-a-Judge를 훈련시켜 추론 추적과 최종 판단을 생성하며, 개선된 예측을 사용해 새로운 반복마다 이 훈련을 반복합니다. 라벨링된 선호도 데이터 없이도 자가 학습 평가자는 RewardBench에서 강력한 LLM(Llama3-70B-Instruct)을 75.4점에서 88.3점(과반수 득표 시 88.7점)으로 향상시킬 수 있습니다. 이는 GPT-4와 같이 일반적으로 사용되는 LLM 평가자보다 성능이 뛰어나며, 레이블이 지정된 예제로 훈련된 최고 성능의 보상 모델의 성능과도 일치합니다.
Model-based evaluation is at the heart of successful model development -- as a reward model for training, and as a replacement for human evaluation. To train such evaluators, the standard approach is to collect a large amount of human preference judgments over model responses, which is costly and the data becomes stale as models improve. In this work, we present an approach that aims to im-prove evaluators without human annotations, using synthetic training data only. Starting from unlabeled instructions, our iterative self-improvement scheme generates contrasting model outputs and trains an LLM-as-a-Judge to produce reasoning traces and final judgments, repeating this training at each new iteration using the improved predictions. Without any labeled preference data, our Self-Taught Evaluator can improve a strong LLM (Llama3-70B-Instruct) from 75.4 to 88.3 (88.7 with majority vote) on RewardBench. This outperforms commonly used LLM judges such as GPT-4 and matches the performance of the top-performing reward models trained with labeled examples.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1820849115607044401
RAGEval: 시나리오별 RAG 평가 데이터 세트 생성 프레임워크 / RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
논문 소개
다양한 시나리오에서 다양한 LLM의 지식 사용을 평가하기 위해 평가 데이터세트를 자동으로 생성하는 간단한 프레임워크를 제안합니다. 시드 문서에서 스키마를 정의한 다음 질문-답변 쌍으로 이어지는 다양한 문서를 생성하고, QA 쌍은 문서와 구성을 모두 기반으로 합니다.
Proposes a simple framework to automatically generate evaluation datasets to assess knowledge usage of different LLM under different scenarios; it defines a schema from seed documents and then generates diverse documents which leads to question-answering pairs; the QA pairs are based on both the articles and configurations.
논문 초록(Abstract)
검색 증강 생성(RAG) 시스템은 대규모 언어 모델(LLM)의 환각 현상을 완화하는 데 장점이 있다는 것이 입증되었습니다. 기존의 RAG 벤치마크는 주로 LLM이 일반 지식을 정확하게 답변할 수 있는지 평가하는 데 중점을 둡니다. 하지만 다양한 버티컬 도메인의 데이터를 처리할 때 RAG 시스템의 효율성을 평가할 수는 없습니다. 이 백서에서는 다양한 시나리오에서 서로 다른 LLM의 지식 사용 능력을 평가하기 위해 평가 데이터세트를 자동으로 생성하는 프레임워크인 RAGEval을 소개합니다. 구체적으로 RAGEval은 시드 문서에서 스키마를 요약하고, 구성을 적용하여 다양한 문서를 생성하며, 문서와 구성에 따라 질문-답변 쌍을 구성합니다. 완성도, 환각, 비관련성이라는 세 가지 새로운 지표를 제안하여 LLM이 생성한 응답을 신중하게 평가합니다. 수직 도메인에서 RAG 모델을 벤치마킹함으로써 RAGEval은 LLM의 지식 사용 능력을 더 잘 평가할 수 있으며, 기존 QA 데이터 세트의 질문에 대한 답변에서 지식의 출처가 파라미터화된 메모리인지 검색인지에 대한 혼란을 피할 수 있습니다.
Retrieval-Augmented Generation (RAG) systems have demonstrated their advantages in alleviating the hallucination of Large Language Models (LLMs). Existing RAG benchmarks mainly focus on evaluating whether LLMs can correctly answer the general knowledge. However, they are unable to evaluate the effectiveness of the RAG system in dealing with the data from different vertical domains. This paper introduces RAGEval, a framework for automatically generating evaluation datasets to evaluate the knowledge usage ability of different LLMs in different scenarios. Specifically, RAGEval summarizes a schema from seed documents, applies the configurations to generate diverse documents, and constructs question-answering pairs according to both articles and configurations. We propose three novel metrics, Completeness, Hallucination, and Irrelevance, to carefully evaluate the responses generated by LLMs. By benchmarking RAG models in vertical domains, RAGEval has the ability to better evaluate the knowledge usage ability of LLMs, which avoids the confusion regarding the source of knowledge in answering question in existing QA datasets--whether it comes from parameterized memory or retrieval.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1820507831491239978
맘바에 대한 서베이 논문 / A Survey of Mamba
논문 소개
다양한 영역과 업무에 걸쳐 기존 맘바 기반 모델을 체계적으로 검토하며, 특히 맘바 기반 모델의 발전, 다양한 데이터에 맘바를 적용하는 기술, 맘바가 탁월한 애플리케이션, 유망한 연구 방향에 초점을 맞춥니다.
Provides a systematic review of existing Mamba-based models across domains and tasks; specifically, focuses on advancements of Mamba-based models, techniques for adapting Mamba to diverse data, applications where Mamba excels, and promising research directions.
논문 초록(Abstract)
딥러닝은 중요한 기술로서 인공 지능 분야에서 주목할 만한 혁명을 일으켰습니다. 가장 대표적인 아키텍처인 트랜스포머는 수많은 고급 모델, 특히 수십억 개의 파라미터로 구성된 대규모 언어 모델에 힘을 실어주며 딥 러닝의 초석이 되었습니다. 이러한 인상적인 성과에도 불구하고 트랜스포머는 여전히 내재적인 한계, 특히 주의력 계산의 이차적 계산 복잡성으로 인해 시간이 많이 소요되는 추론에 직면해 있습니다. 최근에는 고전적인 상태 공간 모델에서 영감을 얻은 Mamba라는 새로운 아키텍처가 기초 모델 구축을 위한 유망한 대안으로 떠오르면서, 시퀀스 길이와 관련해 거의 선형에 가까운 확장성을 유지하면서 트랜스포머와 비슷한 모델링 능력을 제공하고 있습니다. 이로 인해 다양한 영역에서 인상적인 성능을 발휘할 수 있는 맘바의 잠재력을 적극적으로 탐구하는 연구가 늘어나고 있습니다. 이러한 빠른 진화를 고려할 때, 기존의 맘바 기반 모델을 통합하여 이 새로운 모델 아키텍처에 대한 포괄적인 이해를 제공하는 체계적인 검토가 절실히 필요합니다. 따라서 이번 설문조사에서는 최근의 맘바 관련 연구를 심층적으로 조사하여 맘바 기반 모델의 발전, 다양한 데이터에 맘바를 적용하는 기술, 맘바가 뛰어난 애플리케이션의 세 가지 주요 측면을 다룹니다. 구체적으로는 먼저 다양한 딥러닝 대표 모델에 대한 기초 지식과 맘바에 대한 세부적인 내용을 사전 지식으로 상기합니다. 그런 다음, 맘바의 의의를 살펴보기 위해 맘바 모델의 아키텍처 설계, 데이터 적응성, 적용 사례를 중심으로 관련 연구들을 종합적으로 검토합니다. 마지막으로, 현재의 한계점에 대해 논의하고 향후 연구를 위한 심도 있는 인사이트를 제공하기 위해 다양한 유망한 연구 방향을 모색합니다.
Deep learning, as a vital technique, has sparked a notable revolution in artificial intelligence. As the most representative architecture, Transformers have empowered numerous advanced models, especially the large language models that comprise billions of parameters, becoming a cornerstone in deep learning. Despite the impressive achievements, Transformers still face inherent limitations, particularly the time-consuming inference resulting from the quadratic computation complexity of attention calculation. Recently, a novel architecture named Mamba, drawing inspiration from classical state space models, has emerged as a promising alternative for building foundation models, delivering comparable modeling abilities to Transformers while preserving near-linear scalability concerning sequence length. This has sparked an increasing number of studies actively exploring Mamba's potential to achieve impressive performance across diverse domains. Given such rapid evolution, there is a critical need for a systematic review that consolidates existing Mamba-empowered models, offering a comprehensive understanding of this emerging model architecture. In this survey, we therefore conduct an in-depth investigation of recent Mamba-associated studies, covering from three main aspects: the advancements of Mamba-based models, the techniques of adapting Mamba to diverse data, and the applications where Mamba can excel. Specifically, we first recall the foundational knowledge of various representative deep learning models and the details of Mamba as preliminaries. Then, to showcase the significance of Mamba, we comprehensively review the related studies focusing on Mamba models' architecture design, data adaptability, and applications. Finally, we present an discussion of current limitations and explore various promising research directions to provide deeper insights for future investigations.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1821556218168549561
원문
이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~