[2024/07/01 ~ 07/07] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR


-
이번 주에 선정된 논문들을 살펴보면, 대다수의 논문이 대규모 언어 모델(LLM)에 초점을 맞춘 것으로 보입니다. 특히 "CriticGPT", "Self-Evaluation as a Defense Against Adversarial Attacks on LLMs", "Adaptable Logical Control for LLM", 그리고 "LLM See, LLM Do"와 같은 제목들은 이러한 경향을 잘 보여줍니다. 이 논문들은 대형 언어 모델의 개선, 보안, 그리고 활용 방안에 대한 다양한 접근 방법을 탐구하고 있는 것으로 해석됩니다. 이 외에도 "Searching for Best Practices in RAG"와 같은 논문은 특정 모델이 아닌 AI 모델링 기법의 최적화를 다루고 있지만, 이 또한 언어 이해 및 생성에 관련된 연구로 볼 수 있습니다.
-
이러한 경향은 최근 몇 노는 동안 AI 연구의 주된 관심사 중 하나로 자리잡은 LLM의 발전과 그 가능성을 탐색하려는 시도의 일환으로 볼 수 있습니다. 대형 언어 모델은 자연어 처리(NLP)는 물론 다양한 종류의 AI 관련 작업에서 유용하게 사용되고 있으며, 이러한 모델들의 효율성과 정확도를 높이기 위한 연구는 AI 분야에서 중요한 주제입니다. 이번 주의 논문들은 LLM을 더욱 견고하게 만들고, 그 사용 사례를 확장하기 위한 기술적 도전과제를 탐구하며, 이러한 모델들이 어떻게 다양한 AI 프로그램의 근간이 될 수 있는지에 대한 가능성을 제시하고 있습니다.
-
이번 주 논문에서 볼 수 있듯이, LLM에 대한 연구는 계속해서 활발하게 이루어지고 있으며, 이는 자연어 처리 및 다양한 형태의 AI 응용 프로그램에서의 그 중요성과 잠재력 때문입니다. LLMs의 발전은 AI 기술의 사용을 더 다양하고, 효과적으로 만들뿐만 아니라, 인간과 기계 간의 상호작용을 향상시키는 새로운 방법을 제시하고 있습니다. 이러한 연구가 계속해서 진행됨에 따라, 우리는 언어 기반 AI의 미래 모습이 어떻게 변화할지 기대할 수 있습니다.
APIGen: 검증 가능하고 다양한 함수 호출 데이터 세트를 생성하기 위한 자동화된 파이프라인 / APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets
논문 소개
함수 호출 애플리케이션을 위한 고품질 데이터 세트를 합성하기 위한 자동화된 데이터 생성 파이프라인을 제시하고, 선별된 데이터 세트로 훈련된 7B 모델이 버클리 함수 호출 벤치마크에서 GPT-4 모델 및 기타 최신 모델보다 우수한 성능을 보였으며, 함수 호출 지원 에이전트의 연구를 돕기 위해 6만 개의 항목으로 구성된 데이터 세트도 공개했습니다.
Presents an automated data generation pipeline to synthesize high-quality datasets for function-calling applications; shows that 7B models trained on curated datasets outperform GPT-4 models and other state-of-the-art models on the Berkeley Function-Calling Benchmark; a dataset consisting of 60K entries is also released to help with research in function-calling enabled agents.
논문 초록(Abstract)
함수 호출 에이전트 모델을 발전시키기 위해서는 다양하고 신뢰할 수 있는 고품질의 데이터 세트가 필요합니다. 이 백서에서는 함수 호출 애플리케이션을 위한 검증 가능한 고품질 데이터 세트를 합성하도록 설계된 자동화된 데이터 생성 파이프라인인 APIGen을 소개합니다. 저희는 APIGen을 활용하여 21개 카테고리에 걸쳐 3,673개의 실행 가능한 API를 수집하여 확장 가능하고 구조화된 방식으로 다양한 함수 호출 데이터 세트를 생성합니다. 데이터 세트의 각 데이터는 형식 검사, 실제 함수 실행, 의미 검증이라는 세 가지 계층적 단계를 통해 검증되어 신뢰성과 정확성을 보장합니다. 엄선된 데이터 세트로 훈련된 모델은 7B 매개변수만 있어도 버클리 함수 호출 벤치마크에서 여러 GPT-4 모델을 능가하는 최첨단 성능을 달성할 수 있음을 입증했습니다. 또한, 1B 모델은 GPT-3.5-Turbo와 Claude-3 Haiku를 능가하는 탁월한 성능을 달성합니다. 함수 호출 에이전트 도메인 분야의 발전을 목표로 60,000개의 고품질 항목이 포함된 데이터 세트를 공개합니다. 데이터 세트는 Huggingface(Salesforce/xlam-function-calling-60k · Datasets at Hugging Face)와 프로젝트 홈페이지(https://apigen-pipeline.github.io/)에서 확인할 수 있습니다
The advancement of function-calling agent models requires diverse, reliable, and high-quality datasets. This paper presents APIGen, an automated data generation pipeline designed to synthesize verifiable high-quality datasets for function-calling applications. We leverage APIGen and collect 3,673 executable APIs across 21 different categories to generate diverse function-calling datasets in a scalable and structured manner. Each data in our dataset is verified through three hierarchical stages: format checking, actual function executions, and semantic verification, ensuring its reliability and correctness. We demonstrate that models trained with our curated datasets, even with only 7B parameters, can achieve state-of-the-art performance on the Berkeley Function-Calling Benchmark, outperforming multiple GPT-4 models. Moreover, our 1B model achieves exceptional performance, surpassing GPT-3.5-Turbo and Claude-3 Haiku. We release a dataset containing 60,000 high-quality entries, aiming to advance the field of function-calling agent domains. The dataset is available on Huggingface: Salesforce/xlam-function-calling-60k · Datasets at Hugging Face and the project homepage: https://apigen-pipeline.github.io/
논문 링크
https://arxiv.org/pdf/2406.18518
더 읽어보기
https://x.com/Benioff/status/1808365628551844186
CriticGPT
논문 소개
GPT-4를 기반으로 하는 새로운 모델로 ChatGPT에서 생성된 응답에 대한 비평 작성에 도움을 주고, 비평해야 하는 실수가 포함된 수많은 입력을 사용하여 RLHF를 사용하여 학습하고, 인간 트레이너가 RLHF 중에 실수를 발견할 수 있도록 구축되었으며, 자연적으로 발생하는 버그에 대해 63%의 사례에서 트레이너가 ChatGPT 비평보다 CriticGPT 비평을 선호한다고 주장합니다.
A new model based on GPT-4 to help write critiques for responses generated by ChatGPT; trained using RLHF using a large number of inputs that contained mistakes for which it had to critique; built to help human trainers spot mistakes during RLHF and claims that CriticGPT critiques are preferred by trainers over ChatGPT critiques in 63% of cases on naturally occurring bugs.
논문 링크
더 읽어보기
https://x.com/OpenAI/status/1806372369151426673
RAG의 모범 사례 검색 / Searching for Best Practices in Retrieval-Augmented Generation
논문 소개
효과적인 RAG 워크플로를 구축하기 위한 모범 사례를 보여주고, 새로운 멀티모달 검색 기술을 포함해 성능과 효율성에 초점을 맞춘 전략을 제안합니다.
Shows the best practices for building effective RAG workflows; proposes strategies that focus on performance and efficiency, including emerging multimodal retrieval techniques.
논문 초록(Abstract)
검색 증강 생성(RAG) 기술은 특히 특수한 도메인에서 최신 정보를 통합하고, 착각을 완화하며, 응답 품질을 향상시키는 데 효과적인 것으로 입증되었습니다. 쿼리 종속 검색을 통해 대규모 언어 모델을 향상시키기 위해 많은 RAG 접근 방식이 제안되었지만, 이러한 접근 방식은 여전히 구현이 복잡하고 응답 시간이 오래 걸린다는 단점이 있습니다. 일반적으로 RAG 워크플로에는 여러 처리 단계가 포함되며, 각 단계는 다양한 방식으로 실행될 수 있습니다. 여기에서는 기존의 RAG 접근 방식과 그 잠재적 조합을 조사하여 최적의 RAG 방식을 파악합니다. 광범위한 실험을 통해 성능과 효율성의 균형을 맞추는 몇 가지 RAG 배포 전략을 제안합니다. 또한, 멀티모달 검색 기술이 시각적 입력에 대한 질문 답변 기능을 크게 향상시키고 '생성으로서의 검색' 전략을 사용하여 멀티모달 콘텐츠의 생성을 가속화할 수 있음을 입증합니다.
Retrieval-augmented generation (RAG) techniques have proven to be effective in integrating up-to-date information, mitigating hallucinations, and enhancing response quality, particularly in specialized domains. While many RAG approaches have been proposed to enhance large language models through query-dependent retrievals, these approaches still suffer from their complex implementation and prolonged response times. Typically, a RAG workflow involves multiple processing steps, each of which can be executed in various ways. Here, we investigate existing RAG approaches and their potential combinations to identify optimal RAG practices. Through extensive experiments, we suggest several strategies for deploying RAG that balance both performance and efficiency. Moreover, we demonstrate that multimodal retrieval techniques can significantly enhance question-answering capabilities about visual inputs and accelerate the generation of multimodal content using a "retrieval as generation" strategy.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1808177231342018748
1,000,000,000개의 페르소나로 합성 데이터 생성 확장하기 / Scaling Synthetic Data Creation with 1,000,000,000 Personas
논문 소개
10억 개의 다양한 페르소나를 제안하여 다양한 시나리오에 대한 다양한 합성 데이터를 생성하고, 새로운 페르소나 기반 데이터 합성 방법론을 사용하여 광범위한 관점을 포괄하는 다양하고 뚜렷한 데이터를 생성하며, 합성 데이터 세트의 품질을 측정하기 위해 MATH에서 배포 외 평가를 수행했습니다. 합성된 107만 개의 수학 문제에 대한 미세 조정된 모델은 MATH에서 64.9%의 정확도를 달성하여 70억 개 규모에서 gpt-4-turbo-preview의 성능과 맞먹는 결과를 얻었습니다.
Proposes 1 billion diverse personas to facilitate the creation of diverse synthetic data for different scenarios; uses a novel persona-driven data synthesis methodology to generate diverse and distinct data covering a wide range of perspectives; to measure the quality of the synthetic datasets, they performed an out-of-distribution evaluation on MATH. A fine-tuned model on their synthesized 1.07M math problems achieves 64.9% on MATH, matching the performance of gpt-4-turbo-preview at only a 7B scale.
논문 초록(Abstract)
대규모 언어 모델(LLM) 내에서 다양한 관점을 활용하여 다양한 합성 데이터를 생성하는 새로운 페르소나 기반 데이터 합성 방법론을 제안합니다. 이 방법론을 대규모로 완벽하게 활용하기 위해 웹 데이터에서 자동으로 큐레이션된 10억 개의 다양한 페르소나 모음인 페르소나 허브를 소개합니다. 전 세계 인구의 약 13%에 해당하는 10억 명의 페르소나는 세계 지식의 분산된 전달자 역할을 하며, LLM에 캡슐화된 거의 모든 관점을 활용할 수 있어 다양한 시나리오를 위한 다양한 합성 데이터를 대규모로 생성하는 데 용이합니다. 고품질의 수학적 및 논리적 추론 문제, 지침(예: 사용자 프롬프트), 지식이 풍부한 텍스트, 게임 NPC 및 도구(기능)를 대규모로 합성하는 데 있어 페르소나 허브의 사용 사례를 보여줌으로써 페르소나 기반 데이터 합성이 다양하고 확장 가능하며 유연하고 사용하기 쉽다는 것을 입증하여 실제로 합성 데이터 생성 및 응용 분야의 패러다임 변화를 주도함으로써 LLM 연구 및 개발에 큰 영향을 미칠 수 있음을 보여줍니다.
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1807827401122238628
LLM에 대한 적대적 공격에 대한 방어 수단으로서의 자체 평가 / Self-Evaluation as a Defense Against Adversarial Attacks on LLMs
논문 소개
적의 공격을 방어하기 위해 자체 평가를 사용할 것을 제안하고, 사전 학습된 LLM을 사용하여 미세 조정된 모델, 전용 안전 LLM, 기업 조정 API보다 더 효과적인 방어 구축, 생성기 전용 공격과 생성기 + 평가기 결합 공격 등 다양한 설정을 평가하고, 전용 평가기를 구축하면 공격 성공률을 크게 줄일 수 있음을 보여 줍니다.
Proposes the use of self-evaluation to defend against adversarial attacks; uses a pre-trained LLM to build defense which is more effective than fine-tuned models, dedicated safety LLMs, and enterprise moderation APIs; they evaluate different settings like attacks on the generator only and generator + evaluator combined; it shows that building a dedicated evaluator can significantly reduce the success rate of attacks.
논문 초록(Abstract)
사람을 대면하는 민감한 환경에 LLM을 배치할 때는 안전하지 않거나 편향적이거나 개인 정보를 침해하는 결과를 출력하지 않도록 하는 것이 중요합니다. 이러한 이유로 모델들은 "폭탄을 만드는 방법을 알려주세요."와 같이 안전하지 않은 프롬프트에 대답하지 않도록 훈련받으며 교육을 받습니다 이러한 안전장치에도 불구하고 모델 입력 끝에 공백을 추가하는 것만으로도 모델 방어를 무너뜨릴 수 있다는 사실을 발견했습니다. 8개의 오픈 소스 모델을 대상으로 한 연구에서는 이러한 방식이 대부분의 모델이 매우 높은 성공률로 유해한 결과를 생성할 만큼 강력한 공격으로 작용한다는 사실을 입증했습니다. 이러한 행동의 원인을 조사한 결과, 토큰화된 학습 데이터에서 단일 공백이 발생하는 컨텍스트가 모델이 안전하지 않은 요청에 대한 응답을 거부하도록 학습 신호를 무시하고 목록을 생성하도록 유도한다는 사실을 발견했습니다. 이번 연구 결과는 현재 모델 정렬의 취약한 상태를 강조하고 보다 강력한 정렬 방법 개발의 중요성을 강조합니다. 코드와 데이터는 https://github.com/Linlt-leon/Adversarial-Alignments 에서 확인할 수 있습니다.
When LLMs are deployed in sensitive, human-facing settings, it is crucial that they do not output unsafe, biased, or privacy-violating outputs. For this reason, models are both trained and instructed to refuse to answer unsafe prompts such as "Tell me how to build a bomb." We find that, despite these safeguards, it is possible to break model defenses simply by appending a space to the end of a model's input. In a study of eight open-source models, we demonstrate that this acts as a strong enough attack to cause the majority of models to generate harmful outputs with very high success rates. We examine the causes of this behavior, finding that the contexts in which single spaces occur in tokenized training data encourage models to generate lists when prompted, overriding training signals to refuse to answer unsafe requests. Our findings underscore the fragile state of current model alignment and promote the importance of developing more robust alignment methods. Code and data will be made available at https://github.com/Linlt-leon/Adversarial-Alignments.
논문 링크
더 읽어보기
https://github.com/Linlt-leon/Adversarial-Alignments
https://x.com/omarsar0/status/1809241930963853621
Agentless: LLM 기반 소프트웨어 엔지니어링 에이전트 이해하기 / Agentless: Demystifying LLM-based Software Engineering Agents
논문 소개
다른 모든 오픈 소스 AI 기반 소프트웨어 엔지니어링 에이전트보다 성능이 뛰어나다고 주장하는 SWE-bench Lite에서 27.3%의 GitHub 문제를 해결하는 에이전트 없는 시스템을 제공하는 OpenAutoEncoder-Agentless를 소개합니다.
Introduces OpenAutoEncoder-Agentless which offers an agentless system that solves 27.3% GitHub issues on SWE-bench Lite; claims to outperform all other open-source AI-powered software engineering agents.
논문 초록(Abstract)
최근 대규모 언어 모델(LLM)의 발전으로 코드 합성, 프로그램 복구 및 테스트 생성을 비롯한 소프트웨어 개발 작업의 자동화가 크게 발전했습니다. 최근에는 연구자 및 업계 실무자들이 엔드투엔드 소프트웨어 개발 작업을 수행할 수 있는 다양한 자율 LLM 에이전트를 개발했습니다. 이러한 에이전트에는 도구를 사용하고, 명령을 실행하고, 환경의 피드백을 관찰하고, 향후 작업을 계획할 수 있는 기능이 탑재되어 있습니다. 그러나 이러한 에이전트 기반 접근 방식의 복잡성과 현재 LLM의 제한된 능력은 다음과 같은 의문을 제기합니다: 복잡한 자율 소프트웨어 에이전트를 꼭 사용해야 할까요? 이 질문에 대한 답을 찾기 위해 소프트웨어 개발 문제를 자동으로 해결하기 위한 에이전트 없는 접근 방식인 에이전트리스(Agentless)를 구축했습니다. 에이전트 기반 접근 방식의 장황하고 복잡한 설정에 비해 에이전트리스에서는 LLM이 향후 작업을 결정하거나 복잡한 도구로 작업하지 않고 로컬라이제이션과 복구의 간단한 2단계 프로세스를 사용합니다. 널리 사용되는 SWE-bench Lite 벤치마크의 결과에 따르면, 놀랍게도 단순한 에이전트리스 방식이 기존의 모든 오픈 소스 소프트웨어 에이전트와 비교하여 가장 높은 성능(27.33%)과 가장 낮은 비용($0.34)을 모두 달성할 수 있는 것으로 나타났습니다! 또한, SWE-bench Lite의 문제를 수동으로 분류하여 정확한 실측 패치나 불충분하거나 오해의 소지가 있는 문제 설명을 발견했습니다. 따라서 보다 엄격한 평가와 비교를 위해 이러한 문제가 되는 이슈를 제외하여 SWE-bench Lite-S를 구축했습니다. 저희의 연구는 현재 간과되고 있는 자율 소프트웨어 개발에서 간단하고 해석 가능한 기술의 잠재력을 강조합니다. 에이전트리스'가 자율 소프트웨어 에이전트의 기준선, 출발점, 지평을 재설정하고 이 중요한 방향을 따라 향후 작업에 영감을 불어넣는 데 도움이 되기를 바랍니다.
Recent advancements in large language models (LLMs) have significantly advanced the automation of software development tasks, including code synthesis, program repair, and test generation. More recently, researchers and industry practitioners have developed various autonomous LLM agents to perform end-to-end software development tasks. These agents are equipped with the ability to use tools, run commands, observe feedback from the environment, and plan for future actions. However, the complexity of these agent-based approaches, together with the limited abilities of current LLMs, raises the following question: Do we really have to employ complex autonomous software agents? To attempt to answer this question, we build Agentless -- an agentless approach to automatically solve software development problems. Compared to the verbose and complex setup of agent-based approaches, Agentless employs a simplistic two-phase process of localization followed by repair, without letting the LLM decide future actions or operate with complex tools. Our results on the popular SWE-bench Lite benchmark show that surprisingly the simplistic Agentless is able to achieve both the highest performance (27.33%) and lowest cost ($0.34) compared with all existing open-source software agents! Furthermore, we manually classified the problems in SWE-bench Lite and found problems with exact ground truth patch or insufficient/misleading issue descriptions. As such, we construct SWE-bench Lite-S by excluding such problematic issues to perform more rigorous evaluation and comparison. Our work highlights the current overlooked potential of a simple, interpretable technique in autonomous software development. We hope Agentless will help reset the baseline, starting point, and horizon for autonomous software agents, and inspire future work along this crucial direction.
논문 링크
더 읽어보기
https://x.com/LingmingZhang/status/1808501612056629569
대규모 언어 모델을 위한 적응형 논리 제어 / Adaptable Logical Control for Large Language Models
논문 소개
S - 논리 제약 조건을 안정적으로 따르는 LLM 생성을 제어할 수 있는 Ctrl-G 프레임워크를 제시하고, LLM과 히든 마코우 모델을 결합하여 논리 제약 조건(결정론적 유한 오토마타로 표현)을 따르도록 하며, Ctrl-G는 GPT4에 비해 인간 평가에서 30% 이상 높은 만족도를 달성합니다.
S - presents the Ctrl-G framework to facilitate control of LLM generations that reliably follow logical constraints; it combines LLMs and Hidden Markow Models to enable following logical constraints (represented as deterministic finite automata); Ctrl-G achieves over 30% higher satisfaction rate in human evaluation compared to GPT4.
논문 초록(Abstract)
인간의 지시에 따라 다양한 작업에서 대규모 언어 모델(LLM)이 성공을 거두었음에도 불구하고 추론 시 모델 생성을 제어하는 것은 지속적인 과제로 남아 있습니다. 이 백서에서는 논리적인 제약 조건을 안정적으로 따르도록 LLM 생성을 간편하고 유연하게 제어할 수 있는 적응형 프레임워크인 Ctrl-G를 소개합니다. Ctrl-G는 제작 가능한 모든 LLM을 숨겨진 마르코프 모델과 결합하여 LLM 출력이 결정론적 유한 오토마타로 표현되는 논리적 제약 조건을 준수할 수 있도록 합니다. 특히 논리적 제약 조건에 따라 텍스트 삽입/연속을 생성하는 작업의 경우, 대화형 텍스트 편집 작업에서 Ctrl-G가 GPT3.5 및 GPT4보다 뛰어난 성능을 보였으며, 사람의 평가에서도 GPT4에 비해 30% 이상 높은 만족도를 달성한 것으로 나타났습니다. 중간 크기의 언어 모델(예: GPT2-large)에 적용했을 때도 Ctrl-G는 표준 벤치마크에서 큰 차이로 제약 생성에 대한 타사 제품을 능가합니다. 또한 개념 증명 연구로 초등학교 수학 벤치마크에서 Ctrl-G를 실험하여 LLM 추론을 지원함으로써 전통적인 언어 생성 작업을 넘어 다른 제약 생성 접근 방식뿐만 아니라 Ctrl-G의 적용을 예고합니다.
Despite the success of Large Language Models (LLMs) on various tasks following human instructions, controlling model generation at inference time poses a persistent challenge. In this paper, we introduce Ctrl-G, an adaptable framework that facilitates tractable and flexible control of LLM generation to reliably follow logical constraints. Ctrl-G combines any production-ready LLM with a Hidden Markov Model, enabling LLM outputs to adhere to logical constraints represented as deterministic finite automata. We show that Ctrl-G, when applied to a TULU2-7B model, outperforms GPT3.5 and GPT4 on the task of interactive text editing: specifically, for the task of generating text insertions/continuations following logical constraints, Ctrl-G achieves over 30% higher satisfaction rate in human evaluation compared to GPT4. When applied to medium-size language models (e.g., GPT2-large), Ctrl-G also beats its counterparts for constrained generation by large margins on standard benchmarks. Additionally, as a proof-of-concept study, we experiment Ctrl-G on the Grade School Math benchmark to assist LLM reasoning, foreshadowing the application of Ctrl-G, as well as other constrained generation approaches, beyond traditional language generation tasks.
논문 링크
더 읽어보기
https://x.com/HonghuaZhang2/status/1806727439823102325
LLM See, LLM Do: 차별화할 수 없는 목표를 타겟팅하기 위한 데이터 생성 안내 / LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives
논문 소개
합성 데이터의 효과와 효율성, 그리고 합성 데이터가 모델의 내부 편향, 보정, 속성 및 선호도를 형성하는 방식을 면밀히 조사하고, 합성 데이터 프롬프트가 중립적으로 보일 때에도 LLM이 특정 속성에 민감하다는 사실을 발견하고, 모델의 생성 프로필을 바람직한 속성으로 조정하는 것이 가능하다는 사실을 입증합니다.
Closely investigates the effects and effectiveness of synthetic data and how it shapes a model’s internal biases, calibration, attributes, and preferences; finds that LLMs are sensitive towards certain attributes even when the synthetic data prompts appear neutral; demonstrates that it’s possible to steer the generation profiles of models towards desirable attributes.
논문 초록(Abstract)
합성 데이터의 광범위한 채택은 데이터를 생성하는 모델이 증류된 데이터를 통해 다른 대규모 언어 모델(LLM)에 어떻게 영향을 미칠 수 있는지에 대한 새로운 질문을 제기합니다. 우선, 저희는 합성 데이터 통합의 결과를 체계적으로 연구하여 모델 속성의 수동적 상속이 미치는 영향을 철저하게 특성화했습니다. 합성 데이터의 출처가 모델의 내부 편향, 보정, 세대의 텍스트 속성 및 선호도를 어떻게 형성하는지에 대한 가장 포괄적인 연구 중 하나를 제공합니다. 합성 데이터 프롬프트가 '중립적'으로 보이는 경우에도 모델이 특정 속성에 놀라울 정도로 민감하다는 사실을 발견했습니다. 이러한 민감성을 악용할 수 있는지에 대한 의문을 불러일으킵니다. 우리의 연구 결과는 데이터 생성 프로세스를 활용하여 테스트 시점에 원하는 속성으로 모델을 명시적으로 조정할 수 있을지에 대한 의문을 불러일으킵니다 이는 특정 특성이나 목표를 염두에 두고 데이터를 수집하는 데 드는 비용 때문에 이전에는 실현 불가능한 것으로 여겨졌을 것입니다. 하지만 합성 데이터의 품질이 향상되고 다양한 지침을 따르도록 설계된 범용 모델로의 전환이 이루어지면서 이 질문은 시의적절합니다. 저희는 차별화할 수 없는 목적에 따라 합성 데이터를 의도적으로 제한하는 것을 설명하기 위한 용어로 능동적 상속을 제안합니다. 능동 상속이 어떻게 모델의 생성 프로필을 높은 어휘 다양성이나 낮은 독성 등 바람직한 비차별적 속성으로 유도할 수 있는지 보여드립니다.
The widespread adoption of synthetic data raises new questions about how models generating the data can influence other large language models (LLMs) via distilled data. To start, our work exhaustively characterizes the impact of passive inheritance of model properties by systematically studying the consequences of synthetic data integration. We provide one of the most comprehensive studies to-date of how the source of synthetic data shapes models' internal biases, calibration and generations' textual attributes and preferences. We find that models are surprisingly sensitive towards certain attributes even when the synthetic data prompts appear "neutral". which invites the question whether this sensitivity can be exploited for good. Our findings invite the question can we explicitly steer the models towards the properties we want at test time by exploiting the data generation process? This would have historically been considered infeasible due to the cost of collecting data with a specific characteristic or objective in mind. However, improvement in the quality of synthetic data, as well as a shift towards general-purpose models designed to follow a diverse way of instructions, means this question is timely. We propose active inheritance as a term to describe intentionally constraining synthetic data according to a non-differentiable objective. We demonstrate how active inheritance can steer the generation profiles of models towards desirable non-differentiable attributes, e.g. high lexical diversity or low toxicity.
논문 링크
더 읽어보기
https://x.com/lushimabucoro/status/1808083881632878843
Haystack 요약: 장기 컨텍스트 LLM 및 RAG 시스템에 대한 도전 과제 / Summary of a Haystack: A Challenge to Long-Context LLMs and RAG Systems
논문 소개
Haystack을 처리하고 관련 인사이트를 식별하고 소스 문서를 인용하는 요약을 생성하는 모델의 능력을 테스트하는 새로운 작업인 SummHay를 제안하고, 긴 컨텍스트 LLM이 벤치마크에서 20%의 점수를 얻어 사람의 성능 추정치(56%)보다 뒤처진다고 보고하고, RAG 구성 요소가 벤치마크에서 성능을 향상시켜 전체적인 RAG 평가를 위한 실행 가능한 옵션이 되는 것으로 밝혀짐을 보고합니다.
Proposes a new task, SummHay, to test a model’s ability to process a Haystack and generate a summary that identifies the relevant insights and cites the source documents; reports that long-context LLMs score 20% on the benchmark which lags the human performance estimate (56%); RAG components is found to boost performance on the benchmark, which makes it a viable option for holistic RAG evaluation.
논문 초록(Abstract)
LLM과 RAG 시스템은 이제 수백만 개 이상의 입력 토큰을 처리할 수 있습니다. 그러나 건초더미에서 바늘 찾기와 같은 작업은 복잡성이 부족하기 때문에 긴 컨텍스트 작업에서 이러한 시스템의 출력 품질을 평가하는 것은 여전히 어려운 과제입니다. 이 연구에서는 요약이 이러한 평가에서 핵심적인 역할을 할 수 있다고 주장합니다. 저희는 문서들의 헤이스택을 종합하는 절차를 설계하여 특정 \textit{인사이트}가 여러 문서에서 반복되도록 합니다. 그런 다음 "헤이스택 요약"(SummHay) 작업은 시스템이 헤이스택을 처리하고 쿼리가 주어지면 관련 인사이트를 식별하고 소스 문서를 정확하게 인용하는 요약을 생성하도록 요구합니다. 저희는 헤이스택 요약에 어떤 인사이트가 표시되어야 하고 어떤 문서가 인용되어야 하는지에 대한 정확한 지식을 가지고 있기 때문에, 커버리지와 인용이라는 두 가지 측면에서 요약 점수를 매길 수 있는 재현성이 높은 자동 평가를 구현합니다. 두 가지 도메인(대화, 뉴스)에서 헤이스택을 생성하고 10개의 LLM과 그에 해당하는 50개의 RAG 시스템에 대한 대규모 평가를 수행합니다. 그 결과, 문서 관련성에 대한 오라클 신호를 제공받은 시스템조차도 공동 점수에서 인간의 성능 추정치(56%)보다 10점 이상 뒤처지는 것으로 나타나 SummHay는 현재 시스템에서 해결해야 할 과제임을 알 수 있었습니다. 리트리버가 없는 경우, GPT-4o 및 Claude 3 Opus와 같은 긴 컨텍스트 LLM은 SummHay에서 20% 미만의 점수를 받습니다. SummHay는 엔터프라이즈 RAG 시스템과 긴 컨텍스트 모델의 위치 편향을 연구하는 데에도 사용할 수 있음을 보여줍니다. 미래의 시스템이 SummHay에서 인간의 성능과 동등하거나 능가할 수 있기를 바랍니다.
LLMs and RAG systems are now capable of handling millions of input tokens or more. However, evaluating the output quality of such systems on long-context tasks remains challenging, as tasks like Needle-in-a-Haystack lack complexity. In this work, we argue that summarization can play a central role in such evaluation. We design a procedure to synthesize Haystacks of documents, ensuring that specific \textit{insights} repeat across documents. The "Summary of a Haystack" (SummHay) task then requires a system to process the Haystack and generate, given a query, a summary that identifies the relevant insights and precisely cites the source documents. Since we have precise knowledge of what insights should appear in a haystack summary and what documents should be cited, we implement a highly reproducible automatic evaluation that can score summaries on two aspects - Coverage and Citation. We generate Haystacks in two domains (conversation, news), and perform a large-scale evaluation of 10 LLMs and corresponding 50 RAG systems. Our findings indicate that SummHay is an open challenge for current systems, as even systems provided with an Oracle signal of document relevance lag our estimate of human performance (56%) by 10+ points on a Joint Score. Without a retriever, long-context LLMs like GPT-4o and Claude 3 Opus score below 20% on SummHay. We show SummHay can also be used to study enterprise RAG systems and position bias in long-context models. We hope future systems can equal and surpass human performance on SummHay.
논문 링크
더 읽어보기
https://x.com/_philschmid/status/1808420168558649479
중요한 AI 에이전트 / AI Agents That Matter
논문 소개
현재의 상담원 평가 관행을 분석하여 실제 적용을 방해할 수 있는 단점을 파악하고, 비용과 정확성을 공동으로 최적화하는 구현과 상담원 과잉 피팅을 방지하는 프레임워크를 제안합니다.
Analyzes current agent evaluation practices and reveals shortcomings that potentially hinder real-world application; proposes an implementation that jointly optimizes cost and accuracy and a framework to avoid overfitting agents.
논문 초록(Abstract)
AI 에이전트는 흥미로운 새로운 연구 방향이며, 에이전트 개발은 벤치마크에 의해 주도됩니다. 현재 에이전트 벤치마크와 평가 관행을 분석한 결과 실제 애플리케이션에서 유용성을 저해하는 몇 가지 단점이 발견되었습니다. 첫째, 다른 지표는 고려하지 않고 정확도에만 초점을 맞추고 있다는 점입니다. 그 결과 SOTA 에이전트는 불필요하게 복잡하고 비용이 많이 들며, 커뮤니티에서는 정확도 향상의 원천에 대해 잘못된 결론에 도달했습니다. 정확도와 더불어 비용에 초점을 맞추면서 두 가지 지표를 공동으로 최적화하는 새로운 목표에 동기를 부여했습니다. 이러한 최적화 중 하나를 설계하고 구현하여 정확도를 유지하면서 비용을 크게 절감할 수 있는 잠재력을 보여주었습니다. 둘째, 모델 개발자와 다운스트림 개발자의 벤치마킹 요구가 혼재되어 있어 특정 애플리케이션에 가장 적합한 에이전트를 식별하기가 어려웠습니다. 셋째, 많은 에이전트 벤치마크의 홀드아웃 세트가 부적절하거나 아예 없는 경우도 있습니다. 이로 인해 에이전트가 다양한 방식으로 지름길을 택하고 벤치마크에 과도하게 맞추기 때문에 취약한 에이전트가 발생했습니다. 저희는 과적합을 피하기 위한 원칙적인 프레임워크를 규정하고 있습니다. 마지막으로, 평가 관행의 표준화가 부족하여 재현성 부족이 만연해 있습니다. 이러한 단점을 해결하기 위해 소개하는 단계를 통해 벤치마크에서 정확할 뿐만 아니라 실제 세계에서 유용한 에이전트 개발에 박차를 가할 수 있기를 바랍니다.
AI agents are an exciting new research direction, and agent development is driven by benchmarks. Our analysis of current agent benchmarks and evaluation practices reveals several shortcomings that hinder their usefulness in real-world applications. First, there is a narrow focus on accuracy without attention to other metrics. As a result, SOTA agents are needlessly complex and costly, and the community has reached mistaken conclusions about the sources of accuracy gains. Our focus on cost in addition to accuracy motivates the new goal of jointly optimizing the two metrics. We design and implement one such optimization, showing its potential to greatly reduce cost while maintaining accuracy. Second, the benchmarking needs of model and downstream developers have been conflated, making it hard to identify which agent would be best suited for a particular application. Third, many agent benchmarks have inadequate holdout sets, and sometimes none at all. This has led to agents that are fragile because they take shortcuts and overfit to the benchmark in various ways. We prescribe a principled framework for avoiding overfitting. Finally, there is a lack of standardization in evaluation practices, leading to a pervasive lack of reproducibility. We hope that the steps we introduce for addressing these shortcomings will spur the development of agents that are useful in the real world and not just accurate on benchmarks.
논문 링크
더 읽어보기
https://x.com/random_walker/status/1808138818182434955
원문
이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~