[2024/09/02 ~ 09/08] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR
-
이번 주에 선정된 논문들을 분석해본 결과, 몇 가지 두드러진 트렌드를 확인할 수 있었습니다. 특히 두 가지 주요 주제가 눈에 띄었습니다: 긴 문맥(long context)을 다루는 대규모 언어 모델(Long-Context LLMs)과 인공지능의 전문 업무에 미치는 영향입니다. 논문 제목을 통해 이 두 가지 주제가 여러 논문에 걸쳐 반복되고 있음을 알 수 있었습니다.
-
첫 번째로, 'RAG in the Era of Long-Context LLMs', 'LongCite', 'MemLong'와 같은 논문 제목에서 확인할 수 있듯이, 다수의 논문이 긴 문맥(long context)을 처리하는 대규모 언어 모델(LLMs)에 집중하고 있습니다. 이는 최근 들어 언어 모델의 성능이 크게 향상됨에 따라, 더욱 길고 복잡한 문맥을 처리할 수 있는 모델 개발에 대한 관심이 높아지고 있음을 시사합니다. 긴 문맥을 다루는 기술은 특히 자연어 처리(NLP) 분야에서 중요한 돌파구가 될 수 있으며, 대화형 인공지능, 문서 요약 및 검색 등 다양한 응용 분야에서 큰 영향을 미칠 수 있습니다.
-
두 번째로는 'Effective of AI on High Skilled Work', 'LLM-Based Agents for Software Engineering', 'Beyond Preference in AI Alignment' 등의 논문 제목에서 보이듯이, 인공지능이 고숙련 업무에 미치는 영향 및 소프트웨어 엔지니어링 분야에서의 활용에 대한 연구가 집중되고 있습니다. 이는 인공지능이 이제 단순한 반복 업무를 넘어 더욱 복잡하고 고도화된 업무에까지 적용되고 있음을 보여줍니다. 특히 소프트웨어 엔지니어링은 높은 기술적 숙련도가 요구되는 분야로, 인공지능이 이 분야에서 어떤 역할을 할 수 있을지에 대한 연구가 향후 산업의 중요한 변화를 예고하고 있습니다.
-
이러한 트렌드들은 산업 및 학계가 장기 문맥 처리 능력과 고숙련 업무에 대한 인공지능의 역할에 강한 관심을 가지고 있으며, 이에 대한 연구가 활발하게 진행되고 있음을 반영합니다. 이러한 연구들은 앞으로의 인공지능 발전 방향을 예측하는 데 중요한 잣대가 될 것입니다.
알파프로테오 / AlphaProteo
논문 소개
단백질 설계를 위해 훈련된 ML 모델 제품군을 제시하고, 7개의 표적 단백질에 대해 기존의 다른 방법에 비해 3~300배 더 나은 결합 친화력과 더 높은 실험 성공률을 보고하며, PDB의 수백 개의 표적 단백질에 대한 AlphaProteo의 성능이 7개의 표적과 비슷하다는 것을 보여 줍니다.
Presents a family of ML models trained for protein design; reports a 3-to 300-fold better binding affinities and higher experimental success rates compared to other existing methods on seven target proteins; shows that AlphaProteo’s performance on hundreds of target proteins from the PDB is comparable to the seven targets.
논문 초록(Abstract)
단백질 결합 단백질의 전산 설계는 다음과 같은 분야에서 폭넓게 활용되는 기본 역량입니다. 광범위한 활용도를 가진 기본적인 역량입니다. 최근의 방법은 일부 표적 단백질에 대해 진전을 이루었습니다, 하지만 여러 차례의 실험적 테스트 없이 고친화성 결합체를 온디맨드 방식으로 생성하는 것은 아직까지 아직 해결되지 않은 과제입니다. 이 기술 보고서에서는 단백질 설계를 위한 머신 러닝 모델 제품군인 제품군을 소개하고, 새로운 바인더 설계 문제에 대한 성능을 자세히 설명합니다. AlphaProteo를 사용하면 7가지 표적 단백질에 대해 기존 최고 방법보다 3~300배 더 나은 결합 친화력과 높은 실험 성공률 기존 방법보다 3~300배 더 높은 실험 성공률을 달성했습니다. 우리의 결과는 AlphaProteo가 결합체를 생성할 수 있음을 시사합니다. 중간 처리량 스크리닝을 한 번만 수행하여 많은 연구 애플리케이션에 “바로 사용 가능한” 결합체를 생성할 수 있으며 추가 최적화 없이도 “바로 사용할 수 있는” 결합체를 생성할 수 있음을 시사합니다.
Computational design of protein-binding proteins is a fundamental capability with broad utility in biomedical research and biotechnology. Recent methods have made strides against some target proteins, but on-demand creation of high-affinity binders without multiple rounds of experimental testing remains an unsolved challenge. This technical report introduces AlphaProteo, a family of machine learning models for protein design, and details its performance on the de novo binder design problem. With AlphaProteo, we achieve 3- to 300-fold better binding affinities and higher experimental success rates than the best existing methods on seven target proteins. Our results suggest that AlphaProteo can generate binders "ready-to-use" for many research applications using only one round of medium-throughput screening and no further optimization.
논문 링크
더 읽어보기
https://x.com/GoogleDeepMind/status/1831710991475777823
긴 컨텍스트 언어 모델 시대의 RAG 방어하기 / In Defense of RAG in the Era of Long-Context Language Models
논문 소개
긴 문맥의 LLM은 RAG 시스템이 해결해야 하는 주요 문제 중 하나인 관련 정보에 대한 집중도가 떨어지며(즉, 더 많은 관련 정보를 사용), 긴 문맥의 질문 답변 성능을 개선하는 순서 보존 RAG 메커니즘을 제안하며, 완벽하지는 않으며 실제로 검색된 청크가 증가할수록 응답 품질이 올라갔다가 떨어지고, 긴 문맥의 LLM보다 훨씬 적은 토큰으로 더 나은 품질을 얻을 수 있는 최적점을 언급하고 있습니다.
Reports that longer-context LLMs suffer from a diminished focus on relevant information, which is one of the primary issues that a RAG system addresses (i.e., uses more relevant information); they propose an order-preserving RAG mechanism that improves performance on long-context question answering; it's not perfect and in fact, as retrieved chunks increase the quality of responses go up and then declines; they mention a sweet spot where it can achieve better quality with a lot fewer tokens than long-context LLMs.
논문 초록(Abstract)
초기 세대 LLM의 제한된 문맥 한계를 극복한 검색 증강 생성(RAG)은 과거에 문맥 기반 답변 생성을 위한 신뢰할 수 있는 솔루션이었습니다. 최근에는 긴 문맥 LLM의 등장으로 훨씬 더 긴 텍스트 시퀀스를 모델에 통합할 수 있게 되면서 RAG의 매력도가 떨어지고 있습니다. 최근 연구에 따르면 긴 컨텍스트 LLM은 긴 컨텍스트 애플리케이션에서 RAG보다 훨씬 뛰어난 성능을 발휘합니다. RAG보다 긴 문맥 LLM을 선호하는 기존 연구와 달리, 본 논문에서는 LLM의 매우 긴 문맥이 관련 정보에 대한 집중력을 떨어뜨리고 잠재적인 답변 품질 저하로 이어진다고 주장합니다. 이 백서에서는 긴 문맥의 답변 생성에서 RAG를 재검토합니다. 긴 문맥의 질문-답변 애플리케이션에서 RAG의 성능을 크게 향상시키는 순서 보존 검색 증강 생성(OP-RAG) 메커니즘을 제안합니다. OP-RAG를 사용하면 검색되는 청크의 수가 증가함에 따라 처음에는 답변 품질이 상승했다가 하락하여 역 U자형 곡선을 형성합니다. OP-RAG는 전체 컨텍스트를 입력으로 사용하는 긴 컨텍스트 LLM보다 훨씬 적은 토큰으로 더 높은 답변 품질을 달성할 수 있는 장점이 있습니다. 공개 벤치마크에 대한 광범위한 실험을 통해 OP-RAG의 우수성이 입증되었습니다.
Overcoming the limited context limitations in early-generation LLMs, retrieval-augmented generation (RAG) has been a reliable solution for context-based answer generation in the past. Recently, the emergence of long-context LLMs allows the models to incorporate much longer text sequences, making RAG less attractive. Recent studies show that long-context LLMs significantly outperform RAG in long-context applications. Unlike the existing works favoring the long-context LLM over RAG, we argue that the extremely long context in LLMs suffers from a diminished focus on relevant information and leads to potential degradation in answer quality. This paper revisits the RAG in long-context answer generation. We propose an order-preserve retrieval-augmented generation (OP-RAG) mechanism, which significantly improves the performance of RAG for long-context question-answer applications. With OP-RAG, as the number of retrieved chunks increases, the answer quality initially rises, and then declines, forming an inverted U-shaped curve. There exist sweet points where OP-RAG could achieve higher answer quality with much less tokens than long-context LLM taking the whole context as input. Extensive experiments on public benchmark demonstrate the superiority of our OP-RAG.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1831389521839267888
전략적 사고 연쇄: 전략 도출을 통해 LLM에서 정확한 추론 유도하기 / Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation
논문 소개
중간 CoT 추론 단계 전에 전략적 지식을 통합하여 LLM 성능을 개선하는 방법; 문제 해결 전략은 CoT 경로 및 최종 답변 생성을 안내하는 데 도움이 됨; Llama3-8b 모델을 사용하여 GSM8K 데이터 세트에서 21.05% 향상을 달성했다고 주장합니다.
A method to refine LLM performance by incorporating strategic knowledge before the intermediate CoT reasoning steps; the problem-solving strategy helps to guide the generation of the CoT paths and final answers; claims to achieve a 21.05% increase on the GSM8K datasets using the Llama3-8b model.
논문 초록(Abstract)
생각의 연쇄(CoT) 패러다임은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 중요한 접근법으로 부상했습니다. 그러나 광범위한 채택과 성공에도 불구하고 CoT 방법은 생성된 추론 경로의 품질을 일관되게 보장하지 못해 종종 불안정성을 보여 최적의 추론 성능에 미치지 못하는 결과를 초래합니다. 이러한 문제를 해결하기 위해 저희는 중간 추론 단계를 생성하기 전에 전략적 지식을 통합하여 LLM 성능을 개선하도록 설계된 새로운 방법론인 \textbf{Strategic Chain-of-Thought}(SCoT)를 제안합니다. SCoT는 단일 프롬프트 내에서 2단계 접근 방식을 사용합니다. 먼저 효과적인 문제 해결 전략을 도출한 다음, 이를 통해 고품질 CoT 경로와 최종 답을 생성하는 데 사용됩니다. 8개의 까다로운 추론 데이터 세트에 대한 실험 결과, Llama3-8b 모델을 사용하면 GSM8K 데이터 세트에서 21.05%, Tracking_Objects 데이터 세트에서 24.13% 각각 증가하는 등 상당한 개선이 이루어졌습니다. 또한 SCoT 프레임워크를 확장하여 자동으로 일치하는 데모와 함께 몇 개의 샷을 촬영하는 방법을 개발하여 더욱 강력한 결과를 도출했습니다. 이러한 결과는 복잡한 추론 작업에서 LLM 성능을 크게 향상시킬 수 있는 SCoT의 잠재력을 강조하며 그 효과를 입증합니다.
The Chain-of-Thought (CoT) paradigm has emerged as a critical approach for enhancing the reasoning capabilities of large language models (LLMs). However, despite their widespread adoption and success, CoT methods often exhibit instability due to their inability to consistently ensure the quality of generated reasoning paths, leading to sub-optimal reasoning performance. To address this challenge, we propose the \textbf{Strategic Chain-of-Thought} (SCoT), a novel methodology designed to refine LLM performance by integrating strategic knowledge prior to generating intermediate reasoning steps. SCoT employs a two-stage approach within a single prompt: first eliciting an effective problem-solving strategy, which is then used to guide the generation of high-quality CoT paths and final answers. Our experiments across eight challenging reasoning datasets demonstrate significant improvements, including a 21.05% increase on the GSM8K dataset and 24.13% on the Tracking_Objects dataset, respectively, using the Llama3-8b model. Additionally, we extend the SCoT framework to develop a few-shot method with automatically matched demonstrations, yielding even stronger results. These findings underscore the efficacy of SCoT, highlighting its potential to substantially enhance LLM performance in complex reasoning tasks.
논문 링크
고숙련 작업에 대한 AI의 효과 / Effective of AI on High Skilled Work
논문 소개
생성적 AI가 소프트웨어 개발자에게 미치는 영향을 연구한 결과, GitHub Copilot과 같은 AI 도구를 사용하는 개발자의 완료 작업 수가 26.08% 증가했으며, 경험이 적은 개발자가 AI 도구를 채택할수록 생산성 향상 효과가 더 큰 것으로 나타났습니다.
Studies the impact of generative AI on software developers; reveals a 26.08% increase in the number of completed tasks among the developers that use AI tools like GitHub Copilot; also shows that less experienced developers are likely to adopt the AI tools and have greater productivity gains.
논문 초록
이 연구는 Microsoft, Accenture, 익명의 포춘 100대 전자제품 제조 회사에서 실시한 세 가지 무작위 대조 실험의 데이터를 분석하여 생성적 AI가 소프트웨어 개발자의 생산성에 미치는 영향을 평가합니다. 이러한 현장 실험은 일상적인 업무 과정의 일환으로 진행되었으며, 무작위로 선정된 일부 개발자에게 지능형 코드 완성을 제안하는 AI 기반 코딩 어시스턴트인 GitHub Copilot에 액세스할 수 있는 권한을 제공했습니다. 각각의 개별 실험은 잡음이 있지만, 세 가지 실험과 4,867명의 소프트웨어 개발자를 모두 합친 결과, AI 도구를 사용한 개발자의 완료 작업 수가 26.08%(SE: 10.3%) 증가한 것으로 분석되었습니다. 특히, 경험이 적은 개발자일수록 더 높은 채택률과 더 큰 생산성 향상을 보였습니다.
This study evaluates the impact of generative AI on software developer productivity by analyzing data from three randomized controlled trials conducted at Microsoft, Accenture, and an anonymous Fortune 100 electronics manufacturing company. These field experiments, which were run by the companies as part of their ordinary course of business, provided a randomly selected subset of developers with access to GitHub Copilot, an AI-based coding assistant that suggests intelligent code completions. Though each separate experiment is noisy, combined across all three experiments and 4,867 software developers, our analysis reveals a 26.08% increase (SE: 10.3%) in the number of completed tasks among developers using the AI tool. Notably, less experienced developers showed higher adoption rates and greater productivity gains.
논문 링크
더 읽어보기
https://x.com/emollick/status/1831739827773174218
OLMoE: 개방형 전문가 혼합 언어 모델 / OLMoE: Open Mixture-of-Experts Language Models
논문 소개
희소 전문가 혼합을 활용하는 완전 개방형 LLM을 소개합니다. OLMoE는 7B 매개변수 모델이며 입력 토큰당 1B 활성 매개변수를 사용합니다. Llama-2-13B-Chat 및 DeepSeekMoE 16B보다 성능이 우수하다고 주장하는 인스트럭션 조정 버전도 있습니다.
Introduces a fully-open LLM that leverages sparse Mixture-of-Experts. OLMoE is a 7B parameter model and uses 1B active parameters per input token; there is also an instruction-tuned version that claims to outperform Llama-2-13B-Chat and DeepSeekMoE 16B.
논문 초록(Abstract)
희소 전문가 혼합(MoE)을 활용하는 완전 개방형 최신 언어 모델인 OLMoE를 소개합니다. OLMoE-1B-7B는 70억 개의 매개변수를 가지고 있지만 입력 토큰당 1B만 사용합니다. 5조 개의 토큰으로 사전 학습하고 추가로 조정하여 OLMoE-1B-7B-Instruct를 생성합니다. 이 모델은 유사한 활성 매개변수를 가진 모든 사용 가능한 모델보다 성능이 뛰어나며, 심지어 Llama2-13B-Chat 및 DeepSeekMoE-16B와 같은 더 큰 모델을 능가합니다. MoE 훈련에 대한 다양한 실험을 제시하고, 높은 전문성을 보여주는 모델의 라우팅을 분석하며, 모델 가중치, 훈련 데이터, 코드 및 로그 등 작업의 모든 측면을 오픈 소스화합니다.
We introduce OLMoE, a fully open, state-of-the-art language model leveraging sparse Mixture-of-Experts (MoE). OLMoE-1B-7B has 7 billion (B) parameters but uses only 1B per input token. We pretrain it on 5 trillion tokens and further adapt it to create OLMoE-1B-7B-Instruct. Our models outperform all available models with similar active parameters, even surpassing larger ones like Llama2-13B-Chat and DeepSeekMoE-16B. We present various experiments on MoE training, analyze routing in our model showing high specialization, and open-source all aspects of our work: model weights, training data, code, and logs.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1831357563620753577
LongCite: 긴 문맥의 QA에서 세분화된 인용을 생성할 수 있도록 LLM 활성화하기 / LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA
논문 소개
대규모 SFT 데이터셋을 기성 LLM과 합성하여 인용을 통한 긴 문맥의 질문 답변을 개선하고, 긴 문맥에서 인용 생성 기능을 강화하는 동시에 응답 정확도를 개선하는 8B 및 9B 파라미터 모델을 학습하며, 제안된 LongBench-Cite 벤치마크에서 GPT-4o를 능가한다고 주장합니다.
Synthesizes a large-scale SFT dataset with off-the-shelf LLMs to improve long-context question answering with citations; it trains 8B and 9B parameter models that enhance citation generation capabilities from lengthy contexts while improving response correctness; claims to even surpass GPT-4o on their proposed LongBench-Cite benchmark.
논문 초록(Abstract)
현재의 장문맥 대규모 언어 모델(LLM)은 광범위한 텍스트를 기반으로 사용자의 질문에 답하는 데 있어 인상적인 능력을 보여주었지만, 응답에 인용이 부족하여 사용자 검증이 어렵고 잠재적인 착각으로 인해 신뢰성에 대한 우려가 제기되고 있습니다. 이번 작업에서는 긴 문맥의 LLM이 세분화된 문장 수준의 인용이 포함된 답변을 생성하여 충실도와 검증 가능성을 개선하는 것을 목표로 합니다. 먼저 인용을 통한 장문 문맥 질의응답(LQAC)에서 현재 LLM의 성능을 평가하기 위한 자동화된 벤치마크인 LongBench-Cite를 도입하여 상당한 개선의 여지가 있음을 밝혀냈습니다. 이를 위해 기성 LLM을 활용하여 정확한 문장 수준의 인용이 포함된 긴 문맥 QA 인스턴스를 자동으로 생성하는 새로운 파이프라인인 CoF(Coarse to Fine)를 제안하고, 이 파이프라인을 활용하여 LQAC용 대규모 SFT 데이터 세트인 LongCite-45k를 구축합니다. 마지막으로, LongCite-45k 데이터 세트를 사용하여 LongCite-8B와 LongCite-9B를 학습시켜 단일 출력에서 정확한 응답과 세분화된 문장 수준의 인용을 성공적으로 생성할 수 있도록 합니다. LongBench-Cite에 대한 평가 결과에 따르면 훈련된 모델이 GPT-4o를 비롯한 고급 독점 모델을 능가하는 최첨단 인용 품질을 달성하는 것으로 나타났습니다.
Though current long-context large language models (LLMs) have demonstrated impressive capacities in answering user questions based on extensive text, the lack of citations in their responses makes user verification difficult, leading to concerns about their trustworthiness due to their potential hallucinations. In this work, we aim to enable long-context LLMs to generate responses with fine-grained sentence-level citations, improving their faithfulness and verifiability. We first introduce LongBench-Cite, an automated benchmark for assessing current LLMs' performance in Long-Context Question Answering with Citations (LQAC), revealing considerable room for improvement. To this end, we propose CoF (Coarse to Fine), a novel pipeline that utilizes off-the-shelf LLMs to automatically generate long-context QA instances with precise sentence-level citations, and leverage this pipeline to construct LongCite-45k, a large-scale SFT dataset for LQAC. Finally, we train LongCite-8B and LongCite-9B using the LongCite-45k dataset, successfully enabling their generation of accurate responses and fine-grained sentence-level citations in a single output. The evaluation results on LongBench-Cite show that our trained models achieve state-of-the-art citation quality, surpassing advanced proprietary models including GPT-4o.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1831522905009828051
MemLong: 메모리 증강 검색을 통한 긴 텍스트 모델링 / MemLong: Memory-Augmented Retrieval for Long Text Modeling
논문 소개
외부 리트리버를 활용하여 기록 정보를 검색함으로써 긴 컨텍스트 LLM의 기능을 향상시키고, 긴 컨텍스트 벤치마크에서 다른 SoTA LLM을 지속적으로 능가하며, 단일 3090 GPU에서 컨텍스트 길이를 4k에서 최대 80k까지 확장할 수 있습니다.
Utilizes an external retriever for retrieving historical information which enhances the capabilities of long-context LLMs; it consistently outperforms other SoTA LLMs on long-context benchmarks and can extend the context length on a single 3090 GPU from 4k up to 80k.
논문 초록(Abstract)
최근 대규모 언어 모델(LLM)의 발전은 다양한 분야에서 괄목할 만한 성과를 거두었습니다. 그러나 주의 메커니즘의 시공간적 복잡성과 생성 시 키-값 캐시의 메모리 소비 증가로 인해 긴 컨텍스트를 처리하는 것은 LLM의 중요한 과제로 남아 있습니다. 이 연구에서는 MemLong을 소개합니다: 긴 텍스트 생성을 위한 메모리 증강 검색은 과거 정보 검색을 위해 외부 검색기를 활용하여 긴 문맥 언어 모델링의 기능을 향상시키기 위해 고안된 방법입니다. MemLong은 차별화할 수 없는 'ret-mem' 모듈과 부분적으로 훈련 가능한 디코더 전용 언어 모델을 결합하고 의미 수준 관련 청크를 활용하는 세분화되고 제어 가능한 검색 주의 메커니즘을 도입합니다. 여러 장문 언어 모델링 벤치마크에 대한 종합적인 평가 결과, MemLong은 다른 최신 LLM보다 일관되게 우수한 성능을 발휘하는 것으로 나타났습니다. 더 중요한 것은 MemLong은 단일 3090 GPU에서 컨텍스트 길이를 4k에서 최대 80k까지 확장할 수 있다는 점입니다. 관련 코드는 GitHub - Bui1dMySea/MemLong 에서 확인할 수 있습니다
Recent advancements in Large Language Models (LLMs) have yielded remarkable success across diverse fields. However, handling long contexts remains a significant challenge for LLMs due to the quadratic time and space complexity of attention mechanisms and the growing memory consumption of the key-value cache during generation. This work introduces MemLong: Memory-Augmented Retrieval for Long Text Generation, a method designed to enhance the capabilities of long-context language modeling by utilizing an external retriever for historical information retrieval. MemLong combines a non-differentiable ``ret-mem'' module with a partially trainable decoder-only language model and introduces a fine-grained, controllable retrieval attention mechanism that leverages semantic-level relevant chunks. Comprehensive evaluations on multiple long-context language modeling benchmarks demonstrate that MemLong consistently outperforms other state-of-the-art LLMs. More importantly, MemLong can extend the context length on a single 3090 GPU from 4k up to 80k. Our code is available at GitHub - Bui1dMySea/MemLong
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1830610367854112799
판도라의 상자 또는 알라딘의 램프: 대규모 언어 모델에서 RAG 노이즈의 역할을 밝히는 종합 분석 / Pandora's Box or Aladdin's Lamp: A Comprehensive Analysis Revealing the Role of RAG Noise in Large Language Models
논문 소개
다양한 종류의 노이즈 정보가 RAG의 성능에 미치는 영향을 측정하는 벤치마크(NoiserBench)를 제안하고, 연구된 다양한 종류의 유익한 노이즈(예: 의미, 데이터 유형, 불법 문장) 중에서 불법 문장 노이즈가 모델과 데이터 세트 전반에서 가장 향상된 모델 성능을 보인다고 보고합니다.
Proposes a benchmark (NoiserBench) to measure how different kinds of noisy information affect RAG's performance; reports that from different kinds of beneficial noise studied (e.g., semantic, datatype, and illegal sentence), illegal sentence noise exhibits the most improved model performance across models and datasets.
논문 초록(Abstract)
검색 증강 생성(RAG)은 대규모 언어 모델(LLM)의 환각 문제를 해결하기 위한 중요한 방법으로 부상했습니다. 최근의 연구는 RAG 모델을 복잡한 노이즈 시나리오로 확장했지만, 이러한 탐색은 종종 제한된 노이즈 유형에 국한되고 노이즈가 본질적으로 LLM에 해로운 것으로 전제하여 실제 검색 환경에서 벗어날 수 있고 실제 적용 가능성을 제한할 수 있습니다. 이 백서에서는 언어적 관점에서 7가지 노이즈 유형을 정의하고 여러 데이터 세트와 추론 작업을 아우르는 포괄적인 평가 프레임워크인 노이즈 RAG 벤치마크(NoiserBench)를 구축합니다. 다양한 아키텍처와 규모를 가진 8개의 대표적인 LLM에 대한 경험적 평가를 통해 이러한 노이즈를 LLM에 유익한 노이즈(일명 유익한 노이즈)와 LLM에 해로운 노이즈(일명 유해한 노이즈)의 두 가지 실질적인 그룹으로 더 분류할 수 있음을 밝혀냈습니다. 일반적으로 유해한 노이즈는 성능을 저하시키지만, 유익한 노이즈는 모델 기능의 여러 측면과 전반적인 성능을 향상시킬 수 있습니다. 저희의 분석은 보다 강력하고 적응력이 뛰어난 RAG 솔루션을 개발하고 다양한 검색 시나리오에서 환각을 완화하기 위한 인사이트를 제공합니다.
Retrieval-Augmented Generation (RAG) has emerged as a crucial method for addressing hallucinations in large language models (LLMs). While recent research has extended RAG models to complex noisy scenarios, these explorations often confine themselves to limited noise types and presuppose that noise is inherently detrimental to LLMs, potentially deviating from real-world retrieval environments and restricting practical applicability. In this paper, we define seven distinct noise types from a linguistic perspective and establish a Noise RAG Benchmark (NoiserBench), a comprehensive evaluation framework encompassing multiple datasets and reasoning tasks. Through empirical evaluation of eight representative LLMs with diverse architectures and scales, we reveal that these noises can be further categorized into two practical groups: noise that is beneficial to LLMs (aka beneficial noise) and noise that is harmful to LLMs (aka harmful noise). While harmful noise generally impairs performance, beneficial noise may enhance several aspects of model capabilities and overall performance. Our analysis offers insights for developing more robust, adaptable RAG solutions and mitigating hallucinations across diverse retrieval scenarios.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1830984315326660617
AI 정렬의 기본 설정 그 이상 / Beyond Preferences in AI Alignment
논문 소개
인간 선호도 조정으로 알려진 AI 정렬의 지배적인 관행에 도전하고, 인간 선호도 조정이 어떤 방식으로 인간 가치의 두꺼운 의미적 내용을 포착하지 못하는지 설명하며, AI 정렬은 인간의 선호도에 맞춰 정렬하는 대신 사회적 역할에 적합한 규범적 기준에 따라 정렬해야 한다는 리프레이밍이 필요하다고 주장합니다.
Challenges the dominant practice of AI alignment known as human preference tuning; explains in what ways human preference tuning fails to capture the thick semantic content of human values; argues that AI alignment needs reframing, instead of aligning on human preferences, AI should align on normative standards appropriate to their social roles.
논문 초록(Abstract)
AI 조율의 지배적인 관행은 (1) 선호가 인간의 가치를 적절히 표현하고, (2) 인간의 합리성은 선호의 만족을 극대화하는 측면에서 이해될 수 있으며, (3) AI 시스템이 인간의 가치에 따라 안전하게 작동하도록 하기 위해 한 명 이상의 인간의 선호에 맞춰 조정되어야 한다는 것을 전제로 합니다. 암묵적으로 따르든 명시적으로 지지하든, 이러한 약속은 AI 정렬에 대한 선호주의적 접근 방식을 구성합니다. 이 백서에서는 우선주의적 접근법의 특징과 문제점을 살펴보고, 추가 연구가 필요한 개념적 및 기술적 대안을 설명합니다. 먼저 설명적 모델로서 합리적 선택 이론의 한계를 조사하여 선호가 인간 가치의 두꺼운 의미적 내용을 포착하지 못하는 방법과 효용 표현이 이러한 가치의 비보상 가능성을 무시하는 방법을 설명합니다. 그런 다음 인간과 AI에 대한 기대효용이론(EUT)의 규범성을 비판하고, 합리적인 에이전트가 어떻게 EUT를 따를 필요가 없는지를 보여주는 논거를 바탕으로 EUT가 어떤 선호가 규범적으로 허용되는지에 대해 침묵하는 방식을 강조합니다. 마지막으로, 이러한 한계로 인해 AI 조율의 목표를 재구성해야 한다고 주장합니다: AI 시스템은 인간 사용자, 개발자 또는 인류 전체의 선호도에 부합하는 대신 범용 비서의 역할과 같은 사회적 역할에 적합한 규범적 표준에 부합해야 합니다. 또한 이러한 표준은 모든 관련 이해관계자가 협상하고 합의해야 합니다. 이러한 대안적 정렬 개념에 따라 다양한 AI 시스템은 다원적이고 다양한 가치관에도 불구하고 상호 이익을 증진하고 피해를 제한하는 규범적 표준에 따라 다양한 목적을 달성할 수 있을 것입니다.
The dominant practice of AI alignment assumes (1) that preferences are an adequate representation of human values, (2) that human rationality can be understood in terms of maximizing the satisfaction of preferences, and (3) that AI systems should be aligned with the preferences of one or more humans to ensure that they behave safely and in accordance with our values. Whether implicitly followed or explicitly endorsed, these commitments constitute what we term a preferentist approach to AI alignment. In this paper, we characterize and challenge the preferentist approach, describing conceptual and technical alternatives that are ripe for further research. We first survey the limits of rational choice theory as a descriptive model, explaining how preferences fail to capture the thick semantic content of human values, and how utility representations neglect the possible incommensurability of those values. We then critique the normativity of expected utility theory (EUT) for humans and AI, drawing upon arguments showing how rational agents need not comply with EUT, while highlighting how EUT is silent on which preferences are normatively acceptable. Finally, we argue that these limitations motivate a reframing of the targets of AI alignment: Instead of alignment with the preferences of a human user, developer, or humanity-writ-large, AI systems should be aligned with normative standards appropriate to their social roles, such as the role of a general-purpose assistant. Furthermore, these standards should be negotiated and agreed upon by all relevant stakeholders. On this alternative conception of alignment, a multiplicity of AI systems will be able to serve diverse ends, aligned with normative standards that promote mutual benefit and limit harm despite our plural and divergent values.
논문 링크
더 읽어보기
https://x.com/xuanalogue/status/1831044533779669136
소프트웨어 엔지니어링을 위한 대규모 언어 모델 기반 에이전트: 서베이 논문 / Large Language Model-Based Agents for Software Engineering: A Survey
논문 소개
요구 사항 엔지니어링에서 테스트 생성, 소프트웨어 유지 관리에 이르는 다양한 관점을 다루는 소프트웨어 엔지니어링용 LLM 기반 에이전트에 대한 설문조사 보고서입니다.
A survey paper on LLM-based agents for software engineering, covering perspectives ranging from requirement engineering to test generation to software maintenance.
논문 초록(Abstract)
최근 대규모 언어 모델(LLM)의 발전은 AI 에이전트의 새로운 패러다임, 즉 LLM 기반 에이전트를 형성했습니다. LLM 기반 에이전트는 독립형 LLM에 비해 외부 리소스 및 도구를 인식하고 활용하는 기능으로 LLM을 강화함으로써 LLM의 범용성과 전문성을 크게 확장합니다. 현재까지 LLM 기반 에이전트는 소프트웨어 엔지니어링(SE)에 적용되어 괄목할 만한 효과를 보이고 있습니다. 여러 에이전트와 인간 상호 작용 간의 시너지 효과는 복잡한 실제 SE 문제를 해결하는 데 더욱 큰 가능성을 제공합니다. 이 연구에서는 SE를 위한 LLM 기반 에이전트에 대한 포괄적이고 체계적인 조사를 제시합니다. 106개의 논문을 수집하여 SE 관점과 에이전트 관점의 두 가지 관점으로 분류합니다. 또한 이 중요한 영역의 미해결 과제와 향후 방향에 대해서도 논의합니다. 이 설문조사의 저장소는 GitHub - FudanSELab/Agent4SE-Paper-List: Repository for the paper "Large Language Model-Based Agents for Software Engineering: A Survey". 에 있습니다.
The recent advance in Large Language Models (LLMs) has shaped a new paradigm of AI agents, i.e., LLM-based agents. Compared to standalone LLMs, LLM-based agents substantially extend the versatility and expertise of LLMs by enhancing LLMs with the capabilities of perceiving and utilizing external resources and tools. To date, LLM-based agents have been applied and shown remarkable effectiveness in Software Engineering (SE). The synergy between multiple agents and human interaction brings further promise in tackling complex real-world SE problems. In this work, we present a comprehensive and systematic survey on LLM-based agents for SE. We collect 106 papers and categorize them from two perspectives, i.e., the SE and agent perspectives. In addition, we discuss open challenges and future directions in this critical domain. The repository of this survey is at GitHub - FudanSELab/Agent4SE-Paper-List: Repository for the paper "Large Language Model-Based Agents for Software Engineering: A Survey"..
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1832115557749121385
원문
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.*
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~