[2024/07/29 ~ 08/04] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/07/29 ~ 08/04] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주 선정된 논문들을 살펴보면 크게 두 가지 트렌드를 발견할 수 있습니다. 첫 번째는 자연어 처리(NLP)와 관련된 연구가 주를 이루고 있다는 점이고, 두 번째는 이와 연계하여 대화 시스템과 관련된 기술의 발전에 중점을 둔 연구가 많다는 것입니다. 이를 바탕으로, 이번 주는 특히 '대화형 AI'와 '언어 모델의 발전'이 큰 관심사임을 알 수 있습니다.

  • 언어 모델과 대화 시스템의 발전은 다양한 응용 분야에서 매우 중요합니다. 예를 들어, "Meta-Rewarding LLMs", "Improved RAG with Self-Reasoning", "Adaptive RAG for Conversations Systems" 와 같은 논문들은 언어 이해와 생성 능력의 향상을 통해 보다 자연스러운 대화형 AI를 개발하는 데 초점을 맞추고 있습니다. 이러한 연구들은 기계가 인간의 언어를 보다 정확하게 이해하고, 인간과 자연스럽게 대화할 수 있는 능력을 개발하는 것을 목표로 하고 있습니다.

  • 또한, "Constrained-CoT" 나 "The Art of Refusal" 과 같은 논문들은 기계가 언어를 이해하고 처리하는 과정에서의 제약 조건이나 거절의 미학과 같은 새로운 개념을 다루고 있어 대화 시스템의 질적인 발전을 지향합니다.

  • 이처럼, 이번 주의 논문들은 인공지능이 인간의 언어를 더욱 깊이 있게 이해하고, 더욱 유연하게 대화할 수 있는 방향으로 기술이 발전하고 있음을 보여줍니다. 이는 향후 인공지능이 사람들의 일상생활 속에서 더욱 자연스럽고 유용하게 통합될 수 있는 가능성을 시사합니다.


메타 보상 언어 모델: 메타 심사자로서의 LLM을 통한 자체 개선 조정 / Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

논문 소개

LLM이 스스로 판단하고 그 피드백을 사용하여 판단 능력을 향상시키는 자기 개선 정렬 기법(사람의 감독 없이)을 제안하고, 이 LLM-as-a-Meta-Judge 접근 방식을 활용하면 LLM의 판단 능력과 지침을 따르는 능력이 향상됨을 보여줍니다; 더 나은 응답을 생성하기 위해 자기 개선을 하는 것(행위)만으로는 금방 포화상태에 이르고, 이 작업은 보상 해킹과 같은 문제를 피하기 위해 LLM의 자체 판단 능력(판단)을 개선하며, 행위와 판단 역할 외에 메타 판사라는 세 번째 역할이 모델 자신의 판단을 평가하는 데 사용된다.

Proposes a self-improving alignment technique (no human supervision) where the LLM judges its own judgements and uses the feedback to improve its judgment skills; shows that leveraging this LLM-as-a-Meta-Judge approach improves the LLM's ability to judge and follow instructions; just doing self-improvement to generate better responses (act) saturates quickly; this work improves the LLM's ability to judge itself (judge) to avoid issues like reward hacking; in addition to the act and judge roles, a third role called meta-judge is used to evaluate the model's own judgements.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 많은 영역에서 인간의 지식을 빠르게 능가하고 있습니다. 이러한 모델을 개선하기 위해서는 전통적으로 값비싼 인간 데이터에 의존해 왔지만, 최근의 자기 보상 메커니즘(Yuan et al., 2024)은 인간 라벨러에 의존하지 않고 스스로 응답을 판단함으로써 LLM을 개선할 수 있음을 보여주었습니다. 그러나 기존 방법들은 주로 판단 능력보다는 모델 응답을 개선하는 데 초점을 맞추었기 때문에 반복 훈련 중에 빠르게 포화 상태가 됩니다. 이 문제를 해결하기 위해 저희는 모델이 스스로 판단하고 그 피드백을 통해 판단 능력을 개선하는 새로운 메타보상 단계를 자기 개선 프로세스에 도입했습니다. 놀랍게도 이 비지도 방식은 모델의 판단 능력과 지시를 따르는 능력을 향상시켰으며, 이는 알파카에벌 2에서 Llama-3-8B-Instruct의 승률이 22.9%에서 39.4%로, Arena-Hard에서 20.6%에서 29.1%로 향상된 것으로 입증되었습니다. 이러한 결과는 사람의 감독 없이도 스스로 개선할 수 있는 모델의 잠재력을 강력하게 시사합니다.

Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818680848058585119


마인드서치: 인간의 마음을 모방한 딥 AI 검색기 / MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

논문 소개

복잡한 웹 정보 검색 및 통합 작업을 수행할 수 있는 LLM 기반 멀티 에이전트 프레임워크 제시, 웹 플래너가 복잡한 쿼리를 효과적으로 분해한 후 웹 검색기가 인터넷에서 계층적 정보 검색을 수행하여 검색된 정보의 관련성을 개선, 계획 구성 요소는 복잡한 문제 해결 과정을 더 잘 모델링하는 데 사용되는 반복 그래프 구성으로 구동, 멀티 에이전트 프레임워크는 추론 및 검색 작업을 전문 에이전트에 분산하여 긴 컨텍스트 문제를 더 잘 처리합니다.

Presents an LLM-based multi-agent framework to perform complex web-information seeking and integration tasks; a web planner effectively decomposes complex queries followed by a web searcher that performs hierarchical information retrieval on the Internet to improve the relevancy of the retrieved information; the planning component is powered by an iterative graph construction which is used to better model complex problem-solving processes; the multi-agent framework handles long context problems better by distributing reasoning and retrieval tasks to specialized agents.

논문 초록(Abstract)

정보 탐색과 통합은 엄청난 시간과 노력이 필요한 복잡한 인지 작업입니다. 대규모 언어 모델의 괄목할 만한 발전에 영감을 받은 최근의 연구들은 LLM과 검색 엔진을 결합하여 이 과제를 해결하려고 시도합니다. 그러나 이러한 방법들은 (1) 복잡한 요청을 한 번 검색 엔진에서 정확하고 완벽하게 검색할 수 없는 경우가 많고 (2) 통합해야 할 해당 정보가 방대한 노이즈와 함께 여러 웹 페이지에 분산되어 있으며 (3) 내용이 긴 웹 페이지가 많으면 LLM의 최대 문맥 길이를 빠르게 초과할 수 있다는 세 가지 문제로 인해 여전히 만족할 만한 성능을 얻지 못하고 있습니다. 이러한 문제를 해결하는 인간의 인지 프로세스에서 영감을 받아 웹 정보 탐색 및 통합에 있어 인간의 마음을 모방하는 MindSearch를 도입했으며, 이는 간단하면서도 효과적인 LLM 기반 멀티에이전트 프레임워크로 구현할 수 있습니다. 웹플래너는 다단계 정보 탐색에 대한 인간의 마음을 동적 그래프 구성 프로세스로 모델링하여 사용자 쿼리를 그래프의 노드로서 원자적인 하위 질문으로 분해하고 WebSearcher의 검색 결과를 기반으로 그래프를 점진적으로 확장합니다. 각 하위 질문을 맡은 WebSearcher는 검색 엔진을 통해 계층적 정보 검색을 수행하고 WebPlanner를 위한 유용한 정보를 수집합니다. MindSearch의 다중 에이전트 설계를 통해 전체 프레임워크는 사람이 3시간 동안 노력해야 하는 대규모(예: 300개 이상) 웹 페이지에서 3분 만에 정보를 병렬적으로 검색하고 통합할 수 있습니다. MindSearch는 폐쇄형 및 개방형 QA 문제 모두에서 깊이와 폭의 측면에서 응답 품질이 크게 향상되었음을 보여줍니다. 또한, 인턴LM2.5-7B에 기반한 MindSearch의 응답은 ChatGPT-Web 및 Perplexity.ai 애플리케이션보다 사람이 선호하는 것으로 나타났는데, 이는 이미 독점적인 AI 검색 엔진에 비해 경쟁력 있는 솔루션을 제공할 수 있음을 의미합니다.

Information seeking and integration is a complex cognitive task that consumes enormous time and effort. Inspired by the remarkable progress of Large Language Models, recent works attempt to solve this task by combining LLMs and search engines. However, these methods still obtain unsatisfying performance due to three challenges: (1) complex requests often cannot be accurately and completely retrieved by the search engine once (2) corresponding information to be integrated is spread over multiple web pages along with massive noise, and (3) a large number of web pages with long contents may quickly exceed the maximum context length of LLMs. Inspired by the cognitive process when humans solve these problems, we introduce MindSearch to mimic the human minds in web information seeking and integration, which can be instantiated by a simple yet effective LLM-based multi-agent framework. The WebPlanner models the human mind of multi-step information seeking as a dynamic graph construction process: it decomposes the user query into atomic sub-questions as nodes in the graph and progressively extends the graph based on the search result from WebSearcher. Tasked with each sub-question, WebSearcher performs hierarchical information retrieval with search engines and collects valuable information for WebPlanner. The multi-agent design of MindSearch enables the whole framework to seek and integrate information parallelly from larger-scale (e.g., more than 300) web pages in 3 minutes, which is worth 3 hours of human effort. MindSearch demonstrates significant improvement in the response quality in terms of depth and breadth, on both close-set and open-set QA problems. Besides, responses from MindSearch based on InternLM2.5-7B are preferable by humans to ChatGPT-Web and Perplexity.ai applications, which implies that MindSearch can already deliver a competitive solution to the proprietary AI search engine.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818673381069226053


자가 추론으로 검색 증강 언어 모델 개선하기 / Improving Retrieval Augmented Language Model with Self-Reasoning

논문 소개

RAG 시스템의 신뢰성과 추적성을 개선하기 위해 엔드투엔드 자가 추론 프레임워크를 제시하고, LLM 자체에서 생성된 추론 궤적을 활용하며, LLM은 다음 세 가지 프로세스를 수행하는 데 사용됩니다: 1) 연관성 인식: 검색된 문서와 질문 간의 연관성을 판단하고, 2) 증거 인식 선택: 관련 문서를 선택하여 인용한 다음 인용된 문서에서 핵심 문장의 스니펫을 증거로 자동 선택하며, 3) 궤적 분석: 앞의 두 프로세스에서 생성된 모든 수집된 자가 추론 궤적을 기반으로 간결한 분석을 생성한 후 최종 추론된 답변을 제공하며, 이 방법은 모델이 보다 선택적으로 관련 문서와 관련 없는 문서를 추론하고 구분하여 전체 RAG 시스템의 정확도를 향상시키고, 2K 훈련 샘플(GPT-4에서 생성)만으로 GPT-4와 비슷한 성능을 달성합니다.

Presents an end-to-end self-reasoning framework to improve the reliability and traceability of RAG systems; leverages the reasoning trajectories generated by the LLM itself; the LLM is used to carry out the following 3 processes: 1) relevance-aware: judges the relevance between the retrieved documents and the question, 2) evidence-aware selective: chooses and cites relevant documents, and then automatically selects snippets of key sentences as evidence from the cited documents, and 3) trajectory analysis: generates a concise analysis based on all gathered self-reasoning trajectories generated by the previous 2 processes and then provides the final inferred answer; this method helps the model to be more selective, reason and distinguish relevant and irrelevant documents, therefore improving the accuracy of the overall RAG system; the framework achieves comparable performance to GPT-4 with only 2K training samples (generated by GPT-4).

논문 초록(Abstract)

검색 증강 언어 모델(RALM)은 추론 과정에서 외부 지식을 통합하여 대규모 언어 모델(LLM)에서 발생하는 사실적 착각을 완화함으로써 지식 집약적인 작업에서 놀라운 성능을 보여 왔습니다. 이러한 발전에도 불구하고 RALM을 구현하는 데 있어 특히 신뢰성과 추적성과 관련된 문제는 여전히 남아 있습니다. 구체적으로, 관련 없는 문서 검색으로 인해 도움이 되지 않는 응답이 생성되거나 LLM의 성능이 저하될 수 있으며, 생성된 결과물에 적절한 인용이 부족하면 모델의 신뢰성을 검증하는 작업이 복잡해집니다. 이를 위해 저희는 LLM 자체에서 생성된 추론 궤적을 활용하는 것을 핵심 아이디어로 하는 새로운 자가 추론 프레임워크를 제안하여 RALM의 신뢰성과 추적성을 개선하고자 합니다. 이 프레임워크는 관련성 인식 프로세스, 증거 인식 선택 프로세스, 궤적 분석 프로세스의 세 가지 프로세스로 자가 추론 궤적을 구성하는 것을 포함합니다. 저희는 4개의 공개 데이터세트(2개의 짧은 형식의 QA 데이터세트, 1개의 긴 형식의 QA 데이터세트, 1개의 사실 검증 데이터세트)에 대해 프레임워크를 평가하여 2,000개의 훈련 샘플만 사용하면서도 기존 최신 모델을 능가하고 GPT-4와 비슷한 성능을 달성할 수 있는 저희 방법의 우수성을 입증했습니다.

The Retrieval-Augmented Language Model (RALM) has shown remarkable performance on knowledge-intensive tasks by incorporating external knowledge during inference, which mitigates the factual hallucinations inherited in large language models (LLMs). Despite these advancements, challenges persist in the implementation of RALMs, particularly concerning their reliability and traceability. To be specific, the irrelevant document retrieval may result in unhelpful response generation or even deteriorate the performance of LLMs, while the lack of proper citations in generated outputs complicates efforts to verify the trustworthiness of the models. To this end, we propose a novel self-reasoning framework aimed at improving the reliability and traceability of RALMs, whose core idea is to leverage reasoning trajectories generated by the LLM itself. The framework involves constructing self-reason trajectories with three processes: a relevance-aware process, an evidence-aware selective process, and a trajectory analysis process. We have evaluated our framework across four public datasets (two short-form QA datasets, one long-form QA dataset, and one fact verification dataset) to demonstrate the superiority of our method, which can outperform existing state-of-art models and can achieve comparable performance with GPT-4, while only using 2,000 training samples.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818139150882664696


간결한 생각: 출력 길이가 LLM 추론 및 비용에 미치는 영향 / Concise Thoughts: Impact of Output Length on LLM Reasoning and Cost

논문 소개

성능 저하 없이 모델 추론 출력 길이 제한: LLaMA2-70b의 추론을 100단어로 제한하면 GSM8K에서 정확도가 36.01%(CoT)에서 41.07%(CCoT)로 향상되는 동시에 평균 출력 길이가 28단어 줄어드는 것으로 나타났습니다.

Limits the model reasoning output length without sacrificing performance; shows that constraining the reasoning of LLaMA2-70b to 100 words improves the accuracy from 36.01% (CoT) to 41.07% (CCoT) on GSM8K, while reducing the average output length by 28 words.

논문 초록(Abstract)

오늘날의 대규모 언어 모델(LLM)은 까다로운 질문 답변 작업을 해결할 수 있으며, 생각의 사슬(CoT)과 같은 신속한 엔지니어링 기법이 출력의 설명과 정확성을 향상시키는 데 주목을 받고 있습니다. 그럼에도 불구하고 모델은 긴 추론 세부 사항으로 보강된 답변을 생성하는 데 상당한 시간이 필요합니다. 이 문제를 해결하기 위해 이 백서에서는 출력 길이가 LLM 추론 파이프라인에 미치는 영향을 분석하고 이를 '텍스트 간결성'이라는 관점에서 평가하는 새로운 메트릭을 제안합니다. 또한 모델이 출력 길이를 제한하도록 장려하는 정교한 프롬프트 엔지니어링 전략인 CCoT(Constrained-CoT)를 통해 출력 길이를 제어하는 것이 미치는 영향도 살펴봅니다. 사전 학습된 LLM을 대상으로 한 실험을 통해 제안된 메트릭의 이점과 다양한 모델에서 CCoT의 효과를 입증했습니다. 예를 들어, LLaMA2-70b의 추론을 100단어로 제한하면 GSM8K 데이터 세트에서 정확도가 36.01%(CoT)에서 41.07%(CCoT)로 향상되는 동시에 평균 출력 길이가 28단어 감소합니다.

Today's large language models (LLMs) can solve challenging question-answering tasks, and prompt engineering techniques, such as chain-of-thought (CoT), have gained attention for enhancing the explanation and correctness of outputs. Nevertheless, models require significant time to generate answers augmented with lengthy reasoning details. To address this issue, this paper analyzes the impact of output lengths on LLM inference pipelines and proposes novel metrics to evaluate them in terms of \textit{correct conciseness}. It also examines the impact of controlling output length through a refined prompt engineering strategy, Constrained-CoT (CCoT), which encourages the model to limit output length. Experiments on pre-trained LLMs demonstrated the benefit of the proposed metrics and the effectiveness of CCoT across different models. For instance, constraining the reasoning of LLaMA2-70b to 100 words improves the accuracy from 36.01% (CoT) to 41.07% (CCoT) on the GSM8K dataset, while reducing the average output length by 28 words.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818133220484898992


대화형 시스템을 위한 적응형 검색-증강 생성(RAG) / Adaptive Retrieval-Augmented Generation for Conversational Systems

논문 소개

대화 시스템이 응답을 개선하기 위해 RAG가 필요한지 예측하는 게이팅 모델을 개발하고, RAG 기반 대화 시스템이 고품질 응답과 높은 세대 신뢰도를 생성할 가능성이 있음을 보여주며, 세대의 신뢰 수준과 증강 지식의 관련성 사이의 상관관계를 파악할 수 있다고 주장합니다.

Develops a gating model that predicts if a conversational system requires RAG to improve its responses; shows that RAG-based conversational systems have the potential to generate high-quality responses and high generation confidence; it also claims to identify a correlation between the generation's confidence level and the relevance of the augmented knowledge.

논문 초록(Abstract)

대화형 시스템 개발에 대규모 언어 모델을 통합하는 데 성공했지만, 많은 연구에서 유익한 응답을 위해 외부 지식을 검색하고 증강하는 것이 효과적이지 않다는 것을 보여주었습니다. 따라서 기존의 많은 연구에서는 일반적으로 대화형 시스템에서 검색 증강 생성(RAG)이 명시적인 제어 없이 항상 필요하다고 가정합니다. 이는 이러한 필요성에 대한 연구 의문을 제기합니다. 이 연구에서는 시스템 응답의 각 턴마다 외부 지식으로 증강해야 할 필요성을 조사할 것을 제안합니다. 특히 적응형 증강의 이분법적 선택에 대한 인간의 판단을 활용하여 대화 맥락과 관련 입력을 모델링하여 대화 시스템이 향상된 응답을 위해 RAG가 필요한지 예측하는 게이팅 모델인 RAGate를 개발합니다. 저희는 대화 모델과 다양한 대화 시나리오에 대한 균형 잡힌 분석을 통해 RAGate를 고안하고 적용하는 광범위한 실험을 수행합니다. 실험 결과와 분석은 RAG 기반 대화 시스템에서 RAGate를 효과적으로 적용하여 고품질 응답과 높은 생성 신뢰도로 적절한 RAG에 대한 시스템 응답을 식별할 수 있음을 보여줍니다. 이 연구는 또한 세대의 신뢰 수준과 증강 지식의 관련성 사이의 상관관계를 확인합니다.

Despite the success of integrating large language models into the development of conversational systems, many studies have shown the effectiveness of retrieving and augmenting external knowledge for informative responses. Hence, many existing studies commonly assume the always need for Retrieval Augmented Generation (RAG) in a conversational system without explicit control. This raises a research question about such a necessity. In this study, we propose to investigate the need for each turn of system response to be augmented with external knowledge. In particular, by leveraging human judgements on the binary choice of adaptive augmentation, we develop RAGate, a gating model, which models conversation context and relevant inputs to predict if a conversational system requires RAG for improved responses. We conduct extensive experiments on devising and applying RAGate to conversational models and well-rounded analyses of different conversational scenarios. Our experimental results and analysis indicate the effective application of RAGate in RAG-based conversational systems in identifying system responses for appropriate RAG with high-quality responses and a high generation confidence. This study also identifies the correlation between the generation's confidence level and the relevance of the augmented knowledge.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818843407977959756


ShieldGemma: Gemma 기반의 생성형 AI 콘텐츠 조정 / ShieldGemma: Generative AI Content Moderation Based on Gemma

논문 소개

Gemma 2를 기반으로 구축된 포괄적인 LLM 기반 안전 콘텐츠 검토 모델 제품군을 제공하며, 위험한 콘텐츠, 유해성, 혐오 발언 등 주요 유해 유형에 대한 분류기가 포함되어 있습니다.

Offers a comprehensive suite of LLM-based safety content moderation models built on Gemma 2; includes classifiers for key harm types such as dangerous content, toxicity, hate speech, and more.

논문 초록(Abstract)

젬마2를 기반으로 구축된 종합적인 LLM 기반 안전 콘텐츠 검토 모델 제품군인 ShieldGemma를 소개합니다. 이 모델은 사용자 입력과 LLM에서 생성된 결과물 모두에서 주요 유해 유형(음란물, 위험한 콘텐츠, 괴롭힘, 혐오 발언)의 안전 위험에 대한 강력한 최신 예측을 제공합니다. 공개 벤치마크와 내부 벤치마크 모두에서 평가한 결과, 라마 가드(공개 벤치마크에서 AU-PRC +10.8%), 와일드카드(+4.3%) 등 기존 모델에 비해 우수한 성능을 입증했습니다. 또한, 다양한 안전 관련 작업 및 그 이상에 적용할 수 있는 새로운 LLM 기반 데이터 큐레이션 파이프라인을 선보입니다. 주로 합성 데이터로 훈련된 모델에 대해 강력한 일반화 성능을 보여주었습니다. ShieldGemma를 출시함으로써 연구 커뮤니티에 귀중한 리소스를 제공하여 LLM 안전성을 향상시키고 개발자가 보다 효과적인 콘텐츠 중재 솔루션을 만들 수 있도록 지원합니다.

We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key harm types (sexually explicit, dangerous content, harassment, hate speech) in both user input and LLM-generated output. By evaluating on both public and internal benchmarks, we demonstrate superior performance compared to existing models, such as Llama Guard (+10.8% AU-PRC on public benchmarks) and WildCard (+4.3%). Additionally, we present a novel LLM-based data curation pipeline, adaptable to a variety of safety-related tasks and beyond. We have shown strong generalization performance for model trained mainly on synthetic data. By releasing ShieldGemma, we provide a valuable resource to the research community, advancing LLM safety and enabling the creation of more effective content moderation solutions for developers.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818837753292853349


페르소나짐: 페르소나 에이전트 및 LLM 평가하기 / PersonaGym: Evaluating Persona Agents and LLMs

논문 소개

LLM의 페르소나 에이전트 기능을 평가하기 위한 벤치마크를 제안하고, Claude 3.5 Sonnet이 훨씬 더 진보된 모델임에도 불구하고 GPT 3.5에 비해 PersonaS 점수가 2.97%밖에 향상되지 않았다는 사실을 발견합니다.

Proposes a benchmark to evaluate persona agent capabilities in LLMs; finds that Claude 3.5 Sonnet only has a 2.97% relative improvement in PersonaScore compared to GPT 3.5 despite being a much more advanced model.

논문 초록(Abstract)

할당된 페르소나에 따라 작동하는 LLM 에이전트인 페르소나 에이전트는 다양한 애플리케이션에서 인상적인 상황별 응답 기능을 입증했습니다. 이러한 페르소나 에이전트는 교육, 의료, 엔터테인먼트 등 다양한 분야에 걸쳐 상당한 향상을 제공하며, 모델 개발자는 다양한 사용자 요구 사항에 따라 에이전트 응답을 조정하여 에이전트 애플리케이션의 범위를 넓힐 수 있습니다. 그러나 각 페르소나 에이전트와 관련된 다양한 환경의 자유형 상호작용에서 페르소나 준수 여부를 평가하는 것이 복잡하기 때문에 페르소나 에이전트 성능을 평가하는 것은 매우 어렵습니다. 페르소나 에이전트를 평가하기 위한 최초의 동적 평가 프레임워크인 페르소나짐과 페르소나 에이전트에 대한 포괄적인 대규모 평가를 위해 의사 결정 이론에 기반한 최초의 자동화된 인간 연계 측정 지표인 페르소나스코어를 소개합니다. 200개의 페르소나와 10,000개의 질문을 포함하는 벤치마크를 사용하여 6개의 오픈 소스 및 클로즈 소스 LLM을 평가한 결과, 최첨단 모델 전반에서 페르소나 에이전트 기능의 발전 기회가 상당하다는 사실이 밝혀졌습니다. 예를 들어 클로드 3.5 소네트는 훨씬 더 진보된 모델임에도 불구하고 페르소나 점수가 GPT 3.5에 비해 2.97% 향상되는 데 그쳤습니다. 중요한 점은 모델 크기와 복잡성이 증가한다고 해서 반드시 페르소나 에이전트 기능이 향상되는 것은 아니며, 따라서 충실하고 성능이 우수한 페르소나 에이전트를 위한 알고리즘 및 아키텍처 발명이 시급히 필요하다는 점을 강조합니다.

Persona agents, which are LLM agents that act according to an assigned persona, have demonstrated impressive contextual response capabilities across various applications. These persona agents offer significant enhancements across diverse sectors, such as education, healthcare, and entertainment, where model developers can align agent responses to different user requirements thereby broadening the scope of agent applications. However, evaluating persona agent performance is incredibly challenging due to the complexity of assessing persona adherence in free-form interactions across various environments that are relevant to each persona agent. We introduce PersonaGym, the first dynamic evaluation framework for assessing persona agents, and PersonaScore, the first automated human-aligned metric grounded in decision theory for comprehensive large-scale evaluation of persona agents. Our evaluation of 6 open and closed-source LLMs, using a benchmark encompassing 200 personas and 10,000 questions, reveals significant opportunities for advancement in persona agent capabilities across state-of-the-art models. For example, Claude 3.5 Sonnet only has a 2.97% relative improvement in PersonaScore than GPT 3.5 despite being a much more advanced model. Importantly, we find that increased model size and complexity do not necessarily imply enhanced persona agent capabilities thereby highlighting the pressing need for algorithmic and architectural invention towards faithful and performant persona agents.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1817964944949739544


생성적 AI의 머신 언러닝: 설문 조사 / Machine Unlearning in Generative AI: A Survey

논문 소개

제너레이티브 AI의 머신 언러닝에 대한 종합적인 설문조사를 제공합니다.

Provides a comprehensive survey on machine unlearning in generative AI.

논문 초록(Abstract)

제너레이티브 AI 기술은 (멀티모달) 대규모 언어 모델과 비전 생성 모델 등 다양한 분야에 적용되고 있습니다. 이러한 기술의 놀라운 성능은 방대한 학습 데이터와 새로운 추론 능력에 기인한다고 볼 수 있습니다. 그러나 이러한 모델은 학습 데이터, 특히 웹 크롤링에서 얻은 민감하거나 편향되거나 위험한 정보를 기억하고 생성할 수 있습니다. 기존의 분류 작업을 위해 설계된 머신러닝 기법은 제너레이티브 AI에 적용할 수 없기 때문에 모델에서 바람직하지 않은 지식과 그 영향을 줄이거나 제거하기 위해 새로운 머신 언러닝(MU) 기법이 개발되고 있습니다. 새로운 문제 공식화, 평가 방법, 다양한 종류의 MU 기법의 장점과 한계에 대한 구조화된 논의 등 제너레이티브 AI에서 MU에 대한 여러 가지를 포괄적으로 살펴봅니다. 또한 MU 연구의 몇 가지 중요한 과제와 유망한 방향을 제시합니다. 엄선된 읽을거리 목록은 GitHub - franciscoliu/Awesome-GenAI-Unlearning 에서 확인할 수 있습니다.

Generative AI technologies have been deployed in many places, such as (multimodal) large language models and vision generative models. Their remarkable performance should be attributed to massive training data and emergent reasoning abilities. However, the models would memorize and generate sensitive, biased, or dangerous information originated from the training data especially those from web crawl. New machine unlearning (MU) techniques are being developed to reduce or eliminate undesirable knowledge and its effects from the models, because those that were designed for traditional classification tasks could not be applied for Generative AI. We offer a comprehensive survey on many things about MU in Generative AI, such as a new problem formulation, evaluation methods, and a structured discussion on the advantages and limitations of different kinds of MU techniques. It also presents several critical challenges and promising directions in MU research. A curated list of readings can be found: GitHub - franciscoliu/Awesome-GenAI-Unlearning.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818476462262906985


ThinK: 쿼리 기반 프루닝을 통한 키 캐시 간소화 / ThinK: Thinner Key Cache by Query-Driven Pruning

논문 소개

긴 컨텍스트 시나리오와 추론 측면에 중점을 두고, 가장 중요도가 낮은 채널을 선택적으로 가지치기하면서 관심도 가중치 손실을 최소화하는 쿼리 종속적 KV 캐시 가지치기 방법을 제시하여 KV 캐시 메모리 소비의 비효율성을 해결하기 위한 접근 방식을 제안합니다.

Proposes an approach to address inefficiencies in KV cache memory consumption; it focuses on the long-context scenarios and the inference side of things; it presents a query-dependent KV cache pruning method to minimize attention weight loss while selectively pruning the least significant channels.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 모델 크기와 시퀀스 길이의 증가를 활용하여 다양한 애플리케이션에서 전례 없는 성능을 달성함으로써 자연어 처리 분야에 혁명을 일으켰습니다. 그러나 이와 관련된 계산 및 메모리 비용의 증가는 특히 트랜스포머 주의 메커니즘의 4차적 복잡성으로 인해 긴 시퀀스를 관리할 때 상당한 문제를 야기합니다. 이 백서에서는 긴 컨텍스트 시나리오에 초점을 맞춰 추론 중 KV 캐시 메모리 소비의 비효율성을 해결합니다. 시퀀스 길이를 기반으로 메모리를 최적화하는 기존 접근 방식과 달리, 우리는 KV 캐시의 채널 차원이 불균형한 크기 분포와 주의 가중치의 낮은 순위 구조를 특징으로 하는 상당한 중복성을 나타낸다는 사실을 발견했습니다. 이러한 관찰을 바탕으로 가장 중요도가 낮은 채널을 선택적으로 가지치기를 하면서 관심도 가중치 손실을 최소화하도록 설계된 새로운 쿼리 종속적 KV 캐시 가지치기 방법인 ThinK를 제안합니다. 이 접근 방식은 모델 정확도를 유지하거나 향상시킬 뿐만 아니라 바닐라 KV 캐시 제거 방법에 비해 메모리 비용을 20% 이상 절감할 수 있습니다. 다양한 롱 시퀀스 데이터 세트에 대한 LLaMA3 및 Mistral 모델의 광범위한 평가를 통해 성능 저하 없이 효율적인 LLM 배포를 위한 새로운 선례를 제시하는 ThinK의 효율성을 확인했습니다. 또한 캐시 프루닝을 가치 캐시까지 확장하여 메모리와 계산 오버헤드를 모두 줄일 수 있는 ThinK의 다목적성과 폭넓은 적용 가능성을 보여줄 수 있는 잠재력을 설명합니다.

Large Language Models (LLMs) have revolutionized the field of natural language processing, achieving unprecedented performance across a variety of applications by leveraging increased model sizes and sequence lengths. However, the associated rise in computational and memory costs poses significant challenges, particularly in managing long sequences due to the quadratic complexity of the transformer attention mechanism. This paper focuses on the long-context scenario, addressing the inefficiencies in KV cache memory consumption during inference. Unlike existing approaches that optimize the memory based on the sequence lengths, we uncover that the channel dimension of the KV cache exhibits significant redundancy, characterized by unbalanced magnitude distribution and low-rank structure in attention weights. Based on these observations, we propose ThinK, a novel query-dependent KV cache pruning method designed to minimize attention weight loss while selectively pruning the least significant channels. Our approach not only maintains or enhances model accuracy but also achieves a reduction in memory costs by over 20% compared with vanilla KV cache eviction methods. Extensive evaluations on the LLaMA3 and Mistral models across various long-sequence datasets confirm the efficacy of ThinK, setting a new precedent for efficient LLM deployment without compromising performance. We also outline the potential of extending our method to value cache pruning, demonstrating ThinK's versatility and broad applicability in reducing both memory and computational overheads.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1818474655461621903


거절의 기술: 대규모 언어 모델에서 기권에 대한 설문 조사 / The Art of Refusal: A Survey of Abstention in Large Language Models

논문 소개

현재 LLM에서 기권을 달성하는 데 사용되는 방법을 조사하고, LLM에서 기권을 측정하는 데 사용되는 평가 벤치마크와 지표를 제공합니다.

A survey of the current methods used to achieve refusal in LLMs; provides evaluation benchmarks and metrics used to measure abstention in LLMs.

논문 초록(Abstract)

대규모 언어 모델(LLM)이 답변을 제공하지 않는 기권은 LLM 시스템을 구축할 때 환각을 완화하고 안전성을 높일 수 있는 잠재력으로 점점 더 많이 인식되고 있습니다. 이 설문조사에서는 쿼리, 모델, 인간의 가치라는 세 가지 관점에서 기권 행동을 살펴볼 수 있는 프레임워크를 소개합니다. 기권 방법(LLM의 개발 단계에 따라 분류), 벤치마크, 평가 지표에 관한 문헌을 검토하고 선행 연구의 장점과 한계에 대해 논의합니다. 또한, 업무 전반에 걸친 메타 역량으로서의 기권 연구를 장려하고 상황에 따라 기권 능력을 맞춤화하는 등 향후 연구할 분야를 파악하고 동기를 부여합니다. 이를 통해 AI 시스템에서 기권 방법론의 범위와 영향력을 확대하는 것을 목표로 합니다.

Abstention, the refusal of large language models (LLMs) to provide an answer, is increasingly recognized for its potential to mitigate hallucinations and enhance safety in building LLM systems. In this survey, we introduce a framework to examine abstention behavior from three perspectives: the query, the model, and human values. We review the literature on abstention methods (categorized based on the development stages of LLMs), benchmarks, and evaluation metrics, and discuss the merits and limitations of prior work. We further identify and motivate areas for future research, such as encouraging the study of abstention as a meta-capability across tasks and customizing abstention abilities based on context. In doing so, we aim to broaden the scope and impact of abstention methodologies in AI systems.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1817961056465035596


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

3개의 좋아요