[2024/11/04 ~ 11/10] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR
-
이번 주의 논문에서는 다양한 주제가 다루어졌지만, 특히 언어 모델(LLM), 멀티모달 및 시뮬레이션 기반의 주제가 주를 이루고 있습니다. 강력한 언어 모델과 이를 어떻게 더 잘 활용할 수 있을지에 대한 연구가 다수 포함되어 있고, 이와 함께 멀티모달 접근을 통한 AI 시스템의 향상에 대한 논의가 있습니다. 또한, 복잡한 시뮬레이션을 통한 AI의 발전 가능성을 탐구하는 논문도 눈길을 끕니다.
-
최근 AI 연구에서 언어 모델에 대한 관심이 점차 증대하고 있는 것을 확인할 수 있습니다. 이는 대형 언어 모델이 제공하는 강력한 언어 처리 능력과 이를 다양한 용도로 최적화 할 수 있는 가능성 덕분입니다. 'A Comprehensive Survey of Small Language Models', 'Multi-expert Prompting with LLMs', 'Number Understanding of LLMs', 'Personalization of LLMs'와 같은 논문들이 이런 추세를 반영하고 있으며, 각각 언어 모델을 더 작고 효율적으로 만들거나, 개인화 및 상황에 맞게 활용할 수 있는 방법을 제안하고 있습니다. 이는 AI가 더욱 인간의 다양한 요구에 맞게 최적화될 수 있음을 나타냅니다.
-
더불어, 인간과 기계 간의 상호작용을 향상시키기 위해 멀티모달 접근 방식이 증가하고 있음을 볼 수 있습니다. 'Attacking Vision-Language Agents via Pop-ups' 같은 논문은 시각과 언어 정보를 어떻게 통합하여 작용할 수 있는지를 다루고 있습니다. 이러한 연구는 AI가 단순한 언어 처리에서 벗어나 인간의 복잡한 의사소통 방식을 이해하고 대응할 수 있도록 발전시키는 데 기여할 것입니다. 따라서 이번 주의 논문은 현재 AI 연구에서 중요하게 다루어지고 있는 키워드들에 대한 넓고 다양한 아이디어를 제공하고 있으며, 이는 앞으로의 연구 방향성에 영감을 줄 것입니다.
프로젝트 시드(Sid): AI 문명을 향한 다중 에이전트 시뮬레이션 / Project Sid: Many-agent simulations toward AI civilization
논문 소개
10-1000명 이상의 AI 에이전트가 에이전트 사회에서 어떻게 행동하고 발전하는지 시연하고, 에이전트가 인간 및 다른 에이전트와 실시간으로 상호 작용할 수 있는 아키텍처인 PIANO를 제안하며, 에이전트가 자율적으로 전문 역할을 개발하고 집단 규칙을 준수 및 변경하며 문화 및 종교적 전파에 참여할 수 있음을 보여 줍니다.
Demonstrates how 10-1000+ AI agents behave and progress with agent societies; proposes PIANO, an architecture that enables agents to interact with humans and other agents in real-time; shows that agents can autonomously develop specialized roles, adhere to and change collective rules, and engage in cultural and religious transmissions.
논문 초록(Abstract)
AI 에이전트는 개별적으로 또는 소규모 그룹 내에서 평가되어 왔으며, 상호 작용의 범위와 복잡성은 여전히 제한적입니다. 문명화 과정의 전체 스펙트럼을 반영하는 다수의 자율 에이전트를 포함하는 대규모 시뮬레이션은 아직 탐구되지 않았습니다. 여기에서는 10~1000개 이상의 AI 에이전트가 에이전트 사회 내에서 어떻게 행동하고 발전하는지를 보여줍니다. 먼저 에이전트가 여러 출력 스트림에서 일관성을 유지하면서 인간 및 다른 에이전트와 실시간으로 상호 작용할 수 있도록 지원하는 PIANO(신경 오케스트레이션을 통한 병렬 정보 집계, Parallel Information Aggregation via Neural Orchestration) 아키텍처를 소개합니다. 그런 다음 인류 역사에서 영감을 얻은 문명 벤치마크를 사용하여 에이전트 시뮬레이션에서 에이전트 성능을 평가합니다. Minecraft 환경을 설정한 이러한 시뮬레이션을 통해 에이전트가 자율적으로 전문화된 역할을 개발하고, 집단 규칙을 준수하고 변경하며, 문화 및 종교 전승에 참여하는 등 의미 있는 발전을 이룰 수 있음을 확인할 수 있습니다. 이러한 예비 결과는 에이전트가 AI 문명을 향한 중요한 이정표를 달성할 수 있으며, 대규모 시뮬레이션과 에이전트 조직 지능을 위한 새로운 길을 열고 AI를 인간 문명에 통합할 수 있음을 보여줍니다.
AI agents have been evaluated in isolation or within small groups, where interactions remain limited in scope and complexity. Large-scale simulations involving many autonomous agents -- reflecting the full spectrum of civilizational processes -- have yet to be explored. Here, we demonstrate how 10 - 1000+ AI agents behave and progress within agent societies. We first introduce the PIANO (Parallel Information Aggregation via Neural Orchestration) architecture, which enables agents to interact with humans and other agents in real-time while maintaining coherence across multiple output streams. We then evaluate agent performance in agent simulations using civilizational benchmarks inspired by human history. These simulations, set within a Minecraft environment, reveal that agents are capable of meaningful progress -- autonomously developing specialized roles, adhering to and changing collective rules, and engaging in cultural and religious transmission. These preliminary results show that agents can achieve significant milestones towards AI civilizations, opening new avenues for large simulations, agentic organizational intelligence, and integrating AI into human civilizations.
논문 링크
더 읽어보기
대규모 언어 모델 시대의 소규모 언어 모델에 대한 종합적인 조사: 기술, 개선 사항, 애플리케이션, LLM과의 협업 및 신뢰성 / A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness
논문 소개
소규모 언어 모델(SLM)에 대한 설문조사 및 정의, 적용, 개선 사항, 신뢰성 등과 관련된 문제에 대한 토론을 진행합니다.
A survey on small language models (SLMs) and discussion on issues related to definitions, applications, enhancements, reliability, and more.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 텍스트 생성, 질문 답변 및 추론에서 뛰어난 능력을 발휘하여 다양한 작업과 도메인을 용이하게 해왔습니다. 다양한 작업에 능숙함에도 불구하고 LaPM 540B 및 Llama-3.1 405B와 같은 LLM은 큰 매개변수 크기와 계산 요구로 인해 한계에 직면하며, 종종 클라우드 API를 사용해야 하므로 개인정보 보호 문제가 제기되고 엣지 디바이스에서 실시간 애플리케이션이 제한되며 미세 조정 비용이 증가합니다. 또한 LLM은 도메인별 지식이 부족하여 의료 및 법률과 같은 전문 영역에서 성능이 저하되는 경우가 많아 전문화된 모델이 필요합니다. 따라서 짧은 추론 지연 시간, 비용 효율성, 효율적인 개발, 손쉬운 사용자 정의 및 적응성으로 인해 소규모 언어 모델(SLM)이 점점 더 선호되고 있습니다. 이러한 모델은 리소스가 제한된 환경과 도메인 지식 습득에 특히 적합하여 LLM의 문제를 해결하고 개인정보 보호를 위한 로컬화된 데이터 처리, 효율성을 위한 추론 지연 시간 최소화, 가벼운 미세 조정을 통한 도메인 지식 습득이 필요한 애플리케이션에 이상적인 것으로 입증되었습니다. SLM에 대한 수요가 증가함에 따라 광범위한 연구와 개발이 촉진되었습니다. 그러나 SLM의 정의, 획득, 적용, 향상 및 신뢰성과 관련된 문제를 조사하는 종합적인 설문조사는 여전히 부족하여 이러한 주제에 대한 자세한 설문조사를 실시하게 되었습니다. SLM의 정의는 매우 다양하므로 표준화를 위해 특수한 업무를 수행할 수 있는 능력과 자원이 제한된 환경에 대한 적합성을 기준으로 SLM을 정의하고, 긴급한 능력을 위한 최소 규모와 자원 제약 하에서 지속 가능한 최대 규모를 기준으로 경계를 설정할 것을 제안합니다. 다른 측면에서는 관련 모델/방법의 분류법을 제공하고 각 범주에 대한 일반 프레임워크를 개발하여 SLM을 효과적으로 개선하고 활용할 수 있도록 합니다.
Large language models (LLM) have demonstrated emergent abilities in text generation, question answering, and reasoning, facilitating various tasks and domains. Despite their proficiency in various tasks, LLMs like LaPM 540B and Llama-3.1 405B face limitations due to large parameter sizes and computational demands, often requiring cloud API use which raises privacy concerns, limits real-time applications on edge devices, and increases fine-tuning costs. Additionally, LLMs often underperform in specialized domains such as healthcare and law due to insufficient domain-specific knowledge, necessitating specialized models. Therefore, Small Language Models (SLMs) are increasingly favored for their low inference latency, cost-effectiveness, efficient development, and easy customization and adaptability. These models are particularly well-suited for resource-limited environments and domain knowledge acquisition, addressing LLMs' challenges and proving ideal for applications that require localized data handling for privacy, minimal inference latency for efficiency, and domain knowledge acquisition through lightweight fine-tuning. The rising demand for SLMs has spurred extensive research and development. However, a comprehensive survey investigating issues related to the definition, acquisition, application, enhancement, and reliability of SLM remains lacking, prompting us to conduct a detailed survey on these topics. The definition of SLMs varies widely, thus to standardize, we propose defining SLMs by their capability to perform specialized tasks and suitability for resource-constrained settings, setting boundaries based on the minimal size for emergent abilities and the maximum size sustainable under resource constraints. For other aspects, we provide a taxonomy of relevant models/methods and develop general frameworks for each category to enhance and utilize SLMs effectively.
논문 링크
더 읽어보기
마젠틱-원 / Magentic-One
논문 소개
복잡한 웹 및 파일 기반 작업을 처리하도록 설계된 새로운 제너럴리스트 멀티 에이전트 시스템으로, 4개의 전문 에이전트를 지휘하는 오케스트레이터 에이전트를 사용합니다: 브라우저 작업을 위한 웹서퍼, 파일 관리를 위한 파일서퍼, 프로그래밍 작업을 위한 코더, 콘솔 작업을 위한 컴퓨터터미널; Magentic-One은 핵심 아키텍처를 수정할 필요 없이 GAIA, AssistantBench, WebArena 등 여러 벤치마크에서 경쟁력 있는 성능을 달성합니다.
A new generalist multi-agent system designed to handle complex web and file-based tasks; it uses an Orchestrator agent that directs four specialized agents: WebSurfer for browser operations, FileSurfer for file management, Coder for programming tasks, and ComputerTerminal for console operations; Magentic-One achieves competitive performance on multiple benchmarks including GAIA, AssistantBench, and WebArena, without requiring modifications to its core architecture.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1854910759232585786
상황 내 학습자의 혼합 구성 / Mixtures of In-Context Learners
논문 소개
데모의 하위 집합을 사용하여 컨텍스트 내 학습을 통해 전문가를 훈련시키고, 훈련 세트가 주어지면 훈련 가능한 가중치 함수를 사용하여 전문가의 다음 토큰 예측을 결합하며, 이 접근 방식은 LLM의 내부 매개변수에 액세스할 필요가 없으므로 블랙박스 LLM에 적용합니다. 좋은 속성은 다음과 같습니다: 1) 데이터, 메모리, 계산 효율이 훨씬 더 높으면서도 표준 ICL과 경쟁력이 있고, 2) 노이즈 데모와 라벨 불균형에 탄력적이라는 점입니다.
Uses subsets of demonstrations to train experts via in-context learning; given a training set, a trainable weighting function is used to combine the experts' next-token predictions; this approach applies to black-box LLMs since access to the internal parameters of the LLM is not required. Good properties include the following: 1) competitive with standard ICL while being significantly more data, memory, and computationally efficient, and 2) resilient to noisy demonstrations and label imbalance.
논문 초록(Abstract)
상황 내 학습(ICL)은 모델 파라미터를 미세 조정하지 않고 데모를 제공함으로써 LLM을 조정하지만, 데모를 구분하지 못하고 트랜스포머 LLM의 복잡성을 4배로 증가시켜 메모리를 소진합니다. 이에 대한 해결책으로 데모의 하위 집합을 전문가로 취급하고 가중치 함수를 학습하여 훈련 집합을 기반으로 출력 분포를 병합하는 새로운 접근 방식인 맥락 내 학습자 혼합(MoICL)을 제안합니다. 실험 결과, 강력한 기준선 세트에 비해 7개의 분류 데이터 세트 중 5개에서 성능이 향상되었습니다(ICL 및 LENS 대비 최대 +13%). 또한, 더 적은 데모로 동일한 성능을 달성하는 데 필요한 추론 시간을 줄임으로써 ICL의 파레토 프론티어를 강화합니다. 마지막으로, MoICL은 도메인을 벗어난(최대 +11%), 불균형(최대 +49%) 또는 노이즈가 있는 데모(최대 +38%)에 더 강력하거나 데이터 세트에서 이러한 데모를 필터링할 수 있습니다. 전반적으로 MoICL은 컨텍스트 창이나 메모리를 소진하지 않고 데모에서 학습하는 보다 표현적인 접근 방식입니다.
In-context learning (ICL) adapts LLMs by providing demonstrations without fine-tuning the model parameters; however, it does not differentiate between demonstrations and quadratically increases the complexity of Transformer LLMs, exhausting the memory. As a solution, we propose Mixtures of In-Context Learners (MoICL), a novel approach to treat subsets of demonstrations as experts and learn a weighting function to merge their output distributions based on a training set. In our experiments, we show performance improvements on 5 out of 7 classification datasets compared to a set of strong baselines (up to +13% compared to ICL and LENS). Moreover, we enhance the Pareto frontier of ICL by reducing the inference time needed to achieve the same performance with fewer demonstrations. Finally, MoICL is more robust to out-of-domain (up to +11%), imbalanced (up to +49%), or noisy demonstrations (up to +38%) or can filter these out from datasets. Overall, MoICL is a more expressive approach to learning from demonstrations without exhausting the context window or memory.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1854252169492562171
팝업을 통한 시각 언어 컴퓨터 에이전트 공격 / Attacking Vision-Language Computer Agents via Pop-ups
논문 소개
기존 에이전트 테스트 환경에 적대적인 팝업을 통합하면 공격 성공률이 86%에 달해 에이전트의 작업 성공률이 47% 감소하고, 기본적인 방어 기법(예: 에이전트에게 팝업을 무시하도록 지시)은 효과가 없다고 덧붙입니다.
Shows that integrating adversarial pop-ups into existing agent testing environments leads to an attack success rate of 86%; this decreases the agents' task success rate by 47%; they also add that basic defense techniques (e.g., instructing the agent to ignore pop-ups) are ineffective.
논문 초록(Abstract)
대규모 비전 및 언어 모델(VLM)로 구동되는 자율 에이전트는 웹 검색을 통한 여행 예약, 데스크톱 소프트웨어 작동과 같은 일상적인 컴퓨터 작업을 완료하는 데 상당한 잠재력을 보여 주었으며, 상담원은 이러한 인터페이스를 이해해야 합니다. 이러한 시각적 입력이 상담원 애플리케이션에 더 많이 통합되고 있음에도 불구하고 그 주변에 어떤 유형의 위험과 공격이 존재하는지는 여전히 불분명합니다. 이 연구에서는 인간 사용자가 일반적으로 인식하고 무시할 수 있는 일련의 신중하게 설계된 적대적인 팝업에 의해 VLM 에이전트가 쉽게 공격받을 수 있음을 보여줍니다. 이러한 방해 요소로 인해 상담원은 평소처럼 작업을 수행하는 대신 이러한 팝업을 클릭하게 됩니다. 이러한 팝업을 OSWorld 및 VisualWebArena와 같은 기존 에이전트 테스트 환경에 통합하면 공격 성공률(에이전트가 팝업을 클릭하는 빈도)이 평균 86% 감소하고 작업 성공률은 47% 감소합니다. 상담원에게 팝업을 무시하도록 요청하거나 광고 알림을 포함하는 등의 기본적인 방어 기법은 공격에 효과적이지 않습니다.
Autonomous agents powered by large vision and language models (VLM) have demonstrated significant potential in completing daily computer tasks, such as browsing the web to book travel and operating desktop software, which requires agents to understand these interfaces. Despite such visual inputs becoming more integrated into agentic applications, what types of risks and attacks exist around them still remain unclear. In this work, we demonstrate that VLM agents can be easily attacked by a set of carefully designed adversarial pop-ups, which human users would typically recognize and ignore. This distraction leads agents to click these pop-ups instead of performing the tasks as usual. Integrating these pop-ups into existing agent testing environments like OSWorld and VisualWebArena leads to an attack success rate (the frequency of the agent clicking the pop-ups) of 86% on average and decreases the task success rate by 47%. Basic defense techniques such as asking the agent to ignore pop-ups or including an advertisement notice, are ineffective against the attack.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1853810252308774955
다중 전문가 프롬프트를 통해 대규모 언어 모델의 신뢰성, 안전성 및 유용성 향상 / Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models
논문 소개
여러 전문가를 시뮬레이션하고 응답을 집계하여 LLM 응답을 개선하고, 여러 전문가를 시뮬레이션하고 개별 및 집계된 보기 중에서 최상의 응답을 선택하여 입력 지시를 이행하도록 LLM을 안내하며, ChatGPT를 통해 현재 SOTA인 87.97%를 능가하는 새로운 수준의 TruthfulQA-Generation을 달성하고 사실성과 유용성 전반에 걸쳐 성능을 개선하면서 독성 및 유해성을 줄입니다.
Improves LLM responses by simulating multiple experts and aggregating their responses; it guides an LLM to fulfill input instructions by simulating multiple experts and selecting the best response among individual and aggregated views; it achieves a new state-of-the-art on TruthfulQA-Generation with ChatGPT, surpassing the current SOTA of 87.97%; it also improves performance across factuality and usefulness while reducing toxicity and hurtfulness.
논문 초록(Abstract)
대규모 언어 모델(LLM) 생성을 개선하기 위해 ExpertPrompting(Xu et al., 2023)을 새롭게 개선한 다중 전문가 프롬프트(Multi-expert Prompting)를 소개합니다. 구체적으로, 여러 전문가를 시뮬레이션하고, 이들의 응답을 집계하고, 개별 응답과 집계된 응답 중에서 가장 좋은 것을 선택함으로써 입력 명령을 이행하도록 LLM을 안내합니다. 이 과정은 잘 정립된 의사결정 프레임워크인 명목 그룹 기법(Nominal Group Technique, 1974)에서 파생된 7개의 세심하게 설계된 하위 작업을 통해 하나의 사고 연쇄로 수행됩니다. 평가 결과, 다중 전문가 프롬프트는 답변의 진실성, 사실성, 정보성, 유용성을 향상시키는 동시에 독성과 유해성을 줄이는 데 있어 전문가 프롬프트 및 유사한 기준선보다 훨씬 뛰어난 성능을 발휘하는 것으로 나타났습니다. 또한 ChatGPT는 최고 기준선을 8.69% 능가하여 최첨단 진실성을 달성합니다. 다중 전문가 프롬프트는 효율적이고 설명이 가능하며 다양한 시나리오에 맞게 조정할 수 있어 수동으로 프롬프트를 구성할 필요가 없습니다.
We present Multi-expert Prompting, a novel enhancement of ExpertPrompting (Xu et al., 2023), designed to improve the large language model (LLM) generation. Specifically, it guides an LLM to fulfill an input instruction by simulating multiple experts, aggregating their responses, and selecting the best among individual and aggregated responses. This process is performed in a single chain of thoughts through our seven carefully designed subtasks derived from the Nominal Group Technique (Ven and Delbecq, 1974), a well-established decision-making framework. Our evaluations demonstrate that Multi-expert Prompting significantly outperforms ExpertPrompting and comparable baselines in enhancing the truthfulness, factuality, informativeness, and usefulness of responses while reducing toxicity and hurtfulness. It further achieves state-of-the-art truthfulness by outperforming the best baseline by 8.69% with ChatGPT. Multi-expert Prompting is efficient, explainable, and highly adaptable to diverse scenarios, eliminating the need for manual prompt construction.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1853286452227899851
숫자 쿡북: 언어 모델에 대한 숫자 이해와 개선 방법 / Number Cookbook: Number Understanding of Language Models and How to Improve It
논문 소개
LLM의 수치 이해 및 처리 능력(NUPA)에 대한 종합적인 분석을 제공하고, 순진한 미세 조정이 모든 작업은 아니지만 많은 작업에서 NUPA를 크게 향상시킬 수 있음을 발견하고, NUPA를 향상시키기 위해 고안된 기법이 사전 학습된 모델을 미세 조정하는 데 효과적이지 않음을 보고하고, NUPA에 적용된 연쇄 사고 기법을 탐색하고 연쇄 사고 방법이 확장성 문제에 직면하여 실제 시나리오에 적용하기 어렵다는 점을 제안합니다.
Provides a comprehensive analysis of the numerical understanding and processing ability (NUPA) of LLMs; finds that naive finetuning can improve NUPA a lot on many but not all tasks; it also reports that techniques designed to enhance NUPA prove ineffective for finetuning pretrained models; explores chain-of-thought techniques applied to NUPA and suggests that chain-of-thought methods face scalability challenges, making them difficult to apply in practical scenarios.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 점점 더 많은 복잡한 추론 작업을 해결하면서도 기본적인 숫자 이해 및 처리(예: 9.11 > 9.9)에서 놀라운 실수를 범할 수 있습니다. 후자의 능력은 복잡한 산술 및 수학 문제를 해결하는 데 필수적이며 대부분의 추론 작업의 기반이 되지만, 이전 연구에서는 이에 대해 거의 관심을 기울이지 않았거나 정수 덧셈과 같은 몇 가지 제한된 작업만 논의했습니다. 이 논문에서는 LLM의 수치 이해 및 처리 능력(NUPA)에 대해 종합적으로 살펴봅니다. 먼저, 네 가지 일반적인 숫자 표현과 네 가지 주요 범주에서 17개의 고유한 숫자 과제를 포함하는 벤치마크를 도입하여 총 41개의 의미 있는 조합을 도출합니다. 이 과제들은 거의 모든 일상적인 숫자 이해 및 처리 시나리오를 포괄하는 초등 및 중등 교육 커리큘럼에서 파생된 것으로, 그 규칙은 매우 간단하고 명확합니다. 벤치마크를 통해 우리는 현재의 LLM이 많은 과제에서 자주 실패한다는 사실을 발견했습니다. 이 문제를 연구하기 위해 특수 토큰화기, PE, 숫자 형식 등 NUPA를 향상시키기 위한 기존 및 잠재적 기술을 사용하여 소규모 모델을 훈련하고 테스트베드를 통해 그 효과를 종합적으로 평가합니다. 또한 제안된 NUPA 작업에 대해 실제 규모의 LLM을 미세 조정한 결과, 1) 순진한 미세 조정이 모든 작업은 아니지만 많은 작업에서 NUPA를 크게 향상시킬 수 있으며 2) 놀랍게도 NUPA를 향상시키기 위해 설계된 기법이 사전 훈련된 모델을 미세 조정하는 데는 효과가 없다는 것을 발견했습니다. 이 글에서는 연쇄 사고 기법이 NUPA에 미치는 영향에 대해 자세히 살펴봅니다. 이 연구는 LLM의 NUPA를 이해하고 개선하기 위한 예비 단계입니다. 벤치마크와 코드는 GitHub - GraphPKU/number_cookbook 에서 공개됩니다.
Large language models (LLMs) can solve an increasing number of complex reasoning tasks while making surprising mistakes in basic numerical understanding and processing (such as 9.11 > 9.9). The latter ability is essential for tackling complex arithmetic and mathematical problems and serves as a foundation for most reasoning tasks, but previous work paid little attention to it or only discussed several restricted tasks (like integer addition). In this paper, we comprehensively investigate the numerical understanding and processing ability (NUPA) of LLMs. Firstly, we introduce a benchmark covering four common numerical representations and 17 distinct numerical tasks in four major categories, resulting in 41 meaningful combinations in total. These tasks are derived from primary and secondary education curricula, encompassing nearly all everyday numerical understanding and processing scenarios, and the rules of these tasks are very simple and clear. Through the benchmark, we find that current LLMs fail frequently in many of the tasks. To study the problem, we train small models with existing and potential techniques for enhancing NUPA (such as special tokenizers, PEs, and number formats), comprehensively evaluating their effectiveness using our testbed. We also finetune practical-scale LLMs on our proposed NUPA tasks and find that 1) naive finetuning can improve NUPA a lot on many but not all tasks, and 2) surprisingly, techniques designed to enhance NUPA prove ineffective for finetuning pretrained models. We further explore the impact of chain-of-thought techniques on NUPA. Our work takes a preliminary step towards understanding and improving NUPA of LLMs. Our benchmark and code are released at GitHub - GraphPKU/number_cookbook.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1854528742095458337
WebRL: 자체 진화형 온라인 커리큘럼 강화 학습을 통한 LLM 웹 에이전트 교육 / WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
논문 소개
개방형과 독점적 LLM 기반 웹 에이전트 간의 격차를 해소하기 위해 스스로 진화하는 온라인 커리큘럼 RL 프레임워크를 제안하고, Llama-3.1-8B의 성공률을 4.8%에서 42.4%로, GLM4-9B의 경우 6.1%에서 43%로 향상시키고, 개방형 모델이 GPT-4-Turbo(17.6%) 및 GPT-4o(13.9%)의 성능을 크게 능가합니다. 스스로 진화하는 커리큘럼은 웹 에이전트 교육 작업의 희소성을 해결하고, 이는 작업 성공을 평가하는 강력한 결과 감독 보상 모델로 뒷받침되며, 적응형 RL 전략은 온라인 학습에서 분포 편차를 처리하고 지속적인 개선을 보장하는 데 도움이 됩니다.
Proposes a self-evolving online curriculum RL framework to bridge the gap between open and proprietary LLM-based web agents; it improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM4-9B; the open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%); the self-evolving curriculum addresses the scarcity of web agent training tasks; this is underpinned by a robust outcome-supervised reward model to evaluate task success; an adaptive RL strategy helps to deal with distribution drift in online learning and ensures consistent improvements.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 특히 웹 기반 작업에서 자율 에이전트로서 놀라운 잠재력을 보여 왔습니다. 하지만 기존의 LLM 웹 에이전트는 고가의 독점적인 LLM API에 크게 의존하고 있으며, 개방형 LLM은 필요한 의사 결정 기능이 부족합니다. 이 백서에서는 개방형 LLM을 사용하여 고성능 웹 에이전트를 훈련하도록 설계된 자체 진화형 온라인 커리큘럼 강화 학습 프레임워크인 WebRL을 소개합니다. WebRL은 훈련 작업의 희소성, 희박한 피드백 신호, 온라인 학습의 정책 분배 편차 등 LLM 웹 에이전트 구축의 세 가지 주요 과제를 해결합니다. 구체적으로 WebRL은 1) 실패한 시도에서 새로운 과제를 생성하는 자기 진화형 커리큘럼, 2) 강력한 결과 감독 보상 모델(ORM), 3) 적응형 강화 학습 전략을 통합하여 일관된 개선을 보장합니다. WebRL을 적용하여 개방형 Llama-3.1 및 GLM-4 모델을 능숙한 웹 에이전트로 변환합니다. WebArena-Lite에서 WebRL은 Llama-3.1-8B의 성공률을 4.8%에서 42.4%로, GLM-4-9B의 성공률을 6.1%에서 43%로 향상시킵니다. 이러한 개방형 모델은 GPT-4-Turbo(17.6%) 및 GPT-4o(13.9%)의 성능을 크게 능가하며 개방형 LLM에서 학습된 이전의 최신 웹 에이전트(AutoWebGLM, 18.2%)보다 성능이 뛰어납니다. 이번 조사 결과는 개방형 및 독점 LLM 기반 웹 에이전트 간의 격차를 해소하여 보다 접근성이 높고 강력한 자율 웹 인터랙션 시스템을 위한 기반을 마련하는 WebRL의 효과를 입증합니다.
Large language models (LLMs) have shown remarkable potential as autonomous agents, particularly in web-based tasks. However, existing LLM web agents heavily rely on expensive proprietary LLM APIs, while open LLMs lack the necessary decision-making capabilities. This paper introduces WebRL, a self-evolving online curriculum reinforcement learning framework designed to train high-performance web agents using open LLMs. WebRL addresses three key challenges in building LLM web agents, including the scarcity of training tasks, sparse feedback signals, and policy distribution drift in online learning. Specifically, WebRL incorporates 1) a self-evolving curriculum that generates new tasks from unsuccessful attempts, 2) a robust outcome-supervised reward model (ORM), and 3) adaptive reinforcement learning strategies to ensure consistent improvements. We apply WebRL to transform open Llama-3.1 and GLM-4 models into proficient web agents. On WebArena-Lite, WebRL improves the success rate of Llama-3.1-8B from 4.8% to 42.4%, and from 6.1% to 43% for GLM-4-9B. These open models significantly surpass the performance of GPT-4-Turbo (17.6%) and GPT-4o (13.9%) and outperform previous state-of-the-art web agents trained on open LLMs (AutoWebGLM, 18.2%). Our findings demonstrate WebRL's effectiveness in bridging the gap between open and proprietary LLM-based web agents, paving the way for more accessible and powerful autonomous web interaction systems.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1853821990177485311
학습하면서 적응하기: 지능형 도구 사용 적응을 통한 과학적 문제 해결을 위한 LLM의 기초 다지기 / Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation
논문 소개
먼저 LLM이 도구 생성 솔루션을 통해 학습한 다음, 직접 문제를 해결할 때와 도구를 사용할 때를 판단하도록 훈련시키는 2단계 미세 조정 접근법을 제안합니다. 수학, 기후 과학, 역학 벤치마크 테스트 결과, GPT-4 및 Claude-3.5와 같은 주요 모델에 비해 정확도가 28% 향상되고 도구 사용 정밀도가 14% 개선되는 등 상당한 개선을 보였으며, 이 두 가지 접근법은 다양한 복잡성의 과학 문제를 적응적으로 해결할 수 있도록 도와줍니다.
Proposes a two-part fine-tuning approach that first helps LLMs learn from tool-generated solutions and then trains them to determine when to solve problems directly versus when to use tools; testing on math, climate science, and epidemiology benchmarks shows significant improvements, with a 28% boost in accuracy and 14% better tool usage precision compared to leading models like GPT-4 and Claude-3.5; the two-stage approach helps the LLM to adaptively solve scientific problems of varying complexity.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 간단한 과학 문제 해결에는 유망한 능력을 보여주지만 복잡한 문제에서는 종종 착각을 불러일으킵니다. LLM을 도구와 통합하면 신뢰성을 높일 수 있지만, 이러한 접근 방식은 일반적으로 도구에 과도하게 의존하게 되어 기본적인 추론을 통해 간단한 문제를 해결하는 모델의 능력이 저하됩니다. 반면, 인간 전문가는 적절한 솔루션 접근 방식을 선택하기 전에 먼저 도메인 지식을 사용하여 문제 복잡성을 평가합니다. 이러한 인간의 문제 해결 프로세스에서 영감을 받아 두 가지 요소로 구성된 새로운 미세 조정 방법을 제안합니다. 첫 번째 구성 요소인 세계 지식 증류(WKD)에서는 LLM이 도구의 정보를 사용하여 생성된 솔루션에서 직접 학습하여 도메인 지식을 내재화합니다. 두 번째 구성 요소인 도구 사용 적응(TUA)에서는 모델의 직접 정답 정확도에 따라 문제를 쉬운 범주와 어려운 범주로 나눕니다. 쉬운 문제에 대해서는 WKD와 동일한 정렬 목표를 유지하면서 더 어려운 문제에 대해서는 지능적으로 도구 사용으로 전환하도록 모델을 훈련시킵니다. 수학, 기후 과학, 역학 등 6가지 과학 벤치마크 데이터 세트를 통해 방법을 검증합니다. 평균적으로 모든 데이터 세트에서 답변 정확도가 28.18% 향상되고 도구 사용 정밀도가 13.89% 증가하여 GPT-4o 및 Claude-3.5를 포함한 최신 모델을 능가하는 것으로 나타났습니다.
Large Language Models (LLMs) demonstrate promising capabilities in solving simple scientific problems but often produce hallucinations for complex ones. While integrating LLMs with tools can increase reliability, this approach typically results in over-reliance on tools, diminishing the model's ability to solve simple problems through basic reasoning. In contrast, human experts first assess problem complexity using domain knowledge before choosing an appropriate solution approach. Inspired by this human problem-solving process, we propose a novel two-component fine-tuning method. In the first component World Knowledge Distillation (WKD), LLMs learn directly from solutions generated using tool's information to internalize domain knowledge. In the second component Tool Usage Adaptation (TUA), we partition problems into easy and hard categories based on the model's direct answering accuracy. While maintaining the same alignment target for easy problems as in WKD, we train the model to intelligently switch to tool usage for more challenging problems. We validate our method on six scientific benchmark datasets, spanning mathematics, climate science and epidemiology. On average, our models demonstrate a 28.18% improvement in answer accuracy and a 13.89% increase in tool usage precision across all datasets, surpassing state-of-the-art models including GPT-4o and Claude-3.5.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1853281778594979877
대규모 언어 모델의 개인화: 서베이 논문 / Personalization of Large Language Models: A Survey
논문 소개
개인화된 LLM을 이해하기 위한 포괄적인 프레임워크를 제시하고, 개인화의 다양한 측면에 대한 분류법을 소개하며, 개인화된 텍스트 생성 및 다운스트림 애플리케이션 전반에 걸쳐 기존 연구를 통합합니다.
Presents a comprehensive framework for understanding personalized LLMs; introduces taxonomies for different aspects of personalization and unifying existing research across personalized text generation and downstream applications.
논문 초록(Abstract)
대규모 언어 모델(LLM)의 개인화는 최근 다양한 애플리케이션에서 점점 더 중요해지고 있습니다. 이러한 중요성과 최근의 발전에도 불구하고, 개인화된 LLM에 대한 대부분의 기존 연구는 (a) 개인화된 텍스트 생성에만 집중하거나 (b) 추천 시스템과 같은 개인화 관련 다운스트림 애플리케이션에 LLM을 활용하는 데 초점을 맞추고 있습니다. 이 연구에서는 개인화된 LLM 사용에 대한 분류법을 도입하고 주요 차이점과 과제를 요약함으로써 이 두 가지 주요 방향 사이의 간극을 처음으로 좁혔습니다. 또한 개인화된 LLM의 개념을 통합하고 확장하는 개인화된 LLM의 토대를 공식화하여 개인화, 사용 및 개인화된 LLM의 새로운 측면을 정의하고 논의합니다. 그런 다음 개인화의 세분성, 개인화 기술, 데이터 세트, 평가 방법, 개인화된 LLM의 적용에 대한 체계적인 분류법을 제안함으로써 다양한 분야와 사용 시나리오에 걸친 문헌을 통합합니다. 마지막으로, 해결해야 할 과제와 중요한 미해결 문제를 강조합니다. 제안된 분류법을 사용하여 최근 연구를 통합하고 조사함으로써 기존 문헌과 LLM의 다양한 개인화 측면에 대한 명확한 가이드를 제공하여 연구자와 실무자 모두에게 힘을 실어주는 것을 목표로 합니다.
Personalization of Large Language Models (LLMs) has recently become increasingly important with a wide range of applications. Despite the importance and recent progress, most existing works on personalized LLMs have focused either entirely on (a) personalized text generation or (b) leveraging LLMs for personalization-related downstream applications, such as recommendation systems. In this work, we bridge the gap between these two separate main directions for the first time by introducing a taxonomy for personalized LLM usage and summarizing the key differences and challenges. We provide a formalization of the foundations of personalized LLMs that consolidates and expands notions of personalization of LLMs, defining and discussing novel facets of personalization, usage, and desiderata of personalized LLMs. We then unify the literature across these diverse fields and usage scenarios by proposing systematic taxonomies for the granularity of personalization, personalization techniques, datasets, evaluation methods, and applications of personalized LLMs. Finally, we highlight challenges and important open problems that remain to be addressed. By unifying and surveying recent research using the proposed taxonomies, we aim to provide a clear guide to the existing literature and different facets of personalization in LLMs, empowering both researchers and practitioners.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1853276249981907386
원문
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.*
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~