[2024/12/02 ~ 12/08] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/12/02 ~ 12/08] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들을 살펴보았을 때, 자연어 처리(NLP) 및 대규모 언어 모델(LLM)에 초점을 맞춘 연구가 눈에 띄게 많습니다. 특히, OpenAI o1, Genie 2, Auto-RAG, Retrieval-Augmented Reasoning for LLMs, 그리고 Procedural Knowledge in Pretraining Drives Reasoning in LLMs와 같은 논문들이 이 범주에 속하며, 인간-에이전트 커뮤니케이션에 관한 논문도 포함되어 있어 다채로운 접근 방식을 제시하고 있습니다. 또한, 'Reverse Thinking'이나 'DataLab'과 같은 논문들을 통해 데이터 활용 및 자동화에 대한 학문적 관심도 엿볼 수 있었습니다.

  • 이러한 트렌드는 인공지능 기술의 발전 방향에 대한 중요한 시사점을 제공합니다. 우선, 자연어 처리 및 언어 모델에서의 연구가 두드러지는 이유는, 인간과 기계 간의 상호작용을 보다 자연스럽고 효율적으로 만들려는 노력이 배경에 깔려 있다고 볼 수 있습니다. 이러한 기술 발전은 고객 서비스나 정보 검색, 그리고 다양화된 대화형 AI 애플리케이션 등 현실적인 문제 해결에 큰 기여를 하고 있습니다.

  • 더불어, 데이터 활용과 자동화는 AI 연구에서 핵심적인 역할을 합니다. 데이터를 어떻게 수집하고, 구성하며, 활용할 것인지가 AI의 성능을 좌지우지할 수 있기 때문입니다. 데이터를 통한 설계 및 학습 자동화는 AI의 정확성을 향상시키고, 새로운 기능을 가능한 한 빠르고 정확하게 개발하도록 도와줍니다. 이러한 트렌드는 AI 연구의 필수 요소로 자리잡고 있으며, 앞으로도 계속 중요한 연구 주제로 남을 것입니다.


OpenAI o1

논문 소개

대규모 강화 학습으로 추론하도록 훈련된 모델 시리즈, o1은 수학, 코드, 과학 관련 벤치마크에서 상당한 개선을 보였으며, o1-프리뷰보다 사고 단계를 생성하는 데 50% 더 빠르다고 주장되며, 추론 과제에서 o1이 훨씬 더 우수하고 더 포괄적이고 신뢰할 수 있는 답변을 생성한다는 결과가 입증되었습니다.

A model series trained with large-scale reinforcement learning to reason using chain of thought; o1 shows significant improvements across benchmarks related to math, code, and science; o1 is claimed to be 50% faster in generating thinking steps than o1-preview; results demonstrate that o1 is significantly better at reasoning tasks and produces more comprehensive and reliable responses.

논문 초록(Abstract)

언어 모델은 학습 분포 내의 작업에서는 인상적인 성능을 보였지만 복잡한 추론이 필요한 새로운 문제에서는 종종 어려움을 겪습니다. 저희는 입력 데이터에서 파생된 손실을 사용해 추론하는 동안 일시적으로 모델 파라미터를 업데이트하는 테스트 시간 훈련(TTT)의 효과를 추상화 및 추론 코퍼스(ARC)를 벤치마크로 삼아 모델의 추론 능력을 향상시키는 메커니즘으로 조사합니다. 체계적인 실험을 통해 (1) 유사한 작업에 대한 초기 미세 조정 (2) 보조 작업 형식 및 증강 (3) 인스턴스별 훈련이라는 세 가지 중요한 요소를 파악하여 성공적인 TTT를 위한 세 가지 중요한 요소를 확인했습니다. TTT는 ARC 작업의 성능을 크게 개선하여 기본 미세 조정 모델에 비해 정확도를 최대 6배까지 향상시켰으며, 8B 파라미터 언어 모델에 TTT를 적용하면 ARC의 공개 검증 세트에서 53%의 정확도를 달성하여 공개 및 순수 신경망 접근 방식에 비해 거의 25% 개선된 최신 기술을 제공합니다. 이 방법을 최신 프로그램 생성 접근 방식과 결합하면 사람의 평균 점수와 일치하는 61.9%의 SoTA 공개 검증 정확도를 얻을 수 있습니다. 우리의 연구 결과는 명시적 기호 검색이 신경 언어 모델에서 추상적 추론을 개선하는 유일한 경로가 아님을 시사합니다. 언어 모델에서 추상적 추론을 향상시키는 유일한 방법은 아니며, 짧은 예제에 대한 지속적인 훈련에 추가 테스트 시간을 적용하는 것 을 지속적으로 훈련하는 것도 매우 효과적일 수 있습니다.

Language models have shown impressive performance on tasks within their training distribution, but often struggle with novel problems requiring complex reasoning. We investigate the effectiveness of test-time training (TTT)—updating model parameters temporarily during inference using a loss derived from input data—as a mechanism for improving models’ reasoning capabilities, using the Abstraction and Reasoning Corpus (ARC) as a benchmark. Through systematic experimentation, we identify three crucial components for successful TTT: (1) initial finetuning on similar tasks (2) auxiliary task format and augmentations (3) per-instance training. TTT significantly improves performance on ARC tasks, achieving up to 6× improvement in accuracy compared to base fine-tuned models; applying TTT to a 8B-parameter language model, we achieve 53% accuracy on the ARC’s public validation set, improving the state-of-the-art by nearly 25% for public and purely neural approaches. By ensembling our method with recent program generation approaches, we get SoTA public validation accuracy of 61.9%, matching the average human score. Our findings suggest that explicit symbolic search is not the only path to improved abstract reasoning in neural language models; additional test-time applied to continued training on few-shot examples can also be extremely effective.

논문 링크

더 읽어보기


Genie 2

논문 소개

단일 프롬프트 이미지에서 재생 가능한 3D 환경을 생성하여 물리 시뮬레이션, 캐릭터 애니메이션, 오브젝트 상호작용 등의 기능을 갖춘 AI 에이전트를 위한 무한한 훈련 시나리오를 가능하게 하는 파운데이션 월드 모델, 가상 세계 생성을 위해 자동 인코더와 변환기를 조합하여 비디오 데이터를 학습하는 Genie 2, 실시간 대화형 환경을 만들 수 있으며 더 빠르지만 낮은 품질의 버전으로 즉시 플레이할 수 있는 모델 등 다양한 기능을 제공합니다.

A foundation world model that generates playable 3D environments from single prompt images, enabling endless training scenarios for AI agents with features like physics simulation, character animation, and object interactions; Genie 2 is trained on video data using a combination of autoencoder and transformer for generating virtual worlds; the model can create real-time interactive environments, with a faster but lower-quality version available for immediate play.

논문 링크

더 읽어보기

https://x.com/GoogleDeepMind/status/1864367798132039836


역발상으로 더 강력한 추론자가 되는 LLM / Reverse Thinking Makes LLMs Stronger Reasoners

논문 소개

LLM이 '역발상'을 학습하도록 훈련하면 상식, 수학, 논리적 추론 작업의 수행 능력을 향상시키는 데 도움이 된다는 것을 보여줍니다. 10배 더 많은 정방향 추론으로 훈련된 표준 미세 조정 방법보다 성능이 뛰어나다고 주장합니다.

Shows that training LLMs to learn "reverse thinking" helps to improve performance in commonsense, math, and logical reasoning tasks. It claims to outperform a standard fine-tuning method trained on 10x more forward reasoning.

논문 초록(Abstract)

역발상은 인간의 추론에서 중요한 역할을 합니다. 인간은 문제에서 해결책으로 추론할 수 있을 뿐만 아니라, 해결책에서 출발하여 문제를 향해 추론하는 역추론도 가능합니다. 이는 정방향 사고와 역방향 사고 사이의 일관성을 확인할 수 있기 때문에 전반적인 추론 성능을 향상시키는 경우가 많습니다. 대규모 언어 모델(LLM)이 역추론을 수행할 수 있도록 데이터 증강과 학습 목표로 구성된 프레임워크인 역향적 사고(RevThink)를 도입했습니다. RevThink에서는 (1) 원래 질문, (2) 정방향 추론, (3) 역방향 질문, (4) 역방향 추론으로 구성된 교사 모델에서 구조화된 정방향-역방향 추론을 수집하여 데이터 집합을 보강합니다. 그런 다음 (a) 질문에서 정방향 추론 생성, (b) 질문에서 역방향 추론 생성, (c) 역방향 질문에서 역방향 추론 생성이라는 세 가지 목표를 사용하여 더 작은 학생 모델을 멀티태스크 학습 방식으로 훈련합니다. 상식, 수학, 논리적 추론을 다루는 12개 데이터 세트에 대한 실험 결과, 학생 모델의 제로 샷 성능보다 평균 13.53%, 가장 강력한 지식 증류 기준선보다 6.84% 향상된 것으로 나타났습니다. 또한, 학습 데이터에서 올바른 포워드 추론의 10%만 사용하여 10배 더 많은 포워드 추론으로 학습된 표준 미세 조정 방법보다 뛰어난 샘플 효율성을 보여줍니다. 또한 RevThink는 분포에서 벗어난 홀드아웃 데이터 세트에 대해서도 강력한 일반화 성능을 보여줍니다.

Reverse thinking plays a crucial role in human reasoning. Humans can reason not only from a problem to a solution but also in reverse, i.e., start from the solution and reason towards the problem. This often enhances overall reasoning performance as it enables consistency checks between their forward and backward thinking. To enable Large Language Models (LLMs) to perform reverse thinking, we introduce Reverse-Enhanced Thinking (RevThink), a framework composed of data augmentation and learning objectives. In RevThink, we augment the dataset by collecting structured forward-backward reasoning from a teacher model, consisting of: (1) the original question, (2) forward reasoning, (3) backward question, and (4) backward reasoning. We then employ three objectives to train a smaller student model in a multi-task learning fashion: (a) generate forward reasoning from a question, (b) generate a backward question from a question, and (c) generate backward reasoning from the backward question. Experiments across 12 datasets covering commonsense, math, and logical reasoning show an average 13.53% improvement over the student model's zero-shot performance and a 6.84% improvement over the strongest knowledge distillation baselines. Moreover, our method demonstrates sample efficiency -- using only 10% of the correct forward reasoning from the training data, it outperforms a standard fine-tuning method trained on 10x more forward reasoning. RevThink also exhibits strong generalization to out-of-distribution held-out datasets.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1863595518649098371


언어 에이전트의 적응형 메커니즘 활성화를 향하여 / Towards Adaptive Mechanism Activation in Language Agent

논문 소개

언어 에이전트가 작업을 자동으로 완료하기 위해 다양한 메커니즘(ReAct, CoT, Reflection 등)을 언제 사용할지 자동으로 학습하도록 돕는 새로운 프레임워크로, 고정되거나 미리 정의된 메커니즘을 사용하는 현재의 접근 방식을 개선하고, 작업의 잠재적 특성에 따라 적절한 메커니즘을 적응적으로 활성화하며, 실험 결과 수학적 추론과 지식 집약적 추론을 포함한 다운스트림 에이전트 작업에서 상당한 개선이 있음을 보여줍니다.

A new framework that helps language agents automatically learn when to use different mechanisms (ReAct, CoT, Reflection, etc.) for automatically completing tasks, improving on current approaches that use fixed or predefined mechanisms; the framework adaptively activates the appropriate mechanisms according to the potential characteristics of the task; experimental results demonstrate significant improvements in downstream agent tasks, including mathematical reasoning and knowledge-intensive reasoning.

논문 초록(Abstract)

언어 에이전트에는 자율적인 작업 수행을 위한 다양한 메커니즘이 부여될 수 있습니다. 현재의 에이전트는 일반적으로 고정된 메커니즘이나 미리 정의된 순서로 활성화되는 일련의 메커니즘에 의존하기 때문에 다양한 잠재적 작업 솔루션 구조에 적응하는 데 한계가 있습니다. 이를 위해 본 논문에서는 전문가 모델에 의존하지 않고 메커니즘 활성화 적응성을 최적화하는 데 초점을 맞춘 자기 탐색을 통한 적응형 언어 에이전트 활성화 학습 메커니즘(ALAMA, Adaptive Language Agent Mechanism Activation Learning with Self-Exploration)을 제안합니다. 처음에는 조화로운 에이전트 프레임워크(\textbf{UniAct})를 구축하여 \textbf{Act} 액션을 통해 다양한 메커니즘을 \textbf{Uni}fy합니다. 그런 다음 자체 탐색에 기반한 훈련 효율적인 최적화 방법을 활용하여 UniAct가 작업의 잠재적 특성에 따라 적절한 메커니즘을 적응적으로 활성화할 수 있도록 합니다. 실험 결과는 다운스트림 에이전트 작업에서 상당한 개선을 보여줌으로써 보다 역동적이고 상황에 민감한 메커니즘 활성화를 촉진하는 접근 방식의 효과를 확인했습니다.

Language Agent could be endowed with different mechanisms for autonomous task accomplishment. Current agents typically rely on fixed mechanisms or a set of mechanisms activated in a predefined order, limiting their adaptation to varied potential task solution structures. To this end, this paper proposes \textbf{A}daptive \textbf{L}anguage \textbf{A}gent \textbf{M}echanism \textbf{A}ctivation Learning with Self-Exploration (\textbf{ALAMA}), which focuses on optimizing mechanism activation adaptability without reliance on expert models. Initially, it builds a harmonized agent framework (\textbf{UniAct}) to \textbf{Uni}fy different mechanisms via \textbf{Act}ions. Then it leverages a training-efficient optimization method based on self-exploration to enable the UniAct to adaptively activate the appropriate mechanisms according to the potential characteristics of the task. Experimental results demonstrate significant improvements in downstream agent tasks, affirming the effectiveness of our approach in facilitating more dynamic and context-sensitive mechanism activation.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1863956776623747433


Auto-RAG: 대규모 언어 모델을 위한 자율 검색-증강 생성 / Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models

논문 소개

많은 데이터 세트에서 뛰어난 성능을 발휘하는 자율 반복 검색 모델인 Auto-RAG는 LLM의 의사 결정 기능을 활용하는 미세 조정된 LLM으로, 멀티턴 대화를 통해 검색기와 상호작용하며 체계적으로 검색을 계획하고 쿼리를 개선하여 가치 있는 지식을 획득하며 충분한 외부 정보를 얻을 때까지 이 과정을 수행합니다. 저자는 또한 질문 난이도에 따라 사람의 개입 없이 반복 횟수를 조정할 수 있음을 보여 줍니다.

An autonomous iterative retrieval model with superior performance across many datasets; Auto-RAG is a fine-tuned LLM that leverages the decision-making capabilities of an LLM; it interacts with the retriever through multiturn dialogues, systematically planning retrievals and refining queries to acquire valuable knowledge — it performs this process until sufficient external information is obtained; the authors also show that based on question difficulty, the method can adjust the number of iterations without any human intervention.

논문 초록(Abstract)

반복적 검색은 검색된 지식의 관련성을 높이기 위해 모델이 생성 중에 지속적으로 검색기를 쿼리하여 검색 증강 생성(RAG)의 성능을 향상시키는 프로세스를 말합니다. 기존 작업에서는 일반적으로 반복 검색을 구현하기 위해 단발성 프롬프트 또는 수동으로 구성된 규칙을 사용합니다. 이는 추가적인 추론 오버헤드를 유발하고 대규모 언어 모델(LLM)의 뛰어난 추론 능력을 간과합니다. 이 백서에서는 LLM의 강력한 의사 결정 기능에 중점을 둔 자율 반복 검색 모델인 Auto-RAG를 소개합니다. Auto-RAG는 리트리버와 여러 차례에 걸쳐 대화를 나누며 체계적으로 검색을 계획하고 쿼리를 구체화하여 가치 있는 지식을 획득합니다. 이 프로세스는 충분한 외부 정보가 수집될 때까지 계속되며, 이 시점에서 사용자에게 결과가 표시됩니다. 이를 위해 반복 검색에서 추론 기반 의사 결정 지침을 자율적으로 합성하는 방법을 개발하고 최신 오픈 소스 LLM을 미세 조정했습니다. 실험 결과에 따르면 Auto-RAG는 리트리버와 자율적인 반복적 상호 작용이 가능하며, LLM의 뛰어난 추론 및 의사 결정 능력을 효과적으로 활용하여 6개 벤치마크에서 뛰어난 성능을 보였습니다. 추가 분석 결과, Auto-RAG는 사람의 개입 없이도 질문의 난이도와 검색된 지식의 유용성에 따라 반복 횟수를 자율적으로 조정할 수 있는 것으로 나타났습니다. 또한 Auto-RAG는 반복적인 검색 프로세스를 자연어로 표현하여 해석 가능성을 높이는 동시에 사용자에게 보다 직관적인 경험을 제공합니다\footnote{코드는 \url{GitHub - ictnlp/Repository-for-the-forthcoming-work: The forthcoming work.}에서 확인할 수 있습니다.

Iterative retrieval refers to the process in which the model continuously queries the retriever during generation to enhance the relevance of the retrieved knowledge, thereby improving the performance of Retrieval-Augmented Generation (RAG). Existing work typically employs few-shot prompting or manually constructed rules to implement iterative retrieval. This introduces additional inference overhead and overlooks the remarkable reasoning capabilities of Large Language Models (LLMs). In this paper, we introduce Auto-RAG, an autonomous iterative retrieval model centered on the LLM's powerful decision-making capabilities. Auto-RAG engages in multi-turn dialogues with the retriever, systematically planning retrievals and refining queries to acquire valuable knowledge. This process continues until sufficient external information is gathered, at which point the results are presented to the user. To this end, we develop a method for autonomously synthesizing reasoning-based decision-making instructions in iterative retrieval and fine-tuned the latest open-source LLMs. The experimental results indicate that Auto-RAG is capable of autonomous iterative interaction with the retriever, effectively leveraging the remarkable reasoning and decision-making abilities of LLMs, which lead to outstanding performance across six benchmarks. Further analysis reveals that Auto-RAG can autonomously adjust the number of iterations based on the difficulty of the questions and the utility of the retrieved knowledge, without requiring any human intervention. Moreover, Auto-RAG expresses the iterative retrieval process in natural language, enhancing interpretability while providing users with a more intuitive experience\footnote{Code is available at \url{GitHub - ictnlp/Repository-for-the-forthcoming-work: The forthcoming work.}.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1863600141103501454

머신 러닝을 통한 확률론적 일기 예보 / Probabilistic weather forecasting with machine learning

논문 소개

정확도와 속도 모두에서 세계 최고의 운영 중인 기상 예측 시스템(ECMWF의 ENS)을 능가하는 ML 기상 예측 모델로, 80개 이상의 변수에 대해 단 8분 만에 전 세계 15일간의 확률적 일기 예보를 생성하며, 평가 대상의 97.2%에서 ENS보다 우수한 기술을 보유하고 있으며, GenCast는 불확실성을 더 잘 포착하고 극한 기상 현상, 열대 저기압의 경로, 풍력발전량을 예측하는 예측의 앙상블을 생성합니다.

An ML weather prediction model that outperforms the world's leading operational weather forecasting system (ECMWF's ENS) in both accuracy and speed; it generates probabilistic 15-day global weather forecasts for over 80 variables in just 8 minutes, with better skill than ENS on 97.2% of evaluated targets; GenCast produces an ensemble of forecasts that better capture uncertainty and predict extreme weather events, tropical cyclone tracks, and wind power production.

논문 초록(Abstract)

일기 예보는 근본적으로 불확실하기 때문에 위험 날씨에 대한 경고부터 재생 에너지 사용 계획에 이르기까지 중요한 결정을 내리기 위해서는 발생 가능한 기상 시나리오의 범위를 예측하는 것이 중요합니다. 전통적으로 일기 예보는 대기의 물리 기반 시뮬레이션에 의존하는 수치 일기 예보(NWP)를 기반으로 해왔습니다. 최근 머신러닝(ML) 기반 일기예보(MLWP)의 발전으로 단일 NWP 시뮬레이션보다 예보 오차가 적은 ML 기반 모델이 만들어졌습니다. 그러나 이러한 발전은 주로 불확실성을 표현하고 위험을 예측하지 못하는 단일 결정론적 예보에 초점을 맞추고 있습니다. 전반적으로 MLWP는 최첨단 NWP 앙상블 예측에 비해 정확도와 신뢰도가 떨어졌습니다. 여기에서는 세계 최고 수준의 중거리 일기 예보인 유럽 중거리 기상 예보 센터의 앙상블 예보인 ENS보다 더 뛰어난 기술과 속도를 갖춘 확률론적 일기 예보 모델인 GenCast를 소개합니다. GenCast는 수십 년간의 재분석 데이터로 학습된 머신러닝 일기예보 방법입니다. GenCast는 80개 이상의 지표 및 대기 변수에 대해 12시간 단위와 0.25° 위도-경도 해상도의 확률론적 15일 전 세계 예보를 8분 안에 앙상블로 생성합니다. 평가 대상 1,320개 중 97.2%에서 ENS보다 뛰어난 성능을 보였으며 극한 날씨, 열대성 저기압의 진로, 풍력 발전량을 더 잘 예측했습니다. 이 연구는 날씨에 의존하는 중요한 결정을 보다 정확하고 효율적으로 내릴 수 있는 운영 일기 예보의 다음 장을 여는 데 도움이 됩니다.

Weather forecasts are fundamentally uncertain, so predicting the range of probable weather scenarios is crucial for important decisions, from warning the public about hazardous weather to planning renewable energy use. Traditionally, weather forecasts have been based on numerical weather prediction (NWP), which relies on physics-based simulations of the atmosphere. Recent advances in machine learning (ML)-based weather prediction (MLWP) have produced ML-based models with less forecast error than single NWP simulations. However, these advances have focused primarily on single, deterministic forecasts that fail to represent uncertainty and estimate risk. Overall, MLWP has remained less accurate and reliable than state-of-the-art NWP ensemble forecasts. Here we introduce GenCast, a probabilistic weather model with greater skill and speed than the top operational medium-range weather forecast in the world, ENS, the ensemble forecast of the European Centre for Medium-Range Weather Forecasts. GenCast is an ML weather prediction method, trained on decades of reanalysis data. GenCast generates an ensemble of stochastic 15-day global forecasts, at 12-h steps and 0.25° latitude–longitude resolution, for more than 80 surface and atmospheric variables, in 8 min. It has greater skill than ENS on 97.2% of 1,320 targets we evaluated and better predicts extreme weather, tropical cyclone tracks and wind power production. This work helps open the next chapter in operational weather forecasting, in which crucial weather-dependent decisions are made more accurately and efficiently.

논문 링크

https://www.nature.com/articles/s41586-024-08252-9

더 읽어보기

https://x.com/GoogleDeepMind/status/1864340994965098513


인간과 에이전트 간 커뮤니케이션의 과제 / Challenges in Human-Agent Communication

논문 소개

인간과 AI 에이전트가 효과적으로 공통점과 상호 이해를 구축하는 방법에 초점을 맞춰 인간과 에이전트 간 커뮤니케이션의 주요 과제를 종합적으로 분석하고, 에이전트에서 사용자에게 정보 전달, 사용자가 에이전트에게 정보 전달, 모든 상호작용에 영향을 미치는 일반적인 커뮤니케이션 과제 등 3가지 범주에 걸쳐 12가지 핵심 과제를 식별합니다.

Present a comprehensive analysis of key challenges in human-agent communication, focusing on how humans and AI agents can effectively establish common ground and mutual understanding; identifies 12 core challenges across three categories: conveying information from agents to users, enabling users to communicate information to agents, and general communication challenges that affect all interactions.

논문 초록(Abstract)

최신 생성 기반 모델의 놀라운 발전으로 환경을 관찰하고, 도구를 호출하고, 다른 에이전트와 통신하여 문제를 해결할 수 있는 정교하고 뛰어난 성능의 자율 에이전트 개발이 가능해졌습니다. 이러한 에이전트는 자연어를 통해 사용자와 소통할 수 있지만, 그 복잡성과 광범위한 실패 모드는 인간과 AI의 상호 작용에 새로운 과제를 제시합니다. 선행 연구를 바탕으로 커뮤니케이션 기반 관점을 바탕으로 이러한 시스템이 직면한 12가지 주요 커뮤니케이션 과제를 식별하고 분석하여 인간과 에이전트의 커뮤니케이션 연구에 기여하고 있습니다. 여기에는 에이전트가 사용자에게 정보를 전달할 때의 과제, 사용자가 에이전트에게 정보를 전달할 때의 과제, 그리고 모든 인간-에이전트 커뮤니케이션에서 고려해야 할 중요한 과제가 포함됩니다. 구체적인 사례를 통해 각 과제를 설명하고 열린 연구 방향을 제시합니다. 이번 연구 결과는 인간-에이전트 커뮤니케이션 연구의 중요한 격차에 대한 인사이트를 제공하고 이러한 시스템의 투명성과 제어를 지원하기 위한 새로운 디자인 패턴, 원칙 및 가이드라인을 시급히 요구하고 있습니다.

Remarkable advancements in modern generative foundation models have enabled the development of sophisticated and highly capable autonomous agents that can observe their environment, invoke tools, and communicate with other agents to solve problems. Although such agents can communicate with users through natural language, their complexity and wide-ranging failure modes present novel challenges for human-AI interaction. Building on prior research and informed by a communication grounding perspective, we contribute to the study of human-agent communication by identifying and analyzing twelve key communication challenges that these systems pose. These include challenges in conveying information from the agent to the user, challenges in enabling the user to convey information to the agent, and overarching challenges that need to be considered across all human-agent communication. We illustrate each challenge through concrete examples and identify open directions of research. Our findings provide insights into critical gaps in human-agent communication research and serve as an urgent call for new design patterns, principles, and guidelines to support transparency and control in these systems.

논문 링크


RARE: 대규모 언어 모델을 위한 검색 증강 추론 기능 향상 / RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models

논문 소개

LLM의 추론 정확도와 사실 신뢰성을 향상시키기 위해 rStar 추론 프레임워크를 확장하고, 명시적 검색 증강 추론이 포함된 몬테 카를로스 트리 검색(MCTS) 프레임워크를 활용하여 여러 후보 추론 궤적을 생성한 다음 검색 증강 사실성 점수를 활용하여 추론 궤적의 사실 정확도를 평가하고, 사실성 점수를 가장 많이 받은 궤적이 시스템에 의해 최종 답변으로 선택됩니다; 의료 추론 작업에서 RARE(Llama 3을 사용하는 1.1)는 GPT-4와 같은 대형 모델을 능가하고, 상식 추론 과제에서 RARE는 Claude-3.5 Sonnet 및 GPT-4o-mini를 능가하여 GPT-4o와 대등한 성능을 달성했습니다.

Extends the rStar reasoning framework to enhance reasoning accuracy and factual reliability of LLMs; it leverages a Monte Carlos Tree Search (MCTS) framework with explicit retrieval-augmented reasoning to produce multiple candidate reasoning trajectories; then it leverages a retrieval-augmented factuality scorer to evaluate the factual accuracy of the reasoning trajectories; the trajectory with the highest factuality score is selected as the final answer by the system; on medical reasoning tasks, RARE (which uses Llama 3.1) surpasses larger models such as GPT-4; on commonsense reasoning tasks, RARE outperformed Claude-3.5 Sonnet and GPT-4o-mini, achieving performance competitive with GPT-4o.

논문 초록(Abstract)

이 작업에서는 상식 및 의학 추론과 같은 복잡하고 지식 집약적인 작업을 위해 대규모 언어 모델(LLM)에서 추론 정확도와 사실 무결성을 향상시키는 것을 목표로 하는 상호 추론 프레임워크(rStar)의 다목적 확장 기능인 RARE(검색 증강 추론 향상)를 소개합니다. RARE는 몬테카를로 트리 검색(MCTS) 프레임워크 내에 두 가지 혁신적인 작업을 통합합니다: 초기 문제 진술에 따라 검색 쿼리를 생성하고, 해당 쿼리를 사용해 정보 검색을 수행하고, 검색된 데이터로 추론을 보강하여 최종 답변을 공식화하는 A6과 생성된 하위 질문에 대해 특별히 정보 검색을 활용하고 관련 문맥 정보를 통해 이러한 하위 질문에 다시 답변하는 A7이 그것입니다. 또한, 검색 증강 사실성 점수(Retrieval-Augmented Factuality Scorer)가 원래의 판별자를 대체하여 높은 사실성 기준을 충족하는 추론 경로에 우선순위를 부여하도록 제안되었습니다. LLaMA 3.1을 사용한 실험 결과에 따르면 RARE를 사용하면 오픈 소스 LLM이 GPT-4 및 GPT-4o와 같은 최고의 오픈 소스 모델과 경쟁할 수 있는 성능을 달성할 수 있습니다. 이 연구는 논리적 일관성과 사실 무결성이 중요한 영역에서 LLM을 개선하기 위한 확장 가능한 솔루션으로 RARE를 확립했습니다.

This work introduces RARE (Retrieval-Augmented Reasoning Enhancement), a versatile extension to the mutual reasoning framework (rStar), aimed at enhancing reasoning accuracy and factual integrity across large language models (LLMs) for complex, knowledge-intensive tasks such as commonsense and medical reasoning. RARE incorporates two innovative actions within the Monte Carlo Tree Search (MCTS) framework: A6, which generates search queries based on the initial problem statement, performs information retrieval using those queries, and augments reasoning with the retrieved data to formulate the final answer; and A7, which leverages information retrieval specifically for generated sub-questions and re-answers these sub-questions with the relevant contextual information. Additionally, a Retrieval-Augmented Factuality Scorer is proposed to replace the original discriminator, prioritizing reasoning paths that meet high standards of factuality. Experimental results with LLaMA 3.1 show that RARE enables open-source LLMs to achieve competitive performance with top open-source models like GPT-4 and GPT-4o. This research establishes RARE as a scalable solution for improving LLMs in domains where logical coherence and factual integrity are critical.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1864687176929431566


DataLab: LLM 기반 비즈니스 인텔리전스를 위한 통합 플랫폼 / DataLab: A Unified Platform for LLM-Powered Business Intelligence

논문 소개

작업 계획, 추론, 계산 노트북을 통합하여 전체 BI 워크플로우를 간소화하는 LLM 기반 에이전트로 구동되는 통합 비즈니스 인텔리전스 플랫폼으로, 연구 벤치마크에서 SOTA 성능을 달성하고 Tencent의 실제 기업 데이터에서 정확성과 효율성을 크게 개선했으며, 기업별 BI 작업에서 최대 58.58%의 정확도 증가와 61.65%의 토큰 비용 절감을 달성했습니다.

A unified business intelligence platform powered by LLM-based agents that integrates task planning, reasoning, and computational notebooks to streamline the entire BI workflow; the system achieves SOTA performance on research benchmarks and demonstrates significant improvements in accuracy and efficiency on real enterprise data from Tencent; achieves up to a 58.58% increase in accuracy and a 61.65% reduction in token cost on enterprise-specific BI tasks.

논문 초록(Abstract)

비즈니스 인텔리전스(BI)는 현대 조직 내에서 대량의 데이터를 정보에 입각한 의사 결정을 위한 실행 가능한 인사이트로 변환합니다. 최근에는 자연어(NL) 쿼리를 기반으로 실행 가능한 환경에서 작업 계획, 추론 및 작업을 자동으로 수행하여 BI 워크플로우를 간소화하는 대규모 언어 모델(LLM) 기반 에이전트가 등장했습니다. 하지만 기존의 접근 방식은 주로 NL2SQL 및 NL2VIS와 같은 개별 BI 작업에 초점을 맞추고 있습니다. 다양한 데이터 역할과 도구에 걸쳐 작업이 파편화되면 반복적이고 협업적인 BI의 특성으로 인해 비효율성과 잠재적인 오류가 발생합니다. 이 백서에서는 원스톱 LLM 기반 에이전트 프레임워크와 증강 컴퓨팅 노트북 인터페이스를 통합하는 통합 BI 플랫폼인 DataLab을 소개합니다. DataLab은 단일 환경 내에서 LLM 지원과 사용자 사용자 지정을 원활하게 결합하여 다양한 데이터 역할에 대한 광범위한 BI 작업을 지원합니다. 이러한 통합을 달성하기 위해 기업별 BI 작업에 맞는 도메인 지식 통합 모듈, BI 워크플로우 전반에서 정보 공유를 촉진하는 에이전트 간 커뮤니케이션 메커니즘, BI 노트북의 컨텍스트 활용 효율성을 높이기 위한 셀 기반 컨텍스트 관리 전략을 설계합니다. 광범위한 실험을 통해 DataLab은 널리 사용되는 연구 벤치마크에서 다양한 BI 작업에서 최첨단 성능을 달성하는 것으로 입증되었습니다. 또한, DataLab은 Tencent의 실제 데이터 세트에서 높은 효과와 효율성을 유지하여 기업별 BI 작업에서 최대 58.58%의 정확도 증가와 61.65%의 토큰 비용 절감을 달성했습니다.

Business intelligence (BI) transforms large volumes of data within modern organizations into actionable insights for informed decision-making. Recently, large language model (LLM)-based agents have streamlined the BI workflow by automatically performing task planning, reasoning, and actions in executable environments based on natural language (NL) queries. However, existing approaches primarily focus on individual BI tasks such as NL2SQL and NL2VIS. The fragmentation of tasks across different data roles and tools lead to inefficiencies and potential errors due to the iterative and collaborative nature of BI. In this paper, we introduce DataLab, a unified BI platform that integrates a one-stop LLM-based agent framework with an augmented computational notebook interface. DataLab supports a wide range of BI tasks for different data roles by seamlessly combining LLM assistance with user customization within a single environment. To achieve this unification, we design a domain knowledge incorporation module tailored for enterprise-specific BI tasks, an inter-agent communication mechanism to facilitate information sharing across the BI workflow, and a cell-based context management strategy to enhance context utilization efficiency in BI notebooks. Extensive experiments demonstrate that DataLab achieves state-of-the-art performance on various BI tasks across popular research benchmarks. Moreover, DataLab maintains high effectiveness and efficiency on real-world datasets from Tencent, achieving up to a 58.58% increase in accuracy and a 61.65% reduction in token cost on enterprise-specific BI tasks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1864327307177152619


사전 학습의 절차적 지식으로 대규모 언어 모델에서 추론하기 / Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models

논문 소개

관련 영향력 모델에서 어떤 문서가 출력되는지 연구하고, 관련 데이터를 살펴봄으로써 추론 작업을 수행할 때 LLM이 어떤 일반화 전략을 사용하는지 더 잘 이해하고, 추론 작업을 수행할 때 영향력 있는 문서에 절차적 지식(예: 수식이나 코드를 사용하여 솔루션을 얻는 방법을 보여주는 것)이 포함되어 있음을 발견합니다.

Studies what documents in the pertaining influence model outputs; by looking at the pertaining data, it tries to understand better what kind of generalization strategies LLMs use to perform reasoning tasks; when performing reasoning tasks, it finds that influential documents contain procedural knowledge (e.g., demonstrating how to obtain a solution using formulae or code).

논문 초록(Abstract)

최근 몇 년 동안 대규모 언어 모델의 기능과 한계가 매우 상세하게 설명되면서 흥미롭지만 상충되는 그림이 그려지고 있습니다. 한편으로 LLM은 일반적인 문제 해결 능력을 보여줍니다. 반면에 인간과 비교했을 때 놀라운 추론 격차를 보여 일반화 전략의 견고성에 의문을 제기하기도 합니다. LLM 설계에 사용되는 데이터의 양이 방대하기 때문에 일반화를 측정하는 데 전통적으로 사용되는 방법인 훈련-테스트 세트 분리를 적용하지 못했습니다. 이를 극복하기 위해 저희는 LLM이 추론 작업을 수행할 때 사용하는 사전 훈련 데이터를 조사하여 어떤 종류의 일반화 전략을 사용하는지 연구했습니다. 크기가 서로 다른 두 모델(70억 개와 35억 개)과 25억 개의 사전 훈련 토큰을 대상으로 세 가지 간단한 수학적 추론 과제에 대한 모델 출력에 영향을 미치는 문서를 식별하고 이를 사실적인 질문에 답하는 데 영향을 미치는 데이터와 대조합니다. 그 결과, 모델은 각 사실적 질문에 대해 대부분 별개의 데이터 세트에 의존하지만, 한 문서가 동일한 과제 내의 여러 추론 질문에 걸쳐 유사한 영향을 미치는 경우가 많으며 이는 절차적 지식이 존재한다는 것을 나타냅니다. 또한 사실적 질문에 대한 답변이 가장 영향력 있는 데이터에 나타나는 경우가 많다는 사실도 발견했습니다. 그러나 추론 질문의 경우 일반적으로 답변은 영향력이 크지 않으며 중간 추론 단계에 대한 답변도 영향력이 크지 않습니다. 추론 질문의 상위 순위 문서를 정성적으로 분석해 본 결과, 영향력 있는 문서에는 수식이나 코드를 사용해 솔루션을 얻는 방법을 설명하는 등 절차적 지식이 포함되어 있는 경우가 많다는 것을 확인했습니다. 연구 결과에 따르면 모델이 사용하는 추론 접근 방식은 검색과는 달리 유사한 형태의 추론을 수행하는 문서에서 절차적 지식을 종합하는 일반화 가능한 전략에 가깝습니다.

The capabilities and limitations of Large Language Models have been sketched out in great detail in recent years, providing an intriguing yet conflicting picture. On the one hand, LLMs demonstrate a general ability to solve problems. On the other hand, they show surprising reasoning gaps when compared to humans, casting doubt on the robustness of their generalisation strategies. The sheer volume of data used in the design of LLMs has precluded us from applying the method traditionally used to measure generalisation: train-test set separation. To overcome this, we study what kind of generalisation strategies LLMs employ when performing reasoning tasks by investigating the pretraining data they rely on. For two models of different sizes (7B and 35B) and 2.5B of their pretraining tokens, we identify what documents influence the model outputs for three simple mathematical reasoning tasks and contrast this to the data that are influential for answering factual questions. We find that, while the models rely on mostly distinct sets of data for each factual question, a document often has a similar influence across different reasoning questions within the same task, indicating the presence of procedural knowledge. We further find that the answers to factual questions often show up in the most influential data. However, for reasoning questions the answers usually do not show up as highly influential, nor do the answers to the intermediate reasoning steps. When we characterise the top ranked documents for the reasoning questions qualitatively, we confirm that the influential documents often contain procedural knowledge, like demonstrating how to obtain a solution using formulae or code. Our findings indicate that the approach to reasoning the models use is unlike retrieval, and more like a generalisable strategy that synthesises procedural knowledge from documents doing a similar form of reasoning.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1863590537346925032


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: