[2024/08/26 ~ 09/01] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/08/26 ~ 09/01] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들의 경향을 살펴보면 두 가지 주요 주제가 뚜렷하게 나타납니다: 멀티모달 학습과 생성 모델입니다.

  • 첫째, 멀티모달 학습에 대한 논문이 두드러집니다. 'Transfusion', 'Guide to Continual Multimodal Pretraining', 그리고 'Foundation Models for Music' 등의 논문이 멀티모달 데이터의 활용 및 통합에 관해 다루고 있습니다. 이 논문들은 다양한 데이터 유형(예: 텍스트, 이미지, 오디오 등)을 결합하여 모델의 성능을 향상시키는 방법을 탐구합니다. 멀티모달 학습은 모델이 더 많은 정보를 다양한 소스에서 얻을 수 있도록 하여, 단일 모달리티에만 의존하는 모델보다 더 풍부하고 정확한 예측을 가능하게 합니다.

  • 둘째, 생성 모델에 대한 연구가 활발하게 이루어지고 있습니다. 'GameGen', 'AutoGen Studio', 'Persuasion Games with LLMs' 등의 논문들은 생성 AI 모델을 이용한 다양한 응용 사례를 설명하고 있습니다. 게임 생성, 자동화된 창작 스튜디오, 그리고 설득 게임 등 다양한 분야에서 생성 모델이 어떻게 활용될 수 있는지를 다루며, 이들 논문은 생성 모델의 가능성과 한계를 탐구합니다. 생성 AI는 콘텐츠 생성, 대화 인터페이스, 자동화된 디자인 등에서 혁신적인 역할을 수행할 수 있기 때문에 이 분야의 연구가 점차 증가하고 있는 추세입니다.

  • 이 두 가지 주요 경향은 AI 기술의 발전과 그 응용 가능성이 넓어짐에 따라 필연적으로 나타나는 현상입니다. 멀티모달 학습은 데이터 다양성을 활용하여 더 포괄적이고 정교한 모델을 만들기 위한 노력이 지속되면서 주목받고 있으며, 생성 모델은 인간의 창의성을 보조하거나 대체할 수 있는 가능성을 열어주고 있습니다. 이러한 연구들은 실질적인 응용 사례와 함께 AI 기술의 범위를 확장시키고 있습니다.


실시간 게임 엔진인 디퓨전 모델 / Diffusion Models Are Real-Time Game Engines

논문 소개

긴 궤적의 복잡한 환경과 실시간으로 상호작용할 수 있는 확산 모델 기반의 게임 엔진으로, RL 에이전트가 학습하고 확산 모델이 프레임을 생성하는 2단계 훈련 프로세스를 사용하며, 단일 TPU에서 20fps로 DOOM을 인터랙티브하게 시뮬레이션할 수 있습니다.

A game engine powered by a diffusion model that enables real-time interaction with complex environments over long trajectories; uses a two-phase training process involving an RL agent to learn and a diffusion model to generate frames; it can interactively simulate DOOM over at 20 fps on a single TPU.

논문 초록(Abstract)

유니티는 신경 모델로만 구동되는 최초의 게임 엔진으로, 긴 궤적의 복잡한 환경과 고품질의 실시간 상호작용을 가능하게 하는 GameNGen을 소개합니다. GameNGen은 단일 TPU에서 초당 20프레임 이상의 속도로 고전 게임 DOOM을 인터랙티브하게 시뮬레이션할 수 있습니다. 다음 프레임 예측은 손실 JPEG 압축과 비슷한 29.4의 PSNR을 달성합니다. 인간 평가자는 게임의 짧은 클립과 시뮬레이션의 클립을 구분하는 데 무작위 확률보다 약간 더 뛰어납니다. GameNGen은 두 단계로 훈련됩니다. (1) RL 에이전트가 게임 플레이를 학습하고 훈련 세션이 기록되며, (2) 확산 모델이 과거 프레임과 동작의 순서에 따라 다음 프레임을 생성하도록 훈련됩니다. 컨디셔닝 증강은 긴 궤적에 걸쳐 안정적인 자동 회귀 생성을 가능하게 합니다.

We present GameNGen, the first game engine powered entirely by a neural model that enables real-time interaction with a complex environment over long trajectories at high quality. GameNGen can interactively simulate the classic game DOOM at over 20 frames per second on a single TPU. Next frame prediction achieves a PSNR of 29.4, comparable to lossy JPEG compression. Human raters are only slightly better than random chance at distinguishing short clips of the game from clips of the simulation. GameNGen is trained in two phases: (1) an RL-agent learns to play the game and the training sessions are recorded, and (2) a diffusion model is trained to produce the next frame, conditioned on the sequence of past frames and actions. Conditioning augmentations enable stable auto-regressive generation over long trajectories.

논문 링크

더 읽어보기

https://x.com/iScienceLuvr/status/1828617875432841490


시계열 분석을 위한 에이전트 검색-증강 생성 / Agentic Retrieval-Augmented Generation for Time Series Analysis

논문 소개

시계열 분석을 위한 에이전트 RAG 프레임워크를 제안하고, 에이전트가 전문화된 하위 에이전트를 조율하여 시계열 작업을 완료하고, 하위 에이전트는 조정된 소규모 언어 모델을 활용하며, 과거 패턴 및 추세에 대한 지식이 포함된 관련 프롬프트를 검색할 수 있는 다중 에이전트 아키텍처를 사용하여 새로운 데이터에 대한 예측을 개선하는 데 도움을 줍니다.

Proposes an agentic RAG framework for time series analysis; uses a multi-agent architecture where an agent orchestrates specialized sub-agents to complete time-series tasks; the sub-agents leverage tuned small language models and can retrieve relevant prompts containing knowledge about historical patterns and trends; this helps to improve predictions on new data.

논문 초록(Abstract)

시계열 모델링은 많은 애플리케이션에서 매우 중요하지만, 작업별 결과를 예측하기 위해 과거 맥락에서 학습할 때 복잡한 시공간적 종속성 및 분포 변화와 같은 문제에 직면해 있습니다. 이러한 문제를 해결하기 위해 저희는 시계열 분석을 위한 에이전트 검색 증강 생성(RAG) 프레임워크를 사용하는 새로운 접근 방식을 제안합니다. 이 프레임워크는 마스터 에이전트가 전문화된 하위 에이전트를 조율하고 최종 사용자 요청을 관련 하위 에이전트에 위임하는 계층적 다중 에이전트 아키텍처를 활용합니다. 하위 에이전트는 명령어 튜닝 및 직접 선호도 최적화를 사용한 미세 조정을 통해 특정 시계열 작업에 맞게 맞춤화된 소규모의 사전 학습된 언어 모델(SLM)을 활용하고, 과거 패턴 및 추세에 대한 추출된 지식이 포함된 프롬프트 풀의 공유 저장소에서 관련 프롬프트를 검색하여 새로운 데이터에 대한 예측을 개선합니다. 저희가 제안한 모듈식 다중 에이전트 RAG 접근 방식은 벤치마크 데이터 세트에서 작업별 맞춤형 방법보다 더 효과적으로 복잡한 문제를 해결함으로써 유연성을 제공하고 주요 시계열 작업 전반에서 최신 성능을 달성합니다.

Time series modeling is crucial for many applications, however, it faces challenges such as complex spatio-temporal dependencies and distribution shifts in learning from historical context to predict task-specific outcomes. To address these challenges, we propose a novel approach using an agentic Retrieval-Augmented Generation (RAG) framework for time series analysis. The framework leverages a hierarchical, multi-agent architecture where the master agent orchestrates specialized sub-agents and delegates the end-user request to the relevant sub-agent. The sub-agents utilize smaller, pre-trained language models (SLMs) customized for specific time series tasks through fine-tuning using instruction tuning and direct preference optimization, and retrieve relevant prompts from a shared repository of prompt pools containing distilled knowledge about historical patterns and trends to improve predictions on new data. Our proposed modular, multi-agent RAG approach offers flexibility and achieves state-of-the-art performance across major time series tasks by tackling complex challenges more effectively than task-specific customized methods across benchmark datasets.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1828838209461043455


AutoGen Studio: 멀티 에이전트 시스템 빌드 및 디버깅을 위한 노코드 개발자 툴 / AutoGen Studio: A No-Code Developer Tool for Building and Debugging Multi-Agent Systems

논문 소개

AI 에이전트를 빠르게 프로토타이핑할 수 있는 로우코드 인터페이스입니다. AutoGen 프레임워크를 기반으로 구축되었으며 멀티 에이전트 워크플로를 디버깅하고 평가하는 데에도 사용할 수 있습니다.

A low-code interface for rapidly prototyping AI agents. It's built on top of the AutoGen framework and can also be used for debugging and evaluating multi-agent workflows.

논문 초록(Abstract)

여러 에이전트(생성형 AI 모델 + 도구)가 협업하는 멀티 에이전트 시스템은 다양한 영역에서 장기간 실행되는 복잡한 작업을 해결하기 위한 효과적인 패턴으로 떠오르고 있습니다. 그러나 대부분의 개발자에게는 모델, 도구, 오케스트레이션 메커니즘 등의 매개변수를 지정하고 디버깅하는 것이 여전히 어려운 과제입니다. 이러한 문제를 해결하기 위해 유니티는 AUTOGEN 프레임워크를 기반으로 멀티 에이전트 워크플로를 신속하게 프로토타이핑, 디버깅 및 평가할 수 있는 노코드 개발자 도구인 AUTOGEN STUDIO를 선보입니다. 오토젠 스튜디오는 선언적(JSON 기반) 사양을 사용하여 LLM 지원 에이전트를 표현하기 위한 웹 인터페이스와 Python API를 제공합니다. 에이전트 워크플로우 사양, 워크플로우의 대화형 평가 및 디버깅, 재사용 가능한 에이전트 구성 요소 갤러리를 위한 직관적인 드래그 앤 드롭 UI를 제공합니다. 노코드 멀티 에이전트 개발자 툴을 위한 네 가지 디자인 원칙을 강조하고 오픈 소스 구현을 https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studio 에서 공개합니다

Multi-agent systems, where multiple agents (generative AI models + tools) collaborate, are emerging as an effective pattern for solving long-running, complex tasks in numerous domains. However, specifying their parameters (such as models, tools, and orchestration mechanisms etc,.) and debugging them remains challenging for most developers. To address this challenge, we present AUTOGEN STUDIO, a no-code developer tool for rapidly prototyping, debugging, and evaluating multi-agent workflows built upon the AUTOGEN framework. AUTOGEN STUDIO offers a web interface and a Python API for representing LLM-enabled agents using a declarative (JSON-based) specification. It provides an intuitive drag-and-drop UI for agent workflow specification, interactive evaluation and debugging of workflows, and a gallery of reusable agent components. We highlight four design principles for no-code multi-agent developer tools and contribute an open-source implementation at https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studio

논문 링크

더 읽어보기

https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studio

https://x.com/omarsar0/status/1829163090715529358


대규모 언어 모델을 사용한 설득 게임 / Persuasion Games using Large Language Models

논문 소개

멀티 에이전트 프레임워크를 사용하여 LLM의 설득 효과를 향상시킬 수 있다고 주장하며, 주 에이전트는 설득력 있는 대화에 참여하고 보조 에이전트는 응답 분석 및 정보 검색과 같은 주요 작업을 수행하며, LLM이 사용자의 관점 변화를 만들어 구매 결정을 설득할 수 있으며, 예를 들어 영업 에이전트는 사용자의 관점을 71% 긍정적으로 변화시킬 수 있다고 합니다.

Claims that a multi-agent framework can be used to improve the persuasive efficacy of LLMs; the primary agent engages in persuasive dialogue while auxiliary agents perform key tasks like response analysis and information retrieval; finds that LLMs are capable of creating a perspective change in the users and persuading them to make a purchase decision; for instance, Sales agents can achieve a 71% positive shift in user perspectives.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 인간과 유사한 텍스트를 이해하고 생산할 수 있는 강력한 도구로 부상했습니다. 이 백서에서는 인간의 관점을 형성하고 특정 작업에 대한 의사 결정에 영향을 미칠 수 있는 LLM의 잠재력을 살펴봅니다. 이러한 기능은 투자, 신용카드, 보험과 같은 다양한 영역에서 적용되어 사용자가 적절한 보험 정책, 투자 계획, 신용카드, 리테일은 물론 행동 변화 지원 시스템(BCSS)을 선택하는 데 도움을 줍니다. 크리테오는 에이전트 컨소시엄이 협업 방식으로 운영되는 정교한 다중 에이전트 프레임워크를 제시합니다. 주 에이전트는 설득 대화를 통해 사용자와 직접 소통하고, 보조 에이전트는 정보 검색, 반응 분석, 설득 전략 개발, 사실 검증 등의 작업을 수행합니다. 실험을 통해 얻은 경험적 증거는 이러한 협업 방법론이 LLM의 설득 효과를 크게 향상시킨다는 것을 보여줍니다. 저희는 설득 노력에 대한 사용자의 저항을 지속적으로 분석하고 규칙 기반 및 LLM 기반 저항-설득 매핑 기법을 조합하여 이에 대응합니다. 보험, 은행, 소매업 분야에서 시뮬레이션 페르소나를 사용하고 대화를 생성하여 다양한 성격 유형을 인식하고, 이에 적응하고, 영향을 미치는 대규모 언어 모델(LLM)의 숙련도를 평가합니다. 동시에 LLM 시뮬레이션 페르소나가 사용하는 저항 메커니즘을 조사합니다. 설득은 상호 작용 전후의 측정 가능한 설문조사, 대화에서 LLM이 생성한 점수, 사용자 결정(구매 또는 비구매)을 통해 정량화됩니다.

Large Language Models (LLMs) have emerged as formidable instruments capable of comprehending and producing human-like text. This paper explores the potential of LLMs, to shape human perspectives and subsequently influence their decisions on particular tasks. This capability finds applications in diverse domains such as Investment, Credit cards and Insurance, wherein they assist users in selecting appropriate insurance policies, investment plans, Credit cards, Retail, as well as in Behavioral Change Support Systems (BCSS). We present a sophisticated multi-agent framework wherein a consortium of agents operate in collaborative manner. The primary agent engages directly with users through persuasive dialogue, while the auxiliary agents perform tasks such as information retrieval, response analysis, development of persuasion strategies, and validation of facts. Empirical evidence from our experiments demonstrates that this collaborative methodology significantly enhances the persuasive efficacy of the LLM. We analyze user resistance to persuasive efforts continuously and counteract it by employing a combination of rule-based and LLM-based resistance-persuasion mapping techniques. We employ simulated personas and generate conversations in insurance, banking, and retail domains to evaluate the proficiency of large language models (LLMs) in recognizing, adjusting to, and influencing various personality types. Concurrently, we examine the resistance mechanisms employed by LLM simulated personas. Persuasion is quantified via measurable surveys before and after interaction, LLM-generated scores on conversation, and user decisions (purchase or non-purchase).

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1829156960291185117


더 작고, 더 약하지만 더 나은: 컴퓨팅 최적 샘플링을 통한 LLM 추론자 훈련하기 / Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

논문 소개

더 강력하지만 더 비싼 모델로 생성된 데이터에 비해 더 약하고 저렴한(WC) 모델이 모델 미세 조정을 위한 더 나은 합성 데이터를 생성할 수 있음을 발견했으며, 전반적으로 WC 모델이 고급 LLM 추론자 훈련에 컴퓨팅 최적 접근 방식이 될 수 있음을 시사합니다.

Finds that weaker + cheaper (WC) models can generate better synthetic data for fine-tuning models compared to data generated with stronger but more expensive models; overall, results suggest that WC models may be a compute-optimal approach for training advanced LLM reasoners.

논문 초록(Abstract)

강력한 언어 모델(LM)의 고품질 합성 데이터에 대한 훈련은 LM의 추론 성능을 향상시키기 위한 일반적인 전략입니다. 이 연구에서는 이 전략이 고정된 추론 예산(예: FLOPs) 하에서 계산 최적인지 여부를 재검토합니다. 이를 위해 더 강력하지만 더 비싼(SE) 모델과 더 약하지만 더 저렴한(WC) 모델을 사용하여 합성 데이터를 생성하는 것 사이의 장단점을 조사합니다. 커버리지, 다양성, 오탐률이라는 세 가지 주요 지표에 걸쳐 생성된 데이터를 평가한 결과, WC 모델의 데이터가 커버리지와 다양성은 더 높지만 오탐률도 더 높은 것으로 나타났습니다. 그런 다음 지식 증류, 자기 개선, 약한 LM이 더 강한 LM에게 추론을 가르치는 새로운 약대강 개선 설정 등 다양한 설정에서 SE 및 WC 모델의 데이터에 대해 LM을 미세 조정합니다. 연구 결과에 따르면 WC 생성 데이터로 미세 조정된 모델은 여러 벤치마크와 다양한 WC 및 SE 모델 선택에 걸쳐 SE 생성 데이터로 훈련된 모델보다 일관되게 우수한 성능을 보였습니다. 이러한 결과는 합성 데이터 생성을 위해 SE 모델에 의존하는 일반적인 관행에 도전하는 것으로, WC가 고급 LM 추론자를 훈련하는 데 컴퓨팅 최적 접근 방식이 될 수 있음을 시사합니다.

Training on high-quality synthetic data from strong language models (LMs) is a common strategy to improve the reasoning performance of LMs. In this work, we revisit whether this strategy is compute-optimal under a fixed inference budget (e.g., FLOPs). To do so, we investigate the trade-offs between generating synthetic data using a stronger but more expensive (SE) model versus a weaker but cheaper (WC) model. We evaluate the generated data across three key metrics: coverage, diversity, and false positive rate, and show that the data from WC models may have higher coverage and diversity, but also exhibit higher false positive rates. We then finetune LMs on data from SE and WC models in different settings: knowledge distillation, self-improvement, and a novel weak-to-strong improvement setup where a weaker LM teaches reasoning to a stronger LM. Our findings reveal that models finetuned on WC-generated data consistently outperform those trained on SE-generated data across multiple benchmarks and multiple choices of WC and SE models. These results challenge the prevailing practice of relying on SE models for synthetic data generation, suggesting that WC may be the compute-optimal approach for training advanced LM reasoners.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1829526629787242878


Transfusion

논문 소개

이산 및 연속 데이터에 대해 멀티모달 모델을 훈련하는 훈련 레시피를 제시하고, 다음 토큰 예측과 확산을 결합하여 혼합 모달 시퀀스에 대한 트랜스포머 모델을 훈련하며, 7B 매개변수 모델에서 유사한 규모의 확산 및 언어 모델과 성능 경쟁이 가능한 2T 멀티모달 토큰으로 확장할 수 있음을 보여줍니다.

Presents a training recipe to train multi-modal models over discrete and continuous data; combines next token prediction with diffusion to train transformer models over mixed-modality sequences; shows that it’s possible to scale from 7B parameter models to 2T multi-modal tokens that can compete in performance with similar scale diffusion and language models.

논문 초록(Abstract)

불연속형 및 연속형 데이터에 대해 다중 모달 모델을 훈련하는 방법인 Transfusion을 소개합니다. Transfusion은 언어 모델링 손실 함수(다음 토큰 예측)와 확산을 결합하여 혼합 모달 시퀀스에 대해 단일 트랜스포머를 훈련합니다. 텍스트와 이미지 데이터가 혼합된 데이터에 대해 최대 70억 개의 매개변수로 여러 Transfusion 모델을 처음부터 사전 훈련하여 다양한 단일 및 교차 모달 벤치마크에 대한 확장 법칙을 수립합니다. 실험 결과, Transfusion은 이미지를 정량화하고 개별 이미지 토큰을 통해 언어 모델을 훈련하는 것보다 훨씬 더 나은 확장성을 보였습니다. 모달별 인코딩 및 디코딩 레이어를 도입함으로써 Transfusion 모델의 성능을 더욱 개선하고 각 이미지를 단 16개의 패치로 압축할 수도 있습니다. 또한, 트랜퓨전 레시피를 7B 파라미터와 2T 멀티 모달 토큰으로 확장하면 비슷한 규모의 확산 모델 및 언어 모델과 동등한 수준의 이미지와 텍스트를 생성할 수 있는 모델이 생성되어 두 가지 장점을 모두 누릴 수 있음을 입증했습니다.

We introduce Transfusion, a recipe for training a multi-modal model over discrete and continuous data. Transfusion combines the language modeling loss function (next token prediction) with diffusion to train a single transformer over mixed-modality sequences. We pretrain multiple Transfusion models up to 7B parameters from scratch on a mixture of text and image data, establishing scaling laws with respect to a variety of uni- and cross-modal benchmarks. Our experiments show that Transfusion scales significantly better than quantizing images and training a language model over discrete image tokens. By introducing modality-specific encoding and decoding layers, we can further improve the performance of Transfusion models, and even compress each image to just 16 patches. We further demonstrate that scaling our Transfusion recipe to 7B parameters and 2T multi-modal tokens produces a model that can generate images and text on a par with similar scale diffusion models and language models, reaping the benefits of both worlds.

논문 링크

더 읽어보기

https://x.com/AIatMeta/status/1828836885176967327


ReMamba: 맘바에 효과적인 롱 시퀀스 모델링 기능 탑재하기 / ReMamba: Equip Mamba with Effective Long-Sequence Modeling

논문 소개

Mamba 모델의 긴 컨텍스트 기능 및 효율성 조사; 긴 컨텍스트 결핍 문제는 Mamba의 RNN과 유사한 특성으로 인한 것; 다음과 같은 압축 전략을 통해 정보를 압축하여 이를 달성합니다: 첫 번째 포워드 패스 동안 상위 k 개의 숨겨진 상태와 두 번째 포워드 패스 동안 상태 공간에 통합하는 Mamba의 선택 메커니즘 활용; LongBench에서 기준선 대비 3.2 향상 및 L-Eval에서 1.6 향상 달성; 이 전략은 Mamba 2에도 적용되는 것으로 보입니다.

Investigates the long-context capabilities and efficiencies of Mamba models; the long-context deficiency issues are due to Mamba's RNN-like nature; it achieves this by condensing information via the following compression strategy: the top-k hidden states during the first forward pass and leverages Mamba’s selective mechanism to incorporate them into the state space during the second forward pass; achieves a 3.2 improvement over the baseline on LongBench and 1.6 improvement on L-Eval; the strategy seems to also transfer to Mamba 2.

논문 초록(Abstract)

Mamba 아키텍처는 짧은 문맥 자연어 처리(NLP) 작업에서 뛰어난 추론 효율성과 경쟁력 있는 성능을 보여주지만, 경험적 증거에 따르면 긴 문맥을 이해하는 능력은 트랜스포머 기반 모델에 비해 제한적인 것으로 나타났습니다. 이 연구에서는 Mamba 모델의 장문맥 효율성 문제를 조사하고 Mamba의 장문맥 이해 능력을 향상시키는 ReMamba를 제안합니다. ReMamba는 2단계 리포워드 프로세스 내에 선택적 압축 및 적응 기술을 통합하여 추가적인 추론 비용 오버헤드를 최소화합니다. LongBench 및 L-Eval 벤치마크의 실험 결과는 기준선보다 각각 3.2점 및 1.6점 향상되었으며, 동일한 크기의 트랜스포머 모델과 거의 동등한 성능을 달성하여 ReMamba의 효율성을 입증했습니다.

While the Mamba architecture demonstrates superior inference efficiency and competitive performance on short-context natural language processing (NLP) tasks, empirical evidence suggests its capacity to comprehend long contexts is limited compared to transformer-based models. In this study, we investigate the long-context efficiency issues of the Mamba models and propose ReMamba, which enhances Mamba's ability to comprehend long contexts. ReMamba incorporates selective compression and adaptation techniques within a two-stage re-forward process, incurring minimal additional inference costs overhead. Experimental results on the LongBench and L-Eval benchmarks demonstrate ReMamba's efficacy, improving over the baselines by 3.2 and 1.6 points, respectively, and attaining performance almost on par with same-size transformer models.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1829151312266637813


Text2SQL만으로는 충분하지 않습니다: TAG로 AI와 데이터베이스 통합 / Text2SQL is Not Enough: Unifying AI and Databases with TAG

논문 소개

데이터베이스를 통해 자연어 질문에 답하기 위한 통합 프레임워크인 테이블 증강 생성(TAG)을 제안하고, LLM과 데이터베이스 간의 미개척된 광범위한 상호작용을 표현하며, 벤치마크를 개발하여 표준 방식이 쿼리의 20% 이상만 정확하게 답변한다는 사실을 발견합니다.

Proposes Table-Augmented Generation (TAG), a unified framework for answering natural language questions over databases; it represents a wider range of unexplored interactions between LLMs and databases; develops a benchmark and finds that standard methods answer no more than 20% of queries correctly.

논문 초록(Abstract)

데이터베이스를 통해 자연어 질문을 처리하는 AI 시스템은 엄청난 가치를 창출할 수 있습니다. 이러한 시스템을 통해 사용자는 데이터 관리 시스템의 확장 가능한 계산 능력과 함께 언어 모델(LM)의 강력한 추론 및 지식 기능을 활용할 수 있습니다. 이러한 결합된 기능을 통해 사용자는 사용자 정의 데이터 소스에 대해 임의의 자연어 질문을 할 수 있습니다. 그러나 기존의 방법과 벤치마크는 이러한 설정을 충분히 탐색하지 못합니다. Text2SQL 방법은 관계형 대수로 표현할 수 있는 자연어 질문에만 초점을 맞추기 때문에 실제 사용자가 원하는 질문의 극히 일부만을 나타냅니다. 마찬가지로, 검색 증강 생성(RAG)은 데이터베이스 내의 하나 또는 몇 개의 데이터 레코드에 대한 포인트 조회로 답변할 수 있는 쿼리의 제한된 하위 집합을 고려합니다. 저희는 데이터베이스를 통해 자연어 질문에 답하기 위한 통합된 범용 패러다임인 테이블 증강 생성(TAG)을 제안합니다. TAG 모델은 이전에 탐색되지 않았던 LM과 데이터베이스 간의 광범위한 상호작용을 나타내며, 데이터에 대한 LM의 세계 지식과 추론 능력을 활용할 수 있는 흥미로운 연구 기회를 창출합니다. 태그 문제를 연구하기 위한 벤치마크를 체계적으로 개발하여 표준 방법이 쿼리의 20% 이하만 정답으로 처리한다는 사실을 발견하고 이 분야에 대한 추가 연구의 필요성을 확인했습니다. 벤치마크 코드는 GitHub - TAG-Research/TAG-Bench: TAG-Bench: A benchmark for table-augmented generation (TAG) 에서 공개합니다.

AI systems that serve natural language questions over databases promise to unlock tremendous value. Such systems would allow users to leverage the powerful reasoning and knowledge capabilities of language models (LMs) alongside the scalable computational power of data management systems. These combined capabilities would empower users to ask arbitrary natural language questions over custom data sources. However, existing methods and benchmarks insufficiently explore this setting. Text2SQL methods focus solely on natural language questions that can be expressed in relational algebra, representing a small subset of the questions real users wish to ask. Likewise, Retrieval-Augmented Generation (RAG) considers the limited subset of queries that can be answered with point lookups to one or a few data records within the database. We propose Table-Augmented Generation (TAG), a unified and general-purpose paradigm for answering natural language questions over databases. The TAG model represents a wide range of interactions between the LM and database that have been previously unexplored and creates exciting research opportunities for leveraging the world knowledge and reasoning capabilities of LMs over data. We systematically develop benchmarks to study the TAG problem and find that standard methods answer no more than 20% of queries correctly, confirming the need for further research in this area. We release code for the benchmark at GitHub - TAG-Research/TAG-Bench: TAG-Bench: A benchmark for table-augmented generation (TAG).

논문 링크

더 읽어보기

https://github.com/TAG-Research/TAG-Bench

https://x.com/lianapatel_/status/1828939097487945948


음악을 위한 기초 모델: 서베이 논문 / Foundation Models for Music: A Survey

논문 소개

C - 음악 분야에서 사전 학습된 최신 모델과 기초 모델에 대한 포괄적인 개요를 제공합니다.

C - provides a comprehensive overview of state-of-the-art pre-trained models and foundation models in music.

논문 초록(Abstract)

최근 몇 년 동안 대규모 언어 모델(LLM)과 잠재 확산 모델(LDM)과 같은 기초 모델(FM)은 음악을 포함한 다양한 분야에 큰 영향을 미쳤습니다. 이 포괄적인 리뷰에서는 표현 학습, 생성 학습, 멀티모달 학습에 이르는 음악 분야의 최신(SOTA) 사전 학습 모델과 기초 모델을 살펴봅니다. 먼저 다양한 산업에서 음악이 갖는 중요성을 맥락화하여 음악 분야에서 AI의 진화를 추적합니다. 기초 모델이 목표로 하는 양식을 설명함으로써 FM 개발에서 많은 음악 표현이 제대로 탐구되지 않았다는 사실을 발견합니다. 그런 다음 다양한 음악 애플리케이션에 대한 이전 방법의 다양성 부족과 음악 이해, 생성 및 의료 응용 분야에서 FM의 잠재력에 중점을 둡니다. 모델 사전 훈련 패러다임, 아키텍처 선택, 토큰화, 미세 조정 방법론 및 제어 가능성에 대한 세부 사항을 포괄적으로 살펴봄으로써 인스트럭션 튜닝 및 상황 내 학습, 스케일링 법칙 및 이머전트 능력, 롱 시퀀스 모델링 등과 같이 잘 탐구했어야 하는 중요한 주제에 대해 강조합니다. 전용 섹션에서는 음악 에이전트에 대한 인사이트와 함께 사전 교육 및 다운스트림 작업에 필수적인 데이터 세트 및 평가에 대한 철저한 분석을 제공합니다. 마지막으로 윤리적 고려 사항의 중요성을 강조함으로써 음악용 FM에 대한 후속 연구는 해석 가능성, 투명성, 인간의 책임, 저작권 문제와 같은 문제에 더 집중해야 한다고 주장합니다. 이 백서는 음악용 FM에 대한 향후 과제와 트렌드에 대한 인사이트를 제공하여 음악 영역에서 인간과 인공지능의 협업의 궤적을 형성하는 것을 목표로 합니다.

In recent years, foundation models (FMs) such as large language models (LLMs) and latent diffusion models (LDMs) have profoundly impacted diverse sectors, including music. This comprehensive review examines state-of-the-art (SOTA) pre-trained models and foundation models in music, spanning from representation learning, generative learning and multimodal learning. We first contextualise the significance of music in various industries and trace the evolution of AI in music. By delineating the modalities targeted by foundation models, we discover many of the music representations are underexplored in FM development. Then, emphasis is placed on the lack of versatility of previous methods on diverse music applications, along with the potential of FMs in music understanding, generation and medical application. By comprehensively exploring the details of the model pre-training paradigm, architectural choices, tokenisation, finetuning methodologies and controllability, we emphasise the important topics that should have been well explored, like instruction tuning and in-context learning, scaling law and emergent ability, as well as long-sequence modelling etc. A dedicated section presents insights into music agents, accompanied by a thorough analysis of datasets and evaluations essential for pre-training and downstream tasks. Finally, by underscoring the vital importance of ethical considerations, we advocate that following research on FM for music should focus more on such issues as interpretability, transparency, human responsibility, and copyright issues. The paper offers insights into future challenges and trends on FMs for music, aiming to shape the trajectory of human-AI collaboration in the music realm.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1828456481114538437


지속적인 멀티모달 사전 교육을 위한 실무자 가이드 / A Practitioner's Guide to Continual Multimodal Pretraining

논문 소개

지속적인 멀티모달 관련성에 대한 포괄적인 가이드, 대규모의 세분화되고 긴 지평선의 지속적인 사전 교육 벤치마크인 FoMo-In-Flux를 소개합니다.

A comprehensive guide on continual multimodal pertaining; introduces FoMo-In-Flux, a large-scale fine-grained and long horizon continual pretraining benchmark.

논문 초록(Abstract)

멀티모달 기반 모델은 시각과 언어가 교차하는 수많은 애플리케이션에 사용됩니다. 하지만 광범위한 데이터로 사전 학습되었음에도 불구하고 시간이 지나면 구식이 됩니다. 모델을 최신 상태로 유지하기 위해 지속적인 사전 학습에 대한 연구는 주로 (1) 대규모의 새로운 데이터에 대한 무차별적인 대규모 업데이트 또는 (2) 빈번한 샘플 수준의 업데이트를 사용하는 시나리오를 탐색합니다. 그러나 실제 모델 배포는 종종 이 두 가지 제한 사례 사이의 간극에서 작동하는데, 실제 애플리케이션은 모델의 다양한 수명 주기 전체에 걸쳐 특정 하위 도메인, 작업 또는 개념에 대한 적응을 요구하는 경우가 많기 때문입니다. 이 작업에서는 연구 테스트 베드를 통해 지속적인 사전 교육에 대한 현재의 관점을 보완하고 이러한 시나리오에서 효과적인 지속적인 모델 업데이트를 위한 포괄적인 지침을 제공합니다. 먼저 현실적인 컴퓨팅 제약 조건과 실제 배포 요건을 갖춘 지속적인 멀티모달 사전 훈련 벤치마크인 FoMo-in-Flux를 소개하며, 다양한 시각적 및 의미적 범위를 가진 63개 데이터 세트로 구성되었습니다. FoMo-in-Flux를 사용하여 (1) 실제 배포 상황을 에뮬레이트하는 데이터 혼합 및 스트림 순서에 대한 데이터 중심 조사, (2) 간단한 미세 조정 및 기존 지속적 학습 전략부터 매개변수의 효율적인 업데이트 및 모델 병합에 이르는 방법 중심 조사, (3) 메타 학습 속도 일정 및 기계적 설계 선택, (4) 모델 및 컴퓨팅 확장의 영향 등 여러 관점을 통해 실질적인 지속적 사전 훈련의 복잡한 환경을 탐색합니다. 이러한 인사이트를 종합하여 실제 배포를 위한 지속적인 멀티모달 사전 교육에 대한 실무자 가이드를 제공합니다. 벤치마크와 코드는 여기(GitHub - ExplainableML/fomo_in_flux: Code and benchmark for the paper: "A Practitioner's Guide to Continual Multimodal Pretraining" [NeurIPS'24])에서 확인할 수 있습니다.

Multimodal foundation models serve numerous applications at the intersection of vision and language. Still, despite being pretrained on extensive data, they become outdated over time. To keep models updated, research into continual pretraining mainly explores scenarios with either (1) infrequent, indiscriminate updates on large-scale new data, or (2) frequent, sample-level updates. However, practical model deployment often operates in the gap between these two limit cases, as real-world applications often demand adaptation to specific subdomains, tasks or concepts -- spread over the entire, varying life cycle of a model. In this work, we complement current perspectives on continual pretraining through a research test bed as well as provide comprehensive guidance for effective continual model updates in such scenarios. We first introduce FoMo-in-Flux, a continual multimodal pretraining benchmark with realistic compute constraints and practical deployment requirements, constructed over 63 datasets with diverse visual and semantic coverage. Using FoMo-in-Flux, we explore the complex landscape of practical continual pretraining through multiple perspectives: (1) A data-centric investigation of data mixtures and stream orderings that emulate real-world deployment situations, (2) a method-centric investigation ranging from simple fine-tuning and traditional continual learning strategies to parameter-efficient updates and model merging, (3) meta learning rate schedules and mechanistic design choices, and (4) the influence of model and compute scaling. Together, our insights provide a practitioner's guide to continual multimodal pretraining for real-world deployment. Our benchmark and code is here: GitHub - ExplainableML/fomo_in_flux: Code and benchmark for the paper: "A Practitioner's Guide to Continual Multimodal Pretraining" [NeurIPS'24].

논문 링크

더 읽어보기

https://github.com/ExplainableML/fomo_in_flux

https://x.com/omarsar0/status/1828454978396049584


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

3개의 좋아요