[2024/06/10 ~ 06/16] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/06/10 ~ 06/16] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들을 살펴보면, 큰 경향성을 두 가지로 요약할 수 있습니다. 첫 번째는 대규모 언어 모델(LLMs: Large Language Models)에 대한 연구가 활발함을 알 수 있습니다. 'Discovering Preference Optimization Algorithms with LLMs', 'Self-Tuning with LLMs', 그리고 'Consistent Middle Enhancement in LLMs'와 같은 제목들은 언어 모델을 이용한 최적화 알고리즘 발견, 자가 조정 기능 개선, 그리고 중간 단계의 일관성 강화 등 다양한 방법으로 LLMs의 발전을 모색하고 있음을 나타냅니다. 이는 언어 모델들의 고도화가 AI 연구의 중심 축을 이루고 있음을 보여주는 분명한 신호입니다.

  • 두 번째 경향은 다양한 AI기술이 서로 결합되어 새로운 연구 방향을 제시하고 있다는 점입니다. 'Transformers Meet Neural Algorithmic Reasoners'와 'Multimodal Table Understanding'과 같은 논문들에서 볼 수 있듯이, 트랜스포머 모델이 알고리즘적 추론을 위한 신경망과 만나거나, 다양한 모달리티의 데이터를 이해하기 위해 AI가 어떻게 발전하고 있는지를 탐구하고 있습니다. 이러한 연구들은 기술의 통합이 AI 발전에 있어 중요한 동력이 됨을 시사합니다.

  • 이러한 경향성은 AI 연구의 현재 진행 상황과 미래 방향성에 대해 많은 것을 말해줍니다. 대규모 언어 모델의 활용과 발전은 인간 언어의 복잡성을 이해하고 모델링하는 데 있어 중요한 단계로, 아직도 많은 발전 가능성을 내포하고 있음을 보여줍니다. 동시에, 다양한 기술의 결합은 AI 시스템이 보다 진보되고 다양한 문제를 해결하는 데 필요한 창의적인 접근방식을 제시하며, 이는 AI의 미래를 다양하게 만드는 데 기여하고 있습니다. 따라서, 이번 주 논문들은 대규모 언어 모델의 중요성과 함께 기술의 융합이 가져다주는 새로운 기회들을 강조하고 있습니다.


NVIDIA의 Nemotron-4 340B

논문 소개

고품질 데이터를 생성하는 인스트럭트 모델과 여러 속성에 대한 데이터를 필터링하는 보상 모델을 제공하며, MMLU 및 GSM8K와 같은 일반적인 벤치마크에서 강력한 성능을 보여주고, 멀티턴 채팅에서 높은 점수를 받는 등 여러 작업에서 GPT-4와 경쟁하며, 기본 모델과 함께 선호도 데이터도 공개합니다.

Provides an instruct model to generate high-quality data and a reward model to filter out data on several attributes; demonstrates strong performance on common benchmarks like MMLU and GSM8K; it’s competitive with GPT-4 on several tasks, including high scores in multi-turn chat; a preference data is also released along with the base model.

논문 초록 (Abstract)

Nemotron-4-340B-Base, Nemotron-4-340B-Instruct 및 Nemotron-4-340B-Reward를 포함한 Nemotron-4 340B 모델 제품군을 출시합니다. 당사 모델은 모델과 그 결과물의 배포, 수정 및 사용을 허용하는 허용형 모델 라이선스인 NVIDIA 오픈 모델 라이선스 계약에 따라 오픈 액세스가 가능합니다. 이 모델들은 다양한 평가 벤치마크에서 오픈 액세스 모델과 경쟁할 수 있는 성능을 발휘하며, FP8 정밀도로 배포할 경우 8개의 GPU가 장착된 단일 DGX H100에 적합하도록 크기가 조정되었습니다. 커뮤니티는 다양한 연구 및 상용 애플리케이션, 특히 소규모 언어 모델 학습을 위한 합성 데이터 생성에 이러한 모델을 활용할 수 있을 것으로 기대하고 있습니다. 특히, 모델 정렬 프로세스에 사용되는 데이터의 98% 이상이 합성으로 생성되어 합성 데이터 생성에 있어 이러한 모델이 얼마나 효과적인지 보여줍니다. 개방형 연구를 더욱 지원하고 모델 개발을 촉진하기 위해 모델 정렬 프로세스에 사용되는 합성 데이터 생성 파이프라인도 오픈 소싱하고 있습니다.

We release the Nemotron-4 340B model family, including Nemotron-4-340B-Base, Nemotron-4-340B-Instruct, and Nemotron-4-340B-Reward. Our models are open access under the NVIDIA Open Model License Agreement, a permissive model license that allows distribution, modification, and use of the models and its outputs. These models perform competitively to open access models on a wide range of evaluation benchmarks, and were sized to fit on a single DGX H100 with 8 GPUs when deployed in FP8 precision. We believe that the community can benefit from these models in various research studies and commercial applications, especially for generating synthetic data to train smaller language models. Notably, over 98% of data used in our model alignment process is synthetically generated, showcasing the effectiveness of these models in generating synthetic data. To further support open research and facilitate model development, we are also open-sourcing the synthetic data generation pipeline used in our model alignment process.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1802024352851878296


대규모 언어 모델에 대한 선호도 최적화(PO) 알고리즘 발견하기 / Discovering Preference Optimization Algorithms with and for Large Language Models

논문 소개

사람의 개입 없이 LLM이 이전에 평가된 성능 지표를 기반으로 선호도 최적화 손실 함수를 제안하고 구현하며, 로지스틱 손실과 지수적 손실을 적응적으로 결합한 알고리즘을 발견하는 LLM 중심의 객관적인 최신 선호도 최적화 발견을 제안합니다.

Proposes LLM-driven objective discovery of state-of-the-art preference optimization; no human intervention is used and an LLM is prompted to propose and implement the preference optimization loss functions based on previously evaluated performance metrics; discovers an algorithm that adaptively combined logistic and exponential losses.

논문 초록(Abstract)

오프라인 선호도 최적화는 대규모 언어 모델(LLM) 출력의 품질을 향상하고 제어하기 위한 핵심 방법입니다. 일반적으로 선호도 최적화는 수동으로 만든 컨벡스 손실 함수를 사용하여 오프라인 지도 학습 작업으로 접근합니다. 이러한 방법은 이론적 인사이트를 기반으로 하지만, 본질적으로 인간의 창의성에 의해 제약을 받기 때문에 가능한 손실 함수의 넓은 검색 공간은 여전히 탐구되지 않은 채로 남아 있습니다. 저희는 LLM 기반의 객관적 발견을 수행하여 (전문가) 사람의 개입 없이 새로운 최첨단 선호도 최적화 알고리즘을 자동으로 발견함으로써 이 문제를 해결합니다. 구체적으로, 이전에 평가된 성능 메트릭을 기반으로 새로운 선호도 최적화 손실 함수를 제안하고 구현하도록 LLM을 반복적으로 유도합니다. 이 과정을 통해 이전에는 알려지지 않았지만 성능이 뛰어난 선호도 최적화 알고리즘을 발견할 수 있습니다. 이 중 가장 성능이 뛰어난 알고리즘을 발견 선호도 최적화(DiscoPOP)라고 부르는데, 이 알고리즘은 로지스틱 손실과 지수 손실을 적응적으로 혼합하는 새로운 알고리즘입니다. 실험을 통해 DiscoPOP의 최첨단 성능과 보류된 작업으로의 성공적인 이전을 입증했습니다.

Offline preference optimization is a key method for enhancing and controlling the quality of Large Language Model (LLM) outputs. Typically, preference optimization is approached as an offline supervised learning task using manually-crafted convex loss functions. While these methods are based on theoretical insights, they are inherently constrained by human creativity, so the large search space of possible loss functions remains under explored. We address this by performing LLM-driven objective discovery to automatically discover new state-of-the-art preference optimization algorithms without (expert) human intervention. Specifically, we iteratively prompt an LLM to propose and implement new preference optimization loss functions based on previously-evaluated performance metrics. This process leads to the discovery of previously-unknown and performant preference optimization algorithms. The best performing of these we call Discovered Preference Optimization (DiscoPOP), a novel algorithm that adaptively blends logistic and exponential losses. Experiments demonstrate the state-of-the-art performance of DiscoPOP and its successful transfer to held-out tasks.

논문 링크

더 읽어보기

https://x.com/SakanaAILabs/status/1801069076003082502


셀프 목표: 언어 에이전트는 이미 높은 수준의 목표를 달성하는 방법을 알고 있습니다 / SelfGoal: Your Language Agents Already Know How to Achieve High-level Goals

논문 소개

높은 수준의 목표를 달성하기 위한 LLM 기반 에이전트의 역량을 강화하고, 환경과 상호작용하는 동안 높은 수준의 목표를 실질적인 하위 목표의 트리 구조로 적응적으로 세분화하며, 경쟁, 협력 및 지연 피드백 환경을 포함한 다양한 작업에서 성능을 향상시키는 프레임워크입니다.

A framework to enhance an LLM-based agent's capabilities to achieve high-level goals; adaptively breaks down a high-level goal into a tree structure of practical subgoals during interaction with the environment; improves performance on various tasks, including competitive, cooperative, and deferred feedback environments.

논문 초록(Abstract)

대규모 언어 모델(LLM)로 구동되는 언어 에이전트는 게임이나 프로그래밍과 같은 분야에서 의사 결정 도구로서 그 가치가 점점 더 높아지고 있습니다. 그러나 이러한 에이전트는 상세한 지침 없이 높은 수준의 목표를 달성하고 피드백이 지연되는 환경에 적응하는 데 어려움을 겪는 경우가 많습니다. 이 백서에서는 에이전트의 능력을 향상시키기 위해 설계된 새로운 자동 접근 방식인 SelfGoal을 소개하여 사람의 사전 및 환경 피드백이 제한적인 상황에서 높은 수준의 목표를 달성할 수 있도록 지원합니다. SelfGoal의 핵심 개념은 환경과 상호작용하는 동안 높은 수준의 목표를 보다 실용적인 하위 목표의 트리 구조로 적응적으로 세분화하는 동시에 가장 유용한 하위 목표를 식별하고 이 구조를 점진적으로 업데이트하는 것입니다. 실험 결과에 따르면 셀프 목표는 경쟁, 협력, 지연 피드백 환경을 포함한 다양한 작업에서 언어 에이전트의 성능을 크게 향상시키는 것으로 나타났습니다. 프로젝트 페이지: https://selfgoal-agent.github.io.

Language agents powered by large language models (LLMs) are increasingly valuable as decision-making tools in domains such as gaming and programming. However, these agents often face challenges in achieving high-level goals without detailed instructions and in adapting to environments where feedback is delayed. In this paper, we present SelfGoal, a novel automatic approach designed to enhance agents' capabilities to achieve high-level goals with limited human prior and environmental feedback. The core concept of SelfGoal involves adaptively breaking down a high-level goal into a tree structure of more practical subgoals during the interaction with environments while identifying the most useful subgoals and progressively updating this structure. Experimental results demonstrate that SelfGoal significantly enhances the performance of language agents across various tasks, including competitive, cooperative, and deferred feedback environments. Project page: https://selfgoal-agent.github.io.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1800183982404829457


에이전트 혼합(MoA; Mixture-of-Agents)으로 대규모 언어 모델 기능 향상 / Mixture-of-Agents Enhances Large Language Model Capabilities

논문 소개

여러 LLM 에이전트로 레이어를 설계하고 각 에이전트가 이전 레이어의 다른 에이전트의 결과물을 기반으로 구축하는 혼합 에이전트 방법론을 통해 여러 LLM의 집합적 강점을 활용하는 접근 방식으로, AlpacaEval 2.0, MT-Bench 및 FLASK의 GPT-4o를 능가합니다.

An approach that leverages the collective strengths of multiple LLMs through a Mixture-of-Agents methodology; layers are designed with multiple LLM agents and each agent builds on the outputs of other agents in the previous layers; surpasses GPT-4o on AlpacaEval 2.0, MT-Bench and FLASK.

논문 초록(Abstract)

최근 대규모 언어 모델(LLM)의 발전으로 자연어 이해 및 생성 작업에서 상당한 역량을 발휘하고 있습니다. LLM의 수가 증가함에 따라 여러 LLM의 집단적 전문성을 활용하는 방법은 흥미로운 열린 방향입니다. 이러한 목표를 위해 Lionbridge는 다중 에이전트 혼합 방법론(MoA)을 통해 여러 LLM의 집단적 강점을 활용하는 새로운 접근 방식을 제안합니다. 이 접근 방식에서는 각 계층이 여러 개의 LLM 에이전트로 구성된 계층형 MoA 아키텍처를 구축합니다. 각 에이전트는 이전 계층에 있는 에이전트의 모든 출력을 응답을 생성할 때 보조 정보로 사용합니다. MoA 모델은 알파카에벌 2.0, MT-Bench 및 FLASK에서 GPT-4 옴니를 능가하는 최첨단 성능을 달성합니다. 예를 들어, 오픈 소스 LLM만을 사용한 MoA는 65.1%의 점수를 달성하여 GPT-4 Omni의 57.5%에 비해 상당한 격차로 AlpacaEval 2.0의 선두를 달리고 있습니다.

Recent advances in large language models (LLMs) demonstrate substantial capabilities in natural language understanding and generation tasks. With the growing number of LLMs, how to harness the collective expertise of multiple LLMs is an exciting open direction. Toward this goal, we propose a new approach that leverages the collective strengths of multiple LLMs through a Mixture-of-Agents (MoA) methodology. In our approach, we construct a layered MoA architecture wherein each layer comprises multiple LLM agents. Each agent takes all the outputs from agents in the previous layer as auxiliary information in generating its response. MoA models achieves state-of-art performance on AlpacaEval 2.0, MT-Bench and FLASK, surpassing GPT-4 Omni. For example, our MoA using only open-source LLMs is the leader of AlpacaEval 2.0 by a substantial gap, achieving a score of 65.1% compared to 57.5% by GPT-4 Omni.

논문 링크

더 읽어보기

https://x.com/togethercompute/status/1800536106729157054


NAR: 트랜스포머와 신경 알고리즘 추론의 만남 / Transformers meet Neural Algorithmic Reasoners

논문 소개

LLM의 토큰이 GNN 기반 신경 알고리즘 추론기(NAR)의 노드 임베딩에 교차 참석할 수 있는 새로운 하이브리드 아키텍처로, TransNAR이라는 결과 모델은 알고리즘 작업 전반에서 OOD 추론의 개선을 보여줍니다.

A new hybrid architecture that enables tokens in the LLM to cross-attend to node embeddings from a GNN-based neural algorithmic reasoner (NAR); the resulting model, called TransNAR, demonstrates improvements in OOD reasoning across algorithmic tasks.

논문 초록(Abstract)

트랜스포머는 단순하면서도 효과적인 아키텍처로 머신 러닝에 혁명을 일으켰습니다. 인터넷의 방대한 텍스트 데이터 세트에 대한 트랜스포머의 사전 학습은 자연어 이해(NLU) 작업에서 탁월한 일반화를 이끌어냈습니다. 그러나 이러한 언어 모델은 계산이 정확하고 강력해야 하는 알고리즘 형태의 추론 작업에서는 여전히 취약합니다. 이러한 한계를 해결하기 위해 Transformer의 언어 이해 능력과 그래프 신경망(GNN) 기반 신경 알고리즘 추론기(NAR)의 견고함을 결합한 새로운 접근 방식을 제안합니다. 이러한 NAR은 그래프 형식으로 지정되었을 때 알고리즘 작업을 위한 일반 솔버로 효과적이라는 것이 입증되었습니다. 트랜스포머에서 임베딩에 액세스할 수 있도록 하기 위해 2단계 훈련 절차를 갖춘 하이브리드 아키텍처를 제안하여 언어 모델의 토큰이 NAR의 노드 임베딩에 교차 참석할 수 있도록 합니다. CLRS-30 벤치마크의 텍스트 기반 버전인 CLRS-Text에서 결과물인 TransNAR 모델을 평가하고, 배포 안팎에서 알고리즘 추론에 있어 Transformer 전용 모델에 비해 상당한 이점을 입증합니다.

Transformers have revolutionized machine learning with their simple yet effective architecture. Pre-training Transformers on massive text datasets from the Internet has led to unmatched generalization for natural language understanding (NLU) tasks. However, such language models remain fragile when tasked with algorithmic forms of reasoning, where computations must be precise and robust. To address this limitation, we propose a novel approach that combines the Transformer's language understanding with the robustness of graph neural network (GNN)-based neural algorithmic reasoners (NARs). Such NARs proved effective as generic solvers for algorithmic tasks, when specified in graph form. To make their embeddings accessible to a Transformer, we propose a hybrid architecture with a two-phase training procedure, allowing the tokens in the language model to cross-attend to the node embeddings from the NAR. We evaluate our resulting TransNAR model on CLRS-Text, the text-based version of the CLRS-30 benchmark, and demonstrate significant gains over Transformer-only models for algorithmic reasoning, both in and out of distribution.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1801448036389843228


셀프 튜닝: LLM이 자가 학습을 통해 새로운 지식을 효과적으로 습득하도록 교육하기 / Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

논문 소개

자가 학습을 통해 원시 문서에서 새로운 지식을 효과적으로 습득하는 LLM의 능력을 향상시키는 것으로, 1) 암기, 이해, 자기 성찰에 중점을 둔 일련의 지식 집약적 작업으로 문서를 보강하는 자가 학습 구성 요소, 2) 배포된 모델을 사용하여 새로운 문서에서 지식을 습득하는 동시에 QA 기술을 검토하는 단계, 3) 새로운 문서만을 사용하여 지속적으로 학습하도록 모델을 구성하여 새로운 지식을 철저히 습득하도록 돕는 세 가지 단계로 이루어져 있습니다.

Improves an LLM’s ability to effectively acquire new knowledge from raw documents through self-teaching; the three steps involved are 1) a self-teaching component that augments documents with a set of knowledge-intensive tasks focusing on memorization, comprehension, and self-reflection, 2) uses the deployed model to acquire knowledge from new documents while reviewing its QA skills, and 3) the model is configured to continually learn using only the new documents which helps with thorough acquisition of new knowledge.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 일회성 교육과 끊임없이 진화하는 세계의 특성으로 인해 최신 정보를 제공하는 데 어려움을 겪는 경우가 많습니다. LLM을 최신 상태로 유지하기 위해 기존 접근 방식은 일반적으로 새 문서에 대한 지속적인 사전 학습을 포함합니다. 하지만 저장된 지식을 추출하는 데 어려움을 겪는 경우가 많습니다. 효율적인 인간 학습에 있어 파인만 기법의 놀라운 성공에 영감을 받아, 자체 학습을 통해 원시 문서에서 새로운 지식을 효과적으로 습득하는 LLM의 능력을 향상시키기 위한 학습 프레임워크인 셀프 튜닝을 도입했습니다. 특히, 암기, 이해, 자기 성찰이라는 세 가지 중요한 측면에 초점을 맞춰 자기 지도 방식으로 만든 일련의 지식 집약적 과제로 문서를 보강하는 셀프 튜닝 전략을 개발합니다. 또한, 암기, 추출, 추론과 관련된 LLM의 지식 습득 능력을 심층적으로 분석할 수 있도록 세 가지 위키뉴페이지-2023-QA 데이터 세트를 소개합니다. Llama2 제품군 모델에 대한 광범위한 실험 결과에 따르면 셀프 튜닝은 모든 지식 습득 작업에서 일관되게 우수한 성능을 보이며 이전 지식을 보존하는 데 탁월한 것으로 나타났습니다.

Large language models (LLMs) often struggle to provide up-to-date information due to their one-time training and the constantly evolving nature of the world. To keep LLMs current, existing approaches typically involve continued pre-training on new documents. However, they frequently face difficulties in extracting stored knowledge. Motivated by the remarkable success of the Feynman Technique in efficient human learning, we introduce Self-Tuning, a learning framework aimed at improving an LLM's ability to effectively acquire new knowledge from raw documents through self-teaching. Specifically, we develop a Self-Teaching strategy that augments the documents with a set of knowledge-intensive tasks created in a self-supervised manner, focusing on three crucial aspects: memorization, comprehension, and self-reflection. Additionally, we introduce three Wiki-Newpages-2023-QA datasets to facilitate an in-depth analysis of an LLM's knowledge acquisition ability concerning memorization, extraction, and reasoning. Extensive experimental results on Llama2 family models reveal that Self-Tuning consistently exhibits superior performance across all knowledge acquisition tasks and excels in preserving previous knowledge.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1800552376513810463


비주얼 스케치패드: 멀티모달 언어 모델을 위한 시각적 사고 체인으로 스케치하기 / Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models

논문 소개

멀티모달 LLM이 시각적 스케치패드와 스케치패드에 그릴 수 있는 도구에 액세스할 수 있는 프레임워크, 복잡한 작업을 추론할 수 있는 중간 스케치 생성 기능을 GPT-4와 같은 모델에 장착할 수 있으며, 스케치가 없는 강력한 기본 모델보다 많은 작업에서 성능을 향상시키고, SketchPad를 탑재한 GPT-4o는 테스트한 모든 작업에서 새로운 최첨단 상태를 설정합니다.

A framework that enables a multimodal LLM to access a visual sketchpad and tools to draw on the sketchpad; it can equip a model like GPT-4 with the capability to generate intermediate sketches to reason over complex tasks; improves performance on many tasks over strong base models with no sketching; GPT-4o equipped with SketchPad sets a new state of the art on all the tasks tested.

논문 초록(Abstract)

기하학 문제를 풀 때 보조 선을 그리고, 지도를 보고 추론할 때 표시를 하고 동그라미를 치고, 스케치를 통해 아이디어를 확장하고 제한된 용량의 작업 기억을 해소하는 등 인간은 추론을 용이하게 하기 위해 그림을 그립니다. 하지만 현재의 다중 모드 언어 모델(LM)에는 이러한 작업이 빠져 있습니다. 현재의 사고 연쇄 및 도구 사용 패러다임은 텍스트를 중간 추론 단계로만 사용합니다. 이 작업에서는 멀티모달 LM에 시각적 스케치패드와 스케치패드에 그림을 그릴 수 있는 도구를 제공하는 프레임워크인 스케치패드를 소개합니다. LM은 자신이 그린 시각적 아티팩트에 따라 계획과 추론을 수행합니다. 텍스트-대-이미지 모델을 사용해 LM이 그림을 그리는 이전 작업과 달리, Sketchpad는 선, 상자, 마크 등으로 그림을 그릴 수 있어 사람이 스케치하는 것과 더 가깝고 추론이 더 용이합니다. 또한 Sketchpad는 스케치 과정에서 전문 비전 모델을 사용하여 시각적 인식과 추론을 더욱 향상시킬 수 있습니다(예: 물체 감지 모델로 경계 상자 그리기, 세분화 모델로 마스크 그리기). 기하학, 함수, 그래프, 체스 등 다양한 수학 과제와 복잡한 시각적 추론 과제를 실험해 보았습니다. 스케치패드는 스케치가 없는 강력한 기본 모델에 비해 모든 작업의 성능을 크게 향상시켜 수학 작업에서 평균 12.7%, 시각 작업에서 8.6%의 향상률을 보였습니다. 스케치패드가 포함된 GPT-4o는 V*Bench(80.3%), BLINK 공간 추론(83.9%), 시각적 대응(80.8%)을 포함한 모든 작업에서 새로운 기준을 세웠습니다. 모든 코드와 데이터는 https://visualsketchpad.github.io/.

Humans draw to facilitate reasoning: we draw auxiliary lines when solving geometry problems; we mark and circle when reasoning on maps; we use sketches to amplify our ideas and relieve our limited-capacity working memory. However, such actions are missing in current multimodal language models (LMs). Current chain-of-thought and tool-use paradigms only use text as intermediate reasoning steps. In this work, we introduce Sketchpad, a framework that gives multimodal LMs a visual sketchpad and tools to draw on the sketchpad. The LM conducts planning and reasoning according to the visual artifacts it has drawn. Different from prior work, which uses text-to-image models to enable LMs to draw, Sketchpad enables LMs to draw with lines, boxes, marks, etc., which is closer to human sketching and better facilitates reasoning. Sketchpad can also use specialist vision models during the sketching process (e.g., draw bounding boxes with object detection models, draw masks with segmentation models), to further enhance visual perception and reasoning. We experiment with a wide range of math tasks (including geometry, functions, graphs, and chess) and complex visual reasoning tasks. Sketchpad substantially improves performance on all tasks over strong base models with no sketching, yielding an average gain of 12.7% on math tasks, and 8.6% on vision tasks. GPT-4o with Sketchpad sets a new state of the art on all tasks, including V*Bench (80.3%), BLINK spatial reasoning (83.9%), and visual correspondence (80.8%). All codes and data are in https://visualsketchpad.github.io/.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1801450829234188760


메모리 전문가들의 조합 / Mixture of Memory Experts

논문 소개

정확한 사실을 학습하고 추론 시점에 인덱스에서 이를 검색하도록 수백만 개의 전문 어댑터(예: LoRA)를 튜닝하여 환각을 크게 줄이는 접근 방식(10배)을 제안하고, 메모리 전문가가 튜닝된 데이터에 대해 충실하고 사실적인 정확성을 보장하도록 전문화되어 있으며, 추론 비용을 고정하면서 많은 수의 파라미터로 확장할 수 있다고 주장합니다.

Proposes an approach to significantly reduce hallucination (10x) by tuning millions of expert adapters (e.g., LoRAs) to learn exact facts and retrieve them from an index at inference time; the memory experts are specialized to ensure faithful and factual accuracy on the data it was tuned on; claims to enable scaling to a high number of parameters while keeping the inference cost fixed.

논문 초록(Abstract)

대화, 코딩, 추론 능력이 뛰어남에도 불구하고 대규모 언어 모델(LLM)은 종종 환각을 경험합니다. 기존의 통념에 따르면 환각은 창의성과 사실성 사이의 균형이 무너진 결과이며, 외부 지식 소스에 LLM의 기반을 두면 완화할 수는 있지만 제거하지는 못한다고 합니다. 광범위한 체계적 실험을 통해 우리는 이러한 전통적인 접근 방식이 실제로 LLM이 환각을 일으키는 이유를 설명하지 못한다는 것을 보여줍니다. 특히, 대규모 메모리 전문가 혼합(MoME)으로 강화된 LLM이 대규모 난수 데이터 세트를 쉽게 암기할 수 있음을 보여줍니다. 다음 토큰을 예측하도록 훈련된 단순한 신경망이 인터넷 규모의 데이터로 훈련할 때 실제와 같이 훈련 손실이 임계값을 초과하면 환각을 일으킨다는 이론적 구성으로 이러한 실험 결과를 입증합니다. 저희는 환각을 완화하기 위한 기존의 검색 방법과 비교하여 연구 결과를 해석합니다. 이러한 연구 결과를 바탕으로 수백만 명의 기억 전문가가 동적으로 검색하는 방대한 양의 사실에 사실을 저장하는 1세대 환각 제거 모델인 Lamini-1을 설계했습니다.

Despite their powerful chat, coding, and reasoning abilities, Large Language Models (LLMs) frequently hallucinate. Conventional wisdom suggests that hallu- cinations are a consequence of a balance between creativity and factuality, which can be mitigated, but not eliminated, by grounding the LLM in external knowledge sources. Through extensive systematic experiments, we show that these traditional approaches fail to explain why LLMs hallucinate in practice. Specifically, we show that LLMs augmented with a massive Mixture of Memory Experts (MoME) can easily memorize large datasets of random numbers. We corroborate these experimental findings with a theoretical construction showing that simple neural networks trained to predict the next token hallucinate when the training loss is above a threshold as it usually does in practice when training on internet scale data. We interpret our findings by comparing against traditional retrieval methods for mitigating hallucinations. We use our findings to design a first generation model for removing hallucinations - Lamini-1 - that stores facts in a massive mixture of millions of memory experts that are retrieved dynamically.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1801638552129700046


멀티모달 테이블 이해 / Multimodal Table Understanding

논문 소개

멀티모달 테이블 이해를 위한 멀티모달 LLM인 Table-LLaVa 7B를 출시하여 GPT-4V와 경쟁하며 여러 벤치마크에서 기존 MLLM보다 훨씬 뛰어난 성능을 발휘하고, 테이블 이미지, 지침 및 작업을 포괄하는 대규모 데이터 세트 MMTab을 개발합니다.

Introduces Table-LLaVa 7B, a multimodal LLM for multimodal table understanding; it’s competitive with GPT-4V and significantly outperforms existing MLLMs on multiple benchmarks; also develops a large-scale dataset MMTab, covering table images, instructions, and tasks.

논문 초록(Abstract)

대규모 언어 모델(LLM)에 기반한 최근의 접근 방식을 포함한 이전의 표 이해 방법은 큰 진전을 이루었지만, 주어진 표를 모델 입력으로 사용하기 위해 특정 텍스트 시퀀스(예: 마크다운 또는 HTML)로 변환해야 한다는 전제에 크게 의존하고 있습니다. 그러나 일부 실제 시나리오에서는 이러한 고품질 텍스트 표 표현에 접근하기가 어렵고, 표 이미지가 훨씬 더 접근하기 쉽습니다. 따라서 직관적인 시각 정보를 사용하여 표를 직접 이해하는 방법은 보다 실용적인 애플리케이션을 개발하기 위한 중요하고 시급한 과제입니다. 이 논문에서는 주어진 테이블 이미지를 기반으로 다양한 테이블 관련 요청에 대해 모델이 올바른 응답을 생성해야 하는 새로운 문제인 다중 모드 테이블 이해를 제안합니다. 모델 훈련과 평가를 모두 용이하게 하기 위해 다양한 테이블 이미지, 명령어, 작업을 포괄하는 대규모 데이터 세트인 MMTab을 구축합니다. 이를 기반으로 홀드인 및 홀드아웃 설정에서 23개의 벤치마크에서 최근 오픈 소스 MLLM 기준선을 크게 능가하는 일반 표 형식의 대규모 언어 모델(MLLM)인 Table-LLaVA를 개발합니다. 코드와 데이터는 여기(GitHub - SpursGoZmy/Table-LLaVA: Dataset and Code for our ACL 2024 paper: "Multimodal Table Understanding". We propose the first large-scale Multimodal IFT and Pre-Train Dataset for table understanding and develop a generalist tabular MLLM named Table-LLaVA.)에서 확인할 수 있습니다

Although great progress has been made by previous table understanding methods including recent approaches based on large language models (LLMs), they rely heavily on the premise that given tables must be converted into a certain text sequence (such as Markdown or HTML) to serve as model input. However, it is difficult to access such high-quality textual table representations in some real-world scenarios, and table images are much more accessible. Therefore, how to directly understand tables using intuitive visual information is a crucial and urgent challenge for developing more practical applications. In this paper, we propose a new problem, multimodal table understanding, where the model needs to generate correct responses to various table-related requests based on the given table image. To facilitate both the model training and evaluation, we construct a large-scale dataset named MMTab, which covers a wide spectrum of table images, instructions and tasks. On this basis, we develop Table-LLaVA, a generalist tabular multimodal large language model (MLLM), which significantly outperforms recent open-source MLLM baselines on 23 benchmarks under held-in and held-out settings. The code and data is available at this GitHub - SpursGoZmy/Table-LLaVA: Dataset and Code for our ACL 2024 paper: "Multimodal Table Understanding". We propose the first large-scale Multimodal IFT and Pre-Train Dataset for table understanding and develop a generalist tabular MLLM named Table-LLaVA.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1801271773796716646


CREAM: 한 순간도 놓치지 마세요: 일관된 '중간' 향상을 통해 대규모 언어 모델의 컨텍스트 창 확장을 위한 효율적인 레시피 / Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent "Middle" Enhancement

논문 소개

컨텍스트 중간 부분의 정보를 효과적으로 활용하기 위해 LLM을 튜닝하는 접근법을 제안합니다. 먼저 LLM을 더 긴 컨텍스트 길이(예: 4K -> 256K)로 확장하는 훈련 효율적인 방법을 제안하고, 잘린 가우시안으로 미세 튜닝 중에 컨텍스트 중간 부분의 샘플링을 장려하며, 이 접근법은 긴 LLM에서 소위 "중간 손실" 문제를 완화하는 데 도움을 줍니다.

Proposes an approach to tune an LLM to effectively utilize information from the middle part of the context; it first proposes a training-efficient method to extend LLMs to longer context lengths (e.g., 4K -> 256K); it uses a truncated Gaussian to encourage sampling from the middle part of the context during fine-tuning; the approach helps to alleviate the so-called "Lost-in-the-Middle" problem in long-context LLMs.

논문 초록(Abstract)

최근 사전 훈련된 대규모 언어 모델(LLM)의 문맥 길이를 확장하기 위해 많은 방법이 개발되었지만, 목표 길이( \gg4K )에서 미세 조정이 필요하고 문맥 중간 부분의 정보를 효과적으로 활용하는 데 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해 위치 인덱스를 조작하여 위치 인코딩을 보간하는 Continuity-Relativity indExing with gAussian Middle (CREAM)을 제안합니다. CREAM은 단순할 뿐만 아니라 훈련 효율이 높기 때문에 사전 훈련된 컨텍스트 창(예: Llama 2-4K)에서만 미세 조정이 필요하며 훨씬 더 긴 목표 컨텍스트 길이(예: 256K)로 LLM을 확장할 수 있습니다. 모델이 중간에 있는 정보에 더 집중할 수 있도록 하기 위해, 미세 조정 중에 컨텍스트의 중간 부분에서 샘플링을 유도하는 잘린 가우시안 기능을 도입하여 긴 컨텍스트 LLM이 직면하는 중간에서 손실(Lost-in-the-Middle)되는 문제를 완화합니다. 실험 결과에 따르면 CREAM은 Never Miss A Beat를 사용하여 \text{Llama2-7B} 의 기본 및 채팅 버전 모두에서 LLM을 목표 길이로 성공적으로 확장했습니다. 이 코드는 곧 공개될 예정입니다.

Recently, many methods have been developed to extend the context length of pre-trained large language models (LLMs), but they often require fine-tuning at the target length (\gg4K) and struggle to effectively utilize information from the middle part of the context. To address these issues, we propose Continuity-Relativity indExing with gAussian Middle (CREAM), which interpolates positional encodings by manipulating position indices. Apart from being simple, CREAM is training-efficient: it only requires fine-tuning at the pre-trained context window (eg, Llama 2-4K) and can extend LLMs to a much longer target context length (eg, 256K). To ensure that the model focuses more on the information in the middle, we introduce a truncated Gaussian to encourage sampling from the middle part of the context during fine-tuning, thus alleviating the Lost-in-the-Middle problem faced by long-context LLMs. Experimental results show that CREAM successfully extends LLMs to the target length for both Base and Chat versions of \text{Llama2-7B} with Never Miss A Beat. Our code will be publicly available soon.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1800903031736631473


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요