[2024/07/22 ~ 07/28] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR


-
이번 주 선정된 논문들을 살펴보면, 대부분의 연구들이 LLM(Large Language Models)과 그 활용, 그리고 이와 관련하여 발생하는 다양한 문제들 및 이를 해결하는 방안에 집중되어 있는 것을 확인할 수 있습니다. 특히, 'Llama 3.1', 'AlphaProof & Alpha Geometry 2', 'RAG vs. Long-Context LLMs', 'OpenDevin', 'LazyLLM', 'Teaching LLM Agents to Self-Improve', 'Text-to-SQL Survey' 같은 논문들은 LLM을 중심으로 한 연구들이며, 이러한 추세는 인공지능 분야에서 LLM의 중요성 및 활용도가 점점 증가하고 있음을 시사합니다.
-
LLM이 중심이 되는 이유는 그 가능성과 유연성에 있습니다. 대규모 언어 모델들은 자연어 처리(NLP)를 넘어 다양한 태스크를 수행할 수 있는 능력을 보여주고 있으며, 이로 인해 교육, 게임 개발, 법률 상담 등 다양한 분야에서 활용될 수 있는 가능성을 가지고 있습니다. 또한, 'Model Collapse on Synthetic Data', 'Mitigating Hallucination via Generation Constraint'와 같은 논문들은 LLM이 마주칠 수 있는 문제들과 이러한 문제를 해결하기 위한 연구가 동시에 진행되고 있음을 보여줍니다. 이는 LLM이 직면한 과제들을 인식하고, 이에 대한 해결책을 모색하는 연구의 동향이 강화되고 있음을 의미합니다.
-
이러한 추세는 LLM을 활용한 연구가 단순히 NLP 분야를 넘어 사회의 다양한 영역으로 확장될 가능성을 보여주고 있으며, 앞으로의 인공지능 연구와 개발 방향에 중요한 영향을 미칠 것으로 보입니다. 한편, 이런 연구들은 LLM의 성능을 향상시키고, 다양한 문제에 대응하기 위한 방법론의 개발뿐만 아니라, 인공지능이 사회에 미치는 영향에 대한 심도 깊은 분석과 이해를 필요로 합니다. 따라서, LLM과 관련된 연구는 기술적인 면과 함께 윤리적, 사회적 측면에서도 중요한 의미를 가지고 진행될 필요가 있습니다.
라마 3.1 / Llama 3.1
논문 소개
8B, 70B, 405B 파라미터 모델을 포함하고, 8개 언어를 지원하며, 컨텍스트 창을 128K 토큰으로 확장하고, 일반 지식, 수학 추론, 도구 사용과 같은 기능 전반에서 경쟁적으로, 경우에 따라 최신 모델보다 뛰어난 성능을 발휘하는 LLM 모음입니다.
A collection of LLMs that include 8B, 70B, and 405B parameters models; supports eight languages and extends the context window to 128K tokens; performs competitively and in some cases outperforms state-of-the-art models across capabilities like general knowledge, math reasoning, and tool use.
논문 초록(Abstract)
최신 인공지능(AI) 시스템은 기초 모델에 의해 구동됩니다. 이 백서에서는 Llama 3라는 새로운 기초 모델 세트를 소개합니다. 이 모델은 다국어, 코딩, 추론 및 도구 사용을 기본적으로 지원하는 언어 모델의 집합입니다. 가장 큰 모델은 405B 매개변수와 최대 128K 토큰의 컨텍스트 창을 갖춘 고밀도 트랜스포머입니다. 이 백서에서는 Llama 3에 대한 광범위한 경험적 평가를 제시합니다. 수많은 작업에서 라마 3가 GPT-4와 같은 주요 언어 모델과 비슷한 품질을 제공한다는 사실을 발견했습니다. 405B 파라미터 언어 모델의 사전 학습 및 사후 학습 버전과 입력 및 출력 안전을 위한 Llama Guard 3 모델을 포함한 Llama 3를 공개적으로 출시합니다. 이 백서에서는 이미지, 비디오, 음성 기능을 구성적 접근 방식을 통해 Llama 3에 통합한 실험 결과도 소개합니다. 이 접근 방식은 이미지, 비디오 및 음성 인식 작업에서 최신 기술과 경쟁적으로 작동하는 것을 관찰했습니다. 아직 개발 중이기 때문에 결과 모델은 아직 광범위하게 출시되지 않았습니다.
Modern artificial intelligence (AI) systems are powered by foundation models. This paper presents a new set of foundation models, called Llama 3. It is a herd of language models that natively support multilinguality, coding, reasoning, and tool usage. Our largest model is a dense Transformer with 405B parameters and a context window of up to 128K tokens. This paper presents an extensive empirical evaluation of Llama 3. We find that Llama 3 delivers comparable quality to leading language models such as GPT-4 on a plethora of tasks. We publicly release Llama 3, including pre-trained and post-trained versions of the 405B parameter language model and our Llama Guard 3 model for input and output safety. The paper also presents the results of experiments in which we integrate image, video, and speech capabilities into Llama 3 via a compositional approach. We observe this approach performs competitively with the state-of-the-art on image, video, and speech recognition tasks. The resulting models are not yet being broadly released as they are still under development.
논문 링크
더 읽어보기
https://x.com/AIatMeta/status/1815766327463907421
알파프루프 및 알파 지오메트리 2 / AlphaProof & Alpha Geometry 2
논문 소개
올해 IMO에서 은메달에 해당하는 6개의 문제 중 4개를 해결한 알파프루프는 자연어 문제문을 형식문으로 자동 변환하는 제미니 모델(즉, 형식화 네트워크)로 구성된 후 솔버 네트워크가 증명/반증을 검색하고 알파제로를 사용하여 더 복잡한 문제를 해결하는 방법을 학습하는 점진적 훈련, 신경 기호 하이브리드 시스템인 알파기하학 2는 제미니 모델을 기반으로 대량의 합성 데이터를 처음부터 학습하여 기하학 문제를 증명했습니다.
Solved 4 out of 6 problems in this year’s IMO which is the equivalent of a silver-medal score; AlphaProof consists of a Gemini model that automatically translates natural language problem statements into formal statements (i.e., formalizer network); then a solver network searches for proofs/disproofs and progressively trains itself using AlphaZero to learn to solve even more complex problems; AlphaGeometry 2, a neuro symbolic hybrid system, proved the geometry problem; based on the Gemini model and trained from scratch on large amounts of synthetic data.
논문 링크
더 읽어보기
https://x.com/JeffDean/status/1816498336171753948
검색 증강 생성 또는 긴 컨텍스트 LLM? 종합적인 연구와 하이브리드 접근 방식 / Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
논문 소개
RAG와 긴 컨텍스트 LLM을 비교한 결과, 긴 컨텍스트 LLM이 평균 성능은 RAG를 능가하는 반면 비용은 훨씬 저렴하고, 자체 반영을 활용하여 쿼리를 RAG 또는 LC로 라우팅하는 Self-Route를 제안하고, Self-Route가 LC와 비슷한 성능을 유지하면서 계산 비용을 크게 절감하는 것으로 보고합니다.
Compares RAG and long-context LLMs and finds that long-context LLMs outperform RAG on average performance while RAG is significantly less expensive; proposes Self-Route, leveraging self-reflection to route queries to RAG or LC; reports that Self-Route significantly reduces computational cost while maintaining comparable performance to LC.
논문 초록(Abstract)
검색 증강 생성(RAG)은 대규모 언어 모델(LLM)이 지나치게 긴 문맥을 효율적으로 처리하기 위한 강력한 도구였습니다. 하지만 Gemini-1.5 및 GPT-4와 같은 최신 LLM은 긴 문맥을 직접 이해할 수 있는 뛰어난 기능을 보여줍니다. 저희는 RAG와 긴 컨텍스트(LC) LLM을 종합적으로 비교하여 두 가지의 강점을 모두 활용하고자 합니다. 세 가지 최신 LLM을 사용해 다양한 공개 데이터세트에서 RAG와 LC를 벤치마킹했습니다. 그 결과, 리소스가 충분히 확보된 경우 평균 성능 면에서 LC가 RAG를 지속적으로 능가하는 것으로 나타났습니다. 그러나 RAG의 훨씬 저렴한 비용은 여전히 뚜렷한 장점으로 남아 있습니다. 이러한 관찰을 바탕으로, 모델 자체 반영을 기반으로 쿼리를 RAG 또는 LC로 라우팅하는 간단하면서도 효과적인 방법인 Self-Route를 제안합니다. Self-Route는 LC와 비슷한 성능을 유지하면서 계산 비용을 크게 줄여줍니다. 이 연구 결과는 RAG와 LC를 사용하는 LLM의 긴 컨텍스트 애플리케이션에 대한 가이드라인을 제공합니다.
Retrieval Augmented Generation (RAG) has been a powerful tool for Large Language Models (LLMs) to efficiently process overly lengthy contexts. However, recent LLMs like Gemini-1.5 and GPT-4 show exceptional capabilities to understand long contexts directly. We conduct a comprehensive comparison between RAG and long-context (LC) LLMs, aiming to leverage the strengths of both. We benchmark RAG and LC across various public datasets using three latest LLMs. Results reveal that when resourced sufficiently, LC consistently outperforms RAG in terms of average performance. However, RAG's significantly lower cost remains a distinct advantage. Based on this observation, we propose Self-Route, a simple yet effective method that routes queries to RAG or LC based on model self-reflection. Self-Route significantly reduces the computation cost while maintaining a comparable performance to LC. Our findings provide a guideline for long-context applications of LLMs using RAG and LC.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1816495687984709940
오픈데빈: AI 소프트웨어 개발자를 위한 제너럴리스트용 오픈 플랫폼 / OpenDevin: An Open Platform for AI Software Developers as Generalist Agents
논문 소개
소프트웨어를 통해 세상과 상호작용하는 제너럴리스트 에이전트를 개발할 수 있는 플랫폼을 제공하며, 1) 에이전트, 인터페이스 및 환경 간의 상호작용을 위한 상호작용 메커니즘, 2) 에이전트가 사용할 수 있는 샌드박스 운영 체제 및 웹 브라우저를 포함한 환경, 3) 코드를 생성하고 실행하는 인터페이스, 4) 멀티 에이전트 지원, 5) 평가 프레임워크 등의 기능을 갖추고 있습니다.
Presents a platform to develop generalist agents that interact with the world through software; features include 1) an interaction mechanism for interaction between agents, interfaces, and environments, 2) an environment including a sandboxed operating system and web browser available to the agents, 3) interface to create and execute code, 4) multi-agent support, and 5) an evaluation framework.
논문 초록(Abstract)
소프트웨어는 숙련된 프로그래머가 복잡하고 심오한 방식으로 세상과 상호작용할 수 있게 해주는, 인간이 가진 가장 강력한 도구 중 하나입니다. 동시에 대규모 언어 모델(LLM)의 개선 덕분에 주변 환경의 변화와 상호 작용하고 영향을 주는 AI 에이전트도 빠르게 발전하고 있습니다. 이 백서에서는 코드를 작성하고 명령줄과 상호 작용하며 웹을 탐색하는 등 인간 개발자와 유사한 방식으로 세상과 상호 작용하는 강력하고 유연한 AI 에이전트를 개발할 수 있는 플랫폼인 OpenDevin에 대해 소개합니다. 이 플랫폼을 통해 새로운 에이전트 구현, 코드 실행을 위한 샌드박스 환경과의 안전한 상호 작용, 여러 에이전트 간의 조정, 평가 벤치마크 통합이 어떻게 가능한지 설명합니다. 현재 통합된 벤치마크를 기반으로 소프트웨어 엔지니어링(예: SWE-Bench) 및 웹 브라우징(예: WebArena) 등 15가지의 까다로운 작업을 통해 에이전트를 평가합니다. 허용된 MIT 라이선스에 따라 출시된 OpenDevin은 학계와 산업계를 아우르는 커뮤니티 프로젝트로 160명 이상의 기여자가 130,000건 이상의 기여를 했으며 앞으로도 계속 개선될 것입니다.
Software is one of the most powerful tools that we humans have at our disposal; it allows a skilled programmer to interact with the world in complex and profound ways. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. In this paper, we introduce OpenDevin, a platform for the development of powerful and flexible AI agents that interact with the world in similar ways to those of a human developer: by writing code, interacting with a command line, and browsing the web. We describe how the platform allows for the implementation of new agents, safe interaction with sandboxed environments for code execution, coordination between multiple agents, and incorporation of evaluation benchmarks. Based on our currently incorporated benchmarks, we perform an evaluation of agents over 15 challenging tasks, including software engineering (e.g., SWE-Bench) and web browsing (e.g., WebArena), among others. Released under the permissive MIT license, OpenDevin is a community project spanning academia and industry with more than 1.3K contributions from over 160 contributors and will improve going forward.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1816872317286281688
LazyLLM: 효율적인 긴 컨텍스트 LLM 추론을 위한 동적 토큰 프루닝 / LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
논문 소개
효율적인 긴 컨텍스트 LLM 추론을 위해 새로운 동적 토큰 가지치기 방법을 도입하여 Llama 2 7B 모델의 프리필 단계를 2.34배 가속화하고 높은 정확도를 유지할 수 있으며, 프리필 단계와 디코딩 단계 모두에서 다음 토큰 예측에 중요한 토큰의 KV를 선택적으로 계산하고, 언어 모델이 이전 단계에서 가지치기를 하더라도 다른 생성 단계에서 컨텍스트에서 다른 하위 집합의 토큰을 동적으로 선택할 수 있게 해줍니다.
Introduces a novel dynamic token pruning method for efficient long-context LLM inference; it can accelerate the prefilling stage of a Llama 2 7B model by 2.34x and maintain high accuracy; it selectively computes the KV for tokens that are important for the next token prediction in both the prefilling and decoding stages; it allows language models to dynamically select different subsets of tokens from the context in different generation steps, even though they might be pruned in previous steps.
논문 초록(Abstract)
트랜스포머 기반의 대규모 언어 모델 추론은 두 가지 순차적인 단계로 구성됩니다: 1) 프롬프트의 KV 캐시를 계산하고 첫 번째 토큰을 생성하는 사전 채우기 단계와 2) 후속 토큰을 생성하는 디코딩 단계입니다. 프롬프트가 긴 경우, 사전 채우기 단계에서 모든 토큰에 대해 KV 캐시를 계산해야 하므로 첫 번째 토큰을 생성하는 데 필요한 시간이 크게 늘어날 수 있습니다. 따라서 프리필 단계는 생성 과정에서 병목 현상이 발생할 수 있습니다. 모든 프롬프트 토큰이 첫 번째 토큰을 생성하는 데 필수적인지 여부는 여전히 의문으로 남아 있습니다. 이에 대한 답을 찾기 위해 저희는 프리필 단계와 디코딩 단계 모두에서 다음 토큰 예측에 중요한 토큰의 KV를 선택적으로 계산하는 새로운 방법인 LazyLLM을 도입했습니다. 프롬프트를 한 번에 잘라내는 정적 잘라내기 접근 방식과 달리 LazyLLM을 사용하면 언어 모델이 이전 단계에서 잘라내더라도 여러 생성 단계에서 문맥에서 토큰의 다양한 하위 집합을 동적으로 선택할 수 있습니다. 다양한 작업의 표준 데이터 세트에 대한 광범위한 실험을 통해 LazyLLM이 기존 언어 모델과 원활하게 통합되어 미세 조정 없이 생성 속도를 크게 높일 수 있는 일반적인 방법이라는 것이 입증되었습니다. 예를 들어, 다중 문서 질문-답변 작업에서 LazyLLM은 정확도를 유지하면서 LLama 2 7B 모델의 사전 채우기 단계를 2.34배까지 가속화합니다.
The inference of transformer-based large language models consists of two sequential stages: 1) a prefilling stage to compute the KV cache of prompts and generate the first token, and 2) a decoding stage to generate subsequent tokens. For long prompts, the KV cache must be computed for all tokens during the prefilling stage, which can significantly increase the time needed to generate the first token. Consequently, the prefilling stage may become a bottleneck in the generation process. An open question remains whether all prompt tokens are essential for generating the first token. To answer this, we introduce a novel method, LazyLLM, that selectively computes the KV for tokens important for the next token prediction in both the prefilling and decoding stages. Contrary to static pruning approaches that prune the prompt at once, LazyLLM allows language models to dynamically select different subsets of tokens from the context in different generation steps, even though they might be pruned in previous steps. Extensive experiments on standard datasets across various tasks demonstrate that LazyLLM is a generic method that can be seamlessly integrated with existing language models to significantly accelerate the generation without fine-tuning. For instance, in the multi-document question-answering task, LazyLLM accelerates the prefilling stage of the LLama 2 7B model by 2.34x while maintaining accuracy.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1815225416409309264
재귀적 성찰: 언어 모델 에이전트에게 자기 개선 방법 교육하기 / Recursive Introspection: Teaching Language Model Agents How to Self-Improve
논문 소개
추가 환경 피드백을 통해 여러 턴에 걸쳐 자체 응답을 개선할 수 있는 능력으로 LLM을 반복적으로 미세 조정할 수 있으며, LLM이 후속 반복에서 이전 실수를 재귀적으로 감지하고 수정하는 방법을 학습하고, 추론 작업(GSM8K 및 MATH)에서 7B 모델의 자기 개선 능력을 향상시켜 강력한 독점 모델에서는 볼 수 없는 턴에 걸친 개선을 달성한다고 주장합니다.
Claims it is possible to iteratively fine-tune LLMs with the ability to improve their own response over multiple turns with additional environment feedback; the LLM learns to recursively detect and correct its previous mistakes in subsequent iterations; improves the self-improvement abilities of 7B models on reasoning tasks (GSM8K and MATH), attaining an improvement over turns that’s unseen in strong proprietary models.
논문 초록(Abstract)
기초 모델에서 지능형 에이전트 동작을 구현하는 데 있어 핵심은 더 많은 계산이나 상호 작용이 가능해짐에 따라 에이전트가 자신의 행동과 추론을 성찰하고 실수를 수정할 수 있도록 하는 것입니다. 가장 강력한 독점적 대규모 언어 모델(LLM)조차도 실수를 하고 있다는 것을 명시적으로 알려주는 시나리오에서도 응답을 순차적으로 지속적으로 개선하는 능력을 보여주지 못합니다. 이 백서에서는 이러한 기능을 달성할 수 없다는 가설을 세운 이전 연구에도 불구하고 이러한 기능을 도입하기 위해 LLM을 미세 조정하는 접근 방식인 RISE: Recursive IntroSpEction을 개발합니다. 이 접근 방식은 반복적인 미세 조정 절차를 통해 이전에 실패한 테스트 시간 문제 해결 시도를 실행한 후 모델에 응답을 변경하는 방법을 가르치고, 선택적으로 추가 환경 피드백을 제공합니다. RISE는 단일 턴 프롬프트에 대한 미세 조정을 초기 상태가 프롬프트인 다중 턴 마르코프 결정 프로세스(MDP)를 푸는 것으로 가정합니다. 온라인 모방 학습과 강화 학습의 원리에서 영감을 받아 멀티턴 데이터 수집 및 훈련 전략을 제안하여 후속 반복에서 이전의 실수를 재귀적으로 감지하고 수정할 수 있는 능력을 LLM에 불어넣습니다. 실험 결과, RISE를 사용하면 라마2, 라마3, 미스트랄 모델이 수학 추론 작업에서 더 많은 턴을 수행하면서 스스로를 개선할 수 있으며, 동일한 양의 추론 시간 계산이 주어진다면 여러 단일 턴 전략보다 성능이 더 뛰어나다는 것을 보여주었습니다. 또한 RISE는 확장성이 뛰어나며, 성능이 뛰어난 모델일수록 더 큰 이점을 얻을 수 있는 것으로 나타났습니다. 분석 결과, RISE는 더 복잡한 분포를 표현함으로써 원턴 능력을 방해하지 않으면서도 까다로운 프롬프트에 대한 올바른 해답에 도달하기 위해 응답을 의미 있게 개선하는 것으로 나타났습니다.
A central piece in enabling intelligent agentic behavior in foundation models is to make them capable of introspecting upon their behavior, reasoning, and correcting their mistakes as more computation or interaction is available. Even the strongest proprietary large language models (LLMs) do not quite exhibit the ability of continually improving their responses sequentially, even in scenarios where they are explicitly told that they are making a mistake. In this paper, we develop RISE: Recursive IntroSpEction, an approach for fine-tuning LLMs to introduce this capability, despite prior work hypothesizing that this capability may not be possible to attain. Our approach prescribes an iterative fine-tuning procedure, which attempts to teach the model how to alter its response after having executed previously unsuccessful attempts to solve a hard test-time problem, with optionally additional environment feedback. RISE poses fine-tuning for a single-turn prompt as solving a multi-turn Markov decision process (MDP), where the initial state is the prompt. Inspired by principles in online imitation learning and reinforcement learning, we propose strategies for multi-turn data collection and training so as to imbue an LLM with the capability to recursively detect and correct its previous mistakes in subsequent iterations. Our experiments show that RISE enables Llama2, Llama3, and Mistral models to improve themselves with more turns on math reasoning tasks, outperforming several single-turn strategies given an equal amount of inference-time computation. We also find that RISE scales well, often attaining larger benefits with more capable models. Our analysis shows that RISE makes meaningful improvements to responses to arrive at the correct solution for challenging prompts, without disrupting one-turn abilities as a result of expressing more complex distributions.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1816671382585114855
텍스트-SQL 작업에 대규모 언어 모델을 사용하는 것에 대한 설문 조사 / A Survey on Employing Large Language Models for Text-to-SQL Tasks
논문 소개
신속한 엔지니어링 기술, 미세 조정 방법, 벤치마크 등을 포함하여 Text-to-SQL 작업에 LLM을 사용하는 것에 대한 설문조사를 제공합니다.
Provides a survey on employing LLMs for Text-to-SQL tasks, including prompt engineering techniques, fine-tuning methods, benchmarks, and more.
논문 초록(Abstract)
관계형 데이터베이스에 저장되는 데이터의 양이 증가함에 따라 다양한 분야에서 이 데이터를 효율적으로 쿼리하고 활용해야 할 필요성이 대두되고 있습니다. 하지만 SQL 쿼리를 작성하려면 전문 지식이 필요하기 때문에 비전문가가 데이터베이스에 액세스하고 쿼리하려는 사용자에게는 어려움이 있습니다. 텍스트-SQL 구문 분석은 자연어 쿼리를 SQL 쿼리로 변환함으로써 이 문제를 해결하여 비전문가인 사용자도 데이터베이스에 더 쉽게 액세스할 수 있게 해줍니다. 최근 대규모 언어 모델(LLM)의 발전을 활용하기 위해 신속한 엔지니어링과 미세 조정에 중점을 둔 다양한 새로운 방법들이 등장했습니다. 이 설문조사에서는 텍스트-SQL 작업에서 LLM에 대한 포괄적인 개요를 제공하고 벤치마크 데이터세트, 신속한 엔지니어링, 미세 조정 방법 및 향후 연구 방향에 대해 논의합니다. 이 리뷰를 통해 독자들이 이 분야의 최근 발전에 대해 더 폭넓게 이해하고 향후 궤도에 대한 인사이트를 얻을 수 있기를 바랍니다.
The increasing volume of data stored in relational databases has led to the need for efficient querying and utilization of this data in various sectors. However, writing SQL queries requires specialized knowledge, which poses a challenge for non-professional users trying to access and query databases. Text-to-SQL parsing solves this issue by converting natural language queries into SQL queries, thus making database access more accessible for non-expert users. To take advantage of the recent developments in Large Language Models (LLMs), a range of new methods have emerged, with a primary focus on prompt engineering and fine-tuning. This survey provides a comprehensive overview of LLMs in text-to-SQL tasks, discussing benchmark datasets, prompt engineering, fine-tuning methods, and future research directions. We hope this review will enable readers to gain a broader understanding of the recent advances in this field and offer some insights into its future trajectory.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1815599057974223015
MINT-1T: 오픈소스 멀티모달 데이터를 10배로 확장: 1조 개의 토큰이 포함된 멀티모달 데이터 세트 / MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
논문 소개
34억 개의 이미지가 포함된 1조 개의 토큰으로 구성된 대규모 멀티모달 인터리브 데이터셋을 오픈소스화했으며, PDF 및 ArXiv 논문과 같은 새로운 소스도 포함하고 있습니다.
Open-sources a large-scale multimodal interleaved dataset consisting of 1 trillion tokens which has 3.4 billion images; it also includes new sources such as PDFs and ArXiv papers.
논문 초록(Abstract)
이미지와 텍스트의 자유 형식 인터리브 시퀀스를 포함하는 멀티모달 인터리브 데이터 세트는 프론티어 대규모 멀티모달 모델(LMM)을 훈련하는 데 매우 중요합니다. 오픈 소스 LMM이 빠르게 발전하고 있음에도 불구하고 대규모의 다양한 오픈 소스 멀티모달 인터리브 데이터 세트는 여전히 현저하게 부족합니다. 이에 따라, 현재까지 가장 광범위하고 다양한 오픈소스 멀티모달 인터리브 데이터세트인 MINT-1T를 소개합니다. MINT-1T는 기존 오픈소스 데이터 세트보다 10배 확장된 1조 개의 텍스트 토큰과 34억 개의 이미지로 구성되어 있습니다. 또한 PDF와 ArXiv 논문과 같이 이전에 활용되지 않았던 소스도 포함되어 있습니다. 멀티모달 인터리브 데이터세트를 확장하려면 상당한 엔지니어링 노력이 필요하기 때문에, 데이터 큐레이션 프로세스를 공유하고 데이터세트를 공개하는 것은 커뮤니티에 큰 도움이 됩니다. 실험 결과, MINT-1T에서 학습된 LMM은 이전의 주요 데이터 세트인 OBELICS에서 학습된 모델의 성능에 필적하는 것으로 나타났습니다. 데이터와 코드는 GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset. 에서 공개될 예정입니다.
Multimodal interleaved datasets featuring free-form interleaved sequences of images and text are crucial for training frontier large multimodal models (LMMs). Despite the rapid progression of open-source LMMs, there remains a pronounced scarcity of large-scale, diverse open-source multimodal interleaved datasets. In response, we introduce MINT-1T, the most extensive and diverse open-source Multimodal INTerleaved dataset to date. MINT-1T comprises one trillion text tokens and 3.4 billion images, a 10x scale-up from existing open-source datasets. Additionally, we include previously untapped sources such as PDFs and ArXiv papers. As scaling multimodal interleaved datasets requires substantial engineering effort, sharing the data curation process and releasing the dataset greatly benefits the community. Our experiments show that LMMs trained on MINT-1T rival the performance of models trained on the previous leading dataset, OBELICS. Our data and code will be released at GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset..
논문 링크
더 읽어보기
https://github.com/mlfoundations/MINT-1T
https://x.com/omarsar0/status/1816250935930142834
재귀적으로 생성된 데이터로 학습하면 AI 모델이 축소됩니다 / AI models collapse when trained on recursively generated data
논문 소개
재귀적으로 생성된 데이터에 대한 모델 학습의 효과를 조사하고, 모델 생성 콘텐츠에 대한 학습이 원래 콘텐츠 분포가 사라지는 돌이킬 수 없는 결함을 일으킬 수 있음을 발견하고, 모델 붕괴라고 하는 효과가 LLM, VAE 및 GMM에서 발생하며, 소규모 모델(최대 1억 개의 파라미터)에서 테스트했지만 이 효과가 시간이 지나면서 대규모 모델로 이전될 가능성이 높다는 것을 보여줬습니다.
Investigates the effects of training models on recursively generated data; finds that training on model-generated content can cause irreversible defects where the original content distribution disappears; shows that the effect, referred to as model collapse, occurs in LLMs, VAEs, and GMMs; while tested on smaller scale models (~100M params), the authors suggest this effect is highly likely to transfer to larger models over time.
논문 초록(Abstract)
안정적인 확산은 설명 텍스트에서 이미지 생성에 혁신을 가져왔습니다. GPT-2(참조. ), GPT-3(.5)(참조. ) 및 GPT-4(참조. )는 다양한 언어 작업에서 높은 성능을 보여주었습니다. ChatGPT는 이러한 언어 모델을 대중에게 소개했습니다. 이제 대규모 언어 모델(LLM)과 같은 생성형 인공지능(AI)이 온라인 텍스트와 이미지의 생태계를 크게 변화시킬 것이 분명해졌습니다. 여기서는 LLM이 온라인에서 발견되는 텍스트의 대부분을 차지하게 되면 GPT-{n}에 어떤 일이 일어날지 생각해 봅니다. 학습에 모델 생성 콘텐츠를 무분별하게 사용하면 결과 모델에 돌이킬 수 없는 결함이 발생하여 원본 콘텐츠 분포의 꼬리가 사라지는 것을 발견했습니다. 우리는 이 효과를 '모델 붕괴'라고 부르며, 이러한 현상이 LLM뿐만 아니라 변형 자동 인코더(VAE)와 가우스 혼합 모델(GMM)에서도 발생할 수 있음을 보여줍니다. 이 현상에 대한 이론적 직관을 구축하고 모든 학습된 생성 모델에서 이 현상이 어디에나 존재한다는 것을 설명합니다. 웹에서 스크랩한 대규모 데이터로부터 학습의 이점을 지속하려면 이를 진지하게 받아들여야 한다는 것을 보여줍니다. 실제로 인터넷에서 크롤링된 데이터에 LLM으로 생성된 콘텐츠가 포함되어 있는 경우, 시스템과 인간의 실제 상호 작용에 대해 수집된 데이터의 가치는 점점 더 높아질 것입니다.
Stable diffusion revolutionized image creation from descriptive text. GPT-2 (ref. ), GPT-3(.5) (ref. ) and GPT-4 (ref. ) demonstrated high performance across a variety of language tasks. ChatGPT introduced such language models to the public. It is now clear that generative artificial intelligence (AI) such as large language models (LLMs) is here to stay and will substantially change the ecosystem of online text and images. Here we consider what may happen to GPT-{n} once LLMs contribute much of the text found online. We find that indiscriminate use of model-generated content in training causes irreversible defects in the resulting models, in which tails of the original content distribution disappear. We refer to this effect as ‘model collapse’ and show that it can occur in LLMs as well as in variational autoencoders (VAEs) and Gaussian mixture models (GMMs). We build theoretical intuition behind the phenomenon and portray its ubiquity among all learned generative models. We demonstrate that it must be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of LLM-generated content in data crawled from the Internet.
논문 링크
https://www.nature.com/articles/s41586-024-07566-y
더 읽어보기
https://x.com/alexandr_wang/status/1816491442069782925
생성 제약 스케일링으로 환각을 완화할 수 있습니다 / Generation Constraint Scaling Can Mitigate Hallucination
논문 소개
LLM의 환각을 완화하기 위해 훈련이 필요 없는 새로운 접근법을 제안하고, 메모리 증강 LLM 디코더에서 생성을 제한하는 판독 벡터를 확장하고, 최근 연구에서는 명시적 메모리 메커니즘을 갖춘 LLM이 환각을 줄이는 데 도움이 된다고 주장하며, 이 연구에서는 메모리 증강 LLM을 사용하고 경량 메모리 프리미티브를 적용하여 디코더에서 생성을 제한하여 환각을 완화합니다.
Proposes a new training-free approach to mitigate hallucination in LLMs; they scaled the readout vector that constrains generation in a memory-augmented LLM decoder; recent works claim that LLMs with explicit memory mechanisms can help lower hallucination; this work uses a memory-augmented LLM and constrains generation in the decoder by applying lightweight memory primitives to reduce hallucination.
논문 초록(Abstract)
대규모 언어 모델(LLM)에서 환각 문제를 해결하는 것은 매우 중요한 과제입니다. 환각의 인지 메커니즘은 기억과 관련이 있기 때문에 여기서는 명시적인 기억 메커니즘으로 활성화되는 LLM의 환각에 대해 살펴봅니다. 메모리 증강 LLM 디코더에서 생성을 제한하는 판독 벡터를 간단히 확장함으로써 훈련 없이도 환각을 완화할 수 있음을 경험적으로 입증합니다. 이 방법은 기하학에서 영감을 얻은 것으로, 생성 품질과 런타임 복잡성 측면에서 Wikipedia와 유사한 전기 항목의 생성 작업에서 최첨단 LLM 편집 방법보다 성능이 뛰어납니다.
Addressing the issue of hallucinations in large language models (LLMs) is a critical challenge. As the cognitive mechanisms of hallucination have been related to memory, here we explore hallucination for LLM that is enabled with explicit memory mechanisms. We empirically demonstrate that by simply scaling the readout vector that constrains generation in a memory-augmented LLM decoder, hallucination mitigation can be achieved in a training-free manner. Our method is geometry-inspired and outperforms a state-of-the-art LLM editing method on the task of generation of Wikipedia-like biography entries both in terms of generation quality and runtime complexity.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1816491986209104104
원문
이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~