[2024/01/01 ~ 01/07] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들을 살펴보면, 대규모 언어 모델(Large Language Models, LLMs)에 초점을 맞춘 연구가 주를 이루고 있습니다. 특히 'Mitigating Hallucination in LLMs', 'LLaMA Pro', 'LLM Augmented LLMs', 'DocLLM', 'How Code Empowers LLMs'와 같은 논문들은 언어 모델의 성능을 개선하거나 새로운 문제점을 해결하기 위한 다양한 연구 노력을 반영하고 있습니다. 이와 함께 'Instruct-Imagen' 논문에서는 언어 모델을 활용한 이미지 생성에 대한 연구가 포함되어 있어, 다양한 형태의 데이터를 처리하는 LLM의 확장 가능성을 보여주고 있습니다.

  • 언어 모델, 특히 GPT-3와 같은 대규모 변형 모델들은 AI 분야에서 빠르게 성장하고 주목받는 트렌드입니다. 이러한 모델들은 대용량의 텍스트 데이터를 학습하여 자연스러운 언어 출력을 생성할 능력을 갖추고 있습니다. 하지만 동시에 '환각(hallucination)'이라 불리는, 실제 데이터에 기반하지 않은 부정확한 정보를 생성하는 문제가 발생하기도 하며, 연구자들은 이러한 문제를 해결하기 위해 다양한 접근 방식을 탐구 중입니다. 'Mitigating Hallucination in LLMs' 논문은 이 같은 문제에 초점을 맞추고 있음을 보여줍니다.

  • LLM의 사용 사례가 다양해짐에 따라, 이번 주 논문들은 또한 언어 모델을 다른 AI 시스템과 통합하거나, 특정 분야에서의 응용을 확장하는 경향을 보입니다. 예를 들어 'Fast Inference of Mixture-of-Experts'는 전문가 시스템과 언어 모델의 통합을 다루고 있으며, 'GPT-4V is a Generalist Web Agent'는 웹 환경에서 다재다능하게 활용될 수 있는 언어 모델의 잠재력을 탐색합니다. 'Self-Play Fine-tuning'은 강화 학습과 협력하여 언어 모델의 파인튜닝을 최적화하는 기법에 대해 논의하며, 이는 모델의 자기개선 능력을 강화하는 방법 중 하나로 볼 수 있습니다. 이러한 다양한 연구 방향은 AI 기술의 새롭고 향상된 형태로 발전하고 있는 언어 모델의 중요성을 강조하고 있습니다.

  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:


모바일 알로하 / Mobile ALOHA

논문 소개

  • 저비용 전신 원격 조작으로 양손 이동 조작을 학습하는 시스템을 제안하고, 먼저 고품질 데모를 수집한 다음 감독된 행동 복제를 수행하며, 기존 알로하 데이터 세트와의 공동 학습을 통해 새우를 볶아 서빙하고, 두 개의 문으로 된 벽 캐비닛을 열어 무거운 요리 냄비를 보관하는 등 복잡한 이동 조작 작업의 성능을 향상시키면서 예산을 3만2천 달러 미만으로 유지한다는 사실을 발견합니다.

    Proposes a system that learns bimanual mobile manipulation with low-cost whole-body teleoperation; it first collects high-quality demonstrations and then performs supervised behavior cloning; finds that co-training with existing aloha datasets increases performance on complex mobile manipulation tasks such as sauteing and serving a piece of shrimp, opening a two-door wall cabinet to store heavy cooking pots while keeping the budget under $32k.

논문 링크

더 읽어보기

https://x.com/zipengfu/status/1742973258528612724


대규모 언어 모델에서 환각 완화 기법에 대한 종합적인 조사 / A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models

논문 소개

  • LLM에서 환각을 완화하는 32가지 기술을 요약합니다. RAG, 지식 검색, CoVe 등과 같은 방법들에 대한 분류법을 소개합니다. 이러한 방법을 적용하는 방법에 대한 팁을 제공하고 그에 따른 과제와 한계를 강조합니다.

    Summarizes 32 techniques to mitigate hallucination in llms; introduces a taxonomy categorizing methods like RAG, knowledge retrieval, cove, and more; provides tips on how to apply these methods and highlights the challenges and limitations inherent in them.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)이 인간과 유사한 텍스트를 작성하는 능력이 계속 발전함에 따라, 사실처럼 보이지만 근거가 없는 콘텐츠를 생성하는 환각 경향에 대한 주요 과제가 남아 있습니다. 이 환각 문제는 사람들의 삶에 영향을 미치는 실제 생산 시스템에 이러한 강력한 인공지능을 안전하게 배포하는 데 있어 가장 큰 장애물입니다. 실제 환경에서 LLM을 광범위하게 채택하기 위한 여정은 환각 문제를 해결하고 완화하는 데 크게 좌우됩니다. 제한된 작업에 초점을 맞춘 기존의 AI 시스템과 달리, LLM은 학습 과정에서 방대한 양의 온라인 텍스트 데이터에 노출되어 왔습니다. 이 때문에 언어에 대한 유창성이 뛰어나지만, 학습 데이터의 편향성으로부터 정보를 추정하거나 모호한 프롬프트를 잘못 해석하거나 정보를 표면적으로 입력에 맞게 수정할 수 있다는 의미이기도 합니다. 이는 의료 기록 요약, 재무 분석 보고서 등과 같이 민감한 애플리케이션에서 언어 생성 기능에 의존할 때 매우 우려스러운 문제입니다. 이 논문에서는 LLM에서 환각을 완화하기 위해 개발된 32가지 이상의 기술에 대한 종합적인 조사를 제시합니다. 이 중 주목할 만한 기술로는 검색 증강 생성(Lewis 외, 2021), 지식 검색(Varshney 외, 2023), CoNLI(Lei 외, 2023), CoVe(Dhuliawala 외, 2023)가 있습니다. 또한, 데이터 세트 활용도, 공통 작업, 피드백 메커니즘, 검색기 유형 등 다양한 매개변수를 기준으로 이러한 방법을 분류하는 세부 분류법을 소개합니다. 이러한 분류는 LLM의 환각 문제를 해결하기 위해 특별히 고안된 다양한 접근법을 구분하는 데 도움이 됩니다. 또한 이러한 기법에 내재된 과제와 한계를 분석하여 향후 LLM 영역에서 환각 및 관련 현상을 해결하기 위한 연구를 위한 탄탄한 토대를 제공합니다.

    As Large Language Models (LLMs) continue to advance in their ability to write human-like text, a key challenge remains around their tendency to hallucinate generating content that appears factual but is ungrounded. This issue of hallucination is arguably the biggest hindrance to safely deploying these powerful LLMs into real-world production systems that impact people's lives. The journey toward widespread adoption of LLMs in practical settings heavily relies on addressing and mitigating hallucinations. Unlike traditional AI systems focused on limited tasks, LLMs have been exposed to vast amounts of online text data during training. While this allows them to display impressive language fluency, it also means they are capable of extrapolating information from the biases in training data, misinterpreting ambiguous prompts, or modifying the information to align superficially with the input. This becomes hugely alarming when we rely on language generation capabilities for sensitive applications, such as summarizing medical records, financial analysis reports, etc. This paper presents a comprehensive survey of over 32 techniques developed to mitigate hallucination in LLMs. Notable among these are Retrieval Augmented Generation (Lewis et al, 2021), Knowledge Retrieval (Varshney et al,2023), CoNLI (Lei et al, 2023), and CoVe (Dhuliawala et al, 2023). Furthermore, we introduce a detailed taxonomy categorizing these methods based on various parameters, such as dataset utilization, common tasks, feedback mechanisms, and retriever types. This classification helps distinguish the diverse approaches specifically designed to tackle hallucination issues in LLMs. Additionally, we analyze the challenges and limitations inherent in these techniques, providing a solid foundation for future research in addressing hallucinations and related phenomena within the realm of LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1742633831234994189


셀프 플레이 미세 조정을 통해 약한 언어 모델을 강력한 언어 모델로 변환합니다 / Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

논문 소개

  • 사람이 주석이 달린 데이터를 추가로 확보하지 않고도 감독을 통해 미세 조정된 머신러닝을 개선할 수 있음을 보여주고, 셀프 플레이에서 영감을 받아 먼저 머신러닝을 사용하여 이전 반복에서 학습 데이터를 생성한 다음, 스스로 생성한 응답과 사람이 주석이 달린 데이터에서 얻은 응답을 구분하여 정책을 개선하고, 이 방법을 통해 머신러닝의 성능을 개선하고 gpt-4 선호 데이터로 DPO를 통해 학습된 모델보다 성능이 향상될 수 있음을 보여 줍니다.

    Shows that without acquiring additional human-annotated data, a supervised fine-tuned llm can be improved; inspired by self-play, it first uses the llm to generate its training data from its previous iterations; it then refines its policy by distinguishing the self-generated responses from those obtained from human-annotated data; shows that the method can improve llm’s performance and outperform models trained via dpo with gpt-4 preference data.

논문 초록(Abstract)

  • 지도 미세 조정(SFT)을 통해 사람이 주석이 달린 데이터의 힘을 활용하는 것은 대규모 언어 모델(LLM)을 발전시키는 데 있어 매우 중요합니다. 이 논문에서는 사람이 주석한 데이터를 추가로 확보할 필요 없이 약한 LLM을 강력한 LLM으로 성장시킬 수 있는 가능성을 살펴봅니다. 우리는 감독된 미세 조정 모델에서 출발하는 새로운 미세 조정 방법인 SPIN(Self-Play fIne-tuNing)을 제안합니다. SPIN의 핵심은 셀프 플레이 메커니즘으로, LLM이 자신의 인스턴스를 상대로 학습하여 기능을 개선합니다. 좀 더 구체적으로 설명하면, LLM은 이전 반복에서 자체 학습 데이터를 생성하고, 사람이 주석을 단 데이터에서 얻은 응답과 자체 생성된 응답을 구분하여 정책을 개선합니다. 우리의 방법은 초기 모델에서 강력한 모델로 LLM을 점진적으로 향상시켜 SFT를 위한 사람 주석이 달린 데모 데이터의 잠재력을 최대한 활용합니다. 이론적으로는 LLM 정책이 목표 데이터 분포와 일치할 때만 우리 방법의 학습 목적 함수에 대한 전역 최적이 달성된다는 것을 증명합니다. 경험적으로, 우리는 HuggingFace 오픈 LLM 리더보드, MT-Bench, Big-Bench의 데이터셋을 포함한 여러 벤치마크 데이터셋에서 우리의 방법을 평가합니다. 그 결과, SPIN은 다양한 벤치마크에서 LLM의 성능을 크게 향상시킬 수 있으며, 심지어 추가 GPT-4 선호도 데이터로 보완된 직접 선호도 최적화(DPO)를 통해 학습된 모델보다 성능이 더 뛰어나다는 것을 보여주었습니다. 이는 셀프 플레이의 가능성을 보여주며, 전문가 없이도 LLM에서 인간 수준의 성능을 달성할 수 있게 해줍니다.

    Harnessing the power of human-annotated data through Supervised Fine-Tuning (SFT) is pivotal for advancing Large Language Models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a weak one without the need for acquiring additional human-annotated data. We propose a new fine-tuning method called Self-Play fIne-tuNing (SPIN), which starts from a supervised fine-tuned model. At the heart of SPIN lies a self-play mechanism, where the LLM refines its capability by playing against instances of itself. More specifically, the LLM generates its own training data from its previous iterations, refining its policy by discerning these self-generated responses from those obtained from human-annotated data. Our method progressively elevates the LLM from a nascent model to a formidable one, unlocking the full potential of human-annotated demonstration data for SFT. Theoretically, we prove that the global optimum to the training objective function of our method is achieved only when the LLM policy aligns with the target data distribution. Empirically, we evaluate our method on several benchmark datasets including the HuggingFace Open LLM Leaderboard, MT-Bench, and datasets from Big-Bench. Our results show that SPIN can significantly improve the LLM's performance across a variety of benchmarks and even outperform models trained through direct preference optimization (DPO) supplemented with extra GPT-4 preference data. This sheds light on the promise of self-play, enabling the achievement of human-level performance in LLMs without the need for expert opponents.

논문 링크

더 읽어보기

https://x.com/_zxchen_/status/1742661587436216615


LLaMA Pro: 블록 확장을 통한 프로그레시브 LLaMA / LLaMA Pro: Progressive LLaMA with Block Expansion

논문 소개

  • 치명적인 망각 없이 LLM의 지식을 향상시키는 사후 사전 학습 방법을 제안하고, 상속된 블록을 동결한 채 새로운 말뭉치만을 사용하여 확장된 신원 블록을 조정함으로써 이를 달성하며, 수학과 코드 데이터를 사용하여 llama2-7b에서 초기화된 llama pro-8.3b를 학습시키고, 이러한 모델은 원래의 일반 기능을 유지하면서 다양한 벤치마크에서 기본 모델에 비해 향상된 성능을 달성합니다.

    Proposes a post-pretraining method to improve an llm’s knowledge without catastrophic forgetting; it achieves this by tuning expanded identity blocks using only new corpus while freezing the inherited blocks; uses math and code data to train a llama pro-8.3b initialized from llama2-7b; these models achieve advanced performance on various benchmarks compared to base models while preserving the original general capabilities.

논문 초록(Abstract)

  • 인간은 일반적으로 기존 기술을 손상시키지 않으면서 새로운 기술을 습득하지만, 대규모 언어 모델(LLM)은 그 반대의 경우입니다(예: LLaMA에서 CodeLaMA로). 이를 위해 Transformer 블록을 확장하여 LLM을 위한 새로운 사후 사전 학습 방법을 제안합니다. 새로운 말뭉치만을 사용하여 확장된 블록을 튜닝함으로써 치명적인 망각 없이 효율적이고 효과적으로 모델의 지식을 개선합니다. 이 논문에서는 코드와 수학 코퍼스를 실험하여 일반 작업, 프로그래밍, 수학에서 탁월한 성능을 발휘하는 LLaMA2-7B에서 초기화된 다용도 파운데이션 모델인 LLaMA Pro-8.3B를 도출합니다. LLaMA Pro와 명령어 추종형 모델(LLaMA Pro-Instruct)은 다양한 벤치마크에서 우수한 성능을 달성하여 LLaMA 제품군의 기존 개방형 모델보다 우수하며 지능형 에이전트로서 다양한 작업을 추론하고 처리할 수 있는 엄청난 잠재력을 입증했습니다. 이번 연구 결과는 자연어와 프로그래밍 언어의 통합에 대한 귀중한 인사이트를 제공하여 다양한 환경에서 효과적으로 작동하는 고급 언어 에이전트를 개발할 수 있는 견고한 기반을 마련했습니다.

    Humans generally acquire new skills without compromising the old; however, the opposite holds for Large Language Models (LLMs), e.g., from LLaMA to CodeLLaMA. To this end, we propose a new post-pretraining method for LLMs with an expansion of Transformer blocks. We tune the expanded blocks using only new corpus, efficiently and effectively improving the model's knowledge without catastrophic forgetting. In this paper, we experiment on the corpus of code and math, yielding LLaMA Pro-8.3B, a versatile foundation model initialized from LLaMA2-7B, excelling in general tasks, programming, and mathematics. LLaMA Pro and its instruction-following counterpart (LLaMA Pro-Instruct) achieve advanced performance among various benchmarks, demonstrating superiority over existing open models in the LLaMA family and the immense potential of reasoning and addressing diverse tasks as an intelligent agent. Our findings provide valuable insights into integrating natural and programming languages, laying a solid foundation for developing advanced language agents that operate effectively in various environments.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1743135851238805685


LLM 증강 LLM: 컴포지션을 통한 역량 확장 / LLM Augmented LLMs: Expanding Capabilities through Composition

논문 소개

  • 기존 기반 모델을 특정 모델로 구성하여 기능을 확장하고, 모델 간 교차 주의를 도입하여 새로운 기능을 가능하게 하는 표현을 구성하며, 저자원 언어에 대한 영어 번역 및 산술 추론을 개선하기 위해 저자원 언어로 학습된 더 작은 모델로 palm2-s 모델을 보강한 예로, 코드 생성 및 설명 작업에서 기본 코드 모델보다 40% 향상된 결과를 가져온 코드별 모델도 있습니다.

    Explore composing existing foundation models with specific models to expand capabilities; introduce cross-attention between models to compose representations that enable new capabilities; as an example, a palm2-s model was augmented with a smaller model trained on low-resource languages to improve english translation and arithmetic reasoning for low-resource languages; this was also done with a code-specific model which led to a 40% improvement over the base code model on code generation and explanation tasks.

논문 초록(Abstract)

  • 대규모 데이터 코퍼라를 통해 학습된 수십억 개의 파라미터가 포함된 기본 모델은 다양한 영역에서 사소하지 않은 기술을 입증해 왔습니다. 하지만 모놀리식 구조로 인해 이를 보강하거나 새로운 기술을 부여하는 것은 어렵고 비용이 많이 듭니다. 반면에 이러한 모델의 적응 능력으로 인해 새로운 영역과 작업을 위해 학습된 새로운 모델들이 등장하고 있습니다. 본 연구에서는 기존의 파운데이션 모델을 보다 구체적인 모델로 구성하여 새로운 기능을 구현할 수 있도록 효율적이고 실용적으로 구성하는 문제를 연구합니다. 이를 위해 우리는 모델 간 교차주의를 도입하여 표현을 구성하고 새로운 기능을 구현하는 CALM(Composition to Augment Language Models)을 제안합니다. CALM의 두드러진 특징은 다음과 같습니다: (i) 몇 가지 추가 매개변수 및 데이터와 함께 기존 LLM을 '재사용'하여 새로운 작업에서 LLM을 확장하고, (ii) 기존 모델 가중치를 그대로 유지하므로 기존 기능을 보존하며, (iii) 다양한 도메인과 설정에 적용할 수 있습니다. 저자원 언어에 대해 학습된 더 작은 모델로 PaLM2-S를 보강하면 저자원 언어에 대한 영어 번역 및 산술 추론과 같은 작업에서 최대 13%까지 절대적인 성능 향상을 가져올 수 있음을 보여줍니다. 마찬가지로 코드 전용 모델로 PaLM2-S를 보강하면 코드 생성 및 설명 작업에서 기본 모델에 비해 40%까지 상대적 성능이 향상되어 완전히 미세 조정된 모델과 대등한 수준으로 향상됩니다.

    Foundational models with billions of parameters which have been trained on large corpora of data have demonstrated non-trivial skills in a variety of domains. However, due to their monolithic structure, it is challenging and expensive to augment them or impart new skills. On the other hand, due to their adaptation abilities, several new instances of these models are being trained towards new domains and tasks. In this work, we study the problem of efficient and practical composition of existing foundation models with more specific models to enable newer capabilities. To this end, we propose CALM -- Composition to Augment Language Models -- which introduces cross-attention between models to compose their representations and enable new capabilities. Salient features of CALM are: (i) Scales up LLMs on new tasks by 're-using' existing LLMs along with a few additional parameters and data, (ii) Existing model weights are kept intact, and hence preserves existing capabilities, and (iii) Applies to diverse domains and settings. We illustrate that augmenting PaLM2-S with a smaller model trained on low-resource languages results in an absolute improvement of up to 13% on tasks like translation into English and arithmetic reasoning for low-resource languages. Similarly, when PaLM2-S is augmented with a code-specific model, we see a relative improvement of 40% over the base model for code generation and explanation tasks -- on-par with fully fine-tuned counterparts.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1743094632618106981


오프로딩을 통한 전문가 혼합 언어 모델의 빠른 추론 / Fast Inference of Mixture-of-Experts Language Models with Offloading

논문 소개

  • 오프로딩을 통해 Mixtral-8x7b 모델을 효율적으로 추론하고, 관심 계층과 전문가를 위해 별도의 정량화를 적용하여 모델을 결합된 GPU 및 CPU 메모리에 맞추고, 데스크톱 하드웨어와 무료 티어 Google Colab 인스턴스에서 Mixtral-8x7b를 실행할 수 있는 MoE 전용 오프로딩 전략을 설계합니다.

    Achieves efficient inference of mixtral-8x7b models through offloading; it applies separate quantization for attention layers and experts to fit the model in combined gpu and cpu memory; designs a moe-specific offloading strategy that enables running mixtral-8x7b on desktop hardware and free-tier google colab instances.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)이 널리 채택됨에 따라 많은 딥러닝 실무자들이 이러한 모델을 보다 효율적으로 실행할 수 있는 전략을 찾고 있습니다. 이러한 전략 중 하나는 특정 입력에 대해 일부 모델 레이어만 활성화되는 모델 아키텍처의 일종인 희소 전문가 혼합(MoE)을 사용하는 것입니다. 이러한 특성 덕분에 MoE 기반 언어 모델은 밀도가 높은 모델보다 토큰을 더 빠르게 생성할 수 있지만, 여러 명의 전문가가 필요하기 때문에 모델 크기가 커집니다. 안타깝게도 이 때문에 하이엔드 GPU 없이는 최첨단 MoE 언어 모델을 실행하기 어렵습니다. 이 연구에서는 가속기 메모리가 제한된 일반 소비자용 하드웨어에서 대규모 MoE 언어 모델을 실행하는 문제를 연구합니다. 우리는 매개변수 오프로딩 알고리즘을 구축하고 MoE LLM의 고유한 특성을 활용하여 오프로딩을 가속화하는 새로운 전략을 제안합니다. 이 전략을 사용하여 데스크톱 하드웨어와 무료 계층의 Google Colab 인스턴스에서 혼합 양자화를 통해 Mixtral-8x7B를 실행할 수 있도록 구축했습니다.

    With the widespread adoption of Large Language Models (LLMs), many deep learning practitioners are looking for strategies of running these models more efficiently. One such strategy is to use sparse Mixture-of-Experts (MoE) - a type of model architectures where only a fraction of model layers are active for any given input. This property allows MoE-based language models to generate tokens faster than their dense counterparts, but it also increases model size due to having multiple experts. Unfortunately, this makes state-of-the-art MoE language models difficult to run without high-end GPUs. In this work, we study the problem of running large MoE language models on consumer hardware with limited accelerator memory. We build upon parameter offloading algorithms and propose a novel strategy that accelerates offloading by taking advantage of innate properties of MoE LLMs. Using this strategy, we build can run Mixtral-8x7B with mixed quantization on desktop hardware and free-tier Google Colab instances.

논문 링크

더 읽어보기

https://x.com/rohanpaul_ai/status/1741044633495326861


GPT-4V(ision)는 제너럴리스트 웹 에이전트(접지된 경우)입니다 / GPT-4V(ision) is a Generalist Web Agent, if Grounded

논문 소개

  • 제너럴리스트 웹 에이전트로서 gpt-4v의 잠재력, 특히 이러한 모델이 자연어 지시를 따라 웹 사이트에서 작업을 완료할 수 있는지 살펴봅니다. 저자는 먼저 웹 에이전트를 라이브 웹 사이트에서 실행할 수 있는 도구를 개발했습니다. 연구 결과에 따르면 gpt-4v는 텍스트 계획을 웹 사이트의 작업으로 수동으로 알려주며 라이브 웹 사이트에서 작업의 50%를 완료할 수 있는 것으로 나타났습니다.

    Explores the potential of gpt-4v as a generalist web agent; in particular, can such a model follow natural language instructions to complete tasks on a website? the authors first developed a tool to enable web agents to run on live websites; findings suggest that gpt-4v can complete 50% of tasks on live websites, possible through manual grounding of its textual plans into actions on the websites.

논문 초록(Abstract)

  • 최근 대형 멀티모달 모델(LMM), 특히 GPT-4V(ision) 및 Gemini의 개발로 이미지 캡션 및 시각적 질문 답변과 같은 전통적인 작업을 넘어 멀티모달 모델의 기능 경계가 빠르게 확장되고 있습니다. 이 연구에서는 자연어 지시에 따라 특정 웹 사이트에서 작업을 완료할 수 있는 범용 웹 에이전트로서 GPT-4V와 같은 LMM의 잠재력을 살펴봅니다. 웹에서 통합된 시각적 이해와 행동을 위해 LMM의 힘을 활용하는 제너럴리스트 웹 에이전트인 SEEACT를 제안합니다. 최신 MIND2WEB 벤치마크를 통해 평가합니다. 캐시된 웹 사이트에 대한 표준 오프라인 평가 외에도 라이브 웹 사이트에서 웹 에이전트를 실행할 수 있는 도구를 개발하여 새로운 온라인 평가 설정을 지원합니다. 웹 에이전트의 텍스트 계획을 웹사이트의 액션으로 수동으로 실행하면 라이브 웹사이트의 작업 중 50%를 성공적으로 완료할 수 있는 것으로 나타나 웹 에이전트의 잠재력이 매우 크다는 것을 보여주었습니다. 이는 웹 에이전트용으로 특별히 미세 조정된 GPT-4 또는 그보다 작은 모델(FLAN-T5 및 BLIP-2)과 같은 텍스트 전용 LLM의 성능을 크게 뛰어넘는 것입니다. 하지만 그라운딩은 여전히 주요 과제로 남아 있습니다. 세트 오브 마크 프롬프트와 같은 기존의 LMM 접지 전략은 웹 에이전트에는 효과적이지 않은 것으로 밝혀졌으며, 이 논문에서 개발한 최상의 접지 전략은 HTML 텍스트와 비주얼을 모두 활용합니다. 하지만 여전히 오라클 그라운딩과 상당한 격차가 있어 개선의 여지가 많이 남아 있습니다.

    The recent development on large multimodal models (LMMs), especially GPT-4V(ision) and Gemini, has been quickly expanding the capability boundaries of multimodal models beyond traditional tasks like image captioning and visual question answering. In this work, we explore the potential of LMMs like GPT-4V as a generalist web agent that can follow natural language instructions to complete tasks on any given website. We propose SEEACT, a generalist web agent that harnesses the power of LMMs for integrated visual understanding and acting on the web. We evaluate on the recent MIND2WEB benchmark. In addition to standard offline evaluation on cached websites, we enable a new online evaluation setting by developing a tool that allows running web agents on live websites. We show that GPT-4V presents a great potential for web agents - it can successfully complete 50% of the tasks on live websites if we manually ground its textual plans into actions on the websites. This substantially outperforms text-only LLMs like GPT-4 or smaller models (FLAN-T5 and BLIP-2) specifically fine-tuned for web agents. However, grounding still remains a major challenge. Existing LMM grounding strategies like set-of-mark prompting turns out not effective for web agents, and the best grounding strategy we develop in this paper leverages both the HTML text and visuals. Yet, there is still a substantial gap with oracle grounding, leaving ample room for further improvement.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1742923330544706035


DocLLM: 멀티모달 문서 이해를 위한 레이아웃 인식 생성 언어 모델 / DocLLM: A layout-aware generative language model for multimodal document understanding

논문 소개

  • 시각적 문서에 대한 추론을 위해 기존 LLMS를 경량으로 확장하고, 바운딩 박스 정보를 사용하여 공간 레이아웃 구조를 통합하는 데 중점을 두고, 시각적 문서에 존재하는 불규칙한 레이아웃과 이질적인 콘텐츠를 다루는 사전 학습 목표를 제안한 다음, 명령어 데이터셋에서 미세 조정하여 여러 문서 지능 작업에 걸쳐 16개 데이터 세트 중 14개에서 소타 성능을 입증합니다.

    A lightweight extension to traditional llms for reasoning over visual documents; focuses on using bounding box information to incorporate spatial layout structure; proposes a pre-training objective that addresses irregular layout and heterogeneous content present in visual documents; it’s then fine-tuned on an instruction-dataset and demonstrate sota performance on 14 out of 16 datasets across several document intelligence tasks.

논문 초록(Abstract)

  • 양식, 송장, 영수증, 보고서, 계약서 및 기타 유사한 기록과 같은 기업 문서는 텍스트와 공간 양식이 교차하는 풍부한 의미를 담고 있는 경우가 많습니다. 복잡한 레이아웃이 제공하는 시각적 단서는 이러한 문서를 효과적으로 이해하는 데 중요한 역할을 합니다. 이 논문에서는 텍스트 의미론과 공간적 레이아웃을 모두 고려하여 시각적 문서를 추론하기 위한 기존의 대규모 언어 모델(LLM)을 경량으로 확장한 DocLLM을 소개합니다. 이 모델은 고가의 이미지 인코더를 사용하지 않고 공간 레이아웃 구조를 통합하기 위해 바운딩 박스 정보에만 집중한다는 점에서 기존의 멀티모달 LLM과 차별화됩니다. 특히, 고전적인 변환기의 어텐션 메커니즘을 풀린 행렬 집합으로 분해하여 텍스트와 공간 양식 간의 교차 정렬을 포착합니다. 또한 텍스트 세그먼트를 채우는 방법을 학습하는 사전 학습 목표를 고안합니다. 이러한 접근 방식을 통해 시각적 문서에서 자주 발생하는 불규칙한 레이아웃과 이질적인 콘텐츠를 처리할 수 있습니다. 사전 학습된 모델은 네 가지 핵심 문서 인텔리전스 작업을 포함하는 대규모 지침 데이터셋을 사용하여 미세 조정됩니다. 모든 작업에서 16개 데이터 세트 중 14개에서 SotA LLM보다 성능이 뛰어나며, 이전에는 볼 수 없었던 5개 데이터 세트 중 4개에 대해서도 일반화할 수 있음을 입증했습니다.

    Enterprise documents such as forms, invoices, receipts, reports, contracts, and other similar records, often carry rich semantics at the intersection of textual and spatial modalities. The visual cues offered by their complex layouts play a crucial role in comprehending these documents effectively. In this paper, we present DocLLM, a lightweight extension to traditional large language models (LLMs) for reasoning over visual documents, taking into account both textual semantics and spatial layout. Our model differs from existing multimodal LLMs by avoiding expensive image encoders and focuses exclusively on bounding box information to incorporate the spatial layout structure. Specifically, the cross-alignment between text and spatial modalities is captured by decomposing the attention mechanism in classical transformers to a set of disentangled matrices. Furthermore, we devise a pre-training objective that learns to infill text segments. This approach allows us to address irregular layouts and heterogeneous content frequently encountered in visual documents. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. We demonstrate that our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.

논문 링크

더 읽어보기

https://x.com/BrianRoemmele/status/1742572753251913742


LLM이 마법사라면 코드는 지팡이입니다: 대규모 언어 모델이 지능형 에이전트 역할을 할 수 있도록 코드를 지원하는 방법에 대한 설문조사 / If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents

논문 소개

  • 코드별 데이터로 LLM를 교육할 때의 이점에 대한 포괄적인 개요 일부 기능에는 향상된 코드 생성, 추론, 함수 호출, 자동화된 자체 개선, 지능형 에이전트 제공 등이 포함됩니다.

    A comprehensive overview of the benefits of training llms with code-specific data. some capabilities include enhanced code generation, enabling reasoning, function calling, automated self-improvements, and serving intelligent agents.

논문 초록(Abstract)

  • 오늘날 주목받는 대규모 언어 모델(LLM)은 크기뿐만 아니라 자연어와 형식 언어(코드)의 조합으로 학습된다는 점에서도 과거의 언어 모델과 다릅니다. 코드는 인간과 컴퓨터 사이의 매개체로서 높은 수준의 목표를 실행 가능한 단계로 변환하며 표준 구문, 논리적 일관성, 추상화 및 모듈성을 특징으로 합니다. 이번 설문조사에서는 코드를 LLM의 학습 데이터에 통합함으로써 얻을 수 있는 다양한 이점에 대한 개요를 제시합니다. 특히 코드 생성에서 LLM을 향상시키는 것 외에도 코드의 이러한 고유한 속성이 (i) LLM의 추론 능력을 발휘하여 보다 복잡한 자연어 작업에 적용하고, (ii) 함수 호출을 통해 외부 실행 종단에 연결할 수 있는 구조화되고 정확한 중간 단계를 생성하도록 LLM을 유도하며, (iii) 모델 개선을 위한 다양한 피드백을 제공하는 코드 컴파일 및 실행 환경을 활용하는 데 도움이 된다는 사실을 관찰했습니다. 또한 명령어 이해, 목표 분해, 작업 계획 및 실행, 피드백을 통한 개선 능력이 다운스트림 작업의 성공에 결정적인 역할을 하는 상황에서 코드가 제공하는 이러한 LLM의 심오한 기능이 어떻게 지능형 에이전트(IA)로 등장하게 되었는지 추적해봅니다. 마지막으로, 코드를 통해 로보틱 머신러닝의 역량을 강화하기 위한 몇 가지 주요 과제와 향후 방향을 제시합니다.

    The prominent large language models (LLMs) of today differ from past language models not only in size, but also in the fact that they are trained on a combination of natural language and formal language (code). As a medium between humans and computers, code translates high-level goals into executable steps, featuring standard syntax, logical consistency, abstraction, and modularity. In this survey, we present an overview of the various benefits of integrating code into LLMs' training data. Specifically, beyond enhancing LLMs in code generation, we observe that these unique properties of code help (i) unlock the reasoning ability of LLMs, enabling their applications to a range of more complex natural language tasks; (ii) steer LLMs to produce structured and precise intermediate steps, which can then be connected to external execution ends through function calls; and (iii) take advantage of code compilation and execution environment, which also provides diverse feedback for model improvement. In addition, we trace how these profound capabilities of LLMs, brought by code, have led to their emergence as intelligent agents (IAs) in situations where the ability to understand instructions, decompose goals, plan and execute actions, and refine from feedback are crucial to their success on downstream tasks. Finally, we present several key challenges and future directions of empowering LLMs with code.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1742215295907811613


Instruct-Imagen: 멀티모달 인스트럭션을 통한 이미지 생성 / Instruct-Imagen: Image Generation with Multi-modal Instruction

논문 소개

  • 이질적인 이미지 생성 작업을 처리하고 보이지 않는 작업 전반에서 일반화하는 이미지 생성 모델을 제안합니다. 먼저 외부 멀티모달 컨텍스트에 기반하여 생성하는 모델의 기능을 향상시킨 다음, 멀티모달 지침을 사용하여 이미지 생성 작업을 미세 조정합니다.

    Proposes an image generation model that tackles heterogeneous image generation tasks and generalizes across unseen tasks; it first enhances the model’s ability to ground its generation on external multimodal context and then fine-tunes on image generation tasks with multimodal instructions.

논문 초록(Abstract)

  • 이 논문에서는 이질적인 이미지 생성 작업을 처리하고 보이지 않는 작업까지 일반화할 수 있는 모델인 인스트럭-이매지네이션(instruct-imagen)을 소개합니다. 다양한 생성 의도를 정확하게 표현하는 작업 표현인 이미지 생성을 위한 멀티 모달 인스트럭션을 소개합니다. 자연어를 사용하여 서로 다른 양식(예: 텍스트, 가장자리, 스타일, 피사체 등)을 통합함으로써 풍부한 생성 의도를 통일된 형식으로 표준화할 수 있습니다. 그런 다음 2단계 프레임워크로 사전 학습된 텍스트-이미지 디퓨젼 모델을 미세 조정하여 인스트럭-이미지를 구축합니다. 먼저, 검색 증강 학습을 사용하여 모델을 조정하여 외부 멀티모달 컨텍스트에 기반한 모델 생성 기능을 향상시킵니다. 그런 다음, 시각 언어 이해가 필요한 다양한 이미지 생성 작업(예: 피사체 중심 생성 등)에 대해 적응된 모델을 미세 조정하고, 각 작업의 본질을 요약하는 멀티모달 명령어와 짝을 이룹니다. 다양한 이미지 생성 데이터셋에 대한 인적 평가 결과, 인스트럭트-이미지는 도메인의 기존 작업별 모델과 일치하거나 이를 능가하며, 보이지 않는 더 복잡한 작업에 대한 일반화가 유망한 것으로 나타났습니다.

    This paper presents instruct-imagen, a model that tackles heterogeneous image generation tasks and generalizes across unseen tasks. We introduce multi-modal instruction for image generation, a task representation articulating a range of generation intents with precision. It uses natural language to amalgamate disparate modalities (e.g., text, edge, style, subject, etc.), such that abundant generation intents can be standardized in a uniform format. We then build instruct-imagen by fine-tuning a pre-trained text-to-image diffusion model with a two-stage framework. First, we adapt the model using the retrieval-augmented training, to enhance model's capabilities to ground its generation on external multimodal context. Subsequently, we fine-tune the adapted model on diverse image generation tasks that requires vision-language understanding (e.g., subject-driven generation, etc.), each paired with a multi-modal instruction encapsulating the task's essence. Human evaluation on various image generation datasets reveals that instruct-imagen matches or surpasses prior task-specific models in-domain and demonstrates promising generalization to unseen and more complex tasks.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1743108118630818039


원문


:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요