[2023/12/25 ~ 12/31] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주 선정된 논문들을 살펴보면 대체로 GPT-4와 같은 대형 언어 모델(Large Language Models, LLMs)을 중심으로 한 연구가 주류를 이루는 경향이 있는 것으로 보입니다. 특히 이들 연구는 GPT-4의 새로운 API를 활용하거나, LLM에서의 사실 회상 능력, 그리고 어떻게 LLM을 더 나은, 밀도 높은 검색능력으로 만들 수 있는지에 초점을 맞추고 있습니다. 또한, 언어 모델 기반의 수학적 문제 해결 및 이러한 모델들이 어떻게 추론을 수행할 수 있는지에 대한 주제도 포함되어 있습니다.

이러한 경향이 나타나는 것은 LLM가 인공지능 분야에서 여전히 주요한 연구 주제로 남아있기 때문일 수 있습니다. GPT-4와 같은 모델들은 뛰어난 언어 이해 및 생성 능력을 바탕으로 다양한 응용 분야에서 활용 가능성을 넓히고 있으며, 이 능력을 개선하고 새로운 방식으로 활용하는 연구가 지속적으로 이루어지고 있습니다. 실제 성능 향상을 위한 구체적인 방법론 연구 및 적용 사례 분석이 중요한 연구 영역으로 부상하고 있으며 이번 주 선정된 논문들이 이러한 경향을 반영하고 있는 것으로 보입니다.

다른 한편으로, LLM의 이해도와 추론능력을 평가하고 향상시키려는 연구 또한 인기가 있는 주제로 보입니다. 이를 통해 지능형 에이전트가 인간과 더 자연스럽고 효과적으로 상호작용할 수 있는 방법을 탐구하는 것은 인공지능 분야에서 매우 중요한 과제일 것입니다. 이를 통해 개선된 효율성 및 실생활 적용 가능성을 탐구하는 것은 향후 연구 동향에서 중요한 자리를 차지할 것으로 예상됩니다.


코그에이전트: GUI 에이전트를 위한 시각적 언어 모델 / CogAgent: A Visual Language Model for GUI Agents

논문 소개

  • GUI 이해 및 탐색에 특화된 180억 개의 파라미터 시각 언어 모델 제공, 고해상도 입력(1120x1120) 지원, 시각적 질의응답, 시각적 접지, GUI 에이전트와 같은 작업에서 능력 발휘, 5개의 텍스트가 풍부한 벤치마크와 4개의 일반 VQA 벤치마크에서 최신 기술을 달성했습니다.

    Presents an 18 billion parameter visual language model specializing in gui understanding and navigation; supports high-resolution inputs (1120x1120) and shows abilities in tasks such as visual q&a, visual grounding, and gui agent; achieves state of the art on 5 text-rich and 4 general vqa benchmarks.

논문 초록(Abstract)

  • 사람들은 컴퓨터나 스마트폰 화면과 같은 그래픽 사용자 인터페이스(GUI)를 통해 디지털 기기에서 엄청난 시간을 보내고 있습니다. ChatGPT와 같은 대규모 언어 모델(LLM)은 이메일 작성과 같은 작업에 도움을 줄 수 있지만 GUI를 이해하고 상호 작용하는 데 어려움을 겪기 때문에 자동화 수준을 높일 수 있는 잠재력이 제한됩니다. 이 논문에서는 GUI 이해 및 탐색에 특화된 180억 개의 파라미터를 가진 시각적 언어 모델(VLM)인 CogAgent를 소개합니다. 저해상도 및 고해상도 이미지 인코더를 모두 활용하여 1120*1120 해상도의 입력을 지원함으로써 작은 페이지 요소와 텍스트도 인식할 수 있습니다. 범용 시각 언어 모델인 CogAgent는 텍스트가 풍부한 5개의 벤치마크와 4개의 일반 VQA 벤치마크(VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, POPE)에서 최고 수준의 성능을 달성했습니다. 스크린샷만을 입력으로 사용하는 코그에이전트는 PC와 안드로이드 GUI 탐색 작업 모두에서 추출된 HTML 텍스트를 사용하는 LLM 기반 방식인 마인드2웹과 AITW보다 성능이 뛰어나며, 기술 수준을 한 단계 발전시켰습니다. 모델과 코드는 GitHub - THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型 에서 확인할 수 있습니다.

    People are spending an enormous amount of time on digital devices through graphical user interfaces (GUIs), e.g., computer or smartphone screens. Large language models (LLMs) such as ChatGPT can assist people in tasks like writing emails, but struggle to understand and interact with GUIs, thus limiting their potential to increase automation levels. In this paper, we introduce CogAgent, an 18-billion-parameter visual language model (VLM) specializing in GUI understanding and navigation. By utilizing both low-resolution and high-resolution image encoders, CogAgent supports input at a resolution of 1120*1120, enabling it to recognize tiny page elements and text. As a generalist visual language model, CogAgent achieves the state of the art on five text-rich and four general VQA benchmarks, including VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet, and POPE. CogAgent, using only screenshots as input, outperforms LLM-based methods that consume extracted HTML text on both PC and Android GUI navigation tasks -- Mind2Web and AITW, advancing the state of the art. The model and codes are available at GitHub - THUDM/CogVLM: a state-of-the-art-level open visual language model | 多模态预训练模型 .

논문 링크

더 읽어보기

https://x.com/cenyk1230/status/1739916469272789222


구글 제미니에서 오픈AI Q*(큐스타)까지: 생성적 인공지능(AI) 연구 환경 재편에 대한 설문조사 / From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape

논문 소개

  • 300개 이상의 논문을 조사하고 생성형 AI 분야에서 주목해야 할 연구 개발 사항을 요약한 이 보고서는 계산상의 어려움, 확장성, 실제 적용 가능성, 의료, 금융, 교육 등의 분야에서 발전을 주도할 수 있는 생성형 AI의 잠재력을 다룹니다.

    Surveys 300+ papers and summarizes research developments to look at in the space of generative ai; it covers computational challenges, scalability, real-world implications, and the potential for gen ai to drive progress in fields like healthcare, finance, and education.

논문 초록(Abstract)

  • 이 종합적인 설문조사는 전문가 혼합(MoE), 멀티모달 학습, 인공 일반 지능(AGI)을 향한 추측되는 발전의 혁신적 영향에 특히 중점을 두고 진화하는 생성형 인공지능(AI)의 환경을 탐구했습니다. 이 보고서는 생성적 인공지능(AI)의 현재 상태와 미래 궤적을 비판적으로 검토하고, 구글의 제미니와 기대되는 오픈AI Q* 프로젝트와 같은 혁신이 어떻게 다양한 영역에서 연구 우선순위와 애플리케이션을 재편하고 있는지 살펴보았으며, 생성적 인공지능 연구 분류체계에 대한 영향 분석도 포함했습니다. 이 보고서는 이러한 기술의 계산적 과제, 확장성, 실생활에 미치는 영향을 평가하는 동시에 의료, 금융, 교육 등의 분야에서 상당한 진전을 이끌어낼 수 있는 잠재력을 강조했습니다. 또한 인공지능을 주제로 한 논문과 인공지능이 생성한 논문 모두의 확산으로 인해 제기되는 새로운 학문적 과제를 다루며 동료 심사 과정과 학술적 소통에 미치는 영향을 조사했습니다. 이 연구는 AI 개발에 윤리적이며 인간 중심적인 방법을 통합하고 사회적 규범과 복지에 부합하도록 하는 것이 중요하다는 점을 강조했으며, 생성적 AI에서 MoE, 멀티모달, AGI를 균형 있고 양심적으로 사용하는 데 초점을 맞춘 미래 AI 연구 전략을 설명했습니다.

    This comprehensive survey explored the evolving landscape of generative Artificial Intelligence (AI), with a specific focus on the transformative impacts of Mixture of Experts (MoE), multimodal learning, and the speculated advancements towards Artificial General Intelligence (AGI). It critically examined the current state and future trajectory of generative Artificial Intelligence (AI), exploring how innovations like Google's Gemini and the anticipated OpenAI Q* project are reshaping research priorities and applications across various domains, including an impact analysis on the generative AI research taxonomy. It assessed the computational challenges, scalability, and real-world implications of these technologies while highlighting their potential in driving significant progress in fields like healthcare, finance, and education. It also addressed the emerging academic challenges posed by the proliferation of both AI-themed and AI-generated preprints, examining their impact on the peer-review process and scholarly communication. The study highlighted the importance of incorporating ethical and human-centric methods in AI development, ensuring alignment with societal norms and welfare, and outlined a strategy for future AI research that focuses on a balanced and conscientious use of MoE, multimodality, and AGI in generative AI.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1740119485011390558


PromptBench: 대규모 언어 모델 평가를 위한 통합 라이브러리 / PromptBench: A Unified Library for Evaluation of Large Language Models

논문 소개

  • 신속한 구축, 신속한 엔지니어링, 데이터 세트 및 모델 로딩, 적대적 신속한 공격, 동적 평가 프로토콜, 분석 도구 등의 기능으로 구성된 통합 라이브러리로, LLMS의 종합적인 평가 및 분석을 지원합니다.

    A unified library that supports comprehensive evaluation and analysis of llms; it consists of functionalities for prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)의 평가는 그 성능을 평가하고 잠재적인 보안 위험을 완화하는 데 매우 중요합니다. 이 논문에서는 LLM을 평가하기 위한 통합 라이브러리인 PromptBench를 소개합니다. 이 라이브러리는 프롬프트 구성, 프롬프트 엔지니어링, 데이터 세트 및 모델 로딩, 적대적 프롬프트 공격, 동적 평가 프로토콜, 분석 도구 등 연구자들이 쉽게 사용하고 확장할 수 있는 몇 가지 주요 구성 요소로 구성되어 있습니다. PromptBench는 새로운 벤치마크 생성, 다운스트림 애플리케이션 배포, 새로운 평가 프로토콜 설계에 대한 독창적인 연구를 촉진할 수 있는 연구 목적의 개방적이고 일반적이며 유연한 코드베이스로 설계되었습니다. 이 코드는 GitHub - microsoft/promptbench: A unified evaluation framework for large language models 에서 확인할 수 있으며 지속적으로 지원될 예정입니다.

    The evaluation of large language models (LLMs) is crucial to assess their performance and mitigate potential security risks. In this paper, we introduce PromptBench, a unified library to evaluate LLMs. It consists of several key components that are easily used and extended by researchers: prompt construction, prompt engineering, dataset and model loading, adversarial prompt attack, dynamic evaluation protocols, and analysis tools. PromptBench is designed to be an open, general, and flexible codebase for research purposes that can facilitate original study in creating new benchmarks, deploying downstream applications, and designing new evaluation protocols. The code is available at: GitHub - microsoft/promptbench: A unified evaluation framework for large language models and will be continuously supported.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1739360426134028631


새로운 GPT-4 API 활용하기 / Exploiting Novel GPT-4 APIs

논문 소개

  • GPT-4 apis에 노출된 세 가지 기능인 미세 조정, 함수 호출, 지식 검색에 대해 레드팀 작업을 수행하여 주요 결과를 도출했습니다: 1) 유해한 예제 15개 또는 양성 예제 100개에 대한 미세 조정으로 GPT-4의 핵심 안전장치를 제거할 수 있음, 2) GPT-4 어시스턴트가 함수 호출 스키마를 공개하고 임의의 함수 호출을 실행하도록 만들 수 있음, 3) 검색 문서에 명령을 주입하여 지식 검색을 탈취할 수 있음.

    Performs red-teaming on three functionalities exposed in the gpt-4 apis: fine-tuning, function calling, and knowledge retrieval; main findings: 1) fine-tuning on as few as 15 harmful examples or 100 benign examples can remove core safeguards from gpt-4, 2) gpt-4 assistants divulge the function call schema and can be made to execute arbitrary function calls, and 3) knowledge retrieval can be hijacked by injecting instructions into retrieval documents.

논문 초록(Abstract)

  • 언어 모델 공격은 일반적으로 모델 가중치에 대한 전체 화이트박스 액세스 또는 텍스트 생성 API로 제한된 블랙박스 액세스라는 두 가지 극단적인 위협 모델 중 하나를 가정합니다. 그러나 실제 API는 텍스트 생성보다 더 유연한 경우가 많으며, 이러한 API는 '그레이박스' 액세스를 노출하여 새로운 위협 벡터로 이어질 수 있습니다. 이를 탐구하기 위해 저희는 GPT-4 API에 노출된 세 가지 새로운 기능인 미세 조정, 함수 호출, 지식 검색을 레드팀으로 구성했습니다. 15개의 유해한 예시 또는 100개의 양성 예시에 대해 모델을 미세 조정하면 GPT-4에서 핵심 안전장치를 제거하여 다양한 유해한 결과를 초래할 수 있다는 사실을 발견했습니다. 또한, GPT-4 어시스턴트가 함수 호출 스키마를 쉽게 공개하고 임의의 함수 호출을 실행하도록 만들 수 있다는 사실도 발견했습니다. 마지막으로, 검색 문서에 명령어를 삽입하여 지식 검색을 탈취할 수 있다는 사실을 발견했습니다. 이러한 취약점은 API가 노출하는 기능을 추가하면 새로운 취약점이 발생할 수 있다는 점을 강조합니다.

    Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1739677995747450964


LLM의 팩트 리콜 / Fact Recalling in LLMs

논문 소개

  • 사실적 기억을 위한 룩업 테이블을 구현하는 MLP 계층의 구현 방식을 조사하고, 파이시아 2.8b의 초기 MLP가 다양한 운동선수가 세 가지 스포츠 중 어떤 스포츠를 하는지 조회하는 방법에 대한 연구 범위를 넓히고, 초기 MLP 계층이 룩업 테이블 역할을 한다고 제안하고 모델에서 사실적 지식의 기억을 다중 토큰 임베딩으로 생각할 것을 권장합니다.

    Investigates how mlp layers implement a lookup table for factual recall; scopes the study on how early mlps in pythia 2.8b look up which of 3 different sports various athletes play; suggests that early mlp layers act as a lookup table and recommends thinking about the recall of factual knowledge in the model as multi-token embeddings.

논문 링크

더 읽어보기

https://x.com/NeelNanda5/status/1738559368361349122


수학용 생성형 AI: 1부 - MathPile: 10억 토큰 규모의 수학 사전 학습 코퍼스 / Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

논문 소개

  • 파운데이션 모델을 학습하기 위해 약 95억 개의 토큰으로 구성된 다양하고 고품질의 수학 중심 코퍼스를 제공합니다.

    Presents a diverse and high-quality math-centric corpus comprising of ~9.5 billion tokens to train foundation models.

논문 초록(Abstract)

  • 고품질의 대규모 말뭉치는 파운데이션 모델 구축의 초석입니다. 이번 작업에서는 약 95억 개의 토큰으로 구성된 다양하고 고품질의 수학 중심 말뭉치인 {MathPile} 을 소개합니다. 이 코퍼스를 구축하는 과정에서 우리는 '적은 것이 많을수록 좋다'는 원칙을 고수했으며, 학습 전 단계에서부터 데이터의 양보다 질이 우위에 있다는 확고한 신념을 가지고 있었습니다. 전처리, 사전 필터링, 언어 식별, 클리닝, 필터링, 중복 제거 등 복잡한 전처리 과정을 거쳐 말뭉치의 고품질을 보장하기 위해 세심한 데이터 수집 및 처리 노력을 기울였습니다. 또한 다운스트림 벤치마크 테스트 세트에서 데이터 오염 감지를 수행하여 중복을 제거했습니다. 텍스트를 통한 수학적 추론이 언어 모델의 수학적 추론 능력을 향상시키는 데 도움이 되기를 바랍니다. 향후 이 분야의 발전을 촉진하기 위해 처리에 사용되는 스크립트와 함께 다양한 버전의 MathPile 을 오픈소스화할 계획입니다.

    High-quality, large-scale corpora are the cornerstone of building foundation models. In this work, we introduce {MathPile}, a diverse and high-quality math-centric corpus comprising about 9.5 billion tokens. Throughout its creation, we adhered to the principle of {less is more}, firmly believing in the supremacy of data quality over quantity, even in the pre-training phase. Our meticulous data collection and processing efforts included a complex suite of preprocessing, prefiltering, language identification, cleaning, filtering, and deduplication, ensuring the high quality of our corpus. Furthermore, we performed data contamination detection on downstream benchmark test sets to eliminate duplicates. We hope our {MathPile} can help to enhance the mathematical reasoning abilities of language models. We plan to open-source different versions of \mathpile with the scripts used for processing, to facilitate future developments in this field.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1740564961032556942


원칙적인 지침만 있으면 LLaMA-1/2, GPT-3.5/4에 대한 질문이 가능합니다 / Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

논문 소개

  • 대규모 언어 모델을 쿼리하고 프롬프트하는 프로세스를 간소화하기 위해 고안된 26가지 지침 원칙을 소개하고, 이 원칙을 적용하여 llama-1/2(7b, 13b, 70b), gpt-3.5/4에 대한 광범위한 실험을 수행하여 지침 및 프롬프트 설계에 대한 효과를 검증합니다.

    Introduces 26 guiding principles designed to streamline the process of querying and prompting large language models; applies these principles to conduct extensive experiments on llama-1/2 (7b, 13b and 70b), gpt-3.5/4 to verify their effectiveness on instructions and prompts design.

논문 초록(Abstract)

  • 이 논문에서는 대규모 언어 모델을 쿼리하고 프롬프트하는 프로세스를 간소화하기 위해 고안된 26가지 기본 원칙을 소개합니다. 우리의 목표는 다양한 규모의 대규모 언어 모델에 대한 질문을 공식화하고, 그 능력을 검사하며, 다양한 프롬프트에 입력할 때 다양한 규모의 대규모 언어 모델의 동작에 대한 사용자의 이해도를 높이는 기본 개념을 단순화하는 것입니다. 명령어 및 프롬프트 설계에 대해 제안된 원칙의 효과를 검증하기 위해 LLaMA-1/2(7B, 13B, 70B), GPT-3.5/4에서 광범위한 실험을 수행했습니다. 이 연구가 대규모 언어 모델의 프롬프트를 연구하는 연구자들에게 더 나은 가이드를 제공할 수 있기를 바랍니다. 프로젝트 페이지는 GitHub - VILA-Lab/ATLAS: Principled instruction dataset on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 에서 확인할 수 있습니다.

    This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the underlying concepts of formulating questions for various scales of large language models, examining their abilities, and enhancing user comprehension on the behaviors of different scales of large language models when feeding into different prompts. Extensive experiments are conducted on LLaMA-1/2 (7B, 13B and 70B), GPT-3.5/4 to verify the effectiveness of the proposed principles on instructions and prompts design. We hope that this work provides a better guide for researchers working on the prompting of large language models. Project page is available at GitHub - VILA-Lab/ATLAS: Principled instruction dataset on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1739857456161759455


파운데이션 모델을 사용한 추론에 대한 설문 조사 / A Survey of Reasoning with Foundation Models

논문 소개

  • 다양한 추론 작업, 방법, 벤치마크, 잠재적인 미래 방향에 대한 최신 발전 사항을 강조하면서 추론의 중요한 파운데이션 모델에 대한 포괄적인 조사를 제공하고, 다중 모드 학습, 자율 에이전트, 슈퍼 정렬과 같은 다른 개발이 추론 연구를 가속화하고 확장하는 방법에 대해서도 논의합니다.

    Provides a comprehensive survey of seminal foundational models for reasoning, highlighting the latest advancements in various reasoning tasks, methods, benchmarks, and potential future directions; also discusses how other developments like multimodal learning, autonomous agents, and super alignment accelerate and extend reasoning research.

논문 초록(Abstract)

  • 복잡한 문제 해결을 위한 중요한 능력인 추론은 협상, 의료 진단, 범죄 수사와 같은 다양한 실제 환경에서 중추적인 역할을 합니다. 이는 인공지능(AGI) 분야의 기본 방법론으로 사용됩니다. 파운데이션 모델이 지속적으로 개발됨에 따라 추론 작업에서 파운데이션 모델의 능력을 탐구하는 데 대한 관심이 높아지고 있습니다. 이 논문에서는 추론을 위해 제안되었거나 적용 가능한 중요한 파운데이션 모델을 소개하고 다양한 추론 작업, 방법 및 벤치마크의 최신 발전 사항을 강조합니다. 그런 다음 파운데이션 모델 내에서 추론 능력의 출현 이면에 있는 잠재적인 미래 방향에 대해 살펴봅니다. 또한 추론의 맥락에서 멀티모달 학습, 자율 에이전트, 슈퍼 얼라인먼트의 관련성에 대해서도 논의합니다. 이러한 미래 연구 방향에 대해 논의함으로써 연구자들이 이 분야를 탐구하는 데 영감을 얻고, 파운데이션 모델을 통한 추론의 발전을 촉진하며, AGI의 발전에 기여할 수 있기를 바랍니다.

    Reasoning, a crucial ability for complex problem-solving, plays a pivotal role in various real-world settings such as negotiation, medical diagnosis, and criminal investigation. It serves as a fundamental methodology in the field of Artificial General Intelligence (AGI). With the ongoing development of foundation models, there is a growing interest in exploring their abilities in reasoning tasks. In this paper, we introduce seminal foundation models proposed or adaptable for reasoning, highlighting the latest advancements in various reasoning tasks, methods, and benchmarks. We then delve into the potential future directions behind the emergence of reasoning abilities within foundation models. We also discuss the relevance of multimodal learning, autonomous agents, and super alignment in the context of reasoning. By discussing these future research directions, we hope to inspire researchers in their exploration of this field, stimulate further advancements in reasoning with foundation models, and contribute to the development of AGI.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1740729489661874632


고밀도 검색을 위한 더 나은 기반이 되는 대규모 언어 모델 만들기 / Making Large Language Models A Better Foundation For Dense Retrieval

논문 소개

  • 고밀도 검색을 위해 LLM을 조정하는 LLaRA를 제안합니다. 이는 두 가지 전제 작업인 EBAE(임베딩 기반 자동 인코딩)와 EBAR(임베딩 기반 자동 회귀)로 구성되며, 각각 LLM의 텍스트 임베딩을 사용하여 입력 문장의 토큰을 재구성하고 다음 문장의 토큰을 예측하는 데 사용되며, llama-2-7b는 MSMARCO 및 BEIR와 같은 벤치마크에서 개선되었습니다.

    Proposes llara which adapts an llm for dense retrieval; it consists of two pretext tasks: ebae (embedding-based auto-encoding) and ebar (embedding-based auto-regression), where the text embeddings from llm are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively; a llama-2-7b was improved on benchmarks like msmarco and beir.

논문 초록(Abstract)

  • 고밀도 검색은 쿼리와 문서 간의 의미론적 관계를 표현하기 위해 차별적인 텍스트 임베딩을 학습해야 합니다. 의미론적 이해에 대한 강력한 기능을 갖춘 LLM(대규모 언어 모델)을 사용하면 이점을 얻을 수 있습니다. 그러나 LLM은 텍스트를 임베딩으로 표현하는 것과는 작업 패턴이 완전히 다른 텍스트 생성 작업에 의해 사전 학습됩니다. 따라서 고밀도 검색을 위한 백본 인코더로 효과적으로 초기화할 수 있도록 LLM을 적절히 적용하는 방법을 연구하는 것이 필수적입니다. 이 논문에서는 고밀도 검색 애플리케이션을 위해 LLM을 사후에 적용하는 새로운 접근 방식인 LLaRA(LLM adapted for dense RetrievAl)를 제안합니다. LLaRA는 두 가지 사전 작업으로 구성됩니다: LLM의 텍스트 임베딩을 사용하여 입력 문장의 토큰을 재구성하고 다음 문장의 토큰을 예측하는 EBAE(임베딩 기반 자동 인코딩)와 EBAR(임베딩 기반 자동 회귀)이 그것입니다. LLaRA는 간단하고 가벼우며 매우 효과적인 것으로 밝혀졌습니다. 이 모델은 위키피디아 말뭉치에서 LLaMA-2-7B(베이스)를 적용하는 데 적용되어 MSMARCO 및 BEIR과 같은 다양한 고밀도 검색 벤치마크에서 모델의 미세 조정된 성능을 크게 향상시켰습니다. 모델과 코드는 BGE 저장소에서 공개적으로 사용할 수 있습니다.

    Dense retrieval needs to learn discriminative text embeddings to represent the semantic relationship between query and document. It may benefit from the using of large language models (LLMs), given LLMs' strong capability on semantic understanding. However, the LLMs are pre-trained by text generation tasks, whose working pattern is completely different from representing texts as embeddings. As a result, it is imperative to study how to adapt LLMs properly so that they can be effectively initialized as the backbone encoder for dense retrieval. In this paper, we propose a novel approach, called LLaRA (LLM adapted for dense RetrievAl), which works as a post-hoc adaptation of LLM for the dense retrieval application. LLaRA consists of two pretext tasks: EBAE (Embedding-Based Auto-Encoding) and EBAR (Embedding-Based Auto-Regression), where the text embeddings from LLM are used to reconstruct the tokens for the input sentence and predict the tokens for the next sentence, respectively. LLaRA turns out to be simple, lightweight, and highly effective. It is applied to adapt LLaMA-2-7B (base) on the Wikipedia corpus, where it substantially improves the model's fine-tuned performances on a variety of dense retrieval benchmarks, like MSMARCO and BEIR. Our model and code will be made publicly available at BGE repository.

논문 링크


제미니와 GPT-4V: 질적 사례를 통한 시각-언어 모델의 예비 비교 및 조합 / Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases

논문 소개

  • 몇 가지 정성적 사례를 통해 제미나이와 GPT-4v와 같은 시각 언어 모델을 포괄적으로 예비 비교하고 조합하여 GPT-4v가 정확하고 간결한 답변을 제공하는 반면 제미나이는 관련 이미지 및 링크와 함께 상세하고 광범위한 답변을 제공하는 데 탁월하다는 사실을 발견했습니다.

    Provides a comprehensive preliminary comparison and combination of vision-language models like gemini and gpt-4v through several qualitative cases; finds that gpt-4v is precise and succinct in responses, while gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links.

논문 초록(Abstract)

  • 빠르게 발전하고 있는 다중 모드 대규모 언어 모델(MLLM) 분야는 인공지능에 언어 및 시각 처리를 통합하는 데 앞장서고 있습니다. 이 논문에서는 두 가지 선구적인 모델에 대한 심층적인 비교 연구를 제시합니다: Google의 Gemini와 OpenAI의 GPT-4V(ision). 이 연구는 시각-언어 능력, 인간과의 상호작용, 시간적 이해, 지능 및 감성 지수 평가와 같은 주요 차원에 걸쳐 두 모델을 다각도로 평가합니다. 분석의 핵심은 각 모델의 뚜렷한 시각적 이해 능력을 탐구하는 것입니다. 다양한 산업 응용 시나리오에서 성능을 평가하기 위해 일련의 구조화된 실험을 수행하여 실질적인 유용성에 대한 포괄적인 관점을 제공했습니다. 직접적인 성능 비교뿐만 아니라 균형 잡힌 공정한 분석을 위해 프롬프트와 시나리오의 조정도 포함했습니다. 이번 조사 결과는 두 모델의 고유한 강점과 틈새 시장을 조명합니다. GPT-4V는 정확하고 간결한 답변으로 차별화되는 반면, Gemini는 관련 이미지 및 링크와 함께 상세하고 광범위한 답변을 제공하는 데 탁월합니다. 이러한 이해는 Gemini와 GPT-4V의 비교 장점을 조명할 뿐만 아니라 멀티모달 기반 모델의 진화하는 환경을 강조하여 향후 이 분야의 발전을 위한 길을 열어줍니다. 비교 후 두 모델을 결합하여 더 나은 결과를 얻기 위해 노력했습니다. 마지막으로, 이 분야에 선구적인 공헌을 한 GPT-4V와 Gemini의 팀원들에게 깊은 감사를 표합니다. 또한, 광범위한 이미지 샘플, 프롬프트 및 GPT-4V 관련 결과를 수집하여 분석의 기초를 제공한 Yang 등의 'Dawn'에 제시된 포괄적인 정성 분석에도 감사를 표합니다.

    The rapidly evolving sector of Multi-modal Large Language Models (MLLMs) is at the forefront of integrating linguistic and visual processing in artificial intelligence. This paper presents an in-depth comparative study of two pioneering models: Google's Gemini and OpenAI's GPT-4V(ision). Our study involves a multi-faceted evaluation of both models across key dimensions such as Vision-Language Capability, Interaction with Humans, Temporal Understanding, and assessments in both Intelligence and Emotional Quotients. The core of our analysis delves into the distinct visual comprehension abilities of each model. We conducted a series of structured experiments to evaluate their performance in various industrial application scenarios, offering a comprehensive perspective on their practical utility. We not only involve direct performance comparisons but also include adjustments in prompts and scenarios to ensure a balanced and fair analysis. Our findings illuminate the unique strengths and niches of both models. GPT-4V distinguishes itself with its precision and succinctness in responses, while Gemini excels in providing detailed, expansive answers accompanied by relevant imagery and links. These understandings not only shed light on the comparative merits of Gemini and GPT-4V but also underscore the evolving landscape of multimodal foundation models, paving the way for future advancements in this area. After the comparison, we attempted to achieve better results by combining the two models. Finally, We would like to express our profound gratitude to the teams behind GPT-4V and Gemini for their pioneering contributions to the field. Our acknowledgments are also extended to the comprehensive qualitative analysis presented in 'Dawn' by Yang et al. This work, with its extensive collection of image samples, prompts, and GPT-4V-related results, provided a foundational basis for our analysis.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1741177994377330895


원문

3개의 좋아요