[2023/12/04 ~ 12/10] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 제출된 논문을 살펴보면, 크게 두 가지 추세를 확인할 수 있습니다. 첫째, 대규모 언어 모델(Large Language Models, 이하 LLMs)에 대한 연구가 많이 보입니다. 예를 들어 'LLMs on Graphs', 'Data Management For LLMs', 'The Efficiency Spectrum of LLMs'와 같은 논문들은 LLMs의 구조, 효율성 및 데이터 관리 방법 등 다양한 측면을 탐구하고 있습니다. 둘째, 코딩과 관련된 인공지능 기술에 대한 관심이 높아진 것을 볼 수 있는데, 'Magicoder', 'Chain of Code'과 같은 논문이 이를 대표합니다.

대규모 언어 모델은 GPT-3, BERT 등의 성공 이후 매우 뜨거운 연구 주제가 되어 왔습니다. 이들은 자연어 처리 분야에서 탁월한 성능을 보이고 있으며, 다양한 응용 분야에서도 활용될 가능성을 보여주고 있습니다. 따라서 LLMs의 성능 최적화, 새로운 구조의 탐색, 효과적인 데이터 관리 전략 등과 관련된 연구는 계속해서 증가할 것으로 예상됩니다.

코딩과 관련된 인공지능 연구의 증가는 소프트웨어 개발 프로세스의 자동화와 최적화에 대한 지속적인 요구로 인한 것일 수 있습니다. 예를 들어, 개발자가 코딩을 하는 과정에서 실시간으로 도움을 주는 도구나, 코드의 품질을 향상시키는 알고리즘 등에 대한 연구는 소프트웨어 산업에 큰 영향을 미칠 수 있습니다. 이는 개발자의 생산성 향상 뿐만 아니라, 유지 보수 비용 감소와 같은 경제적 효과로도 이어질 수 있어, 향후에도 이 분야는 지속적으로 주목받을 것입니다.


제미나이 / Gemini

논문 소개

  • 텍스트, 이미지, 비디오, 오디오, 코드 전반에 걸친 멀티모달 추론 기능을 갖춘 일련의 멀티모달 모델, 인공지능 모델의 지식과 문제 해결 능력을 테스트하는 인기 벤치마크인 MMLU에서 인간 전문가를 능가한다고 주장, 멀티모달, 다국어, 사실성, 요약, 수학/과학, 긴 문맥, 추론 등의 기능이 보고되었습니다.

    A series of multimodal models with multimodal reasoning capabilities across text, images, video, audio, and code; claims to outperform human experts on mmlu, a popular benchmark to test the knowledge and problem-solving abilities of ai models; capabilities reported include multimodality, multilinguality, factuality, summarization, math/science, long-context, reasoning, and more.

논문 링크

더 읽어보기


EfficientSAM: 효율적인 세그먼트를 위한 마스크드 이미지 사전 학습 활용 / EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

논문 소개

  • 경량 세그먼트 애니웨어 모델(샘)은 복잡성을 크게 줄이면서 적절한 성능을 발휘하고, 매개변수가 20배 적고 런타임이 20배 빠른 마스킹 자동 인코더를 활용하며, 효율성이 기존 샘 모델보다 2%(44.4 ap 대 46.5 ap) 이내로 향상됩니다.

    A lightweight segment anything model (sam) that exhibits decent performance with largely reduced complexity; leverages masked autoencoders with 20x fewer parameters and 20x faster runtime; efficientsam performs within 2 points (44.4 ap vs 46.5 ap) of the original sam model.

논문 초록

  • 세그먼트 애니씽 모델(SAM)은 수많은 비전 애플리케이션을 위한 강력한 도구로 부상했습니다. 제로 샷 전송을 위한 인상적인 성능과 높은 활용성을 제공하는 핵심 구성 요소는 광범위한 고품질 SA-1B 데이터셋을 기반으로 학습된 초대형 트랜스포머 모델입니다. 이러한 장점에도 불구하고 SAM 모델의 막대한 계산 비용으로 인해 더 광범위한 실제 애플리케이션에 적용하는 데 한계가 있었습니다. 이러한 한계를 해결하기 위해 유니티는 복잡성을 크게 줄이면서 적절한 성능을 발휘하는 경량 SAM 모델인 EfficientSAM을 제안합니다. 이 아이디어는 효과적인 시각적 표현 학습을 위해 SAM 이미지 인코더에서 특징을 재구성하는 방법을 학습하는 마스킹 이미지 사전 학습인 SAMI를 활용하는 것을 기반으로 합니다. 또한, SAMI로 사전 학습된 경량 이미지 인코더와 마스크 디코더를 사용하여 EfficientSAM을 구축하고, SA-1B에서 모델을 미세 조정하여 무엇이든 세그먼트 작업을 수행합니다. 이미지 분류, 객체 감지, 인스턴스 분할, 시맨틱 객체 감지 등 다양한 비전 작업에 대한 평가를 수행한 결과, 제안한 사전 학습 방법인 SAMI가 다른 마스크 이미지 사전 학습 방법보다 일관되게 우수한 성능을 발휘한다는 것을 확인했습니다. 제로 샷 인스턴스 분할과 같은 세그먼트 애니웨어 작업에서 SAMI로 사전 학습된 경량 이미지 인코더가 포함된 EfficientSAM은 다른 고속 SAM 모델에 비해 상당한 이득(예: COCO/LVIS에서 ~4 AP)으로 유리한 성능을 발휘합니다.

    Segment Anything Model (SAM) has emerged as a powerful tool for numerous vision applications. A key component that drives the impressive performance for zero-shot transfer and high versatility is a super large Transformer model trained on the extensive high-quality SA-1B dataset. While beneficial, the huge computation cost of SAM model has limited its applications to wider real-world applications. To address this limitation, we propose EfficientSAMs, light-weight SAM models that exhibits decent performance with largely reduced complexity. Our idea is based on leveraging masked image pretraining, SAMI, which learns to reconstruct features from SAM image encoder for effective visual representation learning. Further, we take SAMI-pretrained light-weight image encoders and mask decoder to build EfficientSAMs, and finetune the models on SA-1B for segment anything task. We perform evaluations on multiple vision tasks including image classification, object detection, instance segmentation, and semantic object detection, and find that our proposed pretraining method, SAMI, consistently outperforms other masked image pretraining methods. On segment anything task such as zero-shot instance segmentation, our EfficientSAMs with SAMI-pretrained lightweight image encoders perform favorably with a significant gain (e.g., ~4 AP on COCO/LVIS) over other fast SAM models.

논문 링크

더 읽어보기

https://x.com/fiandola/status/1732171016783180132


매직코더: 필요한 것은 소스 코드뿐 / Magicoder: Source Code Is All You Need

논문 소개

  • 파라미터가 7B를 넘지 않으면서도 상위 코드 모델과의 격차를 좁히는 코드용 완전 오픈소스 ML 시리즈입니다. 75,000개의 합성 명령어 데이터로 학습하여, 보다 다양하고 사실적이며 고품질의 제어 가능한 데이터 생성을 위해 오픈소스 참조 사용, 파이썬 텍스트-코드 생성, 다국어 코딩, 데이터 과학 프로그램 완성 등 여러 코딩 벤치마크에서 비슷하거나 더 큰 크기의 최첨단 코드 모델보다 뛰어난 성능을 보입니다, CodeLllama 기반 MagicCoder-CL-7B가 HumanEval+에서 ChatGPT를 능가합니다.(pass@1에서 66.5 대 65.9).

    A series of fully open-source llms for code that close the gap with top code models while having no more than 7b parameters; trained on 75k synthetic instruction data; uses open-source references for the production of more diverse, realistic, high-quality, and controllable data; outperforms state-of-the-art code models with similar or even larger sizes on several coding benchmarks, including python text-to-code generation, multilingual coding, and data-science program completion; magicoders-cl-7b based on codellama surpasses chatgpt on humaneval+ (66.5 vs. 65.9 in pass@1).

논문 초록

  • 7억 개 이하의 파라미터를 사용하면서도 최고의 코드 모델과의 격차를 크게 좁히는 코드용 완전 오픈소스(코드, 가중치, 데이터) 대규모 언어 모델(LLM) 시리즈인 Magicoder를 소개합니다. Magicoder 모델은 오픈소스 코드 스니펫으로 LLM을 학습시켜 코드에 대한 고품질의 명령어 데이터를 생성하는 새로운 접근 방식인 OSS-Instruct를 사용하여 7만 5천 개의 합성 명령어 데이터로 학습됩니다. 유니티의 주된 동기는 보다 다양하고 사실적이며 제어 가능한 데이터를 생성할 수 있도록 풍부한 오픈소스 레퍼런스를 제공함으로써 LLM이 생성하는 합성 데이터의 내재적 편향성을 완화하는 것입니다. OSS-Instruct와 Evol-Instruct와 같은 다른 데이터 생성 방법의 직교성을 통해 더욱 향상된 MagicoderS를 구축할 수 있습니다. Magicoder와 MagicoderS는 Python 텍스트-코드 생성, 다국어 코딩, 데이터 과학 프로그램 완성 등 다양한 코딩 벤치마크에서 크기가 비슷하거나 더 큰 최신 코드 모델보다 훨씬 뛰어난 성능을 발휘합니다. 특히 CodeLlama를 기반으로 하는 MagicoderS-CL-7B는 저명한 HumanEval+의 ChatGPT를 능가합니다(66.5 대 65.9, 통과율@1). 전반적으로 OSS-Instruct는 풍부한 오픈소스 레퍼런스를 사용하여 편향성이 낮고 고품질의 인스트럭션 튜닝을 위한 새로운 방향을 제시합니다.

    We introduce Magicoder, a series of fully open-source (code, weights, and data) Large Language Models (LLMs) for code that significantly closes the gap with top code models while having no more than 7B parameters. Magicoder models are trained on 75K synthetic instruction data using OSS-Instruct, a novel approach to enlightening LLMs with open-source code snippets to generate high-quality instruction data for code. Our main motivation is to mitigate the inherent bias of the synthetic data generated by LLMs by empowering them with a wealth of open-source references for the production of more diverse, realistic, and controllable data. The orthogonality of OSS-Instruct and other data generation methods like Evol-Instruct further enables us to build an enhanced MagicoderS. Both Magicoder and MagicoderS substantially outperform state-of-the-art code models with similar or even larger sizes on a wide range of coding benchmarks, including Python text-to-code generation, multilingual coding, and data-science program completion. Notably, MagicoderS-CL-7B based on CodeLlama even surpasses the prominent ChatGPT on HumanEval+ (66.5 vs. 65.9 in pass@1). Overall, OSS-Instruct opens a new direction for low-bias and high-quality instruction tuning using abundant open-source references.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1732063926613946863


그래프에서의 대규모 언어 모델: 종합적인 서베이 논문 / Large Language Models on Graphs: A Comprehensive Survey

논문 소개

  • 순수 그래프, 텍스트가 풍부한 그래프, 텍스트 쌍 그래프 등 그래프에서 대규모 언어 모델(LLM)이 사용되는 다양한 시나리오를 요약한 종합적인 개요입니다.

    A comprehensive overview that summarizes different scenarios where llms are used on graphs such as pure graphs, text-rich graphs, and text-paired graphs.

논문 초록

  • ChatGPT 및 LLaMA와 같은 대규모 언어 모델(LLM)은 강력한 텍스트 인코딩/디코딩 능력과 새로 발견된 새로운 기능(예: 추론)으로 인해 자연어 처리 분야에서 상당한 발전을 이루고 있습니다. LLM은 주로 순수한 텍스트를 처리하도록 설계되었지만, 텍스트 데이터가 그래프 형태의 풍부한 구조 정보(예: 학술 네트워크, 전자상거래 네트워크)와 연관되거나 그래프 데이터가 풍부한 텍스트 정보(예: 설명이 있는 분자)와 짝을 이루는 시나리오가 많은 현실 세계가 존재합니다. 또한, LLM이 순수 텍스트 기반 추론 능력을 보여줬지만 이러한 능력이 그래프 시나리오(즉, 그래프 기반 추론)에도 일반화될 수 있는지는 아직 연구되지 않았습니다. 이 논문에서는 그래프의 대규모 언어 모델과 관련된 시나리오와 기법에 대한 체계적인 검토를 제공합니다. 먼저 그래프에 LLM을 도입할 수 있는 시나리오를 순수 그래프, 텍스트가 풍부한 그래프, 텍스트 쌍을 이루는 그래프의 세 가지 범주로 정리합니다. 그런 다음 예측자로서의 LLM, 인코더로서의 LLM, 정렬자로서의 LLM 등 그래프에서 LLM을 활용하기 위한 세부 기법에 대해 논의하고 각 모델 학파의 장단점을 비교합니다. 또한 이러한 방법의 실제 적용 사례를 언급하고 오픈소스 코드와 벤치마크 데이터셋을 요약합니다. 마지막으로 빠르게 성장하는 이 분야의 향후 연구 방향을 제시하며 마무리합니다. 관련 자료는 GitHub - PeterGriffinJin/Awesome-Language-Model-on-Graphs: A curated list of papers and resources based on "Large Language Models on Graphs: A Comprehensive Survey". 에서 확인할 수 있습니다.

    Large language models (LLMs), such as ChatGPT and LLaMA, are creating significant advancements in natural language processing, due to their strong text encoding/decoding ability and newly found emergent capability (e.g., reasoning). While LLMs are mainly designed to process pure texts, there are many real-world scenarios where text data are associated with rich structure information in the form of graphs (e.g., academic networks, and e-commerce networks) or scenarios where graph data are paired with rich textual information (e.g., molecules with descriptions). Besides, although LLMs have shown their pure text-based reasoning ability, it is underexplored whether such ability can be generalized to graph scenarios (i.e., graph-based reasoning). In this paper, we provide a systematic review of scenarios and techniques related to large language models on graphs. We first summarize potential scenarios of adopting LLMs on graphs into three categories, namely pure graphs, text-rich graphs, and text-paired graphs. We then discuss detailed techniques for utilizing LLMs on graphs, including LLM as Predictor, LLM as Encoder, and LLM as Aligner, and compare the advantages and disadvantages of different schools of models. Furthermore, we mention the real-world applications of such methods and summarize open-source codes and benchmark datasets. Finally, we conclude with potential future research directions in this fast-growing field. The related source can be found at GitHub - PeterGriffinJin/Awesome-Language-Model-on-Graphs: A curated list of papers and resources based on "Large Language Models on Graphs: A Comprehensive Survey"..

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1732404393037762588


라마 가드 / Llama Guard

논문 소개

  • 대화형 AI 에이전트 사용 사례에 대한 프롬프트와 응답에서 안전 위험을 분류할 수 있는 소규모(Llama2-7b) 맞춤형 명령어 조정 모델을 포함하는 LLM 기반 안전 가드 모델은 대상 사용 사례의 요구 사항을 충족하는 다른 안전 위험 분류 체계에 적용해야 하는 경우 제로 샷 또는 소수 샷 방식으로 활용할 수 있으며, 특정 데이터셋에서 미세 조정하여 새로운 분류 체계에 적응할 수도 있습니다.

    An llm-based safeguard model that involves a small (llama2-7b) customizable instruction-tuned model that can classify safety risks in prompts and responses for conversational ai agent use cases; the model can be leveraged in a zero-shot or few-shot way if you need to adapt it to a different safety risk taxonomy that meets the requirements for a target use case; it can also be fine-tune on a specific dataset to adapt to a new taxonomy.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1732781628139696279


HALOs: 인간 중심의 손실 함수 / Human-Centered Loss Functions

논문 소개

  • 카네만-트베르스키 최적화(KTO: Kahneman-Tversky Optimization)라는 접근 방식은 1b에서 30b의 규모에서 DPO 성능 방법과 일치하거나 이를 능가하며, 대부분의 현재 방법처럼 선호도의 로그 가능성을 최대화하는 대신 LLM 생성의 유용성을 최대화합니다.

    Proposes an approach called kahneman-tversky optimization (kto) that matches or exceeds dpo performance methods at scales from 1b to 30b; kto maximizes the utility of llm generations instead of maximizing the log-likelihood of preferences as most current methods do.

논문 링크

더 읽어보기

https://x.com/ethayarajh/status/1732837520784957476


코드 체인: 언어 모델 증강 코드 에뮬레이터로 추론하기 / Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

논문 소개

  • 생각의 사슬(CoT: Chain-of-Thought) 접근법의 간단한 확장으로 LM 코드 중심 추론을 개선하는 이 접근법은 프로그램의 의미론적 하위 작업을 의사 코드로 형식화하여 인터프리터가 정의되지 않은 동작을 명시적으로 포착하고 LM으로 시뮬레이션하도록 넘겨주도록 권장하며, 빅벤치 하드에서 생각의 사슬보다 12% 향상된 84%를 달성합니다.

    A simple extension of the chain-of-thought approach that improves lm code-driven reasoning; it encourages lms to format semantic sub-tasks in a program as pseudocode that the interpreter can explicitly catch undefined behavior and hand off to simulate with an llm; on big-bench hard, chain of code achieves 84%, a gain of 12% over chain of thought.

논문 초록

  • 코드는 코드 인터프리터와 함께 사용하면 복잡한 프로그램을 구축하고 정확한 계산을 수행할 수 있는 일반적인 구문 구조를 제공합니다. 언어 모델(LM)은 코드 작성을 활용하여 논리 및 산술 작업뿐만 아니라 언어 작업(특히 이 두 가지가 혼합된 작업)에 대한 사고의 연쇄 추론을 개선할 수 있다는 가설을 세우고 있습니다. 예를 들어, 에세이에서 풍자를 감지한 횟수를 세는 코드를 작성하라고 LM에 요청하면 LM은 인터프리터가 실행할 수 있는 "detect_sarcasm(문자열)"의 구현을 작성하는 데 어려움을 겪을 수 있습니다(에지 케이스 처리는 극복할 수 없는 문제입니다). 그러나 LM을 코드를 작성하는 데 사용할 뿐만 아니라 "detect_sarcasm(string)"의 예상 출력과 다른 코드 줄(예: 인터프리터가 컴파일할 수 없는 코드)을 생성하여 인터프리터를 선택적으로 "에뮬레이션"하는 데 사용할 경우 여전히 유효한 솔루션을 생성할 수 있습니다. 이 작업에서는 LM 코드 기반 추론을 개선하는 간단하면서도 놀랍도록 효과적인 확장 기능인 코드 체인(CoT)을 제안합니다. 핵심 아이디어는 LM이 프로그램에서 언어적 하위 작업을 유연한 의사 코드로 형식화하여 컴파일러가 정의되지 않은 동작을 명시적으로 포착하고 LM으로 시뮬레이션하도록 넘겨줄 수 있도록 하는 것입니다("LMulator"). 실험 결과, 다양한 벤치마크에서 체인 오브 코드가 체인 오브 씽크를 비롯한 다른 기준선보다 뛰어난 성능을 보였으며, 빅벤치 하드에서는 체인 오브 코드가 84%를 달성하여 체인 오브 씽크보다 12% 더 높은 성능을 보였습니다. CoT는 대규모 모델과 소규모 모델 모두에서 잘 확장되며, LM이 '코드로 사고'하여 정답을 맞출 수 있는 추론 문제의 범위를 넓혀줍니다. 프로젝트 웹페이지: https://chain-of-code.github.io/.

    Code provides a general syntactic structure to build complex programs and perform precise computations when paired with a code interpreter -- we hypothesize that language models (LMs) can leverage code-writing to improve Chain of Thought reasoning not only for logic and arithmetic tasks, but also for linguistic ones (and in particular, those that are a mix of both). For example, consider prompting an LM to write code that counts the number of times it detects sarcasm in an essay: the LM may struggle to write an implementation for "detect_sarcasm(string)" that can be executed by the interpreter (handling the edge cases would be insurmountable). However, LMs may still produce a valid solution if they are used not only to write the code, but also to selectively "emulate" the interpreter by generating the expected output of "detect_sarcasm(string)" and other lines of code (e.g., that the interpreter could not compile). In this work, we propose Chain of Code (CoT), a simple yet surprisingly effective extension that improves LM code-driven reasoning. The key idea is to encourage LMs to format linguistic sub-tasks in a program as flexible pseudocode that the compiler can explicitly catch undefined behaviors and hand off to simulate with an LM (as an "LMulator"). Experiments demonstrate that Chain of Code outperforms Chain of Thought and other baselines across a variety of benchmarks; on BIG-Bench Hard, Chain of Code achieves 84%, a gain of 12% over Chain of Thought. CoT scales well with large and small models alike, and broadens the scope of reasoning questions that LMs can correctly answer by "thinking in code". Project webpage: https://chain-of-code.github.io/.

논문 링크

더 읽어보기

https://x.com/ChengshuEricLi/status/1733169631949701425


대규모 언어 모델을 위한 데이터 관리: 서베이 논문 / Data Management For Large Language Models: A Survey

논문 소개

  • 데이터 관리 전략 설계의 다양한 측면(데이터 양, 데이터 품질, 도메인/작업 구성 등)을 다루는 LLM의 사전 교육 및 감독 미세 조정 단계에서 데이터 관리의 현재 연구에 대한 개요입니다.

    An overview of current research in data management within both the pretraining and supervised fine-tuning stages of llms; it covers different aspects of data management strategy design: data quantity, data quality, domain/task composition, and more.

논문 초록

  • 데이터는 대규모 언어 모델(LLM)의 학습에 있어 기본적인 역할을 합니다. 특히 적합한 학습 데이터셋을 구성하는 데 있어 효과적인 데이터 관리는 사전 학습 및 감독 미세 조정 단계에서 모델 성능을 향상시키고 학습 효율성을 개선하는 데 중요한 역할을 합니다. 데이터 관리의 중요성에도 불구하고 현재 연구계는 관리 전략 선택의 근거, 그 결과적 효과, 선별된 데이터 세트 평가 방법론, 개선된 전략의 지속적인 추구에 대한 체계적인 분석을 제공하는 데는 여전히 부족합니다. 따라서 데이터 관리에 대한 탐구는 연구 커뮤니티에서 점점 더 많은 관심을 끌고 있습니다. 이 설문조사는 데이터 양, 데이터 품질, 도메인/작업 구성 등 데이터 관리 전략 설계에서 주목할 만한 다양한 측면을 다루면서 LLM의 사전 교육 및 감독 미세 조정 단계에서 데이터 관리의 현재 연구에 대한 포괄적인 개요를 제공합니다. 미래를 내다보며 현재 당면한 과제를 추정하고 이 분야에서 유망한 발전 방향을 제시합니다. 따라서 이 설문조사는 효과적인 데이터 관리 관행을 통해 강력한 LLM을 구축하고자 하는 실무자들에게 지침이 될 것입니다. 최신 논문 모음은 GitHub - ZigeW/data_management_LLM: Collection of training data management explorations for large language models 에서 확인할 수 있습니다.

    Data plays a fundamental role in the training of Large Language Models (LLMs). Effective data management, particularly in the formulation of a well-suited training dataset, holds significance for enhancing model performance and improving training efficiency during pretraining and supervised fine-tuning phases. Despite the considerable importance of data management, the current research community still falls short in providing a systematic analysis of the rationale behind management strategy selection, its consequential effects, methodologies for evaluating curated datasets, and the ongoing pursuit of improved strategies. Consequently, the exploration of data management has attracted more and more attention among the research community. This survey provides a comprehensive overview of current research in data management within both the pretraining and supervised fine-tuning stages of LLMs, covering various noteworthy aspects of data management strategy design: data quantity, data quality, domain/task composition, etc. Looking toward the future, we extrapolate existing challenges and outline promising directions for development in this field. Therefore, this survey serves as a guiding resource for practitioners aspiring to construct powerful LLMs through effective data management practices. The collection of the latest papers is available at GitHub - ZigeW/data_management_LLM: Collection of training data management explorations for large language models.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1731877232493166969


랭크제퍼: 효과적이고 강력한 제로샷 리스트 리랭킹을 간편하게! / RankZephyr: Effective and Robust Zero-Shot Listwise Reranking is a Breeze!

논문 소개

  • 목록형 제로 샷 재랭킹을 위한 오픈소스 LLM으로, GPT-4와의 효율성 격차를 해소하고 경우에 따라 독점 모델을 능가하며, 학습 기간이 지난 쿼리와 구절로 구성된 신규 테스트 세트에서 GPT-4보다 성능이 뛰어나 데이터 오염에 대한 우려를 해결합니다.

    An open-source llm for listwise zero-shot reranking that bridges the effectiveness gap with gpt-4 and in some cases surpasses the proprietary model; it outperforms gpt-4 on the noveleval test set, comprising queries and passages past its training period, which addresses concerns about data contamination.

논문 초록

  • 정보 검색에서 GPT-4와 같은 독점적인 대규모 언어 모델(LLM)과 LLaMA 및 Vicuna와 같은 오픈소스 모델이 순위 재조정에 중요한 역할을 해왔습니다. 그러나 오픈소스와 폐쇄형 모델 간의 격차는 여전히 존재하며, 투명하지 않은 독점 모델에 대한 의존으로 인해 재현성이 제한되고 있습니다. 이러한 격차를 해소하기 위해 목록형 제로샷 리랭킹을 위한 최첨단 오픈소스 LLM인 RankZephyr를 소개합니다. RankZephyr는 GPT-4와의 효과 격차를 해소할 뿐만 아니라 경우에 따라서는 독점 모델을 능가하기도 합니다. 여러 데이터 세트(TREC 딥러닝 트랙, BEIR의 뉴스 및 COVID)에 대한 종합적인 평가에서 이러한 능력을 확인할 수 있습니다. RankZephyr는 전략적인 학습 선택의 이점을 누리며, 초기 문서 순서의 변화와 순위가 재조정된 문서 수에 대한 탄력성을 갖습니다. 또한, 이 모델은 학습 기간이 지난 쿼리와 구절로 구성된 NovelEval 테스트 세트에서 GPT-4보다 뛰어난 성능을 발휘하여 데이터 오염에 대한 우려를 해결합니다. 빠르게 진화하는 이 분야의 추가 연구를 촉진하기 위해 결과를 재현하는 데 필요한 모든 코드를 GitHub - castorini/rank_llm: Repository for prompt-decoding using LLMs (GPT3.5, GPT4, and Vicuna) 에서 제공합니다.

    In information retrieval, proprietary large language models (LLMs) such as GPT-4 and open-source counterparts such as LLaMA and Vicuna have played a vital role in reranking. However, the gap between open-source and closed models persists, with reliance on proprietary, non-transparent models constraining reproducibility. Addressing this gap, we introduce RankZephyr, a state-of-the-art, open-source LLM for listwise zero-shot reranking. RankZephyr not only bridges the effectiveness gap with GPT-4 but in some cases surpasses the proprietary model. Our comprehensive evaluations across several datasets (TREC Deep Learning Tracks; NEWS and COVID from BEIR) showcase this ability. RankZephyr benefits from strategic training choices and is resilient against variations in initial document ordering and the number of documents reranked. Additionally, our model outperforms GPT-4 on the NovelEval test set, comprising queries and passages past its training period, which addresses concerns about data contamination. To foster further research in this rapidly evolving field, we provide all code necessary to reproduce our results at GitHub - castorini/rank_llm: Repository for prompt-decoding using LLMs (GPT3.5, GPT4, and Vicuna).

논문 링크

더 읽어보기

https://x.com/lintool/status/1732430269485867114


대규모 언어 모델의 효율성 스펙트럼: 알고리즘 측면의 서베이 논문 / The Efficiency Spectrum of Large Language Models: An Algorithmic Survey

논문 소개

  • 머신러닝 효율성 향상을 위한 알고리즘 발전에 대한 포괄적인 검토로, 스케일링 법칙, 데이터 활용, 아키텍처 혁신, 트레이닝 및 튜닝 전략, 추론 기법 등 효율성과 관련된 다양한 주제를 다룹니다.

    A comprehensive review of algorithmic advancements aimed at improving llm efficiency; covers various topics related to efficiency, including scaling laws, data utilization, architectural innovations, training and tuning strategies, and inference techniques.

논문 초록

  • 대규모 언어 모델(LLM)의 급속한 성장은 다양한 영역을 혁신하고 인공지능 환경을 재편하는 원동력이 되어 왔습니다. 그러나 이러한 모델의 계산 및 메모리 요구량 증가는 학술적 연구와 실제 적용을 모두 방해하는 상당한 과제를 안고 있습니다. 이러한 문제를 해결하기 위해 알고리즘 및 하드웨어 솔루션을 포함한 다양한 방법이 개발되어 LLM의 효율성을 향상시키고 있습니다. 이 설문조사는 LLM 효율성 향상을 위한 알고리즘의 발전에 대한 종합적인 검토를 제공합니다. 일반적으로 트레이닝이나 모델 압축과 같은 특정 영역에 초점을 맞춘 다른 설문조사와 달리, 이 논문에서는 LLM의 엔드투엔드 알고리즘 개발에 필수적인 효율성의 다각적인 측면을 살펴봅니다. 특히 스케일링 법칙, 데이터 활용, 아키텍처 혁신, 트레이닝 및 튜닝 전략, 추론 기법 등 효율성과 관련된 다양한 주제를 다룹니다. 이 논문은 연구자와 실무자를 위한 귀중한 리소스로서 이 중요한 연구 분야의 미래 혁신을 위한 토대를 마련하는 것을 목표로 합니다. 관련 참고 자료의 저장소는 url{GitHub - tding1/Efficient-LLM-Survey: The Efficiency Spectrum of LLM}에서 관리됩니다.

    The rapid growth of Large Language Models (LLMs) has been a driving force in transforming various domains, reshaping the artificial general intelligence landscape. However, the increasing computational and memory demands of these models present substantial challenges, hindering both academic research and practical applications. To address these issues, a wide array of methods, including both algorithmic and hardware solutions, have been developed to enhance the efficiency of LLMs. This survey delivers a comprehensive review of algorithmic advancements aimed at improving LLM efficiency. Unlike other surveys that typically focus on specific areas such as training or model compression, this paper examines the multi-faceted dimensions of efficiency essential for the end-to-end algorithmic development of LLMs. Specifically, it covers various topics related to efficiency, including scaling laws, data utilization, architectural innovations, training and tuning strategies, and inference techniques. This paper aims to serve as a valuable resource for researchers and practitioners, laying the groundwork for future innovations in this critical research area. Our repository of relevant references is maintained at url{GitHub - tding1/Efficient-LLM-Survey: The Efficiency Spectrum of LLM}.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1731696419457606048


원문