[2023/10/16 ~ 10/22] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 선택된 논문들을 살펴본 결과, 주요 트렌드는 크게 두 가지로 분류할 수 있습니다. 첫 번째는 오픈 도메인 대화 시스템(Open domain dialog system)과 관련된 논문이 이번 주에 다수 포함되어 있었습니다. 두 번째 트렌드는 인공지능이 자체적으로 설명을 생성하거나 문제를 풀어 나갈 수 있도록 하는 연구 논문들이 다수 포함되어 있었습니다. 이 두 가지 트렌드는 이번 주에 대부분의 논문들이 공통적으로 다루고 있는 분야입니다.

오픈 도메인 대화 시스템은 인공지능 시스템이 사용자와 자연스럽게 대화를 나눌 수 있도록 하는 기술로서, "OpenAgents", "LLMs for Software Engineering", "Eliciting Human Preferences with LLMs" 등의 논문들에서 주제로 다루고 있었습니다. 이런 논문들은 사용자와의 대화를 통해 인공지능 시스템이 스스로 학습하고 발전할 수 있는 방법을 연구하고 있습니다.

또한 인공지능이 자체적으로 설명을 생성하거나 문제를 풀어 나간는 연구는 "A Study of LLM-Generated Self-Explanations", "Self-RAG", "Retrieval-Augmentation for Long-form Question Answering" 등의 논문들에서 다루고 있었습니다. 이런 논문들은 인공지능이 문제를 풀거나 설명을 생성하는 과정을 사용자가 이해할 수 있도록 투명하게 만드는 것이 주요 목표입니다. 이 트렌드는 인공지능이 더욱 투명하고 보편적으로 사용될 수 있는 기술이 되도록 하는 연구의 중요성을 고려하면 자연스러운 흐름으로 보입니다.


Llemma(렘마): 수학을 위한 개방형 언어 모델 / Llemma: An Open Language Model For Mathematics

논문 소개

  • Proof-Pile-2 데이터셋에 대한 Code Llama를 지속적으로 학습한 수학용 Llemma 모델. 과학 논문, 수학이 포함된 웹 데이터, 수학 코드가 포함된 데이터셋, 수학 벤치마크에서 오픈 베이스 모델과 미공개 미네르바보다 뛰어난 성능, 실험을 복제하기 위한 데이터 세트와 코드를 포함한 모델 출시. mathglm #

    An llm for mathematics which is based on continued pretraining from code llama on the proof-pile-2 dataset; the dataset involves scientific paper, web data containing mathematics, and mathematical code; llemma outperforms open base models and the unreleased minerva on the math benchmark; the model is released, including dataset and code to replicate experiments.

논문 초록

  • 수학을 위한 대규모 언어 모델인 Llemma를 소개합니다. 과학 논문, 수학이 포함된 웹 데이터, 수학 코드가 혼합된 Proof-Pile-2에서 Code Llama를 계속 사전 학습하여 Llemma를 생성했습니다. MATH 벤치마크에서 Llemma는 알려진 모든 개방형 기본 모델과 미출시된 미네르바 모델 제품군을 동등 매개변수 기준으로 능가하는 성능을 보였습니다. 또한 Llemma는 추가 미세 조정 없이도 도구 사용과 공식적인 정리를 증명할 수 있습니다. 70억 개와 340억 개의 매개변수 모델, Proof-Pile-2, 실험을 재현하는 코드를 포함한 모든 아티팩트를 공개적으로 공개합니다.

    We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

논문 링크

더 읽어보기

https://x.com/zhangir_azerbay/status/1714098025956864031


소프트웨어 엔지니어링을 위한 대규모 언어 모델: 서베이 및 공개 문제 / Large Language Models for Software Engineering: Survey and Open Problems

논문 소개

  • 공개 연구 및 기술 과제를 포함하여 소프트웨어 엔지니어링을 위한 LLM에 대한 종합적인 서베이 논문

    A comprehensive survey of llms for software engineering, including open research and technical challenges.

논문 초록

  • 이 논문에서는 소프트웨어 엔지니어링(SE)을 위한 대규모 언어 모델(LLM)이라는 새로운 영역에 대한 조사를 제공합니다. 또한 소프트웨어 엔지니어가 직면한 기술적 문제에 LLM을 적용하기 위한 공개 연구 과제를 제시합니다. LLM의 새로운 속성은 코딩, 설계, 요구사항, 수리, 리팩토링, 성능 개선, 문서화 및 분석을 포함한 소프트웨어 엔지니어링 활동 전반에 걸쳐 참신함과 창의성을 가져다 줍니다. 그러나 이러한 새로운 속성은 또한 중요한 기술적 과제를 야기하며, 환각과 같은 잘못된 솔루션을 확실하게 걸러낼 수 있는 기술이 필요합니다. 이번 설문조사에서는 안정적이고 효율적이며 효과적인 LLM 기반 SE를 개발하고 배포하는 데 있어 하이브리드 기술(기존 SE와 LLM)이 얼마나 중요한 역할을 해야 하는지 알 수 있습니다.

    This paper provides a survey of the emerging area of Large Language Models (LLMs) for Software Engineering (SE). It also sets out open research challenges for the application of LLMs to technical problems faced by software engineers. LLMs' emergent properties bring novelty and creativity with applications right across the spectrum of Software Engineering activities including coding, design, requirements, repair, refactoring, performance improvement, documentation and analytics. However, these very same emergent properties also pose significant technical challenges; we need techniques that can reliably weed out incorrect solutions, such as hallucinations. Our survey reveals the pivotal role that hybrid techniques (traditional SE plus LLMs) have to play in the development and deployment of reliable, efficient and effective LLM-based SE.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1713940983199506910


Self-RAG: 자기 성찰을 통한 검색, 생성 및 비평 학습하기 / Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

논문 소개

  • 검색 및 자기 반성을 통해 LM의 품질과 사실성을 향상시키는 새로운 검색 증강 프레임워크를 제시하고, 필요에 따라 구절을 적응적으로 검색하고 특수 반사 토큰을 사용하여 구절과 자체 세대를 생성 및 반영하는 LM을 학습하며, 사실성 개선을 포함한 오픈 도메인 QA, 추론 및 사실 확인 작업에서 sota llms(chatgpt 및 검색 증강 llama2-chat)보다 훨씬 뛰어난 성능을 발휘합니다. rag

    Presents a new retrieval-augmented framework that enhances an lm’s quality and factuality through retrieval and self-reflection; trains an lm that adaptively retrieves passages on demand, and generates and reflects on the passages and its own generations using special reflection tokens; it significantly outperforms sota llms (chatgpt and retrieval-augmented llama2-chat) on open-domain qa, reasoning, and fact verification tasks, including factuality improvements.

논문 초록

  • 뛰어난 기능에도 불구하고 대규모 언어 모델(LLM)은 캡슐화된 매개변수 지식에만 의존하기 때문에 사실과 다른 부정확한 응답을 생성하는 경우가 많습니다. 관련 지식 검색을 통해 LM을 보강하는 임시 접근 방식인 검색 증강 생성(RAG)을 사용하면 이러한 문제를 줄일 수 있습니다. 그러나 검색의 필요성이나 구절의 관련성 여부에 관계없이 무차별적으로 검색된 구절을 고정된 수만큼 검색하여 통합하면 LM의 활용성이 떨어지거나 도움이 되지 않는 응답을 생성할 수 있습니다. 저희는 검색과 자기 반성을 통해 LM의 품질과 사실성을 향상시키는 자기 반성적 검색 증강 생성(Self-RAG)이라는 새로운 프레임워크를 도입했습니다. Facebook의 프레임워크는 필요에 따라 구절을 적응적으로 검색하는 단일 임의의 LM을 학습시키고, 반사 토큰이라는 특수 토큰을 사용하여 검색된 구절과 자체 세대를 생성 및 반영합니다. 리플렉션 토큰을 생성하면 추론 단계에서 LM을 제어할 수 있으므로 다양한 작업 요구 사항에 맞게 동작을 조정할 수 있습니다. 실험에 따르면 Self-RAG(7B 및 13B 매개변수)는 다양한 작업 세트에서 최첨단 LLM 및 검색 증강 모델보다 훨씬 뛰어난 성능을 발휘하는 것으로 나타났습니다. 특히, Self-RAG는 오픈 도메인 QA, 추론 및 사실 확인 작업에서 ChatGPT 및 검색 증강 Llama2-chat보다 성능이 뛰어나며, 이러한 모델에 비해 긴 형식의 생성물에 대한 사실성 및 인용 정확도를 개선하는 데 있어 상당한 이점을 보여줍니다.

    Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.

논문 링크

더 읽어보기

https://x.com/AkariAsai/status/1715110277077962937


긴 형식의 질문 답변을 위한 검색 증강 이해하기 / Understanding Retrieval Augmentation for Long-Form Question Answering

논문 소개

  • 긴 형식의 질문 답변에 대한 검색 증강 언어 모델을 살펴보고, 검색이 중요한 구성 요소이지만 증거 문서가 llm에 신중하게 추가되어야 함을 발견하고, 검색된 문서에 질문에 대한 충분한 정보/증거가 부족할 때 어트리뷰션 오류가 더 자주 발생한다는 사실을 발견합니다.

    Explores retrieval-augmented language models on long-form question answering; finds that retrieval is an important component but evidence documents should be carefully added to the llm; finds that attribution error happens more frequently when retrieved documents lack sufficient information/evidence for answering the question.

논문 초록

  • 긴 형식의 질문에 대한 답변에 대한 검색 증강 언어 모델(LM)에 대한 연구를 발표합니다. 동일한 증거 문서를 사용하면서 모델에서 생성된 답변을 비교하여 검색 증강이 서로 다른 LM에 어떤 영향을 미치는지, 그리고 검색 문서 세트의 품질 차이가 동일한 LM에서 생성된 답변에 어떤 영향을 미치는지 분석합니다. 생성된 답변의 다양한 속성(예: 유창성, 길이, 분산)을 연구하며, 특히 문맥 내 증거 문서에 대한 긴 형식의 답변의 속성에 중점을 둡니다. 답변 속성에 대한 사람의 주석을 수집하고 자동으로 속성을 판단하는 방법을 평가합니다. 이 연구는 검색 증강이 지식이 풍부한 장문의 LM 생성에 어떤 영향을 미치는지에 대한 새로운 인사이트를 제공합니다. 또한 긴 텍스트 생성에 대한 어트리뷰션 패턴을 식별하고 어트리뷰션 오류의 주범을 분석합니다. 이러한 분석을 통해 검색 증강이 지식이 풍부한 긴 텍스트 생성에 어떤 영향을 미치는지 밝혀내고 향후 작업 방향을 제시합니다.

    We present a study of retrieval-augmented language models (LMs) on long-form question answering. We analyze how retrieval augmentation impacts different LMs, by comparing answers generated from models while using the same evidence documents, and how differing quality of retrieval document set impacts the answers generated from the same LM. We study various attributes of generated answers (e.g., fluency, length, variance) with an emphasis on the attribution of generated long-form answers to in-context evidence documents. We collect human annotations of answer attribution and evaluate methods for automatically judging attribution. Our study provides new insights on how retrieval augmentation impacts long, knowledge-rich text generation of LMs. We further identify attribution patterns for long text generation and analyze the main culprits of attribution errors. Together, our analysis reveals how retrieval augmentation impacts long knowledge-rich text generation and provide directions for future work.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1714986431859282144


GenBench

논문 소개

  • NLP의 일반화 연구를 특성화하고 이해하기 위한 프레임워크를 제시하며, 543개 논문에 대한 메타분석과 일반화 연구를 탐색하고 더 잘 이해할 수 있는 도구 세트를 포함합니다.

    Presents a framework for characterizing and understanding generalization research in nlp; involves a meta-analysis of 543 papers and a set of tools to explore and better understand generalization studies.

논문 링크

https://www.nature.com/articles/s42256-023-00729-y?utm_source=twitter&utm_medium=organic_social&utm_campaign=research&utm_content=link

더 읽어보기

https://x.com/AIatMeta/status/1715041427283902793


대규모 언어 모델이 스스로를 설명할 수 있을까? LLM이 생성한 자기 설명에 대한 연구 / Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations

논문 소개

  • 기능 속성 설명을 자체 생성하는 llm의 기능을 평가합니다. 자체 설명은 llm의 성능과 진실성을 개선하는 데 유용하며, 이 기능은 연쇄적 사고 프롬프트와 함께 사용할 수 있습니다. chain-of-thought

    Assesses an llm's capability to self-generate feature attribution explanations; self-explanation is useful to improve performance and truthfulness in llms; this capability can be used together with chain-of-thought prompting.

논문 초록

  • ChatGPT와 같은 대규모 언어 모델(LLM)은 감정 분석, 수학적 추론, 요약 등 다양한 자연어 처리(NLP) 작업에서 뛰어난 성능을 입증했습니다. 또한 이러한 모델은 '유용한' 응답을 생성하도록 사람의 대화에 대한 지침에 따라 조정되기 때문에 응답과 함께 설명을 생성할 수 있으며 종종 자체 설명이라고 부르는 설명을 생성하기도 합니다. 예를 들어, 영화 리뷰의 감성을 분석할 때 모델은 감성의 긍정성뿐만 아니라 설명도 함께 출력할 수 있습니다(예: 리뷰에 "환상적", "기억에 남는" 등의 감성이 담긴 단어를 나열하는 방식). 이렇게 자동으로 생성된 자체 설명은 얼마나 정확할까요? 이 논문에서는 해석 가능성 문헌에서 가장 일반적으로 연구되는 설정 중 하나인 감성 분석 작업과 기능 속성 설명에 대해 이 질문을 조사합니다(ChatGPT 이전 모델의 경우). 구체적으로, 우리는 자기 설명을 이끌어내는 다양한 방법을 연구하고, 일련의 평가 지표에 따라 그 충실도를 평가하며, 이를 오클루전이나 LIME 선호도 맵과 같은 전통적인 설명 방법과 비교합니다. 광범위한 실험을 통해 ChatGPT의 자기 설명은 기존 설명과 동등한 성능을 보이지만 다양한 합의 지표에 따라 상당히 다르며, 예측과 함께 생성되기 때문에 생성 비용이 훨씬 저렴하다는 사실을 발견했습니다. 또한 몇 가지 흥미로운 특성을 확인했으며, 이를 통해 ChatGPT(와 유사한) LLM 시대에 현재의 많은 모델 해석 가능성 관행에 대해 다시 생각해보게 되었습니다.

    Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1714665747752923620


OpenAgents(오픈에이전트): 야생의 언어 에이전트를 위한 개방형 플랫폼 / OpenAgents: An Open Platform for Language Agents in the Wild

논문 소개

  • 데이터 분석을 위한 데이터 에이전트, 200개 이상의 일일 API 도구가 포함된 플러그인 에이전트, 자율 웹 브라우징을 위한 웹 에이전트 등 세 가지 에이전트를 포함하는 개방형 언어 에이전트 사용 및 호스팅을 위한 플랫폼입니다.

    An open platform for using and hosting language agents in the wild; includes three agents, including a data agent for data analysis, a plugins agent with 200+ daily api tools, and a web agent for autonomous web browsing.

논문 초록

  • 언어 에이전트는 다양한 환경에서 다양하고 복잡한 작업에 자연어를 활용할 수 있는 잠재력을 보여주며, 특히 대규모 언어 모델(LLM)을 기반으로 구축될 때 더욱 그렇습니다. 현재의 언어 에이전트 프레임워크는 개념 증명 언어 에이전트의 구축을 용이하게 하는 것을 목표로 하지만, 비전문가의 에이전트 액세스를 무시하고 애플리케이션 수준 설계에는 거의 관심을 기울이지 않습니다. 당사는 일상 생활에서 언어 에이전트를 사용하고 호스팅할 수 있는 개방형 플랫폼인 OpenAgents를 소개합니다. OpenAgents에는 세 가지 에이전트가 포함되어 있습니다: (1) Python/SQL 및 데이터 도구로 데이터 분석을 위한 데이터 에이전트, (2) 200개 이상의 일상적인 API 도구가 포함된 플러그인 에이전트, (3) 자율적인 웹 브라우징을 위한 웹 에이전트. 일반 사용자는 신속한 응답과 일반적인 장애에 최적화된 웹 사용자 인터페이스를 통해 에이전트 기능과 상호 작용할 수 있으며, 개발자와 연구자는 로컬 설정에서 원활한 배포 환경을 제공하여 혁신적인 언어 에이전트를 제작하고 실제 평가를 용이하게 할 수 있는 기반을 제공합니다. 당사는 향후 실제 언어 에이전트의 연구 및 개발을 위한 토대를 마련하고자 도전과제와 기회를 명확히 설명합니다.

    Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.

논문 링크

더 읽어보기

https://x.com/ChengZhoujun/status/1714343204148113860


언어 모델로 인간의 선호도 유도하기 / Eliciting Human Preferences with Language Models

논문 소개

  • 언어 모델을 사용하여 작업 지정 프로세스를 안내하고 학습 프레임워크를 사용하여 모델이 사용자와의 자유 형식 언어 기반 상호 작용을 통해 의도된 행동을 유도하고 추론할 수 있도록 지원하며, 개방형 질문을 생성함으로써 시스템이 사용자가 작성한 프롬프트보다 더 많은 정보를 제공하는 응답을 생성하는 것을 보여줍니다.

    Uses language models to guide the task specification process and a learning framework to help models elicit and infer intended behavior through free-form, language-based interaction with users; shows that by generating open-ended questions, the system generates responses that are more informative than user-written prompts.

논문 초록

  • 언어 모델(LM)은 레이블이 지정된 예제나 자연어 프롬프트를 사용하여 목표 작업을 수행하도록 지시할 수 있습니다. 그러나 예제를 선택하거나 프롬프트를 작성하는 것은 어려울 수 있으며, 특히 특이한 엣지 케이스가 포함되거나 모호한 선호도를 정확하게 표현해야 하거나 LM 동작에 대한 정확한 멘탈 모델이 필요한 작업에서는 더욱 그렇습니다. 우리는 작업 사양 프로세스를 안내하기 위해 LM 자체를 사용할 것을 제안합니다. 이 논문에서는 모델이 사용자와의 자유로운 형식의 언어 기반 상호 작용을 통해 의도된 행동을 유도하고 추론하는 학습 프레임워크인 '생성적 능동적 과제 도출(GATE)'을 소개합니다. 이메일 유효성 검사, 콘텐츠 추천, 도덕적 추론의 세 가지 영역에서 GATE를 연구합니다. 사전 등록한 실험에서 우리는 개방형 질문을 생성하거나 유익한 엣지 케이스를 합성하는 등의 방식으로 GATE를 수행하도록 유도하는 LM이 사용자가 직접 작성한 프롬프트나 레이블보다 더 유익한 반응을 이끌어내는 경우가 많다는 것을 보여주었습니다. 사용자들은 대화형 작업 도출이 프롬프트나 예시 라벨링보다 더 적은 노력이 필요하며, 사용자가 처음에 예상하지 못했던 새로운 고려 사항을 드러낸다고 보고합니다. 이번 연구 결과는 LM 기반 도출이 복잡한 인간의 선호도와 가치에 맞게 모델을 조정하는 데 강력한 도구가 될 수 있음을 시사합니다.

    Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use LMs themselves to guide the task specification process. In this paper, we introduce Generative Active Task Elicitation (GATE): a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.

논문 링크

더 읽어보기

https://x.com/AlexTamkin/status/1715040019520569395


AutoMix: 언어 모델 자동 혼합 / AutoMix: Automatically Mixing Language Models

논문 소개

  • 소규모 언어 모델의 정확성을 기반으로 쿼리를 llms로 라우팅하는 접근 방식(몇 번의 자체 검증을 통해 수행됨); 메타 검증기를 도입하여 검증기의 출력(일반적으로 더 작은 모델)을 확인하고 필요한 경우 쿼리를 더 큰 언어 모델로 라우팅합니다. 5개의 문맥 기반 추론 데이터셋에서 llama2-13/70b를 사용한 실험에 따르면 오토믹스는 기존 기준선을 능가하여 비용당 증분 이익을 최대 89% 향상시키는 것으로 입증됩니다.

    An approach to route queries to llms based on the correctness of smaller language models (done via few-shot self-verification); a meta-verifier is introduced to check the verifier's output (typically a smaller model) and route the query to a larger language model if needed. experiments using llama2-13/70b, on five context-grounded reasoning datasets demonstrate that automix surpasses established baselines, improving the incremental benefit per cost by up to 89%.

논문 초록

  • 이제 클라우드 API 제공업체에서 다양한 크기와 구성의 대규모 언어 모델(LLM)을 사용할 수 있습니다. 이러한 다양성으로 인해 선택의 폭이 넓어졌지만, 이러한 옵션을 효과적으로 활용하여 계산 비용과 성능을 최적화하는 것은 여전히 어려운 과제입니다. 이 작업에서는 소규모 LM의 대략적인 출력 정확도를 기반으로 쿼리를 더 큰 LM으로 전략적으로 라우팅하는 접근 방식인 AutoMix를 소개합니다. AutoMix의 핵심은 학습 없이도 자체 출력의 신뢰성을 추정하는 몇 번의 샷 자체 검증 메커니즘입니다. 검증에 노이즈가 있을 수 있다는 점을 감안하여 AutoMix에서는 메타 검증기를 사용하여 이러한 평가의 정확도를 개선합니다. 5개의 컨텍스트 기반 추론 데이터세트에 대해 LLAMA2-13/70B를 사용한 실험 결과, AutoMix는 기존 기준선을 뛰어넘어 비용당 증분 이익을 최대 89%까지 개선하는 것으로 나타났습니다. 코드와 데이터는 GitHub - automix-llm/automix: Mixing Language Models with Self-Verification and Meta-Verification 에서 확인할 수 있습니다.

    Large language models (LLMs) are now available in various sizes and configurations from cloud API providers. While this diversity offers a broad spectrum of choices, effectively leveraging the options to optimize computational cost and performance remains challenging. In this work, we present AutoMix, an approach that strategically routes queries to larger LMs, based on the approximate correctness of outputs from a smaller LM. Central to AutoMix is a few-shot self-verification mechanism, which estimates the reliability of its own outputs without requiring training. Given that verifications can be noisy, we employ a meta verifier in AutoMix to refine the accuracy of these assessments. Our experiments using LLAMA2-13/70B, on five context-grounded reasoning datasets demonstrate that AutoMix surpasses established baselines, improving the incremental benefit per cost by up to 89%. Our code and data are available at GitHub - automix-llm/automix: Mixing Language Models with Self-Verification and Meta-Verification.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1715385477627334718


비디오 언어 계획 / Video Language Planning

논문 소개

  • 제안된 알고리즘은 비전 언어 모델을 정책 및 가치 함수로, 텍스트-비디오 모델을 동적 모델로 학습시키는 트리 검색 절차를 통해 로봇 공학 도메인 전반에 걸쳐 복잡한 장거리 비디오 계획을 합성할 수 있습니다.

    Enables synthesizing complex long-horizon video plans across robotics domains; the proposed algorithm involves a tree search procedure that trains vision-language models to serve as policies and value functions, and text-to-video models as dynamic models.

논문 초록

  • 우리는 인터넷 규모의 데이터에 대해 사전 학습된 대규모 생성 모델의 최근 발전을 활용하여 생성된 비디오와 언어의 공간에서 복잡한 장시간 작업을 위한 시각적 계획을 가능하게 하는 데 관심이 있습니다. 이를 위해 트리 검색 절차로 구성된 알고리즘인 비디오 언어 계획(VLP)을 소개하며, 이 알고리즘은 (i) 정책과 가치 함수의 역할을 하는 시각 언어 모델을 학습하고 (ii) 동역학 모델로 텍스트-비디오 모델을 학습합니다. VLP는 장시간의 작업 지침과 현재 이미지 관찰을 입력으로 받아 최종 작업을 완료하는 방법을 설명하는 자세한 멀티모달(비디오 및 언어) 사양을 제공하는 긴 비디오 계획을 출력합니다. VLP는 계산 시간이 늘어날수록 비디오 계획이 개선되는 계산 예산이 증가함에 따라 확장되며, 다중 물체 재배치부터 다중 카메라 양팔의 민첩한 조작에 이르기까지 다양한 로봇 공학 영역에 걸쳐 긴 비디오 계획을 합성할 수 있습니다. 생성된 비디오 계획은 생성된 비디오의 각 중간 프레임에 맞춰진 목표 조건부 정책을 통해 실제 로봇 동작으로 변환될 수 있습니다. 실험 결과, VLP는 시뮬레이션 로봇과 실제 로봇 모두(3가지 하드웨어 플랫폼에서) 이전 방식에 비해 장거리 작업 성공률을 크게 향상시키는 것으로 나타났습니다.

    We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).

논문 링크

더 읽어보기

https://x.com/du_yilun/status/1714297584842318157

원문