[2023/09/11 ~ 09/17] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주 선택된 논문들은 대부분 LLM(Large Language Model)이라는 주제에 집중되어 있습니다. 'Textbooks Are All You Need II', 'The Rise and Potential of LLM Based Agents', 'LLMs Can Align Themselves without Finetuning?', 'A Survey of Hallucination in LLMs', 그리고 'Radiology-Llama2: Best-in-Class LLM for Radiology'은 모두 LLM에 대한 주제를 다루고 있습니다.

특히, LLM을 다루는 방식이 다양하다는 점이 독특합니다. 이들 논문은 언어 모델의 학습 방식, 에이전트 기반의 LLM의 발전 가능성, LLM의 정교화와 독자 학습 능력, LLM에 대한 일련의 연구 등 다양한 관점에서 LLM을 분석하고 있습니다. 그중 'Radiology-Llama2: Best-in-Class LLM for Radiology'와 같은 논문은 특정 분야에서의 LLM 활용 가능성을 보여주고 있습니다.

이러한 추세는 인공지능과 기계학습 분야에서 언어 모델학습 방식이 중요하게 여겨지고 있다는 것을 보여주며, 그 중에서도 LLM이 주목받고 있음을 알 수 있습니다. 또한, LLM을 다루는 방식의 다양함은 이 기술이 얼마나 광범위하게 적용될 수 있는지를 시사하며, 그 잠재력을 보여주고 있습니다.

교과서만 있으면 됩니다 II: PHI-1.5 기술 보고서 / Textbooks Are All You Need II: phi-1.5 technical report

논문 소개

  • 300억 개의 토큰으로 학습된 새로운 13억 개의 매개변수 모델, "교과서 수준의" 합성 데이터로 구성된 데이터 세트, 추론 작업에서 다른 대규모 모델과 경쟁하거나 더 나은 성능을 보이는 phi-1.5는 데이터 품질이 이전에 생각했던 것보다 더 중요한 역할을 한다는 것을 시사합니다. llm llm-alignment

    A new 1.3 billion parameter model trained on 30 billion tokens; the dataset consists of "textbook-quality" synthetically generated data; phi-1.5 competes or outperforms other larger models on reasoning tasks suggesting that data quality plays a more important role than previously thought.

논문 초록

  • 일관된 영어를 생성할 수 있는 1,000만 개의 매개변수 모델인 TinyStories 와 최신 기술에 가까운 Python 코딩 성능을 갖춘 13억 개의 매개변수 모델인 phi-1 의 후속 작업에서 시작된 소규모 Transformer 기반 언어 모델의 성능에 대한 연구를 계속하고 있습니다. 후자의 작업은 기존 웹 데이터에 비해 학습 과정을 개선하기 위한 방법으로 기존의 대규모 언어 모델(LLM)을 사용해 '교과서 수준의' 데이터를 생성하는 것을 제안했습니다. 이번에는 자연어의 상식 추론에 초점을 맞춘 '교과서만 있으면 된다'는 접근 방식을 따르며, 자연어 작업에서는 5배 더 큰 모델과 비슷한 성능을, 초등학교 수학 및 기본 코딩과 같은 더 복잡한 추론 작업에서는 대부분의 비프론티어 LLM을 능가하는 13억 개의 파라미터를 가진 \textbf{phi-1.5}라는 새로운 모델을 만들었습니다. 일반적으로 phi-1.5 는 '단계별 사고'나 초보적인 상황 내 학습 수행 능력과 같은 좋은 점과 환각, 독성 및 편향 생성 가능성 등 나쁜 점 모두에서 훨씬 더 큰 LLM의 특성을 많이 보여줍니다. 하지만 고무적인 점은 웹 데이터가 없기 때문에 이러한 측면이 개선되고 있다는 점입니다. 저희는 이러한 시급한 주제에 대한 추가 연구를 촉진하기 위해 phi-1.5 를 오픈소스화했습니다.

    We continue the investigation into the power of smaller Transformer-based language models as initiated by \textbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on \textbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named \textbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, \textbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source \textbf{phi-1.5} to promote further research on these urgent topics.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1701590130270601422

대규모 언어 모델 기반 에이전트의 부상과 잠재력: 서베이 논문 / The Rise and Potential of Large Language Model Based Agents: A Survey

논문 소개

  • Llm 기반 에이전트에 대한 포괄적인 개요로, 이러한 에이전트를 구성하는 방법부터 유용하게 활용하는 방법까지 다룹니다. survey-paper

    A comprehensive overview of llm based agents; covers from how to construct these agents to how to harness them for good.

논문 초록

  • 인류는 오랫동안 인간과 동등하거나 그 이상의 인공지능(AI)을 추구해 왔으며, AI 에이전트는 이러한 목표를 달성할 수 있는 유망한 수단으로 여겨져 왔습니다. AI 에이전트는 환경을 감지하고 의사 결정을 내리고 행동을 취하는 인공 개체입니다. 20세기 중반부터 지능형 AI 에이전트를 개발하기 위해 많은 노력을 기울여 왔습니다. 그러나 이러한 노력은 주로 특정 기능이나 특정 작업의 성능을 향상시키기 위한 알고리즘이나 학습 전략의 발전에 집중되어 왔습니다. 실제로 커뮤니티에 부족한 것은 다양한 시나리오에 적응할 수 있는 AI 에이전트를 설계하기 위한 출발점 역할을 할 수 있는 충분히 일반적이고 강력한 모델입니다. 대규모 언어 모델(LLM)은 다재다능하고 뛰어난 기능으로 인해 인공지능(AGI)의 잠재적인 불꽃으로 간주되며 일반 AI 에이전트 구축에 희망을 제시합니다. 많은 연구 노력에서 AI 에이전트 구축의 기초로 LLM을 활용했으며 상당한 진전을 이루었습니다. 먼저 에이전트의 철학적 기원에서부터 AI의 발전까지 에이전트의 개념을 추적하고, 왜 LLM이 AI 에이전트의 토대가 되는지 설명합니다. 이를 바탕으로 두뇌, 지각, 행동이라는 세 가지 주요 구성 요소로 구성된 LLM 기반 에이전트의 개념적 프레임워크를 제시하고, 이 프레임워크는 다양한 애플리케이션에 맞게 조정할 수 있습니다. 이어서 단일 에이전트 시나리오, 다중 에이전트 시나리오, 인간과 에이전트 간의 협력이라는 세 가지 측면에서 LLM 기반 에이전트의 광범위한 적용 사례를 살펴봅니다. 그 다음에는 에이전트 사회에 대해 자세히 살펴보면서 LLM 기반 에이전트의 행동과 성격, 에이전트가 사회를 형성할 때 나타나는 사회 현상, 인간 사회에 제공하는 인사이트를 살펴봅니다. 마지막으로 이 분야의 다양한 주요 주제와 미해결 문제에 대해 논의합니다.

    For a long time, humanity has pursued artificial intelligence (AI) equivalent to or surpassing the human level, with AI agents considered a promising vehicle for this pursuit. AI agents are artificial entities that sense their environment, make decisions, and take actions. Many efforts have been made to develop intelligent AI agents since the mid-20th century. However, these efforts have mainly focused on advancement in algorithms or training strategies to enhance specific capabilities or performance on particular tasks. Actually, what the community lacks is a sufficiently general and powerful model to serve as a starting point for designing AI agents that can adapt to diverse scenarios. Due to the versatile and remarkable capabilities they demonstrate, large language models (LLMs) are regarded as potential sparks for Artificial General Intelligence (AGI), offering hope for building general AI agents. Many research efforts have leveraged LLMs as the foundation to build AI agents and have achieved significant progress. We start by tracing the concept of agents from its philosophical origins to its development in AI, and explain why LLMs are suitable foundations for AI agents. Building upon this, we present a conceptual framework for LLM-based agents, comprising three main components: brain, perception, and action, and the framework can be tailored to suit different applications. Subsequently, we explore the extensive applications of LLM-based agents in three aspects: single-agent scenarios, multi-agent scenarios, and human-agent cooperation. Following this, we delve into agent societies, exploring the behavior and personality of LLM-based agents, the social phenomena that emerge when they form societies, and the insights they offer for human society. Finally, we discuss a range of key topics and open problems within the field.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1702736490067890239

EvoDiff

논문 소개

  • 서열 공간에서 제어 가능한 단백질 생성을 위해 진화 규모 데이터와 디퓨젼 모델을 결합하여 구조 기반 모델로는 접근이 불가능한 단백질을 생성할 수 있습니다. diffusion

    Combines evolutionary-scale data with diffusion models for controllable protein generation in sequence space; it can generate proteins inaccessible to structure-based models.

논문 링크

더 읽어보기

https://x.com/KevinKaichuang/status/1701953715312136302

RAIN: 언어 모델을 미세 조정하지 않고도 스스로 정렬할 수 있습니다 / RAIN: Your Language Models Can Align Themselves without Finetuning

논문 소개

  • 자체 평가 및 되감기 메커니즘을 통합함으로써 정렬되지 않은 llms가 자체 부스팅을 통해 인간의 선호도에 부합하는 반응을 직접 생성할 수 있음을 발견합니다.

    Discovers that by integrating self-evaluation and rewind mechanisms, unaligned llms can directly produce responses consistent with human preferences via self-boosting.

논문 초록

  • 대규모 언어 모델(LLM)은 종종 인간의 선호도와 불일치를 보이기도 합니다. 이전 연구에서는 인간의 선호도 데이터를 수집한 다음 강화 학습 또는 인스트럭션 튜닝(소위 미세 조정 단계)을 사용하여 사전 학습된 모델을 조정했습니다. 이와는 대조적으로, 추가 데이터 없이 고정된 LLM을 정렬하는 것이 더 매력적입니다. 이 연구에서는 후자의 잠재력을 탐구합니다. 자체 평가와 되감기 메커니즘을 통합함으로써 정렬되지 않은 LLM이 자체 부스팅을 통해 인간의 선호도와 일치하는 반응을 직접 생성할 수 있음을 발견했습니다. 유니티는 새로운 추론 방법인 되감기 자동 회귀 추론(RAIN)을 도입하여 사전 학습된 LLM이 자체 생성을 평가하고 평가 결과를 사용하여 AI의 안전을 위해 되감기 및 앞으로 생성을 안내할 수 있도록 합니다. 특히 RAIN은 모델 정렬을 위한 추가 데이터 없이 작동하며 학습, 기울기 계산 또는 매개변수 업데이트가 필요 없고, 자체 평가 단계에서 모델이 고정 템플릿 프롬프트를 통해 사람의 선호도에 따라 정렬할 지침을 받으므로 초기 프롬프트를 수정할 필요가 없습니다. GPT-4와 사람이 평가한 실험 결과는 RAIN의 효과를 입증합니다. HH 데이터셋에서 RAIN은 바닐라 추론에 비해 LLaMA 30B의 무해성 비율을 82%에서 97%로 향상시키면서 유용성 비율은 유지합니다. 비쿠나 33B에 대한 주요 적대적 공격인 llm 공격에서 RAIN은 공격 성공률을 94%에서 19%로 낮춰 새로운 방어 기준선을 설정합니다.

    Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1702131444041011395

로봇 파쿠르 학습 / Robot Parkour Learning

논문 소개

  • 생태심도 카메라를 사용하여 4족 보행 로봇에 전송되는 엔드투엔드 비전 기반 파쿠르 정책을 학습하는 시스템을 제시하고, 저비용 로봇이 실제 환경에서 파쿠르 기술을 자동으로 선택하고 실행할 수 있음을 보여 줍니다.

    Presents a system for learning end-to-end vision-based parkour policy which is transferred to a quadrupedal robot using its ecocentric depth camera; shows that low-cost robots can automatically select and execute parkour skills in a real-world environment.

논문 초록

  • 파쿠르는 로봇이 복잡한 환경에서 다양한 장애물을 빠르게 극복해야 하는 다리를 이용한 이동의 대도전입니다. 기존 방식은 동물 데이터나 복잡한 보상을 사용하여 다양하지만 맹목적인 이동 기술을 생성하거나 시각을 기반으로 하지만 특화된 기술을 생성할 수 있습니다. 하지만 자율 파쿠르를 구현하기 위해서는 로봇이 다양한 시나리오를 인지하고 반응할 수 있도록 시각 기반이면서 다양한 일반화 가능한 기술을 학습해야 합니다. 본 연구에서는 참조 동작 데이터 없이 간단한 보상을 사용하여 다양한 파쿠르 기술에 대한 단일 엔드투엔드 비전 기반 파쿠르 정책을 학습하는 시스템을 제안합니다. 높은 장애물 오르기, 큰 틈새 뛰어넘기, 낮은 장벽 밑으로 기어가기, 좁은 틈새 통과하기, 달리기 등 파쿠르 기술을 생성하기 위해 직접 배열에서 영감을 얻은 강화 학습 방법을 개발합니다. 유니티는 이러한 기술을 단일 비전 기반 파쿠르 정책으로 추출하여 자기 중심 깊이 카메라를 사용하여 4족 보행 로봇에 전송합니다. 유니티의 시스템은 두 대의 서로 다른 저비용 로봇이 자율적으로 적절한 파쿠르 기술을 선택하고 실행하여 까다로운 실제 환경을 통과할 수 있음을 보여줍니다.

    Parkour is a grand challenge for legged locomotion that requires robots to overcome various obstacles rapidly in complex environments. Existing methods can generate either diverse but blind locomotion skills or vision-based but specialized skills by using reference animal data or complex rewards. However, autonomous parkour requires robots to learn generalizable skills that are both vision-based and diverse to perceive and react to various scenarios. In this work, we propose a system for learning a single end-to-end vision-based parkour policy of diverse parkour skills using a simple reward without any reference motion data. We develop a reinforcement learning method inspired by direct collocation to generate parkour skills, including climbing over high obstacles, leaping over large gaps, crawling beneath low barriers, squeezing through thin slits, and running. We distill these skills into a single vision-based parkour policy and transfer it to a quadrupedal robot using its egocentric depth camera. We demonstrate that our system can empower two different low-cost robots to autonomously select and execute appropriate parkour skills to traverse challenging real-world environments.

논문 링크

더 읽어보기

https://x.com/zipengfu/status/1701316023612219445

대형 파운데이션 모델에서 환각에 대한 설문 조사 / A Survey of Hallucination in Large Foundation Models

논문 소개

  • 다양한 유형의 환각 현상을 분류하고 환각을 평가하기 위한 평가 기준과 완화 전략을 제공합니다. survey-paper foundation-model

    Classifies different types of hallucination phenomena and provides evaluation criteria for assessing hallucination along with mitigation strategies.

논문 초록

  • 파운데이션 모델(FM)에서의 환각은 사실과 다르거나 조작된 정보가 포함된 콘텐츠를 생성하는 것을 말합니다. 이 조사 논문은 '대형' 파운데이션 모델(LFM)을 중심으로 환각 문제를 식별, 규명, 해결하기 위한 최근의 노력에 대한 광범위한 개요를 제공합니다. 이 논문에서는 LFM에 특화된 다양한 유형의 환각 현상을 분류하고 환각의 정도를 평가하기 위한 평가 기준을 수립합니다. 또한 LFM에서 환각을 완화하기 위한 기존의 전략을 검토하고 이 분야의 향후 연구 방향에 대해 논의합니다. 이 논문은 기본적으로 LFM의 환각과 관련된 과제와 해결책을 종합적으로 검토합니다.

    Hallucination in a foundation model (FM) refers to the generation of content that strays from factual reality or includes fabricated information. This survey paper provides an extensive overview of recent efforts that aim to identify, elucidate, and tackle the problem of hallucination, with a particular focus on ``Large'' Foundation Models (LFMs). The paper classifies various types of hallucination phenomena that are specific to LFMs and establishes evaluation criteria for assessing the extent of hallucination. It also examines existing strategies for mitigating hallucination in LFMs and discusses potential directions for future research in this area. Essentially, the paper offers a comprehensive examination of the challenges and solutions related to hallucination in LFMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1701970034711539839

에이전트: 자율 언어 에이전트를 위한 오픈소스 프레임워크 / Agents: An Open-source Framework for Autonomous Language Agents

논문 소개

  • 계획, 메모리, 도구 사용, 다중 에이전트 커뮤니케이션 등의 기능을 지원하는 자율 언어 에이전트를 구축하기 위한 오픈소스 라이브러리입니다.

    An open-source library for building autonomous language agents including support for features like planning, memory, tool usage, multi-agent communication, and more.

논문 초록

  • 최근 대규모 언어 모델(LLM)의 발전으로 연구자와 개발자는 자연어 인터페이스를 사용하여 다양한 작업을 자동으로 해결하고 환경, 사람 및 다른 에이전트와 상호 작용할 수 있는 자율 언어 에이전트를 구축할 수 있습니다. 저희는 언어 에이전트를 인공지능을 향한 유망한 방향이라고 생각하며, 이러한 발전을 더 많은 비전문가에게 공개하기 위해 오픈소스 라이브러리인 Agents를 출시했습니다. 에이전트는 계획, 메모리, 도구 사용, 다중 에이전트 통신, 세분화된 기호 제어 등 중요한 기능을 지원하도록 세심하게 설계되었습니다. 에이전트는 비전문가도 많은 코딩 없이도 최첨단 자율 언어 에이전트를 구축, 사용자 지정, 테스트, 조정 및 배포할 수 있으므로 사용자 친화적입니다. 또한 라이브러리는 모듈화된 설계로 연구자들이 쉽게 확장할 수 있어 연구 친화적입니다. 에이전트는 GitHub - aiwaves-cn/agents: An Open-source Framework for Autonomous Language Agents 에서 사용할 수 있습니다.

    Recent advances on large language models (LLMs) enable researchers and developers to build autonomous language agents that can automatically solve various tasks and interact with environments, humans, and other agents using natural language interfaces. We consider language agents as a promising direction towards artificial general intelligence and release Agents, an open-source library with the goal of opening up these advances to a wider non-specialist audience. Agents is carefully engineered to support important features including planning, memory, tool usage, multi-agent communication, and fine-grained symbolic control. Agents is user-friendly as it enables non-specialists to build, customize, test, tune, and deploy state-of-the-art autonomous language agents without much coding. The library is also research-friendly as its modularized design makes it easily extensible for researchers. Agents is available at GitHub - aiwaves-cn/agents: An Open-source Framework for Autonomous Language Agents.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1702497897395396960

Radiology-Llama2: 동급 최고의 방사선학용 대규모 언어 모델 / Radiology-Llama2: Best-in-Class Large Language Model for Radiology

논문 소개

  • 영상의학에 맞게 조정된 라마 2 기반의 llm을 제공하며, 대규모 영상의학 보고서 데이터셋을 기반으로 조정되어 영상의학 소견에서 일관되고 임상적으로 유용한 인상을 생성합니다.

    Presents an llm based on llama 2 tailored for radiology; it's tuned on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiology findings.

논문 초록

  • 이 논문에서는 명령어 튜닝이라는 프로세스를 통해 영상의학에 특화된 대규모 언어 모델인 Radiology-Llama2를 소개합니다. Radiology-Llama2는 Llama2 아키텍처를 기반으로 하며 대규모 방사선 보고서 데이터셋을 학습하여 방사선 소견에서 일관성 있고 임상적으로 유용한 인상을 생성합니다. MIMIC-CXR 및 OpenI 데이터셋에서 ROUGE 메트릭을 사용한 정량적 평가 결과, Radiology-Llama2는 다른 생성 언어 모델에 비해 최첨단 성능을 달성하는 것으로 나타났으며, Rouge-1 점수는 MIMIC-CXR에서 0.4834점, OpenI에서 0.4185점을 기록했습니다. 영상의학 전문가들의 추가 평가에서는 이해 가능성, 일관성, 관련성, 간결성, 임상적 유용성에서 이 모델의 강점을 강조했습니다. 이 작업은 영상의학과 같은 전문 분야에 맞게 설계되고 조정된 로컬라이즈드 언어 모델의 잠재력을 보여줍니다. 이러한 모델을 적절히 평가하고 배포하면 암기 작업을 자동화하고 인간의 전문성을 향상시킴으로써 방사선과 같은 분야를 혁신할 수 있습니다.

    This paper introduces Radiology-Llama2, a large language model specialized for radiology through a process known as instruction tuning. Radiology-Llama2 is based on the Llama2 architecture and further trained on a large dataset of radiology reports to generate coherent and clinically useful impressions from radiological findings. Quantitative evaluations using ROUGE metrics on the MIMIC-CXR and OpenI datasets demonstrate that Radiology-Llama2 achieves state-of-the-art performance compared to other generative language models, with a Rouge-1 score of 0.4834 on MIMIC-CXR and 0.4185 on OpenI. Additional assessments by radiology experts highlight the model's strengths in understandability, coherence, relevance, conciseness, and clinical utility. The work illustrates the potential of localized language models designed and tuned for specialized domains like radiology. When properly evaluated and deployed, such models can transform fields like radiology by automating rote tasks and enhancing human expertise.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1701774444052557965

소프트웨어 개발을 위한 커뮤니케이션 에이전트 / Communicative Agents for Software Development

논문 소개

  • 폭포수 모델을 반영한 가상 채팅 기반 소프트웨어 개발 회사인 chatdev를 소개하며, 1달러 미만의 비용으로 전체 소프트웨어 개발 프로세스를 7분 이내에 완료하는 등 소프트웨어 생성에 있어 에이전트의 효율성을 보여 줍니다.

    Presents chatdev, a virtual chat-powered software development company mirroring the waterfall model; shows the efficacy of the agent in software generation, even completing the entire software development process in less than seven minutes for less than one dollar.

논문 초록

  • 소프트웨어 엔지니어링은 복잡한 의사 결정 프로세스가 특징인 분야로, 미묘한 직관과 협의에 의존하는 경우가 많습니다. 최근 딥러닝의 발전은 소프트웨어 개발의 다양한 단계에서 구현되는 정교한 설계를 통해 소프트웨어 엔지니어링 관행에 혁명을 일으키기 시작했습니다. 이 논문에서는 전체 소프트웨어 개발 프로세스에 걸쳐 대규모 언어 모델(LLM)을 활용하여 자연어 커뮤니케이션을 통해 주요 프로세스를 간소화하고 통합함으로써 각 단계마다 전문화된 모델이 필요하지 않도록 하는 혁신적인 패러다임을 제시합니다. 이 패러다임의 핵심에는 기존의 폭포수 모델을 반영하여 개발 프로세스를 설계, 코딩, 테스트, 문서화의 네 가지 시간적 단계로 세심하게 구분하는 가상 채팅 기반 소프트웨어 개발 회사인 ChatDev가 있습니다. 각 단계에는 프로그래머, 코드 리뷰어, 테스트 엔지니어와 같은 에이전트 팀이 참여하여 협업 대화를 촉진하고 원활한 워크플로를 촉진합니다. 채팅 체인은 각 단계를 원자적인 하위 작업으로 세분화하여 촉진자 역할을 합니다. 이를 통해 상황 인식 커뮤니케이션을 통해 솔루션을 제안하고 검증하여 특정 하위 작업을 효율적으로 해결할 수 있는 이중 역할을 수행할 수 있습니다. ChatDev의 도구적 분석은 소프트웨어 생성에 있어 놀라운 효율성을 보여주며, 1달러 미만의 비용으로 전체 소프트웨어 개발 프로세스를 7분 이내에 완료할 수 있게 해줍니다. 또한 잠재적인 취약점을 식별하고 완화할 뿐만 아니라 잠재적인 오류를 수정하는 동시에 뛰어난 효율성과 비용 효율성을 유지합니다. ChatDev의 잠재력은 LLM을 소프트웨어 개발 영역에 통합할 수 있는 새로운 가능성을 열어줍니다.

    Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.

논문 링크

더 읽어보기

https://x.com/KevinAFischer/status/1702355125418045860

MAmmoTH: 하이브리드 인스트럭션 튜닝을 통한 수학 제너럴리스트 모델 구축 / MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning

논문 소개

  • 일반적인 수학 문제 해결을 위해 맞춤화된 일련의 오픈소스 머신러닝으로, 엄선된 인스트럭션 튜닝 데이터세트로 학습되며 여러 수학적 추론 데이터세트에서 기존 오픈소스 모델보다 뛰어난 성능을 발휘합니다. mathglm

    A series of open-source llms tailored for general math problem-solving; the models are trained on a curated instruction tuning dataset and outperform existing open-source models on several mathematical reasoning datasets.

논문 초록

  • 일반적인 수학 문제 해결을 위해 특별히 맞춤화된 오픈소스 대규모 언어 모델(LLM) 시리즈인 MAmmoTH를 소개합니다. MAmmoTH 모델은 세심하게 선별된 명령어 튜닝 데이터세트인 MathInstruct를 기반으로 학습됩니다. MathInstruct는 13개의 수학 데이터셋에서 중간 수준의 추론으로 컴파일되며, 이 중 6개는 유니티에서 새롭게 큐레이팅한 추론이 포함되어 있습니다. 이 솔루션은 생각의 사슬(CoT)과 생각의 프로그램(PoT) 근거의 고유한 하이브리드를 제공하며 수학의 다양한 분야를 광범위하게 다룹니다. CoT와 PoT의 혼합은 도구 사용의 잠재력을 발휘할 뿐만 아니라 다양한 수학 문제에 대해 서로 다른 사고 과정을 허용합니다. 그 결과, MAmmoTH 시리즈는 모든 규모에 걸쳐 9개의 수학적 추론 데이터셋에서 평균 13%에서 29%의 정확도 향상으로 기존 오픈소스 모델을 크게 능가합니다. 놀랍게도, 경쟁사 수준의 데이터셋인 MATH에서 MAmmoTH-7B 모델은 35%에 도달하여 최고의 오픈소스 7B 모델(WizardMath)을 25% 능가하며, MAmmoTH-34B 모델은 MATH에서 46%의 정확도를 달성하여 GPT-4의 CoT 결과를 뛰어넘었습니다. 이 연구는 우수한 수학 범용 모델을 개발하는 데 있어 다양한 문제 범위와 하이브리드 이론의 사용의 중요성을 강조합니다.

    We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.

논문 링크

더 읽어보기

https://x.com/xiangyue96/status/1701710215442309323

원문

1개의 좋아요