[2024/03/25 ~ 03/31] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/03/25 ~ 03/31] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선택된 논문들의 경향성을 살펴보면, 주요 흐름은 크게 두 가지로 요약될 수 있습니다. 첫째, 여러 논문들에서는 LLMs(Large Language Models)의 활용과 발전에 중점을 둔 연구가 두드러집니다. "LLMs for University-Level Coding Course", "Long-form factuality in LLMs", 그리고 "LLM2LLM"과 같은 작품들이 그 예입니다. 둘째로는, 인공지능 기술의 다양한 영역에 대한 적용과 이를 통한 새로운 애플리케이션 개발에 대한 연구가 포함되어 있습니다. 예를 들어, "DBRX", "Grok-1.5", 그리고 "Agent Lumos"와 같은 논문들이 있습니다.

  • 대규모 언어 모델(LLMs)과 관련된 연구들이 많은 것은 최근 몇 년 동안 인공지능 분야에서 주목 받고 있는 트렌드와 일치합니다. 이는 자연어 처리(NLP) 기술의 발전이 그 기반이 되고 있으며, 이를 통해 인간과 같은 방식으로 복잡한 언어적 문제를 해결하거나, 프로그래밍과 같은 전문적 영역에서의 응용 능력을 향상시키려는 시도가 활발히 이루어지고 있음을 보여줍니다. 또한, LLM을 이용한 연구의 증가는 이러한 모델들이 보다 정교한 문제 해결 능력을 가질 뿐만 아니라, 다양한 형태의 지식과 정보를 처리하고 생성할 수 있는 가능성을 내포하고 있기 때문입니다.

  • 또한, 인공지능 기술의 적용 범위를 확장하는 연구의 증가는 이 분야의 기술적 진보가 다양한 실생활 문제를 해결하기 위한 새로운 방법을 제공하고 있음을 시사합니다. 이는 AI 기술이 단순히 이론적 연구나 개별적인 태스크 수행을 넘어, 사회 전반적인 문제를 해결할 수 있는 실질적인 솔루션을 제공할 가능성을 탐구하고 있음을 나타냅니다. 이와 같은 트렌드는 인공지능 기술이 그 적용 범위와 깊이를 계속해서 확장하고 있음을 분명히 보여주며, 앞으로의 발전 가능성을 기대하게 만듭니다.


DBRX

논문 소개

  • 새로운 132B 매개변수 개방형 LLM으로 MMLU 및 GSM8K와 같은 일반적인 벤치마크에서 기존의 모든 오픈 소스 모델보다 성능이 뛰어나며, 12T 토큰(텍스트 및 코드)으로 사전 훈련된 DBRX는 전문가 혼합(MoE) 아키텍처를 사용하여 추론 속도가 LLaMA2-70B보다 최대 2배 빠르고 총 및 활성 매개변수 수 측면에서 Grok-1 크기의 약 40%에 불과합니다; 프로그래밍과 수학에서 우수한 성능을 보여주는 DBRX Instruct도 있습니다. DBRX는 범용 LLM으로 학습되었지만 코드 생성을 위해 명시적으로 구축된 모델인 CodeLaMa-70 Instruct를 능가합니다.

    A new 132B parameter open LLM that outperforms all the established open-source models on common benchmarks like MMLU and GSM8K; DBRX was pretrained on 12T tokens (text and code) and uses a mixture-of-experts (MoE) architecture; its inference is up to 2x faster than LLaMA2-70B and is about 40% of the size of Grok-1 in terms of both total and active parameter counts; there is also DBRX Instruct which demonstrates good performance in programming and mathematics; while DBRX is trained as a general-purpose LLM, it still surpasses CodeLLaMa-70 Instruct, a model built explicitly for code generation.

논문 링크

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

더 읽어보기

https://x.com/omarsar0/status/1773018193885303266


Grok-1.5

논문 소개

  • 고급 이해와 추론, 문제 해결 능력을 위한 XAI의 최신 긴 컨텍스트 LLM인 Grok-1.5는 MATH 벤치마크에서 50.6%, GSM8K 벤치마크에서 90%의 점수를 획득했으며, 이 모델은 최대 128K 토큰의 긴 컨텍스트를 처리하고 강력한 검색 기능을 발휘합니다.

    XAI’s latest long-context LLM for advanced understanding and reasoning and problem-solving capabilities; Grok-1.5 achieved a 50.6% score on the MATH benchmark and a 90% score on the GSM8K benchmark; this model can process long contexts of up to 128K tokens and demonstrates powerful retrieval capabilities.

논문 링크

더 읽어보기

https://x.com/xai/status/1773510159740063860


SEEDS

논문 소개

  • 확산 모델에 기반한 생성형 AI 모델로, 일기 예보의 불확실성을 정량화하는 강력한 기능을 보여주며, 운영 중인 수치 일기 예보 시스템에서 최소 1~2개의 예보에 기반한 대규모 앙상블을 생성할 수 있습니다.

    A generative AI model based on diffusion models that shows powerful capabilities to quantify uncertainty in weather forecasting; it can generate a large ensemble conditioned on as few as one or two forecasts from an operational numerical weather prediction system.

논문 초록

  • 불확실성을 정량화하는 것은 의사 결정에 매우 중요합니다. 대표적인 예로 수치 일기 예보의 확률론적 예측을 들 수 있습니다. 일기 예보에서 불확실성을 표현하는 일반적인 접근 방식은 다양한 조건에서 물리 기반 시뮬레이션을 실행하여 예측 앙상블을 생성하는 것인데, 이는 계산 비용이 많이 드는 프로세스입니다. 이러한 예측을 과거 데이터에서 학습한 심층 생성 확산 모델로 에뮬레이션하여 계산 비용을 상각할 것을 제안합니다. 학습된 모델은 고성능 컴퓨팅 가속기와 관련하여 확장성이 뛰어나며 저렴한 비용으로 수천 개의 현실적인 일기 예보를 샘플링할 수 있습니다. 운영 앙상블 예측을 에뮬레이션하도록 설계된 경우, 생성된 앙상블은 통계적 특성과 예측 기술에서 물리학 기반 앙상블과 유사합니다. 운영 예측 시스템에 존재하는 편향을 수정하도록 설계된 경우, 생성된 앙상블은 향상된 확률적 예측 메트릭을 보여줍니다. 더 신뢰할 수 있고 기상이변의 확률을 더 정확하게 예측할 수 있습니다. 이 방법론은 일기 예보에 초점을 맞추고 있지만, 기후 위험 평가를 위한 대규모 기후 예측 앙상블을 생성할 수 있습니다.

Uncertainty quantification is crucial to decision-making. A prominent example is probabilistic forecasting in numerical weather prediction. The dominant approach to representing uncertainty in weather forecasting is to generate an ensemble of forecasts by running physics-based simulations under different conditions, which is a computationally costly process. We propose to amortize the computational cost by emulating these forecasts with deep generative diffusion models learned from historical data. The learned models are highly scalable with respect to high-performance computing accelerators and can sample thousands of realistic weather forecasts at low cost. When designed to emulate operational ensemble forecasts, the generated ones are similar to physics-based ensembles in statistical properties and predictive skill. When designed to correct biases present in the operational forecasting system, the generated ensembles show improved probabilistic forecast metrics. They are more reliable and forecast probabilities of extreme weather events more accurately. While we focus on weather forecasting, this methodology may enable creating large climate projection ensembles for climate risk assessment.

논문 링크

https://www.science.org/doi/10.1126/sciadv.adk4489

더 읽어보기

https://x.com/GoogleAI/status/1773774362413355099


대학 수준의 코딩 코스에서 휴먼, GPT-3.5, GPT-4의 성능 비교 / A comparison of Human, GPT-3.5, and GPT-4 Performance in a University-Level Coding Course

논문 소개

  • 최신 LLM이 물리 코딩 과제에서 인간의 숙련도를 뛰어넘지 못했으며, GPT-4가 GPT-3.5를 크게 능가하고 신속한 엔지니어링으로 성능을 더욱 향상시킬 수 있다는 사실을 발견했습니다.

    Finds that the latest LLMs have not surpassed human proficiency in physics coding assignments; also finds that GPT-4 significantly outperforms GPT-3.5 and prompt engineering can further enhance performance.

논문 초록(Abstract)

  • 이 연구는 Python 언어를 사용하는 대학 수준의 물리학 코딩 과제에서 학생 작품과 학생과 GPT-4의 기여도가 모두 포함된 혼합 범주에 대해 프롬프트 엔지니어링이 있든 없든 ChatGPT 변형인 GPT-3.5 및 GPT-4의 성능을 평가합니다. 다양한 카테고리에 걸쳐 50개의 학생 제출물과 50개의 AI 생성 제출물을 비교하고 3개의 독립적인 마커로 블라인드 마킹한 결과, n = 300 데이터 포인트를 수집했습니다. 학생들은 평균 91.9%(SE:0.4)의 점수를 얻어 81.1%(SE:0.8)를 기록한 프롬프트 엔지니어링을 사용한 최고 성능의 AI 제출물 범주인 GPT-4를 넘어 통계적으로 유의미한 차이(p = 2.482 \times 10^{-10})를 보였습니다. 프롬프트 엔지니어링은 GPT-4(p = 1.661 \times 10^{-4})와 GPT-3.5(p = 4.967 \times 10^{-9}) 모두에서 점수를 크게 향상시켰습니다. 또한 블라인드 마커들은 '확실히 인공지능'에서 '확실히 인간'까지 4점 리커트 척도로 제출물의 저자를 추측하는 과제를 받았습니다. 그 결과, '확실히 인간'으로 분류된 작품의 92.1%가 사람이 쓴 작품으로 판명되는 등 정확하게 저자를 파악했습니다. 이를 'AI'와 '인간'의 이분법적 분류로 단순화하면 평균 85.3%의 정확도를 보였습니다. 이러한 결과는 AI가 생성한 작업이 대학생의 작업 품질에 가깝게 접근하지만, 인간 평가자가 감지할 수 있는 경우가 많다는 것을 시사합니다.

    This study evaluates the performance of ChatGPT variants, GPT-3.5 and GPT-4, both with and without prompt engineering, against solely student work and a mixed category containing both student and GPT-4 contributions in university-level physics coding assignments using the Python language. Comparing 50 student submissions to 50 AI-generated submissions across different categories, and marked blindly by three independent markers, we amassed n = 300 data points. Students averaged 91.9% (SE:0.4), surpassing the highest performing AI submission category, GPT-4 with prompt engineering, which scored 81.1% (SE:0.8) - a statistically significant difference (p = 2.482 \times 10^{-10}). Prompt engineering significantly improved scores for both GPT-4 (p = 1.661 \times 10^{-4}) and GPT-3.5 (p = 4.967 \times 10^{-9}). Additionally, the blinded markers were tasked with guessing the authorship of the submissions on a four-point Likert scale from Definitely AI' to Definitely Human'. They accurately identified the authorship, with 92.1% of the work categorized as 'Definitely Human' being human-authored. Simplifying this to a binary AI' or Human' categorization resulted in an average accuracy rate of 85.3%. These findings suggest that while AI-generated work closely approaches the quality of university students' work, it often remains detectable by human evaluators.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1772647466820685895


미니 제미나이: 멀티 모달리티 비전 언어 모델의 잠재력 마이닝 / Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

논문 소개

  • 멀티 모달리티 비전 모델을 향상시키는 간단한 프레임워크, 특히 토큰 증가 없이 고해상도 개선을 위한 추가 시각 인코더를 통해 시각 토큰을 향상시키고, 여러 제로 샷 벤치마크에서 최고 성능을 달성하며, 심지어 개발된 비공개 모델을 능가합니다.

    A simple framework to enhance multi-modality vision models; specifically, visual tokens are enhanced through an additional visual encoder for high-resolution refinement without token increase; achieves top performance in several zero-shot benchmarks and even surpasses the developed private models.

논문 초록(Abstract)

  • 이번 작업에서는 멀티 모달리티 비전 언어 모델(VLM)을 향상시키는 간단하고 효과적인 프레임워크인 Mini-Gemini를 소개합니다. 기본적인 시각적 대화와 추론을 용이하게 하는 VLM의 발전에도 불구하고 GPT-4 및 Gemini와 같은 고급 모델에 비해 성능 격차가 지속되고 있습니다. 저희는 고해상도 시각적 토큰, 고품질 데이터, VLM 가이드 생성이라는 세 가지 측면에서 더 나은 성능과 모든 워크플로우를 위한 VLM의 잠재력을 발굴하여 그 격차를 좁히고자 노력하고 있습니다. 시각적 토큰을 향상시키기 위해 시각적 토큰 수를 늘리지 않고도 고해상도 개선을 위해 추가적인 시각적 인코더를 활용할 것을 제안합니다. 또한 정확한 이미지 이해와 추론 기반 생성을 촉진하는 고품질 데이터 세트를 구축하여 현재 VLM의 작동 범위를 확장합니다. 일반적으로 Mini-Gemini는 VLM의 잠재력을 더욱 극대화하고 이미지 이해, 추론, 생성을 동시에 수행하여 현재 프레임워크의 역량을 강화합니다. Mini-Gemini는 2B에서 34B에 이르는 일련의 고밀도 및 MoE 대규모 언어 모델(LLM)을 지원합니다. 여러 제로 샷 벤치마크에서 최고의 성능을 달성하고 심지어 개발된 사설 모델을 능가하는 것으로 입증되었습니다. 코드와 모델은 GitHub - dvlab-research/MiniGemini: Official implementation for Mini-Gemini 에서 확인할 수 있습니다.

    In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We try to narrow the gap by mining the potential of VLMs for better performance and any-to-any workflow from three aspects, i.e., high-resolution visual tokens, high-quality data, and VLM-guided generation. To enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B. It is demonstrated to achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. Code and models are available at GitHub - dvlab-research/MiniGemini: Official implementation for Mini-Gemini.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1773170068521713713


대규모 언어 모델의 긴 형식의 사실성 / Long-form factuality in large language models

논문 소개

  • 오픈 도메인에서 38개의 주제를 포함한 질문 세트를 생성하여 장문의 사실 관계를 조사하고, 작업에 대한 평가를 수행할 LLM 기반 에이전트를 제안하며, LLM 에이전트가 초인적인 평가 성능을 달성할 수 있으며 사람 주석보다 20배 저렴하다는 것을 발견합니다.

    Investigates long-form factuality in open-domain by generating a prompt set of questions including 38 topics; also proposes an LLM-based agent to perform evaluation for the task; finds that LLM agents can achieve superhuman rating performance and is reported to be 20 times cheaper than human annotations.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)은 개방형 주제에 대한 사실 추구 프롬프트에 응답할 때 사실 오류가 포함된 콘텐츠를 생성하는 경우가 많습니다. 개방형 도메인에서 모델의 긴 형식의 사실성을 벤치마킹하기 위해 먼저 GPT-4를 사용하여 38개 주제에 걸친 수천 개의 질문으로 구성된 프롬프트 세트인 LongFact를 생성합니다. 그런 다음, 검색 증강 사실성 평가기(SAFE)라고 부르는 방법을 통해 LLM 에이전트를 장문 사실성 자동 평가기로 사용할 수 있도록 제안합니다. SAFE는 LLM을 활용하여 긴 형식의 응답을 일련의 개별 사실로 분류하고 Google 검색에 검색 쿼리를 전송하고 검색 결과가 사실을 뒷받침하는지 여부를 결정하는 다단계 추론 프로세스를 통해 각 사실의 정확성을 평가합니다. 또한, 긴 형식의 사실성에 대한 종합적인 지표로 F1 점수를 확장할 것을 제안합니다. 이를 위해 응답에서 지원되는 사실의 비율(정확도)과 사용자가 선호하는 응답 길이를 나타내는 하이퍼매개변수 대비 제공된 사실의 비율(리콜)의 균형을 맞춥니다. 경험적으로, 저희는 LLM 에이전트가 초인적인 평가 성능을 달성할 수 있음을 입증했습니다. 약 16,000개의 개별 팩트 세트에서 SAFE는 크라우드소싱된 인간 주석가와 72%, 100개의 불일치 사례의 무작위 하위 집합에서는 76%의 시간 동안 일치하는 것으로 나타났습니다. 동시에 SAFE는 인간 어노테이터보다 20배 이상 저렴합니다. 또한 4개 모델군(Gemini, GPT, Claude, PaLM-2)에 걸쳐 13개의 언어 모델을 LongFact에서 벤치마크한 결과, 일반적으로 규모가 큰 언어 모델일수록 긴 형식의 사실성을 더 잘 달성한다는 사실을 발견했습니다. LongFact, SAFE 및 모든 실험 코드는 GitHub - google-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper "Long-form factuality in large language models". 에서 확인할 수 있습니다.

    Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can achieve superhuman rating performance - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at GitHub - google-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper "Long-form factuality in large language models"..

논문 링크

더 읽어보기

GitHub - google-deepmind/long-form-factuality: Benchmarking long-form factuality in large language models. Original code for our paper "Long-form factuality in large language models".

https://x.com/JerryWeiAI/status/1773402343301877960


루모스 에이전트: 오픈 소스 언어 에이전트를 위한 통합 및 모듈식 교육 / Agent Lumos: Unified and Modular Training for Open-Source Language Agents

논문 소개

  • 오픈 소스 LLM 기반 에이전트 교육을 위한 통합 프레임워크로, 하위 목표 생성을 학습할 수 있는 계획 모듈과 도구 사용을 통해 이를 실행에 옮길 수 있도록 훈련된 모듈이 포함된 모듈식 아키텍처로 구성되어 있습니다.

    A unified framework for training open-source LLM-based agents; it consists of a modular architecture with a planning module that can learn subgoal generation and a module trained to translate them to action with tool usage.

논문 초록(Abstract)

  • 클로즈드 소스 에이전트는 특히 복잡한 대화형 작업에서 경제성, 투명성, 재현성 부족과 같은 여러 가지 문제를 안고 있습니다. 이러한 이유로 오픈 소스 대안이 개발되고 있습니다. 오픈 소스 LLM 기반 에이전트 교육을 위한 최초의 프레임워크 중 하나인 LUMOS를 소개합니다. LUMOS는 높은 수준의 하위 목표 생성을 학습하는 계획 모듈과 실행 모듈의 다양한 도구를 사용하여 이를 행동으로 전환하도록 훈련된 접지 모듈을 갖춘 학습 가능한 통합 모듈형 아키텍처를 특징으로 합니다. 이러한 설계를 통해 모듈식 업그레이드가 가능하며 다양한 대화형 작업에 폭넓게 적용할 수 있습니다. 일반화 가능한 에이전트 학습을 촉진하기 위해 다양한 복잡한 대화형 작업에 걸쳐 다양한 근거 추론 근거에서 파생된 대규모의 통합된 고품질 훈련 주석을 수집합니다. 9개의 데이터 세트에서 LUMOS는 몇 가지 주요 이점을 보여줍니다. (1) 각 작업 유형에 대한 홀드아웃 데이터 세트(훈련에 사용되지 않은)에서 LUMOS는 여러 대형 오픈 소스 에이전트보다 뛰어납니다. (2) LUMOS는 QA 및 웹 작업에서 GPT 에이전트를 능가하며, (3) LUMOS는 보이지 않는 작업에도 효과적으로 일반화하여 33B 규모 에이전트 및 도메인별 에이전트보다 뛰어난 성능을 발휘합니다.

    Closed-source agents suffer from several issues such as a lack of affordability, transparency, and reproducibility, particularly on complex interactive tasks. This motivates the development of open-source alternatives. We introduce LUMOS, one of the first frameworks for training open-source LLM-based agents. LUMOS features a learnable, unified, and modular architecture with a planning module that learns high-level subgoal generation, and a grounding module trained to translate these into actions using various tools in the execution module. The design allows for modular upgrades and wider applicability to diverse interactive tasks. To foster generalizable agent learning, we collect large-scale, unified, and high-quality training annotations derived from diverse ground-truth reasoning rationales across various complex interactive tasks. On 9 datasets, LUMOS exhibits several key advantages: (1) LUMOS excels multiple larger open-source agents on the held-out datasets (unused for training) for each task type. LUMOS even surpasses GPT agents on QA and web tasks; (2) LUMOS outperforms open-source agents produced by chain-of-thoughts and unmodularized integrated training; and (3) LUMOS effectively generalizes to unseen tasks, outperforming 33B-scale agents and domain-specific agents.

논문 링크

더 읽어보기

https://x.com/Wade_Yin9712/status/1773792306791055397


AIOS: LLM 에이전트 운영 체제 / AIOS: LLM Agent Operating System

논문 소개

  • LLM을 두뇌 역할을 하는 운영 시스템에 통합하는 LLM 에이전트 운영 시스템으로, 리소스 할당, 컨텍스트 전환을 최적화하고 에이전트의 동시 실행, 도구 서비스를 가능하게 하며 에이전트에 대한 액세스 제어까지 유지할 수 있습니다.

    An LLM agent operation system that integrates LLMs into operation systems as a brain; the agent can optimize resource allocation, context switching, enable concurrent execution of agents, tool service, and even maintain access control for agents.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM) 기반 지능형 에이전트의 통합 및 배포에는 효율성과 효과를 저해하는 여러 가지 문제가 있습니다. 이러한 문제 중에는 LLM을 통한 에이전트 요청의 최적이 아닌 스케줄링 및 리소스 할당, 에이전트와 LLM 간의 상호 작용 중 컨텍스트 유지의 어려움, 서로 다른 기능과 전문성을 가진 이기종 에이전트를 통합하는 데 내재된 복잡성 등이 있습니다. 에이전트 수와 복잡성의 급격한 증가는 이러한 문제를 더욱 악화시켜 종종 병목 현상과 최적의 리소스 활용을 저해하는 결과를 초래합니다. 이 백서에서는 이러한 문제에서 영감을 받아 운영체제의 두뇌 역할을 하는 대규모 언어 모델을 운영체제(OS)에 내장하여 AGI를 향한 중요한 단계인 '영혼이 있는 운영체제'를 구현하는 LLM 에이전트 운영체제인 AIOS를 소개합니다. 구체적으로 AIOS는 리소스 할당 최적화, 에이전트 간 컨텍스트 전환 촉진, 에이전트 동시 실행, 에이전트를 위한 도구 서비스 제공, 에이전트에 대한 액세스 제어 유지 등의 기능을 제공하도록 설계되었습니다. 이러한 운영 체제의 아키텍처를 소개하고, 해결하고자 하는 핵심 과제를 간략히 설명하며, AIOS의 기본 설계 및 구현을 제공합니다. 여러 에이전트의 동시 실행에 대한 실험을 통해 AIOS 모듈의 안정성과 효율성을 입증합니다. 이를 통해 LLM 에이전트의 성능과 효율성을 개선할 뿐만 아니라 향후 AIOS 생태계의 더 나은 개발과 배포를 위한 선구자 역할을 하고자 합니다. 이 프로젝트는 GitHub - agiresearch/AIOS: AIOS: LLM Agent Operating System 에서 오픈소스로 제공됩니다.

    The integration and deployment of large language model (LLM)-based intelligent agents have been fraught with challenges that compromise their efficiency and efficacy. Among these issues are sub-optimal scheduling and resource allocation of agent requests over the LLM, the difficulties in maintaining context during interactions between agent and LLM, and the complexities inherent in integrating heterogeneous agents with different capabilities and specializations. The rapid increase of agent quantity and complexity further exacerbates these issues, often leading to bottlenecks and sub-optimal utilization of resources. Inspired by these challenges, this paper presents AIOS, an LLM agent operating system, which embeds large language model into operating systems (OS) as the brain of the OS, enabling an operating system "with soul" -- an important step towards AGI. Specifically, AIOS is designed to optimize resource allocation, facilitate context switch across agents, enable concurrent execution of agents, provide tool service for agents, and maintain access control for agents. We present the architecture of such an operating system, outline the core challenges it aims to resolve, and provide the basic design and implementation of the AIOS. Our experiments on concurrent execution of multiple agents demonstrate the reliability and efficiency of our AIOS modules. Through this, we aim to not only improve the performance and efficiency of LLM agents but also to pioneer for better development and deployment of the AIOS ecosystem in the future. The project is open-source at GitHub - agiresearch/AIOS: AIOS: LLM Agent Operating System.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1772460132745547976


FollowIR: 지침을 따르도록 정보 검색 모델 평가 및 교육하기 / FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

논문 소개

  • 지침 평가 벤치마크가 포함된 데이터 세트와 실제 지침을 따르도록 정보 검색 모델을 교육하기 위한 별도의 세트; FollowIR-7B 모델은 훈련 세트에서 미세 조정 후 상당한 개선(13% 이상)을 보였습니다.

    A dataset with instruction evaluation benchmark and a separate set for teaching information retrieval model to follow real-world instructions; a FollowIR-7B model has significant improvements (over 13%) after fine-tuning on a training set.

논문 초록(Abstract)

  • 최신 대규모 언어 모델(LLM)은 길고 복잡한 명령어를 따라 다양한 사용자 작업을 수행할 수 있습니다. 그러나 LLM을 아키텍처의 중추로 사용하는 정보 검색(IR) 모델에도 불구하고 거의 모든 모델이 여전히 명령어 없이 쿼리만 입력으로 받습니다. 인스트럭션을 받는 소수의 최신 모델의 경우, 어떻게 인스트럭션을 사용하는지 불분명합니다. 엄격한 명령어 평가 벤치마크와 IR 모델이 실제 명령어를 더 잘 따르도록 학습하는 데 도움이 되는 훈련 세트가 포함된 데이터 세트 FollowIR을 소개합니다. FollowIR은 TREC 컨퍼런스의 오랜 역사를 바탕으로 구축되었습니다. TREC에서는 인간 주석가에게 문서 관련성을 판단하기 위한 지침(내러티브라고도 함)을 제공하므로, IR 모델도 이러한 세부 지침을 이해하고 관련성을 판단할 수 있어야 합니다. 평가 벤치마크는 심층적으로 판단된 세 개의 TREC 컬렉션으로 시작하여 주석자 지침을 변경하고 관련 문서에 다시 주석을 달도록 합니다. 이 과정을 통해 새로운 쌍별 평가 프레임워크를 통해 IR 모델이 지침을 얼마나 잘 따르는지 측정할 수 있습니다. 연구 결과에 따르면 기존 검색 모델은 지침을 기본 키워드에 사용하고 긴 형식의 정보를 이해하는 데 어려움을 겪는 등 지침을 제대로 사용하지 못하는 것으로 나타났습니다. 그러나 새로운 FollowIR-7B 모델은 훈련 세트를 미세 조정한 후 13% 이상 크게 개선된 결과를 보여줌으로써 IR 모델이 복잡한 지침을 따르는 방법을 학습하는 것이 가능하다는 것을 보여주었습니다.

    Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1772082608609833127


LLM2LLM: 새로운 반복적 데이터 향상으로 LLM 강화하기 / LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

논문 소개

  • 티처 LLM을 활용하여 모델을 효과적으로 미세 조정하는 데 사용할 수 있는 추가 데이터를 보강함으로써 소규모 시드 데이터 세트를 향상시키는 반복적인 데이터 보강 전략으로, 데이터 부족 상황에서 LLM의 성능을 크게 향상시켜 기존의 미세 조정 및 기타 데이터 보강 기준선보다 뛰어난 성능을 발휘합니다.

    An iterative data augmentation strategy that leverages a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used to effectively fine-tune models; it significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines.

논문 초록(Abstract)

  • 사전 학습된 대규모 언어 모델(LLM)은 현재 대부분의 자연어 처리 작업을 해결하기 위한 최첨단 기술입니다. 많은 실제 애플리케이션이 여전히 만족스러운 수준의 성능에 도달하기 위해 미세 조정이 필요하지만, 그 중 상당수는 데이터가 부족하여 미세 조정이 어렵습니다. 이 문제를 해결하기 위해, 특정 작업의 미세 조정에 사용할 수 있는 추가 데이터를 보강하여 작은 시드 데이터 세트를 향상시키기 위해 티처 LLM을 사용하는 타겟팅된 반복 데이터 보강 전략인 LLM2LLM을 제안합니다. LLM2LLM은 (1) 초기 시드 데이터에서 기준 학생 LLM을 미세 조정하고, (2) 모델이 틀린 데이터 포인트를 평가 및 추출하며, (3) 교사 LLM을 사용하여 이러한 잘못된 데이터 포인트를 기반으로 합성 데이터를 생성한 다음 다시 학습 데이터에 추가하는 방식입니다. 이 접근 방식은 학습 중에 LLM이 잘못 예측한 데이터 포인트의 신호를 증폭하고 이를 데이터 세트에 다시 통합하여 LLM이 더 어려운 예제에 집중할 수 있도록 합니다. 연구 결과에 따르면 LLM2LLM은 데이터 부족 상황에서 LLM의 성능을 크게 향상시켜 기존의 미세 조정 및 기타 데이터 증강 기준선을 모두 능가하는 것으로 나타났습니다. LLM2LLM은 노동 집약적인 데이터 큐레이션에 대한 의존도를 낮추고 확장성과 성능이 뛰어난 LLM 솔루션의 기반을 마련하여 데이터 제약이 있는 도메인과 작업을 처리할 수 있게 해줍니다. LLaMA2-7B 학생 모델을 사용한 저데이터 영역에서 일반적인 미세 조정에 비해 GSM8K 데이터 세트에서 최대 24.2%, CaseHOLD에서 32.6%, SNIPS에서 32.0%, TREC에서 52.6%, SST-2에서 39.8%의 성능 향상을 달성했습니다.

    Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a LLaMA2-7B student model.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1772078585903219007


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: