[2024/05/20 ~ 05/27] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/05/20 ~ 05/27] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주 선정된 논문들을 살펴보면, 다수의 논문이 LLMs(Large Language Models)에 관한 내용을 다루고 있음을 알 수 있습니다. 즉, 'Enhancing Answer Selection in LLMs', 'Efficient Inference of LLMs', 'Guide for Evaluating LLMs', 'Scientific Applications of LLMs', 그리고 'Efficient Multimodal LLMs' 등이 이 주제에 포함됩니다. 이는 현재 AI 기술 연구의 한 분야에서 LLMs의 중요성이 부각되고 있음을 시사합니다. 또한, 'Efficient Multimodal LLMs'라는 제목의 논문은 멀티모달 시스템에 대한 연구도 일부 포함되어 있음을 나타냅니다.

  • LLMs가 연구의 중심 주제로 많이 등장하는 것은 이 모델들이 자연어 처리(NLP)는 물론, 다양한 분야에서의 활용 가능성을 크게 넓혀주고 있기 때문입니다. 특히, 기계 번역, 요약, 질문 응답 시스템, 그리고 더 나아가 일반적인 지식의 이해와 추론에 있어서 매우 효과적인 성능을 보이고 있습니다. LLMs의 효율적인 추론, 평가 방법, 그리고 다양한 응용 분야에 대한 연구는 이 기술이 더욱 총체적이고 심층적으로 발전할 수 있는 기반을 마련해주는 것입니다. 멀티모달 시스템과의 연계 연구는 LLMs가 텍스트뿐만 아니라 이미지, 소리 등 다양한 형태의 데이터를 처리할 수 있는 능력을 갖추어가고 있음을 시사합니다.

  • 종합적으로 볼 때, 이번 주 선택된 논문들은 LLMs 기술의 깊이와 범위를 확장하는 연구의 경향을 보여줍니다. 효율성, 정확성, 평가 방법론, 그리고 다양한 응용 분야에 대한 연구는 이 기술이 우리 사회와 산업에 미치는 영향을 더욱 깊고 넓게 만들 것입니다. 또한, 멀티모달 시스템에 대한 연구는 LLMs 기술이 인간의 다양한 소통 방식을 이해하고 모방하는 방향으로 나아가고 있음을 보여줍니다.


클로드 3 소네트에서 해석 가능한 특징 추출하기 / Extracting Interpretable Features from Claude 3 Sonnet

논문 소개

LLM에서 특정 개념을 나타내는 수백만 개의 추상적 특징을 추출하는 효과적인 방법을 제시합니다. 이러한 개념은 사람, 장소, 프로그래밍 추상화, 감정 등을 나타낼 수 있으며, 발견된 특징 중 일부는 모델의 안전 측면과 직접 관련이 있다고 보고하고, 코드의 보안 취약성 및 백도어, 편향성, 기만, 동조, 위험/범죄 콘텐츠 등과 직접 관련된 특징을 찾으며 이러한 특징을 사용하여 모델의 결과를 직관적으로 조정할 수도 있습니다.

Presents an effective method to extract millions of abstract features from an LLM that represent specific concepts; these concepts could represent people, places, programming abstractions, emotion, and more; reports that some of the discovered features are directly related to the safety aspects of the model; finds features directly related to security vulnerabilities and backdoors in code, bias, deception, sycophancy; and dangerous/criminal content, and more; these features are also used to intuititively steer the model’s output.

논문 링크

https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

더 읽어보기

https://x.com/AnthropicAI/status/1792935506587656625


세계 지식 모델을 사용한 에이전트 플래닝 / Agent Planning with World Knowledge Model

논문 소개

에이전트 계획을 용이하게 하는 파라메트릭 세계 지식 모델 도입, 에이전트 모델은 전문가 및 샘플 궤적에서 지식을 자체 합성할 수 있으며, 이를 세계 지식 모델 학습에 사용, 이전 작업 지식은 글로벌 계획을 안내하고 동적 상태 지식은 로컬 계획을 안내하는 데 사용, Mistral-7B 및 Gemma-7B 같은 오픈 소스 LLM 채택 시 다양한 강력한 기준선에 비해 우수한 성능 입증 등 다양한 기능을 제공합니다.

Introduces a parametric world knowledge model to facilitate agent planning; the agent model can self-synthesize knowledge from expert and sampled trajectories; this is used to train the world knowledge model; prior task knowledge is used to guide global planning and dynamic state knowledge is used to guide the local planning; demonstrates superior performance compared to various strong baselines when adopting open-source LLMs like Mistral-7B and Gemma-7B.

논문 초록(Abstract)

최근 대화형 계획 작업을 실행하기 위해 에이전트 모델로 대규모 언어 모델(LLM)을 직접 사용하려는 노력은 상당한 성과를 거두었습니다. 그러나 이러한 성과에도 불구하고 여전히 '실제' 물리적 세계에 대한 이해 부족으로 인해 글로벌 계획에서 시행착오를 겪거나 로컬 계획에서 환각적인 동작을 생성하는 등 어려움을 겪고 있습니다. 본 논문에서는 작업 전에 글로벌 사전 지식을 제공하고 작업 중에 로컬 동적 지식을 유지하는 인간의 정신 세계 지식 모델을 모방하여 에이전트 계획을 용이하게 하는 파라메트릭 세계 지식 모델(WKM)을 소개합니다. 구체적으로, 에이전트 모델이 전문가와 샘플링된 궤적 모두에서 지식을 자체적으로 합성하도록 유도합니다. 그런 다음 WKM을 개발하여 글로벌 계획을 안내하는 사전 작업 지식과 로컬 계획을 지원하는 동적 상태 지식을 제공합니다. 세 가지 최신 오픈 소스 LLM인 미스트랄-7B, 젬마-7B, 라마-3-8B를 사용하여 세 가지 복잡한 실제 시뮬레이션 데이터 세트에 대한 실험 결과는 우리의 방법이 다양한 강력한 기준선에 비해 우수한 성능을 달성할 수 있음을 보여줍니다. 또한, WKM이 맹목적인 시행착오와 환각적 행동 문제를 효과적으로 완화하여 에이전트의 세계 이해를 강력하게 지원할 수 있음을 분석합니다. 그 밖의 흥미로운 발견은 다음과 같습니다: 1) 인스턴스 수준의 작업 지식이 보이지 않는 작업에 더 잘 일반화될 수 있고, 2) 약한 WKM이 강력한 에이전트 모델 계획을 안내할 수 있으며, 3) 통합 WKM 교육은 향후 발전 가능성이 유망하다는 점입니다. 코드는 GitHub - zjunlp/WKM: Agent Planning with World Knowledge Model 에서 확인할 수 있습니다.

Recent endeavors towards directly using large language models (LLMs) as agent models to execute interactive planning tasks have shown commendable results. Despite their achievements, however, they still struggle with brainless trial-and-error in global planning and generating hallucinatory actions in local planning due to their poor understanding of the ''real'' physical world. Imitating humans' mental world knowledge model which provides global prior knowledge before the task and maintains local dynamic knowledge during the task, in this paper, we introduce parametric World Knowledge Model (WKM) to facilitate agent planning. Concretely, we steer the agent model to self-synthesize knowledge from both expert and sampled trajectories. Then we develop WKM, providing prior task knowledge to guide the global planning and dynamic state knowledge to assist the local planning. Experimental results on three complex real-world simulated datasets with three state-of-the-art open-source LLMs, Mistral-7B, Gemma-7B, and Llama-3-8B, demonstrate that our method can achieve superior performance compared to various strong baselines. Besides, we analyze to illustrate that our WKM can effectively alleviate the blind trial-and-error and hallucinatory action issues, providing strong support for the agent's understanding of the world. Other interesting findings include: 1) our instance-level task knowledge can generalize better to unseen tasks, 2) weak WKM can guide strong agent model planning, and 3) unified WKM training has promising potential for further development. Code will be available at GitHub - zjunlp/WKM: Agent Planning with World Knowledge Model.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1793851075411296761


오픈 소스 생성 AI의 위험과 기회 / Risks and Opportunities of Open-Source Generative AI

논문 소개

오픈소스 생성 AI 모델의 위험과 기회를 분석하고, 오픈소스 생성 AI의 전반적인 이점이 위험보다 더 크다고 주장합니다.

Analyzes the risks and opportunities of open-source generative AI models; argues that the overall benefits of open-source generative AI outweigh its risks.

논문 초록(Abstract)

생성 인공지능(Gen AI)의 적용은 과학과 의학에서 교육에 이르기까지 다양한 분야에 혁신을 가져올 것으로 기대됩니다. 이러한 지각변동의 가능성은 이 기술의 잠재적 위험성에 대한 활발한 논쟁을 촉발시켰고, 특히 AI 개발을 주도하고 있는 일부 주요 기술 기업에서 더 엄격한 규제를 요구하는 목소리가 커지고 있습니다. 이러한 규제로 인해 오픈 소스 제너레이티브 AI의 신생 분야가 위험에 처할 가능성이 높습니다. 유니티는 3단계(단기, 중기, 장기) 발전 프레임워크를 사용하여 현재 사용 가능한 것과 유사한 기능을 갖춘 오픈소스 제너레이티브 AI 모델(단기-중기)과 더 큰 기능을 갖춘 모델(장기)의 위험과 기회를 분석합니다. 전반적으로 오픈소스 제너럴 AI의 이점이 위험보다 크다고 판단합니다. 따라서 모델, 학습 및 평가 데이터의 오픈 소싱을 권장하며, 오픈 소스 생성 AI와 관련된 위험을 관리하기 위한 일련의 권장 사항과 모범 사례를 제공합니다.

Applications of Generative AI (Gen AI) are expected to revolutionize a number of different areas, ranging from science & medicine to education. The potential for these seismic changes has triggered a lively debate about the potential risks of the technology, and resulted in calls for tighter regulation, in particular from some of the major tech companies who are leading in AI development. This regulation is likely to put at risk the budding field of open-source generative AI. Using a three-stage framework for Gen AI development (near, mid and long-term), we analyze the risks and opportunities of open-source generative AI models with similar capabilities to the ones currently available (near to mid-term) and with greater capabilities (long-term). We argue that, overall, the benefits of open-source Gen AI outweigh its risks. As such, we encourage the open sourcing of models, training and evaluation data, and provide a set of recommendations and best practices for managing risks associated with open-source generative AI.

논문 링크

더 읽어보기

https://x.com/fgirbal/status/1791454665764159794


추론의 집계: 대규모 언어 모델에서 답변 선택을 개선하기 위한 계층적 프레임워크 / Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models

논문 소개

LLM의 추론 능력을 향상시키기 위한 계층적 추론 집계 프레임워크 제안; 추론 집계(AoR)라고 불리는 이 접근 방식은 추론 체인의 평가를 기반으로 답을 선택; AoR은 동적 샘플링을 사용하여 작업 복잡도에 따라 추론 체인의 수를 조정; 평가 단계의 결과를 사용하여 추가 추론 체인의 샘플링 여부를 결정합니다; 다수결 투표의 알려진 결점은 정답이 소수에 속하는 시나리오에서 실패한다는 점, AoR은 최종 정답의 선택을 개선하기 위해 추론 체인을 평가하는 데 중점을 둠, AoR은 다양한 저명한 앙상블 방법보다 성능이 우수하며 복잡한 추론 작업의 성능을 개선하기 위해 다양한 LLM과 함께 사용할 수 있음.

Proposes a hierarchical reasoning aggregation framework for improving the reasoning capabilities of LLMs; the approach, called Aggregation of Reasoning (AoR), selects answers based on the evaluation of reasoning chains; AoR uses dynamic sampling to adjust the number of reasoning chains with respect to the task complexity; it uses results from the evaluation phase to determine whether to sample additional reasoning chains; a known flaw of majority voting is that it fails in scenarios where the correct answer is in the minority; AoR focuses on evaluating the reasoning chains to improve the selection of the final answer; AoR outperforms various prominent ensemble methods and can be used with various LLMs to improve performance on complex reasoning tasks.

논문 초록(Abstract)

최근 연쇄 사고 프롬프트의 발전은 복잡한 추론 작업에서 대규모 언어 모델(LLM)의 획기적인 발전을 촉진했습니다. 현재의 연구는 여러 추론 체인을 샘플링하고 정답 빈도에 따라 조합하여 LLM의 추론 성능을 향상시킵니다. 그러나 이 접근 방식은 정답이 소수에 불과한 시나리오에서는 실패합니다. 이는 LLM의 추론 능력을 제약하는 주요 요인으로, 예측된 답변만으로는 해결할 수 없는 한계입니다. 이러한 단점을 해결하기 위해 추론 체인의 평가를 기반으로 답을 선택하는 계층적 추론 집계 프레임워크인 AoR(Aggregation of Reasoning)을 도입했습니다. 또한 AoR은 동적 샘플링을 통합하여 작업의 복잡도에 따라 추론 체인의 수를 조정합니다. 일련의 복잡한 추론 과제에 대한 실험 결과에 따르면 AoR은 저명한 앙상블 방법보다 성능이 뛰어난 것으로 나타났습니다. 추가 분석 결과, AoR은 다양한 LLM을 적용할 뿐만 아니라 기존 방법과 비교했을 때 우수한 성능 상한선을 달성하는 것으로 나타났습니다.

Recent advancements in Chain-of-Thought prompting have facilitated significant breakthroughs for Large Language Models (LLMs) in complex reasoning tasks. Current research enhances the reasoning performance of LLMs by sampling multiple reasoning chains and ensembling based on the answer frequency. However, this approach fails in scenarios where the correct answers are in the minority. We identify this as a primary factor constraining the reasoning capabilities of LLMs, a limitation that cannot be resolved solely based on the predicted answers. To address this shortcoming, we introduce a hierarchical reasoning aggregation framework AoR (Aggregation of Reasoning), which selects answers based on the evaluation of reasoning chains. Additionally, AoR incorporates dynamic sampling, adjusting the number of reasoning chains in accordance with the complexity of the task. Experimental results on a series of complex reasoning tasks show that AoR outperforms prominent ensemble methods. Further analysis reveals that AoR not only adapts various LLMs but also achieves a superior performance ceiling when compared to current methods.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1793132875237163405


AGI와 우리는 얼마나 멀리 떨어져 있습니까? / How Far Are We From AGI

논문 소개

인공 일반 지능(AGI)에 대한 근접성을 이해하기 위한 중요한 질문을 다루는 의견서를 제시하고, 상세한 서베이, 토론 및 독창적인 관점을 포함하여 AGI를 달성하는 데 필요한 전략에 대한 요약을 제공합니다.

Presents an opinion paper addressing important questions to understand the proximity to artificial general intelligence (AGI); it provides a summary of strategies necessary to achieve AGI which includes a detailed survey, discussion, and original perspectives.

논문 초록(Abstract)

인공 지능(AI)의 진화는 인류 사회에 큰 영향을 미치며 여러 분야에서 상당한 발전을 이끌어냈습니다. 그러나 AI에 대한 요구가 증가하면서 현재 AI가 제공하는 기능의 한계가 드러나면서 인공 일반 지능(AGI)으로의 전환이 촉진되고 있습니다. 인간 지능에 필적하는 효율성과 효과성으로 다양한 실제 작업을 수행하는 능력으로 구별되는 AGI는 AI 진화의 가장 중요한 이정표입니다. 기존 연구들은 최근 AI의 구체적인 발전상을 요약하고 있지만, AGI의 정의, 목표, 발전 궤적에 대한 포괄적인 논의는 부족합니다. 이 백서는 기존의 설문조사와는 달리 광범위한 설문조사, 토론, 독창적인 관점을 통해 AGI에 대한 우리의 근접성과 그 실현에 필요한 전략에 대한 핵심적인 질문을 탐구합니다. 먼저 내부, 인터페이스, 시스템 차원을 통합하여 AGI에 필요한 역량 프레임워크를 명확히 하는 것으로 시작합니다. AGI를 실현하려면 더 많은 고급 기능과 엄격한 제약 조건 준수가 필요하므로 이러한 요소를 조화시키기 위해 필요한 AGI 조정 기술에 대해 추가로 논의합니다. 특히, 먼저 AGI 진행의 주요 수준을 정의하고, 현 상황을 파악하는 평가 프레임워크를 제시하며, 마지막으로 AGI의 정점에 도달하는 방법에 대한 로드맵을 제시함으로써 책임감 있게 접근하는 것이 중요하다는 점을 강조합니다. 또한 AI 통합의 유비쿼터스 영향에 대한 실질적인 인사이트를 제공하기 위해 여러 영역에서 AGI를 향한 기존의 과제와 잠재적인 경로를 간략하게 설명합니다. 요약하자면, 이 백서는 AGI의 현재 상태와 미래 궤적에 대한 선구적인 탐구로서, AGI에 대한 연구자와 실무자 간의 집단적 이해를 촉진하고 광범위한 공개 토론을 촉진하는 것을 목표로 합니다.

The evolution of artificial intelligence (AI) has profoundly impacted human society, driving significant advancements in multiple sectors. Yet, the escalating demands on AI have highlighted the limitations of AI's current offerings, catalyzing a movement towards Artificial General Intelligence (AGI). AGI, distinguished by its ability to execute diverse real-world tasks with efficiency and effectiveness comparable to human intelligence, reflects a paramount milestone in AI evolution. While existing works have summarized specific recent advancements of AI, they lack a comprehensive discussion of AGI's definitions, goals, and developmental trajectories. Different from existing survey papers, this paper delves into the pivotal questions of our proximity to AGI and the strategies necessary for its realization through extensive surveys, discussions, and original perspectives. We start by articulating the requisite capability frameworks for AGI, integrating the internal, interface, and system dimensions. As the realization of AGI requires more advanced capabilities and adherence to stringent constraints, we further discuss necessary AGI alignment technologies to harmonize these factors. Notably, we emphasize the importance of approaching AGI responsibly by first defining the key levels of AGI progression, followed by the evaluation framework that situates the status-quo, and finally giving our roadmap of how to reach the pinnacle of AGI. Moreover, to give tangible insights into the ubiquitous impact of the integration of AI, we outline existing challenges and potential pathways toward AGI in multiple domains. In sum, serving as a pioneering exploration into the current state and future trajectory of AGI, this paper aims to foster a collective comprehension and catalyze broader public discussions among researchers and practitioners on AGI.

논문 링크


대규모 언어 모델의 효율적인 추론을 위한 레이어 압축 KV 캐시 / Layer-Condensed KV Cache for Efficient Inference of Large Language Models

논문 소개

LLM에서 효율적인 추론을 달성하기 위해 계층 응축형 KV 캐시를 제안하고, 적은 수의 계층의 키값(KV)만 계산 및 캐시하여 메모리 소비를 줄이고 추론 처리량을 개선하며, 만족스러운 성능을 유지하면서 기준 트랜스포머보다 최대 26배 높은 처리량을 달성할 수 있습니다.

Proposes a layer-condensed KV cache to achieve efficient inference in LLMs; only computes and caches the key-values (KVs) of a small number of layers which leads to saving memory consumption and improved inference throughput; can achieve up to 26x higher throughput than baseline transformers while maintaining satisfactory performance.

논문 초록(Abstract)

막대한 메모리 소비는 실제 애플리케이션에서 처리량이 많은 대규모 언어 모델을 배포하는 데 있어 주요 병목 현상이었습니다. 많은 수의 매개변수 외에도 트랜스포머 아키텍처의 주의 메커니즘을 위한 키-값(KV) 캐시는 특히 심층 언어 모델의 경우 레이어 수가 많을 때 상당한 양의 메모리를 소비합니다. 이 논문에서는 적은 수의 레이어에 대해서만 KV를 계산하고 캐시하는 새로운 방법을 제안하여 메모리 소비를 크게 절감하고 추론 처리량을 개선합니다. 대규모 언어 모델에 대한 실험 결과, 우리의 방법은 표준 트랜스포머보다 최대 26$\배$ 높은 처리량과 언어 모델링 및 다운스트림 작업에서 경쟁력 있는 성능을 달성하는 것으로 나타났습니다. 또한, 우리의 방법은 기존 트랜스포머 메모리 절약 기술과 직교하므로 모델과 통합하는 것이 간단하여 추론 효율을 더욱 향상시킬 수 있습니다. 코드는 GitHub - whyNLP/LCKV: Layer-Condensed KV cache w/ 10 times larger batch size, fewer params and less computation. Dramatic speed up with better task performance. Accepted to ACL 2024. 에서 확인할 수 있습니다.

Huge memory consumption has been a major bottleneck for deploying high-throughput large language models in real-world applications. In addition to the large number of parameters, the key-value (KV) cache for the attention mechanism in the transformer architecture consumes a significant amount of memory, especially when the number of layers is large for deep language models. In this paper, we propose a novel method that only computes and caches the KVs of a small number of layers, thus significantly saving memory consumption and improving inference throughput. Our experiments on large language models show that our method achieves up to 26$\times$ higher throughput than standard transformers and competitive performance in language modeling and downstream tasks. In addition, our method is orthogonal to existing transformer memory-saving techniques, so it is straightforward to integrate them with our model, achieving further improvement in inference efficiency. Our code is available at GitHub - whyNLP/LCKV: Layer-Condensed KV cache w/ 10 times larger batch size, fewer params and less computation. Dramatic speed up with better task performance. Accepted to ACL 2024..

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1792386318300749848


언어 모델의 재현 가능한 평가에서 얻은 교훈 / Lessons from the Trenches on Reproducible Evaluation of Language Models

논문 소개

대규모 언어 모델 평가를 위한 지침과 교훈을 제공하고, LLM 평가를 위한 오픈 소스 라이브러리 소개와 함께 과제와 모범 사례에 대해 논의합니다.

Provides guidance and lessons for evaluating large language models; discusses challenges and best practices, along with the introduction of an open-source library for evaluating LLMs.

논문 초록(Abstract)

언어 모델을 효과적으로 평가하는 것은 NLP 분야에서 여전히 해결되지 않은 과제입니다. 연구자와 엔지니어는 평가 설정에 대한 모델의 민감성, 방법 간 적절한 비교의 어려움, 재현성 및 투명성 부족과 같은 방법론적 문제에 직면합니다. 이 논문에서는 지난 3년간의 대규모 언어 모델 평가 경험을 바탕으로 연구자를 위한 지침과 교훈을 제공합니다. 첫째, 언어 모델 평가에서 직면하는 일반적인 과제에 대한 개요를 제공합니다. 둘째, 이러한 과제를 해결하거나 연구에 미치는 영향을 줄이기 위한 모범 사례를 설명합니다. 셋째, 이러한 문제를 해결하고자 하는 언어 모델의 독립적이고 재현 가능하며 확장 가능한 평가를 위한 오픈 소스 라이브러리인 언어 모델 평가 하네스(lm-eval)를 소개합니다. 라이브러리의 특징과 라이브러리를 사용하여 이러한 방법론적 문제를 완화한 사례 연구에 대해 설명합니다.

Effective evaluation of language models remains an open challenge in NLP. Researchers and engineers face methodological issues such as the sensitivity of models to evaluation setup, difficulty of proper comparisons across methods, and the lack of reproducibility and transparency. In this paper we draw on three years of experience in evaluating large language models to provide guidance and lessons for researchers. First, we provide an overview of common challenges faced in language model evaluation. Second, we delineate best practices for addressing or lessening the impact of these challenges on research. Third, we present the Language Model Evaluation Harness (lm-eval): an open source library for independent, reproducible, and extensible evaluation of language models that seeks to address these issues. We describe the features of the library as well as case studies in which the library has been used to alleviate these methodological concerns.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1793846120600474017


INDUS: 과학 애플리케이션을 위한 효과적이고 효율적인 언어 모델 / INDUS: Effective and Efficient Language Models for Scientific Applications

논문 소개

지구 과학, 생물학, 물리학, 행성 과학 등을 위한 종합적인 LLM 제품군인 INDUS를 선보이며 인코더 모델, 임베딩 모델, 소형 증류 모델이 포함되어 있습니다.

Presents INDUS, a comprehensive suite of LLMs for Earth science, biology, physics, planetary sciences, and more; includes an encoder model, embedding model, and small distilled models.

논문 초록(Abstract)

일반 도메인 말뭉치로 학습된 대규모 언어 모델(LLM)은 자연어 처리(NLP) 작업에서 놀라운 결과를 보였습니다. 그러나 이전 연구에 따르면 도메인 중심 말뭉치를 사용하여 훈련된 LLM은 특수한 작업에서 더 나은 성능을 발휘하는 것으로 나타났습니다. 이러한 중추적인 인사이트에서 영감을 얻어 다양한 데이터 소스에서 추출한 선별된 과학 코퍼스를 사용하여 훈련된 지구 과학, 생물학, 물리학, 헬리오피직스, 행성 과학 및 천체 물리학 도메인에 맞춘 종합적인 LLM 제품군인 INDUS를 개발했습니다. 모델 제품군에는 다음이 포함됩니다: (1) 자연어 이해 작업을 처리하기 위해 도메인별 어휘와 말뭉치를 사용해 훈련된 인코더 모델, (2) 정보 검색 작업을 처리하기 위해 여러 소스에서 가져온 다양한 데이터 세트를 사용해 훈련된 대조 학습 기반 일반 텍스트 임베딩 모델, (3) 지연 시간이나 리소스 제약이 있는 애플리케이션을 처리하기 위해 지식 증류 기술을 사용해 만든 이러한 모델의 소규모 버전이 있습니다. 또한 이러한 다학제 분야의 연구를 가속화하기 위해 세 가지 새로운 과학 벤치마크 데이터 세트, 즉 기후 변화-NER(개체 인식), NASA-QA(추출 QA), NASA-IR(정보검색)을 만들었습니다. 마지막으로, 저희 모델은 이러한 새로운 작업과 관심 분야의 기존 벤치마크 작업에서 범용 인코더(RoBERTa)와 기존 도메인별 인코더(SciBERT)를 모두 능가하는 성능을 보여줍니다.

Large language models (LLMs) trained on general domain corpora showed remarkable results on natural language processing (NLP) tasks. However, previous research demonstrated LLMs trained using domain-focused corpora perform better on specialized tasks. Inspired by this pivotal insight, we developed INDUS, a comprehensive suite of LLMs tailored for the Earth science, biology, physics, heliophysics, planetary sciences and astrophysics domains and trained using curated scientific corpora drawn from diverse data sources. The suite of models include: (1) an encoder model trained using domain-specific vocabulary and corpora to address natural language understanding tasks, (2) a contrastive-learning-based general text embedding model trained using a diverse set of datasets drawn from multiple sources to address information retrieval tasks and (3) smaller versions of these models created using knowledge distillation techniques to address applications which have latency or resource constraints. We also created three new scientific benchmark datasets namely, CLIMATE-CHANGE-NER (entity-recognition), NASA-QA (extractive QA) and NASA-IR (IR) to accelerate research in these multi-disciplinary fields. Finally, we show that our models outperform both general-purpose encoders (RoBERTa) and existing domain-specific encoders (SciBERT) on these new tasks as well as existing benchmark tasks in the domains of interest.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1792585422465335695


DeepSeek-Prover: 대규모 합성 데이터를 통한 LLM의 정리 증명 발전 / DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

논문 소개

고등학교 및 학부 수준의 수학 경시대회 문제에서 Lean 4 증명 데이터를 생성하는 접근 방식을 소개합니다. 8백만 개의 공식 진술과 증명으로 구성된 합성 데이터를 사용하여 DeepSeekMath 7B 모델을 미세 조정하고, 64개의 샘플로 46.3%, Lean 4 miniF2F 테스트에서 누적 52%의 전체 증명 생성 정확도를 달성하여 64개의 샘플과 트리 검색 RL 방법(41.0%)으로 기준인 GPT-4(23.0%)를 능가하는 결과를 얻었습니다.

Introduces an approach to generate Lean 4 proof data from high-school and undergraduate-level mathematical competition problems; it uses the synthetic data, comprising of 8 million formal statements and proofs, to fine-tune a DeepSeekMath 7B model; achieves whole-proof generation accuracies of 46.3% with 64 samples and 52% cumulatively on the Lean 4 miniF2F test; this surpasses the baseline GPT-4 (23.0%) with 64 samples and a tree search RL method (41.0%).

논문 초록(Abstract)

Lean과 같은 증명 도우미는 수학적 증명 검증에 혁명을 일으켜 높은 정확도와 신뢰성을 보장합니다. 대규모 언어 모델(LLM)은 수학적 추론에서 가능성을 보이지만, 학습 데이터의 부족으로 인해 공식적인 정리 증명에서 발전이 저해되고 있습니다. 이 문제를 해결하기 위해 고등학교 및 학부 수준의 수학 경시대회 문제에서 파생된 광범위한 린 4 증명 데이터를 생성하는 접근 방식을 소개합니다. 이 접근 방식에는 자연어 문제를 형식적인 문장으로 번역하고, 품질이 낮은 문장을 걸러내고, 증명을 생성하여 합성 데이터를 생성하는 과정이 포함됩니다. 증명과 함께 800만 개의 공식 진술로 구성된 이 합성 데이터 세트에서 DeepSeekMath 7B 모델을 미세 조정한 결과, 우리 모델은 64개 샘플에서 46.3%의 전체 증명 생성 정확도를 달성했으며, Lean 4 miniF2F 테스트에서 누적 52%를 기록해 기준인 GPT-4의 23.0%와 트리 검색 강화 학습 방법의 41.0%를 뛰어넘는 정확도를 보였습니다. 또한, 우리 모델은 Lean 4 공식화된 국제 수학 올림피아드(FIMO) 벤치마크에서 148개 문제 중 5개 문제를 성공적으로 증명한 반면, GPT-4는 하나도 증명하지 못했습니다. 이러한 결과는 대규모 합성 데이터를 활용하여 LLM의 정리 증명 능력을 향상시킬 수 있는 잠재력을 보여줍니다. 합성 데이터 세트와 모델은 이 유망한 분야의 추가 연구를 촉진하기 위해 모두 공개될 예정입니다.

Proof assistants like Lean have revolutionized mathematical proof verification, ensuring high accuracy and reliability. Although large language models (LLMs) show promise in mathematical reasoning, their advancement in formal theorem proving is hindered by a lack of training data. To address this issue, we introduce an approach to generate extensive Lean 4 proof data derived from high-school and undergraduate-level mathematical competition problems. This approach involves translating natural language problems into formal statements, filtering out low-quality statements, and generating proofs to create synthetic data. After fine-tuning the DeepSeekMath 7B model on this synthetic dataset, which comprises 8 million formal statements with proofs, our model achieved whole-proof generation accuracies of 46.3% with 64 samples and 52% cumulatively on the Lean 4 miniF2F test, surpassing the baseline GPT-4 at 23.0% with 64 samples and a tree search reinforcement learning method at 41.0%. Additionally, our model successfully proved 5 out of 148 problems in the Lean 4 Formalized International Mathematical Olympiad (FIMO) benchmark, while GPT-4 failed to prove any. These results demonstrate the potential of leveraging large-scale synthetic data to enhance theorem-proving capabilities in LLMs. Both the synthetic dataset and the model will be made available to facilitate further research in this promising field.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1793864788579090917


효율적인 멀티모달 대규모 언어 모델: 서베이 논문 / Efficient Multimodal Large Language Models: A Survey

논문 소개

효율적인 멀티모달 대규모 언어 모델의 현황을 종합적이고 체계적으로 조사하고 효율적인 구조와 전략, 적용 사례, 한계점, 향후 유망한 방향에 대해 논의합니다.

Provides a comprehensive and systematic survey of the current state of efficient multimodal large language models; discusses efficient structures and strategies, applications, limitations, and promising future directions.

논문 초록(Abstract)

지난 한 해 동안 다중 모드 대규모 언어 모델(MLLM)은 시각적 질문 답변, 시각적 이해, 추론 등의 작업에서 괄목할 만한 성능을 보여주었습니다. 그러나 방대한 모델 크기와 높은 훈련 및 추론 비용으로 인해 학계와 업계에서 MLLM을 널리 적용하는 데는 어려움이 있었습니다. 따라서 효율적이고 가벼운 MLLM을 연구하는 것은 특히 엣지 컴퓨팅 시나리오에서 엄청난 잠재력을 가지고 있습니다. 이 설문조사에서는 효율적인 MLLM의 현황에 대한 포괄적이고 체계적인 검토를 제공합니다. 특히 대표적인 효율적인 MLLM의 타임라인, 효율적인 구조와 전략에 대한 연구 현황, 적용 사례를 요약합니다. 마지막으로 현재 효율적인 MLLM 연구의 한계와 향후 유망한 방향에 대해 논의합니다. 자세한 내용은 깃허브 리포지토리(GitHub - lijiannuist/Efficient-Multimodal-LLMs-Survey: Efficient Multimodal Large Language Models: A Survey)를 참조하시기 바랍니다.

In the past year, Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in tasks such as visual question answering, visual understanding and reasoning. However, the extensive model size and high training and inference costs have hindered the widespread application of MLLMs in academia and industry. Thus, studying efficient and lightweight MLLMs has enormous potential, especially in edge computing scenarios. In this survey, we provide a comprehensive and systematic review of the current state of efficient MLLMs. Specifically, we summarize the timeline of representative efficient MLLMs, research state of efficient structures and strategies, and the applications. Finally, we discuss the limitations of current efficient MLLM research and promising future directions. Please refer to our GitHub repository for more details: GitHub - lijiannuist/Efficient-Multimodal-LLMs-Survey: Efficient Multimodal Large Language Models: A Survey.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1794072297260634244


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요