[2023/09/18 ~ 09/24] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주의 논문들을 살펴보면, "LLM(Large Language Models)"을 집중적으로 다루는 트렌드를 파악할 수 있습니다. 특히, 이들 LLM을 활용하여 자연어 처리(NLP)와 정보 추론(reasoning)과 관련된 연구들이 많이 진행되었습니다.

예를 들어, "Chain-of-Verification reduces Hallucination in LLMs", "Contrastive Decoding Improves Reasoning in Large Language Models", "LLMs for Generating Structured Data" 등의 논문들은 LLMs의 효율적인 활용 방법과 그 성능 향상에 초점을 두고 있습니다. 이 중 "Chain-of-Verification reduces Hallucination in LLMs"는 LLM이 생성하는 정보의 정확성을 향상 시키는 방법을 제시하고 있으며, "Contrastive Decoding Improves Reasoning in Large Language Models"는 LLMs를 이용한 정보 추론의 효율성에 대해 연구하고 있습니다.

또한, LLM의 일반적인 원리를 탐구하는 논문들도 눈에 띕니다. "Language Modeling is Compression"은 언어 모델링이 압축이라는 관점에서 LLM을 해석하는 독창적인 시도를 보여줍니다. 이외에도 "LLMs for IT Operations"나 "Compositional Foundation Models" 등은 LLM의 다양한 활용 분야와 그 기반을 이루는 이론적인 모형들을 탐색하고 있습니다.

이런 방대한 언어 모델에 대한 연구 트렌드는 인공지능 기술이 특히 자연어 처리 분야에서 빠르게 발전하고 있음을 보여주며, 이를 이용한 다양한 응용 분야가 계속해서 확장되고 있다는 점을 시사합니다.

알파-미센스 / AlphaMissense

논문 소개

  • 질병의 원인을 정확히 파악하는 데 도움이 되는 미센스 변이를 분류하는 AI 모델; 이 모델은 유전자 변이 카탈로그를 개발하는 데 사용되며, 7,100만 개의 가능한 미센스 변이 중 89%를 병원성 또는 양성 가능성으로 분류할 수 있습니다.

    An AI model classifying missense variants to help pinpoint the cause of diseases; the model is used to develop a catalogue of genetic mutations; it can categorize 89% of all 71 million possible missense variants as either likely pathogenic or likely benign.

논문 링크

https://www.science.org/doi/10.1126/science.adg7492

더 읽어보기

https://x.com/GoogleDeepMind/status/1704145467129389178

체인 검증으로 대규모 언어 모델에서 환각 감소 / Chain-of-Verification Reduces Hallucination in Large Language Models

논문 소개

  • LLMS가 실수를 수정하기 위해 답변에 대해 "심의"할 수 있는 방법을 개발하며, 다음 단계를 포함합니다: 1) 초기 답변 초안 작성, 2) 초안의 사실 확인을 위한 확인 질문 계획, 3) 다른 답변의 편견을 피하기 위해 독립적으로 질문에 답변, 4) 최종 확인된 답변 생성.

    Develops a method to enable llms to "deliberate" on responses to correct mistakes; include the following steps: 1) draft initial response, 2) plan verification questions to fact-check the draft, 3) answer questions independently to avoid bias from other responses, and 4) generate a final verified response.

논문 초록

  • 환각이라고 불리는 그럴듯하지만 잘못된 사실 정보를 생성하는 것은 대규모 언어 모델에서 해결되지 않은 문제입니다. 저희는 언어 모델이 실수를 수정하기 위해 응답을 숙고하는 능력을 연구합니다. 우리는 모델이 먼저 (i) 초기 응답 초안을 작성한 다음, (ii) 초안을 사실 확인하기 위해 검증 질문을 계획하고, (iii) 다른 응답에 의해 응답이 편향되지 않도록 해당 질문에 독립적으로 답변하고, (iv) 최종적으로 검증된 응답을 생성하는 연쇄 검증(CoVe) 방법을 개발합니다. 실험 결과, CoVe는 위키데이터의 목록 기반 질문, 비공개 도서 MultiSpanQA, 롱폼 텍스트 생성 등 다양한 작업에서 환각을 감소시키는 것으로 나타났습니다.

    Generation of plausible yet incorrect factual information, termed hallucination, is an unsolved issue in large language models. We study the ability of language models to deliberate on the responses they give in order to correct their mistakes. We develop the Chain-of-Verification (CoVe) method whereby the model first (i) drafts an initial response; then (ii) plans verification questions to fact-check its draft; (iii) answers those questions independently so the answers are not biased by other responses; and (iv) generates its final verified response. In experiments, we show CoVe decreases hallucinations across a variety of tasks, from list-based questions from Wikidata, closed book MultiSpanQA and longform text generation.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1704901425824772275

대규모 언어 모델에서 추론을 개선하는 대조적 디코딩 / Contrastive Decoding Improves Reasoning in Large Language Models

논문 소개

  • 대조적 디코딩이 상식적인 추론 및 추론 벤치마크에서 라마 65b가 라마 2 및 다른 모델을 능가하는 것으로 나타났습니다.

    Shows that contrastive decoding leads llama-65b to outperform llama 2 and other models on commonsense reasoning and reasoning benchmarks.

논문 초록

  • 저희는 Li 외 2022명이 제안한 간단하고 계산량이 적으며 학습이 필요 없는 텍스트 생성 방법인 콘트라스트 디코딩이 다양한 추론 작업에서 욕심 많은 디코딩보다 즉시 큰 개선을 이룰 수 있음을 입증합니다. 원래 긴 형식의 텍스트 생성에서 인지된 품질을 개선하는 것으로 알려진 콘트라스트 디코딩은 강력한 모델과 약한 모델 간의 가능성 가중치 차이를 최대화하는 문자열을 검색합니다. 콘트라스트 디코딩은 HellaSwag 상식 추론 벤치마크에서 LLaMA-65B가 LLaMA 2, GPT-3.5, PaLM 2-L을 능가하고 GSM8K 수학 단어 추론 벤치마크에서 LLaMA 2, GPT-3.5, PaLM-540B를 능가하며 다른 작업 모음에서도 개선된 성능을 보여줍니다. 분석 결과, 콘트라스트 디코딩은 일부 추상적 추론 오류를 방지하고 연쇄 사고 중에 입력의 일부를 복사하는 것과 같은 단순한 모드를 피함으로써 기존 방법보다 개선된 것으로 나타났습니다. 전반적으로 콘트라스트 디코딩은 긴 형식 생성을 위한 핵 샘플링과 추론 작업을 위한 욕심 디코딩보다 성능이 뛰어나 언어 모델에서 텍스트를 생성하는 강력한 범용 방법이라고 할 수 있습니다.

    We demonstrate that Contrastive Decoding -- a simple, computationally light, and training-free text generation method proposed by Li et al 2022 -- achieves large out-of-the-box improvements over greedy decoding on a variety of reasoning tasks. Originally shown to improve the perceived quality of long-form text generation, Contrastive Decoding searches for strings that maximize a weighted difference in likelihood between strong and weak models. We show that Contrastive Decoding leads LLaMA-65B to outperform LLaMA 2, GPT-3.5 and PaLM 2-L on the HellaSwag commonsense reasoning benchmark, and to outperform LLaMA 2, GPT-3.5 and PaLM-540B on the GSM8K math word reasoning benchmark, in addition to improvements on a collection of other tasks. Analysis suggests that Contrastive Decoding improves over existing methods by preventing some abstract reasoning errors, as well as by avoiding simpler modes such as copying sections of the input during chain-of-thought. Overall, Contrastive Decoding outperforms nucleus sampling for long-form generation and greedy decoding for reasoning tasks, making it a powerful general purpose method for generating text from language models.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1703966776990597567

LongLoRA: 긴 컨텍스트의 대규모 언어 모델에 대한 효율적인 미세 조정 / LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

논문 소개

  • 효율적인 미세 조정 접근 방식을 통해 사전 학습된 LLMS의 컨텍스트 창을 크게 확장하고, 학습 중 표준 자기 주의 패턴에 근사한 대체물인 시프트 쇼트 어텐션(shift short attention)을 구현하며, 전체 미세 조정에 비해 GPU 메모리 비용과 학습 시간을 줄이면서도 정확도를 저하시키지 않습니다.

    An efficient fine-tuning approach to significantly extend the context windows of pre-trained llms; implements shift short attention, a substitute that approximates the standard self-attention pattern during training; it has less gpu memory cost and training time compared to full fine-tuning while not compromising accuracy.

논문 초록

  • 일반적으로 컨텍스트 크기가 긴 LLM을 학습하려면 계산 비용이 많이 들기 때문에 학습 시간과 GPU 리소스가 많이 필요합니다. 예를 들어, 8192개의 문맥 길이를 학습하려면 2048개의 문맥 길이를 학습할 때보다 자기 주의 계층에서 16배의 계산 비용이 필요합니다. 이 논문에서는 두 가지 측면에서 LLM의 컨텍스트 확장 속도를 높였습니다. 한편으로는 추론 중에 밀집된 글로벌 주의가 필요하지만, 모델을 미세 조정할 때는 희박한 로컬 주의로 효과적이고 효율적으로 수행할 수 있습니다. 제안된 시프트 쇼트 어텐션은 컨텍스트 확장을 효과적으로 지원하여 바닐라 어텐션으로 미세 조정하는 것과 비슷한 성능으로 계산을 크게 절약할 수 있습니다. 특히, 학습에서는 단 두 줄의 코드로 구현할 수 있고 추론에서는 선택적으로 사용할 수 있습니다. 한편, 컨텍스트 확장을 위한 매개변수 효율적 미세 조정 체제를 다시 살펴봅니다. 특히, 컨텍스트 확장을 위한 LoRA는 학습 가능한 임베딩과 정규화를 전제로 잘 작동한다는 사실을 발견했습니다. LongLoRA는 7B/13B~70B의 LLaMA2 모델에서 다양한 작업에 대해 강력한 경험적 결과를 보여줍니다. LongLoRA는 단일 8배속 A100 머신에서 4k 컨텍스트에서 100k까지 LLaMA2 7B를, 또는 8배속 A100 머신에서 70B에서 32k까지 LLaMA2 70B를 채택합니다. LongLoRA는 원래 아키텍처를 유지하면서 모델의 컨텍스트를 확장하며, 플래시어텐션-2와 같은 대부분의 기존 기술과 호환됩니다. 또한, LongLoRA를 실용적으로 만들기 위해 감독하에 미세 조정을 위한 데이터셋인 LongQA를 수집합니다. 여기에는 3,000개 이상의 긴 문맥 질문-답변 쌍이 포함되어 있습니다.

We present LongLoRA, an efficient fine-tuning approach that extends the context sizes of pre-trained large language models (LLMs), with limited computation cost. Typically, training LLMs with long context sizes is computationally expensive, requiring extensive training hours and GPU resources. For example, training on the context length of 8192 needs 16x computational costs in self-attention layers as that of 2048. In this paper, we speed up the context extension of LLMs in two aspects. On the one hand, although dense global attention is needed during inference, fine-tuning the model can be effectively and efficiently done by sparse local attention. The proposed shift short attention effectively enables context extension, leading to non-trivial computation saving with similar performance to fine-tuning with vanilla attention. Particularly, it can be implemented with only two lines of code in training, while being optional in inference. On the other hand, we revisit the parameter-efficient fine-tuning regime for context expansion. Notably, we find that LoRA for context extension works well under the premise of trainable embedding and normalization. LongLoRA demonstrates strong empirical results on various tasks on LLaMA2 models from 7B/13B to 70B. LongLoRA adopts LLaMA2 7B from 4k context to 100k, or LLaMA2 70B to 32k on a single 8x A100 machine. LongLoRA extends models' context while retaining their original architectures, and is compatible with most existing techniques, like FlashAttention-2. In addition, to make LongLoRA practical, we collect a dataset, LongQA, for supervised fine-tuning. It contains more than 3k long context question-answer pairs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1705234482930798813

Struc-Bench: 대규모 언어 모델이 복잡한 구조화된 데이터를 생성하는 데 정말 효과적일까요? / Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

논문 소개

  • 복잡한 구조화된 데이터를 생성하기 위해 llms를 사용하는 방법을 연구하고, gpt-3.5/4 및 vicuna-13b와 같은 다른 모델보다 훨씬 뛰어난 성능을 발휘하는 llama-7b에 적용된 구조 인식 미세 조정 방법을 제안합니다.

    Studies the use of llms for generating complex structured data; proposes a structure-aware fine-tuning method, applied to llama-7b, which significantly outperform other model like gpt-3.5/4 and vicuna-13b.

논문 초록

  • GPT-4와 같은 대규모 언어 모델(LLM)의 강력한 성능에도 불구하고 복잡하고 구조화된 출력을 생성해야 하는 작업에는 여전히 어려움을 겪고 있습니다. 이 연구에서는 복잡한 구조화된 데이터를 생성하는 데 있어 현재 LLM의 능력을 평가하고 이를 개선하기 위한 솔루션으로 구조 인식 미세 조정 접근법을 제안합니다. 포괄적인 평가를 수행하기 위해 Struc-Bench를 제안하고, 5개의 대표적인 LLM(예: GPT-NeoX 20B, GPT-3.5, GPT-4, Vicuna)을 포함하며, 원시 텍스트, HTML, LaTeX 테이블을 포괄하는 신중하게 구성된 데이터셋에서 이를 평가합니다. 현재 모델 성능에 대한 분석을 바탕으로 일반적인 서식 지정 오류와 잠재적인 개선이 필요한 영역을 파악합니다. 복잡한 서식 지정 요구사항을 처리하기 위해 FormatCoT(Chain-of-Thought)를 활용하여 대상 출력물에서 서식 지정 지침을 생성합니다. 실험 결과, 구조 인식 미세 조정 방법을 LLaMA-7B에 적용했을 때 자연어 제약 조건 준수가 크게 향상되어 다른 평가된 LLM보다 성능이 뛰어나다는 것을 보여주었습니다. 이러한 결과를 바탕으로 커버리지, 형식화, 추론, 이해, 실용성, 환각 등 6가지 차원의 모델 능력 맵을 제시합니다. 이 맵은 복잡한 구조의 출력을 처리하는 데 있어 LLM의 약점을 강조하고 향후 작업의 유망한 방향을 제시합니다. 코드와 모델은 GitHub - gersteinlab/Struc-Bench 에서 확인할 수 있습니다.

    Despite the power of Large Language Models (LLMs) like GPT-4, they still struggle with tasks that require generating complex, structured outputs. In this study, we assess the capability of Current LLMs in generating complex structured data and propose a structure-aware fine-tuning approach as a solution to improve this ability. To perform a comprehensive evaluation, we propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B, GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of current model performance, we identify specific common formatting errors and areas of potential improvement. To address complex formatting requirements, we utilize FormatCoT (Chain-of-Thought) to generate format instructions from target outputs. Our experiments show that our structure-aware fine-tuning method, when applied to LLaMA-7B, significantly improves adherence to natural language constraints, outperforming other evaluated LLMs. Based on these results, we present an ability map of model capabilities from six dimensions (i.e., coverage, formatting, reasoning, comprehension, pragmatics, and hallucination). This map highlights the weaknesses of LLMs in handling complex structured outputs and suggests promising directions for future work. Our code and models can be found at GitHub - gersteinlab/Struc-Bench.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1703958549917847884

LMSYS-Chat-1M / LMSYS-Chat-1M

논문 소개

  • 빈쿠나 데모 및 챗봇 아레나 웹사이트에 있는 21만 개의 고유 IP 주소에서 수집한 25개의 최첨단 LLM을 사용한 100만 건의 실제 대화가 포함된 대규모 데이터 세트입니다.

    A large-scale dataset containing 1 million real-world conversations with 25 state-of-the-art llm; it is collected from 210k unique ip addresses on the vincuna demo and chatbot arena website.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1705024956122161217

언어 모델링은 압축입니다 / Language Modeling Is Compression

논문 소개

  • 압축과 예측이 어떻게 그리고 왜 동등한지 조사하고, 상황 내 학습 능력으로 인해 llms가 강력한 범용 압축기임을 보여주며, chinchilla 70b가 이미지넷 패치를 원시 크기의 43.4%로, librispeech 샘플을 16.4%로 압축하여 각각 png(58.5%)나 flac(30.3%)과 같은 도메인 전용 압축기를 능가한다는 사실을 발견합니다.

    Evaluates the compression capabilities of llms; it investigates how and why compression and prediction are equivalent; shows that llms are powerful general-purpose compressors due to their in-context learning abilities; finds that chinchilla 70b compresses imagenet patches to 43.4% and librispeech samples to 16.4% of their raw size, beating domain-specific compressors like png (58.5%) or flac (30.3%), respectively.

논문 초록

  • 예측 모델을 무손실 압축기로 변환하거나 그 반대로 변환할 수 있다는 사실은 오랫동안 확립되어 왔습니다. 또한, 최근 몇 년 동안 머신러닝 커뮤니티는 점점 더 크고 강력한 자가 감독(언어) 모델을 학습하는 데 집중해 왔습니다. 이러한 대규모 언어 모델은 인상적인 예측 능력을 보여주기 때문에 강력한 압축기가 될 수 있는 좋은 위치에 있습니다. 이 작업에서 우리는 압축이라는 렌즈를 통해 예측 문제를 바라보고 대규모 (기초) 모델의 압축 기능을 평가할 것을 주장합니다. 대규모 언어 모델이 강력한 범용 예측자이며 압축 관점이 스케일링 법칙, 토큰화, 인컨텍스트 학습에 대한 새로운 인사이트를 제공한다는 것을 보여줍니다. 예를 들어, 주로 텍스트에 대해 학습된 Chinchilla 70B는 이미지넷 패치를 원시 크기의 43.4%로, 라이브러리스피치 샘플을 16.4%로 압축하여 각각 PNG(58.5%)나 FLAC(30.3%)와 같은 도메인별 압축기를 능가합니다. 마지막으로, 예측-압축 동등성을 통해 조건부 생성 모델을 구축하는 데 gzip과 같은 모든 압축기를 사용할 수 있음을 보여줍니다.

    It has long been established that predictive models can be transformed into lossless compressors and vice versa. Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1704306357006897402

계층적 계획을 위한 구성 파운데이션 모델 / Compositional Foundation Models for Hierarchical Planning

논문 소개

  • 언어, 비전 및 행동 데이터로 학습된 여러 전문가 기반 모델을 활용하여 장기적인 목표를 해결하는 기반 모델을 제안합니다.

    Proposes foundation models that leverage multiple expert foundation models trained on language, vision, and action data to solve long-horizon goals.

논문 초록

  • 장기적인 목표가 있는 새로운 환경에서 효과적인 의사결정을 내리려면 공간적, 시간적 규모에 걸쳐 계층적 추론을 하는 것이 중요합니다. 이를 위해서는 추상적인 하위 목표 시퀀스를 계획하고, 기본 계획을 시각적으로 추론하며, 시각-운동 제어를 통해 고안된 계획에 따라 행동을 실행해야 합니다. 우리는 언어, 시각, 행동 데이터에 대해 개별적으로 학습된 여러 전문가 기반 모델을 함께 활용하여 장기적인 과제를 해결하는 기반 모델인 계층적 계획을 위한 구성적 기반 모델(Compositional Foundation Models for Hierarchical Planning, HiP)을 제안합니다. 대규모 언어 모델을 사용하여 대규모 비디오 디퓨젼 모델을 통해 환경에 기반한 상징적 계획을 구축합니다. 생성된 비디오 계획은 생성된 비디오에서 동작을 추론하는 역역학 모델을 통해 시각-운동 제어에 기반합니다. 이 계층 구조 내에서 효과적인 추론을 가능하게 하기 위해 반복적인 개선을 통해 모델 간의 일관성을 강화합니다. 이 접근법의 효율성과 적응성을 세 가지의 서로 다른 장시간 테이블 탑 조작 작업에서 보여줍니다.

    To make effective decisions in novel environments with long-horizon goals, it is crucial to engage in hierarchical reasoning across spatial and temporal scales. This entails planning abstract subgoal sequences, visually reasoning about the underlying plans, and executing actions in accordance with the devised plan through visual-motor control. We propose Compositional Foundation Models for Hierarchical Planning (HiP), a foundation model which leverages multiple expert foundation model trained on language, vision and action data individually jointly together to solve long-horizon tasks. We use a large language model to construct symbolic plans that are grounded in the environment through a large video diffusion model. Generated video plans are then grounded to visual-motor control, through an inverse dynamics model that infers actions from generated videos. To enable effective reasoning within this hierarchy, we enforce consistency between the models via iterative refinement. We illustrate the efficacy and adaptability of our approach in three different long-horizon table-top manipulation tasks.

논문 링크

더 읽어보기

https://x.com/xwlin_roy/status/1704317299719893305

OWL: IT 운영을 위한 대규모 언어 모델 / OWL: A Large Language Model for IT Operations

논문 소개

  • IT 관련 작업을 기반으로 셀프 인스트럭션 전략을 사용하여 튜닝된 IT 운영을 위한 llm인 올빼미를 제안하고, 양질의 인스트럭션 데이터세트를 수집하는 방법과 벤치마크를 구성하는 방법에 대해 설명합니다.

    Proposes owl, an llm for it operations tuned using a self-instruct strategy based on it-related tasks; it discusses how to collect a quality instruction dataset and how to put together a benchmark.

논문 초록

  • IT 운영이 급속도로 발전함에 따라 대량의 데이터를 효율적으로 관리하고 분석하여 실제 애플리케이션에 활용하는 것이 점점 더 중요해지고 있습니다. 자연어 처리(NLP) 기술은 명명된 엔티티 인식, 기계 번역, 대화 시스템 등 다양한 작업에서 괄목할 만한 역량을 보여 왔습니다. 최근에는 대규모 언어 모델(LLM)이 다양한 NLP 다운스트림 작업 전반에서 상당한 개선을 이루었습니다. 하지만 IT 운영을 위한 특화된 LLM은 아직 부족한 실정입니다. 본 논문에서는 다양한 IT 관련 정보를 수집한 OWL-Instruct 데이터셋을 기반으로 학습된 대규모 언어 모델인 OWL을 소개하고, 다양한 도메인 또는 작업에서 매개변수의 효율적인 튜닝을 개선하기 위한 혼합 어댑터 전략을 제안합니다. 또한, 자체적으로 구축한 OWL-Bench와 오픈 IT 관련 벤치마크에서 OWL의 성능을 평가합니다. OWL은 IT 업무에서 기존 모델을 큰 폭으로 능가하는 우수한 성능 결과를 보여주었습니다. 또한, 이번 연구 결과가 전문화된 LLM을 통해 IT 운영 기술을 혁신하는 데 더 많은 인사이트를 제공할 수 있기를 기대합니다.

    With the rapid development of IT operations, it has become increasingly crucial to efficiently manage and analyze large volumes of data for practical applications. The techniques of Natural Language Processing (NLP) have shown remarkable capabilities for various tasks, including named entity recognition, machine translation and dialogue systems. Recently, Large Language Models (LLMs) have achieved significant improvements across various NLP downstream tasks. However, there is a lack of specialized LLMs for IT operations. In this paper, we introduce the OWL, a large language model trained on our collected OWL-Instruct dataset with a wide range of IT-related information, where the mixture-of-adapter strategy is proposed to improve the parameter-efficient tuning across different domains or tasks. Furthermore, we evaluate the performance of our OWL on the OWL-Bench established by us and open IT-related benchmarks. OWL demonstrates superior performance results on IT tasks, which outperforms existing models by significant margins. Moreover, we hope that the findings of our work will provide more insights to revolutionize the techniques of IT operations with specialized LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1704137910834888743

코스모스 2.5: 멀티모달 리터러티브 모델 / Kosmos-2.5: A Multimodal Literate Model

논문 소개

  • 문서 수준의 텍스트 생성 및 이미지-마크다운 텍스트 생성이 가능한 텍스트 집약적 이미지의 기계 판독을 위한 멀티모달 모델입니다.

    A multimodal model for machine reading of text-intensive images, capable of document-level text generation and image-to-markdown text generation.

논문 초록

  • 텍스트 집약적 이미지의 기계 판독을 위한 멀티모달 리터러티브 모델인 Kosmos-2.5를 소개합니다. 대규모 텍스트 집약적 이미지에 대해 사전 학습된 Kosmos-2.5는 (1) 이미지 내에서 각 텍스트 블록에 공간 좌표를 할당하는 공간 인식 텍스트 블록 생성, (2) 스타일과 구조를 마크다운 형식으로 캡처하는 구조화된 텍스트 출력이라는 두 가지 뚜렷하면서도 협력적인 전사 작업에서 탁월한 성능을 발휘합니다. 이러한 통합된 멀티모달 리터러티브 기능은 공유된 Transformer 아키텍처, 작업별 프롬프트, 유연한 텍스트 표현을 통해 달성됩니다. 엔드투엔드 문서 수준 텍스트 인식과 이미지에서 마크다운 텍스트 생성에 대해 Kosmos-2.5를 평가합니다. 또한 이 모델은 감독된 미세 조정을 통해 다양한 프롬프트가 있는 텍스트 집약적인 이미지 이해 작업에 쉽게 적용할 수 있으므로 텍스트가 풍부한 이미지가 포함된 실제 애플리케이션을 위한 범용 도구로 사용할 수 있습니다. 또한 이 작업은 향후 멀티모달 대규모 언어 모델을 확장할 수 있는 기반을 마련했습니다.

    We present Kosmos-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on large-scale text-intensive images, Kosmos-2.5 excels in two distinct yet cooperative transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned its spatial coordinates within the image, and (2) producing structured text output that captures styles and structures into the markdown format. This unified multimodal literate capability is achieved through a shared Transformer architecture, task-specific prompts, and flexible text representations. We evaluate Kosmos-2.5 on end-to-end document-level text recognition and image-to-markdown text generation. Furthermore, the model can be readily adapted for any text-intensive image understanding task with different prompts through supervised fine-tuning, making it a general-purpose tool for real-world applications involving text-rich images. This work also paves the way for the future scaling of multimodal large language models.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1704659787399487649

원문

1개의 좋아요