[2023/10/23 ~ 10/29] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 제공된 논문들을 보면 크게 두 가지 주제, '대규모 언어 모델(Large Language Model, 이하 LLM)'과 '딥러닝 모델에 대한 비교 및 응용(예: ConvNets과 Vision Transformers의 비교)'가 주를 이루는 것을 알 수 있습니다. 이 부분에서 보여지는 트렌드는 언어 모델에 대한 깊은 연구 및 고차원 딥러닝 모델의 성능 비교와 활용입니다.

'Zephyr LLM', 'Fact-checking with LLMs', 'LLMs Meet New Knowledge', 'Detecting Pretraining Data from LLLMs', 'Branch-Solve-Merge Reasoning in LLMs' 등의 논문들은 LLMs에 주목하고 이를 다양한 방식으로 활용하여 모델의 성능을 향상시키거나 새로운 지식을 도출하는 연구가 활발하게 진행되고 있다는 것을 시사하고 있습니다.

또한, 'Matryoshka Diffusion Models', 'Spectron', 'ConvNets Match Vision Transformers', 'CommonCanvas', 'Managing AI Risks - a' 등의 논문들은 각기 다른 딥러닝 모델들에 대한 성능 비교 및 응용 방안을 제시하고 있습니다. 특히, 'ConvNets Match Vision Transformers'에서는 Vision Transformers와 ConvNets라는 두 가지 다른 종류의 딥러닝 모델의 성능을 비교 분석하고 있음을 볼 수 있습니다. 이러한 연구는 딥러닝 모델 간의 성능 차이를 이해하는 데 도움이 되며, 필요에 따라 적절한 모델을 선택할 수 있는 기준을 제공한다고 볼 수 있습니다.

따라서 주요 트렌드는 언어 모델의 깊은 연구와 딥러닝 모델 대비 비교 및 응용인 것으로 파악됩니다. 이러한 연구들은 인공지능 기술의 다양한 분야에서 더 나은 성능과 효율성을 달성하기 위한 기반을 제공하고 있습니다.


Zephyr: LM 정렬의 직접 증류 / Zephyr: Direct Distillation of LM Alignment

논문 소개

  • AlpacaEval에서 ChatGPT와 경쟁할 수 있는 성능을 갖춘 7b 파라미터 모델, 작업 정확도를 개선하기 위해 증류된 감독 미세 조정을 적용하고 모델을 더 잘 정렬하기 위해 AI 피드백 데이터에 증류된 직접 성능 최적화를 적용하여 사람의 피드백에 맞춰진 70b 파라미터 채팅 모델과 비슷한 성능을 보여줍니다.

    A 7b parameter model with competitive performance to chatgpt on alpacaeval; applies distilled supervised fine-tuning to improve task accuracy and distilled direct performance optimization on ai feedback data to better align the model; shows performance comparable to 70b-parameter chat models aligned with human feedback.

논문 초록

  • 저희는 사용자 의도에 맞는 더 작은 언어 모델을 만드는 것을 목표로 합니다. 이전 연구에 따르면 더 큰 모델에 증류 감독 미세 조정(dSFT)을 적용하면 작업 정확도가 크게 향상되지만, 이러한 모델은 정렬되지 않아 자연스러운 프롬프트에 잘 반응하지 않는 것으로 나타났습니다. 이러한 특성을 개선하기 위해 AI 피드백(AIF)의 선호도 데이터를 사용하는 실험을 진행했습니다. 교사 모델에 의해 순위가 매겨진 출력 데이터셋에서 시작하여 증류 직접 선호도 최적화(dDPO)를 적용하여 의도 정렬이 크게 개선된 채팅 모델을 학습합니다. 이 접근 방식은 미세 조정 중에 추가 샘플링 없이 몇 시간만 학습하면 됩니다. 최종 결과물인 Zephyr-7B는 7B 매개변수 모델에 대한 채팅 벤치마크에서 최고를 기록했으며, 사람이 주석을 달지 않아도 됩니다. 특히 MT-Bench의 결과에 따르면 Zephyr-7B는 최고의 오픈 액세스 RLHF 기반 모델인 Llama2-Chat-70B를 능가하는 것으로 나타났습니다. 시스템의 코드, 모델, 데이터, 튜토리얼은 GitHub - huggingface/alignment-handbook: Robust recipes for to align language models with human and AI preferences 에서 확인할 수 있습니다.

    We aim to produce a smaller language model that is aligned to user intent. Previous research has shown that applying distilled supervised fine-tuning (dSFT) on larger models significantly improves task accuracy; however, these models are unaligned, i.e. they do not respond well to natural prompts. To distill this property, we experiment with the use of preference data from AI Feedback (AIF). Starting from a dataset of outputs ranked by a teacher model, we apply distilled direct preference optimization (dDPO) to learn a chat model with significantly improved intent alignment. The approach requires only a few hours of training without any additional sampling during fine-tuning. The final result, Zephyr-7B, sets the state-of-the-art on chat benchmarks for 7B parameter models, and requires no human annotation. In particular, results on MT-Bench show that Zephyr-7B surpasses Llama2-Chat-70B, the best open-access RLHF-based model. Code, models, data, and tutorials for the system are available at GitHub - huggingface/alignment-handbook: Robust recipes for to align language models with human and AI preferences.

논문 링크

더 읽어보기

https://x.com/nazneenrajani/status/1717747969842417723


대규모 언어 모델을 사용한 팩트 체킹의 위험과 장점 / The Perils & Promises of Fact-checking with Large Language Models

논문 소개

  • GPT-4와 같은 LLM의 사실 확인 기능을 조사한 결과, 맥락 정보를 갖추었을 때 llms의 성능이 향상됨을 보여줍니다. GPT-4는 GPT-3보다 성능이 뛰어나지만 정확도는 쿼리 언어와 주장의 진실성에 따라 다르며, LLM은 사실 확인에 잠재력을 보이지만 정확도는 일관성이 없음을 보이고 있습니다..

    Investigates the fact-checking capabilities of llms like gpt-4; results show the enhanced prowess of llms when equipped with contextual information; gpt4 outperforms gpt-3, but accuracy varies based on query language and claim veracity; while llms show promise in fact-checking, they demonstrate inconsistent accuracy.

논문 초록

  • 잘못된 정보가 인간의 사실 확인 능력을 넘어 확산됨에 따라 머신러닝을 사용하여 주장을 검증하는 자율적 사실 확인의 중요성이 커지고 있습니다. 정보를 검증하고 학술 논문, 소송, 뉴스 기사를 작성하는 데 있어 GPT-4와 같은 대규모 언어 모델(LLM)의 신뢰도가 높아지면서 진실과 거짓을 구분하는 역할과 그 결과물을 검증할 수 있는 능력의 중요성이 강조되고 있습니다. 여기서는 쿼리 문구를 입력하고, 문맥 데이터를 검색하고, 의사 결정을 내리도록 함으로써 사실 확인에서 LLM 에이전트의 활용을 평가합니다. 중요한 점은 에이전트가 프레임워크에서 자신의 추론을 설명하고 검색된 컨텍스트에서 관련 소스를 인용한다는 점입니다. 테스트 결과는 컨텍스트 정보를 갖춘 LLM의 향상된 성능을 보여줍니다. GPT-4는 GPT-3보다 성능이 뛰어나지만 정확도는 쿼리 언어와 주장의 진실성에 따라 달라집니다. LLM은 사실 확인에 있어 가능성을 보여주지만, 정확도가 일관되지 않기 때문에 주의가 필요합니다. 이번 조사를 통해 에이전트가 성공하는 경우와 실패하는 경우를 더 깊이 이해할 수 있는 추가 연구가 필요합니다.

    Autonomous fact-checking, using machine learning to verify claims, has grown vital as misinformation spreads beyond human fact-checking capacity. Large Language Models (LLMs) like GPT-4 are increasingly trusted to verify information and write academic papers, lawsuits, and news articles, emphasizing their role in discerning truth from falsehood and the importance of being able to verify their outputs. Here, we evaluate the use of LLM agents in fact-checking by having them phrase queries, retrieve contextual data, and make decisions. Importantly, in our framework, agents explain their reasoning and cite the relevant sources from the retrieved context. Our results show the enhanced prowess of LLMs when equipped with contextual information. GPT-4 outperforms GPT-3, but accuracy varies based on query language and claim veracity. While LLMs show promise in fact-checking, caution is essential due to inconsistent accuracy. Our investigation calls for further research, fostering a deeper comprehension of when agents succeed and when they fail.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1717550929145119212


마트료시카 디퓨젼 모델 / Matryoshka Diffusion Models

논문 소개

  • 고해상도 이미지 및 비디오 합성을 위한 엔드투엔드 프레임워크 도입, 여러 해상도의 입력을 공동으로 노이즈 제거하고 네스티드넷 아키텍처를 사용하는 확산 프로세스 포함, 저해상도에서 고해상도로 점진적으로 학습하여 고해상도 생성을 위한 최적화를 개선할 수 있도록 지원합니다.

    Introduces an end-to-end framework for high-resolution image and video synthesis; involves a diffusion process that denoises inputs at multiple resolutions jointly and uses a nestedunet architecture; enables a progressive training schedule from lower to higher resolutions leading to improvements in optimization for high-resolution generation.

논문 초록

  • 디퓨젼 모델은 고품질 이미지와 비디오를 생성하기 위한 사실상의 접근 방식이지만, 고차원 모델을 학습하는 것은 계산 및 최적화 문제로 인해 여전히 어려운 작업으로 남아 있습니다. 기존 방법으로는 픽셀 공간에서 캐스케이드 모델을 학습하거나 별도로 학습된 자동 인코더의 다운샘플링된 잠재 공간을 사용하는 경우가 많습니다. 이 논문에서는 고해상도 이미지 및 비디오 합성을 위한 엔드투엔드 프레임워크인 마트료시카 디퓨젼 모델(MDM)을 소개합니다. 여러 해상도의 입력을 공동으로 노이즈 제거하는 확산 프로세스를 제안하고, 소규모 입력의 특징과 매개변수가 대규모 입력의 특징과 매개변수 내에 중첩되는 네스티드유넷 아키텍처를 사용합니다. 또한 MDM을 사용하면 저해상도에서 고해상도로 점진적으로 학습할 수 있어 고해상도 생성을 위한 최적화를 크게 개선할 수 있습니다. 유니티는 클래스 조건부 이미지 생성, 고해상도 텍스트-이미지 및 텍스트-비디오 애플리케이션을 포함한 다양한 벤치마크에서 이러한 접근 방식의 효과를 입증했습니다. 놀랍게도 최대 1024x1024픽셀의 해상도에서 단일 픽셀 공간 모델을 학습할 수 있으며, 1,200만 개의 이미지만 포함된 CC12M 데이터셋을 사용하여 강력한 제로샷 일반화를 보여줍니다.

    Diffusion models are the de facto approach for generating high-quality images and videos, but learning high-dimensional models remains a formidable task due to computational and optimization challenges. Existing methods often resort to training cascaded models in pixel space or using a downsampled latent space of a separately trained auto-encoder. In this paper, we introduce Matryoshka Diffusion Models(MDM), an end-to-end framework for high-resolution image and video synthesis. We propose a diffusion process that denoises inputs at multiple resolutions jointly and uses a NestedUNet architecture where features and parameters for small-scale inputs are nested within those of large scales. In addition, MDM enables a progressive training schedule from lower to higher resolutions, which leads to significant improvements in optimization for high-resolution generation. We demonstrate the effectiveness of our approach on various benchmarks, including class-conditioned image generation, high-resolution text-to-image, and text-to-video applications. Remarkably, we can train a single pixel-space model at resolutions of up to 1024x1024 pixels, demonstrating strong zero-shot generalization using the CC12M dataset, which contains only 12 million images.

논문 링크

더 읽어보기

https://x.com/thoma_gu/status/1716923384846856691


스펙트로그램 기반의 LLM을 사용한 음성 질문 답변 및 음성 계속하기 / Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM

논문 소개

  • 스펙트로그램(Spectrogram)을 직접 처리하도록 엔드 투 엔드 학습된 음성 언어 모델링의 새로운 접근 방식으로, 고품질의 정확한 음성 언어를 생성하도록 미세 조정할 수 있으며 화자 보존 및 의미 일관성 측면에서 기존 음성 언어 모델을 능가합니다.

    A new approach for spoken language modeling trained end-to-end to directly process spectrograms; it can be fine-tuned to generate high-quality accurate spoken language; the method surpasses existing spoken language models in speaker preservation and semantic coherence.

논문 초록

  • 사전 학습된 대규모 언어 모델(LLM)을 적용하여 질의응답(QA) 및 음성 연속을 수행하는 새로운 접근 방식을 제시합니다. LLM에 사전 학습된 음성 인코더를 부여함으로써 모델이 음성 입력을 받아 음성 출력을 생성할 수 있게 됩니다. 전체 시스템이 엔드투엔드 방식으로 학습되고 스펙트로그램에서 직접 작동하므로 아키텍처가 간소화됩니다. 이 접근 방식의 핵심은 한 쌍의 음성-텍스트 쌍만을 사용하여 음성 인식, 텍스트 연속, 음성 합성을 공동으로 감독하는 학습 목표를 통해 단일 디코딩 패스 내에서 '크로스 모달' 사고 사슬을 가능하게 하는 것입니다. 이 방법은 화자 보존과 의미적 일관성 측면에서 기존 음성 언어 모델을 능가합니다. 또한, 제안된 모델은 음성 QA 데이터셋을 통해 입증된 바와 같이 원본 LLM의 지식을 유지하는 데 있어 직접 초기화보다 더 나은 성능을 보입니다. 오디오 샘플은 Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM 에서 확인할 수 있습니다

    We present a novel approach to adapting pre-trained large language models (LLMs) to perform question answering (QA) and speech continuation. By endowing the LLM with a pre-trained speech encoder, our model becomes able to take speech inputs and generate speech outputs. The entire system is trained end-to-end and operates directly on spectrograms, simplifying our architecture. Key to our approach is a training objective that jointly supervises speech recognition, text continuation, and speech synthesis using only paired speech-text pairs, enabling a `cross-modal' chain-of-thought within a single decoding pass. Our method surpasses existing spoken language models in speaker preservation and semantic coherence. Furthermore, the proposed model improves upon direct initialization in retaining the knowledge of the original LLM as demonstrated through spoken QA datasets. Audio samples can be found at Spoken Question Answering and Speech Continuation Using Spectrogram-Powered LLM

논문 링크

더 읽어보기

https://x.com/GoogleAI/status/1717584836834001066


ALCUNA: 대규모 언어 모델과 새로운 지식의 만남 / ALCUNA: Large Language Models Meet New Knowledge

논문 소개

  • 지식 이해, 차별화 및 연관성에서 LLM의 능력을 평가하기 위한 벤치마크를 제시합니다. 벤치마크 결과는 (당연히) 새로운 지식을 도입했을 때 LLM의 성과가 만족스럽지 않다는 것을 보여줍니다.

    Presents a benchmark to assess llms' abilities in knowledge understanding, differentiation, and association; benchmark results show (unsurprisingly) that an llm’s performance when introduced to new knowledge is not satisfactory.

논문 초록

  • 자연어 처리(NLP)의 급속한 발전으로 대규모 언어 모델(LLM)은 이제 여러 도메인에 걸쳐 다양한 작업에서 탁월한 성능을 발휘합니다. 그러나 기존의 벤치마크는 특히 새로운 지식에 직면했을 때 이러한 모델의 기능을 적절하게 측정하지 못할 수 있습니다. 이 논문에서는 빠르게 진화하는 세상에서 중요하고 도전적인 측면인 새로운 지식을 처리하는 LLM의 능력을 평가할 수 있는 벤치마크가 부족하다는 점을 다룹니다. 기존 엔티티 속성과 관계를 변경하여 실제 엔티티와 구별되는 인공 엔티티를 생성함으로써 새로운 지식을 생성하는 KnowGen이라는 접근 방식을 제안합니다. KnowGen을 통해 지식 이해, 차별화, 연관성에서 LLM의 능력을 평가하기 위해 ALCUNA라는 벤치마크를 도입합니다. 여러 LLM을 벤치마킹한 결과, 새로운 지식에 직면했을 때, 특히 새로운 지식과 내부 지식 사이의 추론에서 그 성능이 만족스럽지 않다는 사실을 발견했습니다. 또한 엔티티 유사성이 엔티티 지식에 대한 모델의 이해와 문맥 엔티티의 영향에 미치는 영향에 대해 살펴봅니다. 새로운 시나리오나 새로운 지식에서 LLM을 사용할 때 주의가 필요하다는 점을 강조하며, 이 벤치마크가 새로운 지식에 직면한 LLM의 개발을 촉진하는 데 도움이 되기를 바랍니다.

    With the rapid development of NLP, large-scale language models (LLMs) excel in various tasks across multiple domains now. However, existing benchmarks may not adequately measure these models' capabilities, especially when faced with new knowledge. In this paper, we address the lack of benchmarks to evaluate LLMs' ability to handle new knowledge, an important and challenging aspect in the rapidly evolving world. We propose an approach called KnowGen that generates new knowledge by altering existing entity attributes and relationships, resulting in artificial entities that are distinct from real-world entities. With KnowGen, we introduce a benchmark named ALCUNA to assess LLMs' abilities in knowledge understanding, differentiation, and association. We benchmark several LLMs, reveals that their performance in face of new knowledge is not satisfactory, particularly in reasoning between new and internal knowledge. We also explore the impact of entity similarity on the model's understanding of entity knowledge and the influence of contextual entities. We appeal to the need for caution when using LLMs in new scenarios or with new knowledge, and hope that our benchmarks can help drive the development of LLMs in face of new knowledge.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1716817266195796186


대규모 언어 모델에서 사전 학습 데이터 감지하기 / Detecting Pretraining Data from Large Language Models

논문 소개

  • 주어진 텍스트에 대해 블랙박스 모델이 학습되었는지 여부를 판단하는 것을 목표로 하는 사전 학습 데이터 탐지 문제를 살펴보고, 벤치마크 예제 오염 탐지, 머신 언러닝의 개인정보 감사, LM의 관련 데이터에서 저작권이 있는 텍스트 탐지를 위한 효과적인 도구로 min-k% prob라는 탐지 방법을 제안합니다.

    Explores the problem of pretraining data detection which aims to determine if a black box model was trained on a given text; proposes a detection method named min-k% prob as an effective tool for benchmark example contamination detection, privacy auditing of machine unlearning, and copyrighted text detection in lm’s pertaining data.

논문 초록

  • 대규모 언어 모델(LLM)이 널리 배포되고 있지만, 이를 학습하는 데 사용되는 데이터는 거의 공개되지 않습니다. 이 데이터의 규모가 수조 개에 달하는 엄청난 규모를 감안할 때, 저작권이 있는 자료, 개인 식별 정보, 널리 보고된 참조 벤치마크의 테스트 데이터 등 잠재적으로 문제가 될 수 있는 텍스트가 포함되어 있다는 것은 거의 확실합니다. 그러나 현재로서는 이러한 유형의 데이터가 어떤 비율로 포함되어 있는지 알 수 있는 방법이 없습니다. 이 논문에서는 사전 학습 데이터 탐지 문제, 즉 사전 학습 데이터를 모르는 상태에서 텍스트 한 조각과 LLM에 대한 블랙박스 액세스 권한이 주어졌을 때 모델이 제공된 텍스트로 학습되었는지 확인할 수 있는지에 대해 연구합니다 이 연구를 용이하게 하기 위해 모델 학습 전후에 생성된 데이터를 사용하여 골드 트루스 탐지를 지원하는 동적 벤치마크 WIKIMIA를 소개합니다. 또한, 보이지 않는 예시에는 LLM 하에서 확률이 낮은 몇 개의 이상 단어가 포함될 가능성이 있는 반면, 보이는 예시에는 확률이 낮은 단어가 포함될 가능성이 적다는 간단한 가설에 기반한 새로운 탐지 방법 Min-K% Prob를 소개합니다. Min-K% Prob는 사전 학습 데이터와 유사한 데이터에 대해 참조 모델을 학습해야 하는 기존 탐지 방법에서 벗어나 사전 학습 코퍼스나 추가 학습에 대한 지식 없이도 적용할 수 있습니다. 또한, 실험 결과 Min-K% Prob는 기존 방식에 비해 위키미아에서 7.4%의 성능 향상을 달성했습니다. 저작권이 있는 책 탐지와 오염된 다운스트림 예제 탐지라는 두 가지 실제 시나리오에 Min-K% Prob를 적용한 결과, 일관되게 효과적인 솔루션임을 확인할 수 있었습니다.

    Although large language models (LLMs) are widely deployed, the data used to train them is rarely disclosed. Given the incredible scale of this data, up to trillions of tokens, it is all but certain that it includes potentially problematic text such as copyrighted materials, personally identifiable information, and test data for widely reported reference benchmarks. However, we currently have no way to know which data of these types is included or in what proportions. In this paper, we study the pretraining data detection problem: given a piece of text and black-box access to an LLM without knowing the pretraining data, can we determine if the model was trained on the provided text? To facilitate this study, we introduce a dynamic benchmark WIKIMIA that uses data created before and after model training to support gold truth detection. We also introduce a new detection method Min-K% Prob based on a simple hypothesis: an unseen example is likely to contain a few outlier words with low probabilities under the LLM, while a seen example is less likely to have words with such low probabilities. Min-K% Prob can be applied without any knowledge about the pretraining corpus or any additional training, departing from previous detection methods that require training a reference model on data that is similar to the pretraining data. Moreover, our experiments demonstrate that Min-K% Prob achieves a 7.4% improvement on WIKIMIA over these previous methods. We apply Min-K% Prob to two real-world scenarios, copyrighted book detection, and contaminated downstream example detection, and find it a consistently effective solution.

논문 링크

더 읽어보기

https://x.com/WeijiaShi2/status/1717612387174687150


대규모 비전 트랜스포머와 일치하는 ConvNets / ConvNets Match Vision Transformers at Scale

논문 소개

  • JFT-4b에서 사전 학습된 고성능 컨브넷 아키텍처를 대규모로 평가하고, 홀드아웃 손실과 컴퓨팅 예산 사이의 로그-로그 스케일링 법칙을 관찰하며, 이미지넷에서 미세 조정 후 nfnet은 보고된 비전 트랜스포머의 성능과 비슷한 컴퓨팅 예산과 일치합니다.

    Evaluates a performant convnet architecture pretrained on jft-4b at scale; observes a log-log scaling law between the held out loss and compute budget; after fine-tuning on imagenet, nfnets match the reported performance of vision transformers with comparable compute budgets.

논문 초록

  • 많은 연구자들은 ConvNet이 소규모 또는 중간 크기의 데이터셋에서는 잘 작동하지만 웹 규모의 데이터셋에 액세스할 수 있는 경우 비전 트랜스포머와 경쟁력이 없다고 생각합니다. 유니티는 파운데이션 모델 학습에 자주 사용되는 대규모 레이블이 지정된 이미지 데이터셋인 JFT-4B에서 사전 학습된 성능 좋은 ConvNet 아키텍처를 평가하여 이러한 믿음에 도전합니다. 0.4k에서 110k TPU-v4 코어 컴퓨팅 시간 사이의 사전 학습 컴퓨팅 예산을 고려하고, NFNet 모델 제품군에서 깊이와 폭이 증가하는 일련의 네트워크를 학습합니다. 홀드아웃 손실과 컴퓨팅 예산 사이의 로그-로그 스케일링 법칙을 관찰합니다. ImageNet에서 미세 조정 후, NFNet은 보고된 비전 트랜스포머의 성능과 비슷한 컴퓨팅 예산과 일치합니다. 가장 강력하게 미세 조정된 모델은 90.4%의 최고 정확도를 달성합니다.

    Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1717385905214759421


커먼캔버스: 크리에이티브 커먼즈 이미지로 학습된 개방형 디퓨젼 모델 / CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images

논문 소개

  • 크리에이티브 커먼즈 라이선스(CC) 이미지 데이터셋을 사용하여 안정적인 확산 2(SD2)와 경쟁할 수 있는 디퓨젼 모델을 학습하고, 전이 학습 기법을 사용하여 선별된 CC 이미지와 짝을 이루는 고품질 합성 캡션을 생성하며, SD2와 비슷한 성능으로 laion-2b의 최소 3%만 필요한 효율적인 학습 레시피를 개발합니다.

    A dataset of creative-commons-licensed (cc) images to train diffusion models competitive with stable diffusion 2 (sd2); rely on a transfer learning technique to produce high-quality synthetic captions paired with curated cc images; also develops an efficient training recipe requiring as little as 3% of laion-2b with comparable performance to sd2.

논문 초록

  • 크리에이티브 커먼즈 라이선스(CC) 이미지의 데이터셋을 수집하고, 이를 사용하여 스테이블 디퓨전 2(SD2)와 질적으로 경쟁력이 있는 개방형 디퓨젼 모델 세트를 학습합니다. 이 작업에는 두 가지 과제가 있습니다. (1) 고해상도 CC 이미지에는 텍스트-이미지 생성 모델을 학습하는 데 필요한 캡션이 부족하고, (2) CC 이미지가 상대적으로 부족하다는 점입니다. 이러한 문제를 해결하기 위해 유니티는 직관적인 전이 학습 기법을 사용하여 선별된 CC 이미지와 짝을 이루는 고품질 합성 캡션 세트를 생성합니다. 그런 다음 기존 SD2 모델을 학습하는 데 필요한 LAION-2B 데이터의 3%만 필요하지만 비슷한 품질을 얻을 수 있는 데이터 및 컴퓨팅 효율적인 학습 레시피를 개발합니다. 이러한 결과는 고품질 모델을 학습하기에 충분한 수의 CC 이미지(약 7천만 개)를 보유하고 있음을 나타냅니다. 또한 학습 레시피는 다양한 최적화를 구현하여 학습 속도를 최대 3배까지 향상시켜 신속한 모델 반복을 가능하게 합니다. 이 레시피를 활용하여 여러 고품질 텍스트-이미지 모델을 학습하고 있으며, 이를 CommonCanvas 제품군이라고 부릅니다. 가장 큰 모델은 LAION보다 훨씬 작은 CC 데이터셋으로 학습하고 합성 캡션을 사용하여 학습했음에도 불구하고 인간 평가에서 SD2와 비슷한 성능을 달성했습니다. 모델, 데이터, 코드를 https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md 에서 공개합니다

    We assemble a dataset of Creative-Commons-licensed (CC) images, which we use to train a set of open diffusion models that are qualitatively competitive with Stable Diffusion 2 (SD2). This task presents two challenges: (1) high-resolution CC images lack the captions necessary to train text-to-image generative models; (2) CC images are relatively scarce. In turn, to address these challenges, we use an intuitive transfer learning technique to produce a set of high-quality synthetic captions paired with curated CC images. We then develop a data- and compute-efficient training recipe that requires as little as 3% of the LAION-2B data needed to train existing SD2 models, but obtains comparable quality. These results indicate that we have a sufficient number of CC images (~70 million) for training high-quality models. Our training recipe also implements a variety of optimizations that achieve ~3X training speed-ups, enabling rapid model iteration. We leverage this recipe to train several high-quality text-to-image models, which we dub the CommonCanvas family. Our largest model achieves comparable performance to SD2 on a human evaluation, despite being trained on our CC dataset that is significantly smaller than LAION and using synthetic captions for training. We release our models, data, and code at https://github.com/mosaicml/diffusion/blob/main/assets/common-canvas.md

논문 링크

더 읽어보기

https://x.com/iScienceLuvr/status/1717359916422496596


AI 위험 관리 - a / Managing AI Risks - a

논문 소개

  • 사회적 피해, 악의적 사용 및 자율 AI 시스템의 급속한 채택으로 인해 발생하는 기타 잠재적 사회 문제에 대한 조사를 포함하여 향후 및 고급 AI 시스템의 위험을 요약한 짧은 논문입니다.

    Short paper outlining risks from upcoming and advanced ai systems, including an examination of social harms, malicious uses, and other potential societal issues emerging from the rapid adoption of autonomous ai systems.

논문 링크

더 읽어보기

https://x.com/geoffreyhinton/status/1717967329202491707


대규모 언어 모델 평가 및 생성을 개선하는 Branch-Solve-Merge / Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

논문 소개

  • 특정 프롬프트로 매개변수화된 분기, 풀기, 병합 모듈로 구성된 기본 llm 프로그램으로, 이를 통해 여러 병렬 하위 작업으로 작업 분해를 계획하고 독립적으로 풀며 하위 작업에 대한 솔루션을 융합하여 여러 llm의 평가 정확성과 일관성을 향상시킬 수 있습니다.

    An llm program that consists of branch, solve, and merge modules parameterized with specific prompts to the base llm; this enables an llm to plan a decomposition of task into multiple parallel sub-tasks, independently solve them, and fuse solutions to the sub-tasks; improves evaluation correctness and consistency for multiple llms.

논문 초록

  • 대규모 언어 모델(LLM)은 복잡한 사용자 제약 조건을 충족하거나 여러 측면과 기준을 고려해야 하는 다면적인 언어 생성 및 평가 작업에 자주 사용됩니다. 그러나 모델의 일관성이 부족하고 문제를 계획하고 분해하지 못하기 때문에 성능이 떨어질 수 있습니다. 이러한 까다로운 자연어 작업을 해결하기 위해 대규모 언어 모델 프로그램인 BSM(Branch-Solve-Merge)을 제안합니다(Schlag et al., 2023). 이 프로그램은 기본 LLM에 특정 프롬프트로 매개변수화된 분기, 해결, 병합 모듈로 구성됩니다. 이 세 가지 모듈은 작업을 여러 개의 병렬 하위 작업으로 분해하고, 이를 독립적으로 해결하며, 하위 작업에 대한 솔루션을 융합합니다. 우리는 이 방법을 LLM 응답 평가와 제약 텍스트 생성 작업에 적용하고 Vicuna, LLaMA-2-chat, GPT-4를 포함한 여러 LLM으로 그 효과를 평가합니다. BSM은 인간-LLM 일치도를 최대 26%까지 향상시키고, 길이 및 쌍별 위치 편향을 최대 50%까지 줄이며, 대부분의 도메인에서 LLaMA-2-chat이 GPT-4와 일치하거나 더 나은 성능을 발휘하도록 함으로써 각 LLM에 대한 평가 정확도와 일관성을 향상시킵니다. 제약 조건 스토리 생성 작업에서 BSM은 스토리의 일관성을 개선하는 동시에 제약 조건 만족도를 12% 향상시킵니다.

    Large Language Models (LLMs) are frequently used for multi-faceted language generation and evaluation tasks that involve satisfying intricate user constraints or taking into account multiple aspects and criteria. However, their performance can fall short, due to the model's lack of coherence and inability to plan and decompose the problem. We propose Branch-Solve-Merge (BSM), a Large Language Model program (Schlag et al., 2023) for tackling such challenging natural language tasks. It consists of branch, solve, and merge modules that are parameterized with specific prompts to the base LLM. These three modules plan a decomposition of the task into multiple parallel sub-tasks, independently solve them, and fuse the solutions to the sub-tasks. We apply our method to the tasks of LLM response evaluation and constrained text generation and evaluate its effectiveness with multiple LLMs, including Vicuna, LLaMA-2-chat, and GPT-4. BSM improves the evaluation correctness and consistency for each LLM by enhancing human-LLM agreement by up to 26%, reducing length and pairwise position biases by up to 50%, and allowing LLaMA-2-chat to match or outperform GPT-4 on most domains. On the constraint story generation task, BSM improves the coherence of the stories while also improving constraint satisfaction by 12%.

논문 링크

더 읽어보기

https://x.com/jaseweston/status/1716635331393380619


원문