[2023/10/30 ~ 11/07] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

  • 이 글은 GPT 모델로 자동 요약한 설명으로, 잘못된 내용이 있을 수 있으니 원문을 참고해주세요! :smile:
  • 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다! :bowing_man:

소개

이번 주에 선정된 논문들을 살펴본 결과, 대규모 언어 모델(Large Language Models, LLMs) 및 이들의 성능 평가에 초점을 맞춘 연구가 유행하는 것으로 보입니다. 특히 'Evaluating LLMs', 'LLMs for Chip Design', 'Efficient Context Window Extension of LLMs', 'Enhancing LLMs by Emotion Stimuli' 등의 논문에서는 LLM의 다양한 적용 및 최적화 방안이 논의되고 있다는 점을 확인할 수 있었습니다.

이러한 추세는 최근 몇 년간 인공지능 분야에서 LLM가 가지는 중요성이 급격히 증대되고 있음을 반영합니다. 특히 OpenAI의 GPT 시리즈와 같은 선도적인 모델들이 다양한 자연어 처리(NLP) 작업에서 인상적인 성과를 보여줌으로써, 연구자들은 이러한 모델들을 더욱 발전시키거나 새로운 문제에 적용하기 위한 연구에 집중하고 있습니다. 이와 함께 모델의 효율성을 향상시키고, 감정이나 상황적 문맥과 같은 요소들을 이용하여 모델의 입출력을 더욱 풍부하게 만드는 방안에 대한 관심도 높아지고 있습니다.

또한, 'Next Generation AlphaFold'와 같은 논문에서는 LLM가 아닌 다른 맥락에서, 구조생물학과 같은 전문 분야에 기계 학습 방법론을 적용함으로써 혁신적인 접근 방식을 모색하고 있는 것으로 보입니다. 이러한 연구 추세는 기계 학습과 딥러닝 기술이 단순히 이론적인 발전을 넘어 실제 산업, 과학, 의학 등 여러 분야에서 구체적인 애플리케이션으로 발전하고 있음을 시사합니다.

[2023/10/30 ~ 11/07] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)


희박한 관측 자료로부터 일기 예보를 위한 딥 러닝 / Deep Learning for Day Forecasts from Sparse Observations

논문 소개

  • 관측 기반 모델이 잘 예측할 수 있는 리드 타임 범위와 변수를 모두 확장하는 최첨단 신경 기상 모델로, 밀집된 데이터 센서와 희박한 데이터 센서 모두에서 학습하여 강수량, 바람, 온도 및 이슬점에 대해 최대 24시간 전에 예측을 수행합니다.

    A state-of-the-art neural weather model that extends both the lead time range and the variables that an observation-based model can predict well; learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature, and dew point.

논문 초록

  • 심층 신경망은 기상 조건 모델링을 위한 대안적인 패러다임을 제공합니다. 데이터가 확보되면 1초 이내에 예측을 내리고 매우 높은 시간적, 공간적 해상도로 예측할 수 있는 능력과 대기 관측에서 직접 학습할 수 있는 능력은 이러한 모델의 고유한 장점 중 일부에 불과합니다. 가장 충실도가 높고 지연 시간이 가장 짧은 대기 관측 데이터를 사용하여 학습된 신경 모델은 지금까지 최첨단 확률론적 수치 기상 예측 모델과 비교했을 때 강수량이라는 유일한 변수에 대해서만 최대 12시간의 리드 타임으로 우수한 성능을 달성했습니다. 이 논문에서는 관측 기반 신경 모델이 잘 예측할 수 있는 변수와 리드 타임 범위를 모두 크게 확장한 MetNet-3을 소개합니다. MetNet-3는 조밀하고 희박한 데이터 센서를 모두 학습하여 강수량, 바람, 온도 및 이슬점에 대해 최대 24시간 전에 예측합니다. MetNet-3는 매우 희박한 대상에 대한 네트워크 학습에도 불구하고 암시적으로 데이터 동화를 포착하고 공간적으로 조밀한 예측을 생성하는 핵심 밀도화 기법을 도입합니다. MetNet-3는 각각 최대 2분과 1km의 높은 시간적, 공간적 해상도와 낮은 작동 지연 시간을 제공합니다. MetNet-3는 CONUS 지역에서 최대 24시간 동안 HRRR 및 ENS와 같은 최고의 단일 및 다중 멤버 NWP를 능가하여 관측 기반 신경망 모델의 새로운 성능 이정표를 세웠습니다. MetNet-3는 현재 운영 중이며 다른 모델과 함께 Google 검색에서 예보를 제공하고 있습니다.

    Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.

논문 링크

더 읽어보기

https://x.com/GoogleAI/status/1719774923294687636


대규모 언어 모델 평가하기: 종합적인 서베이 논문 / Evaluating Large Language Models: A Comprehensive Survey

논문 소개

  • 다양한 유형의 평가, 데이터 세트, 기법 등에 대한 토론을 포함하여 LLM 평가에 대한 포괄적인 서베이(100페이지 이상)를 제공합니다. llm-survey llm-evaluation

    A comprehensive survey (100+ pages) on evaluating llms, including discussions about the different types of evaluations, datasets, techniques, and more.

논문 초록

  • 대규모 언어 모델(LLM)은 광범위한 작업에서 놀라운 기능을 입증했습니다. 큰 관심을 끌며 수많은 다운스트림 애플리케이션에 배포되었습니다. 하지만 양날의 검과 같이 LLM에는 잠재적인 위험도 존재합니다. 개인 데이터가 유출되거나 부적절하고 유해하거나 오해의 소지가 있는 콘텐츠가 생성될 수 있습니다. 또한, LLM의 급속한 발전으로 인해 적절한 보호 장치가 없는 초지능 시스템의 출현 가능성에 대한 우려도 제기되고 있습니다. LLM의 역량을 효과적으로 활용하고 안전하고 유익한 개발을 보장하기 위해서는 LLM에 대한 엄격하고 포괄적인 평가를 실시하는 것이 중요합니다. 이 설문조사는 LLM 평가에 대한 종합적인 관점을 제공하기 위해 노력합니다. LLM에 대한 평가를 지식 및 역량 평가, 연계성 평가, 안전성 평가의 세 가지 주요 그룹으로 분류합니다. 이 세 가지 측면에 대한 평가 방법론과 벤치마크에 대한 종합적인 검토와 더불어 전문 영역에서 LLM의 성과와 관련된 평가 개요를 정리하고, 역량, 정렬, 안전성 및 적용 가능성에 대한 LLM 평가를 포괄하는 종합 평가 플랫폼의 구축에 대해 논의합니다. 이 포괄적인 개요를 통해 LLM 평가에 대한 더 많은 연구가 촉진되기를 바라며, 궁극적으로는 평가가 LLM의 책임 있는 개발을 유도하는 초석 역할을 하기를 바랍니다. 이를 통해 잠재적 위험을 최소화하면서 사회적 편익을 극대화하는 방향으로 발전할 수 있기를 기대합니다. 엄선된 관련 논문 목록은 GitHub - tjunlp-lab/Awesome-LLMs-Evaluation-Papers: The papers are organized according to our survey: Evaluating Large Language Models: A Comprehensive Survey. 에서 확인할 수 있습니다.

    Large language models (LLMs) have demonstrated remarkable capabilities across a broad spectrum of tasks. They have attracted significant attention and been deployed in numerous downstream applications. Nevertheless, akin to a double-edged sword, LLMs also present potential risks. They could suffer from private data leaks or yield inappropriate, harmful, or misleading content. Additionally, the rapid progress of LLMs raises concerns about the potential emergence of superintelligent systems without adequate safeguards. To effectively capitalize on LLM capacities as well as ensure their safe and beneficial development, it is critical to conduct a rigorous and comprehensive evaluation of LLMs. This survey endeavors to offer a panoramic perspective on the evaluation of LLMs. We categorize the evaluation of LLMs into three major groups: knowledge and capability evaluation, alignment evaluation and safety evaluation. In addition to the comprehensive review on the evaluation methodologies and benchmarks on these three aspects, we collate a compendium of evaluations pertaining to LLMs' performance in specialized domains, and discuss the construction of comprehensive evaluation platforms that cover LLM evaluations on capabilities, alignment, safety, and applicability. We hope that this comprehensive overview will stimulate further research interests in the evaluation of LLMs, with the ultimate goal of making evaluation serve as a cornerstone in guiding the responsible development of LLMs. We envision that this will channel their evolution into a direction that maximizes societal benefit while minimizing potential risks. A curated list of related papers has been publicly available at GitHub - tjunlp-lab/Awesome-LLMs-Evaluation-Papers: The papers are organized according to our survey: Evaluating Large Language Models: A Comprehensive Survey..

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1719351676828602502


백본의 전투: 컴퓨터 비전 작업 전반에 걸친 사전 학습된 모델의 대규모 비교 / Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks

논문 소개

  • 다양한 컴퓨터 비전 작업을 위한 대규모 벤치마킹 프레임워크; 비전 트랜스포머(ViT)와 자율 지도 학습(SSL)이 점점 인기를 얻고 있지만, 대규모 학습 세트에 대해 지도 방식으로 사전 학습된 컨볼루션 신경망이 대부분의 작업에서 가장 우수한 성능을 보인다는 사실을 확인했습니다. self-supervised vision-transformer

    A large benchmarking framework for a diverse suite of computer vision tasks; find that while vision transformers (vits) and self-supervised learning (ssl) are increasingly popular, convolutional neural networks pretrained in a supervised fashion on large training sets perform best on most tasks.

논문 초록

  • 신경망 기반 컴퓨터 비전 시스템은 일반적으로 사전 학습되거나 무작위로 초기화된 특징 추출기인 백본에 구축됩니다. 몇 년 전만 해도 기본 옵션은 ImageNet으로 학습된 컨볼루션 신경망이었습니다. 그러나 최근에는 다양한 알고리즘과 데이터셋을 사용하여 사전 학습된 수많은 백본이 등장했습니다. 선택의 폭이 넓어지면서 다양한 시스템의 성능이 향상되었지만, 실무자가 어떤 백본을 선택할지 정보에 입각한 결정을 내리기란 쉽지 않습니다. 배틀 오브 더 백본(Battle of the Backbones, BoB)은 분류부터 객체 감지, OOD 일반화 등 다양한 컴퓨터 비전 작업에 걸쳐 비전 언어 모델, 자율 학습을 통해 학습된 모델, 스테이블 디퓨전 백본 등 다양한 사전 학습된 모델 세트를 벤치마킹하여 이러한 선택을 보다 쉽게 할 수 있도록 지원합니다. 또한 BoB는 1,500개 이상의 학습 실행에 대한 종합적인 분석을 통해 기존 접근 방식의 장단점을 조명함으로써 연구 커뮤니티가 컴퓨터 비전을 발전시킬 수 있는 유망한 방향을 제시합니다. 비전 트랜스포머(ViT)와 자가 지도 학습(SSL)이 점점 인기를 얻고 있지만, 대규모 학습 세트에 대해 지도 방식으로 사전 학습된 컨볼루션 신경망이 여전히 대부분의 작업에서 가장 우수한 성능을 보인다는 사실을 발견했습니다. 또한, 동일한 아키텍처와 비슷한 크기의 사전 학습 데이터셋에 대한 사과 대 사과 비교에서 SSL 백본의 경쟁력이 매우 높다는 것을 발견했으며, 이는 향후 작업에서 고급 아키텍처와 더 큰 사전 학습 데이터셋을 사용하여 SSL 사전 학습을 수행해야 함을 나타냅니다. 연구자들이 직접 백본을 테스트해 볼 수 있는 코드와 함께 실험의 원시 결과를 여기(GitHub - hsouri/Battle-of-the-Backbones)에 공개합니다

    Neural network based computer vision systems are typically built on a backbone, a pretrained or randomly initialized feature extractor. Several years ago, the default option was an ImageNet-trained convolutional neural network. However, the recent past has seen the emergence of countless backbones pretrained using various algorithms and datasets. While this abundance of choice has led to performance increases for a range of systems, it is difficult for practitioners to make informed decisions about which backbone to choose. Battle of the Backbones (BoB) makes this choice easier by benchmarking a diverse suite of pretrained models, including vision-language models, those trained via self-supervised learning, and the Stable Diffusion backbone, across a diverse set of computer vision tasks ranging from classification to object detection to OOD generalization and more. Furthermore, BoB sheds light on promising directions for the research community to advance computer vision by illuminating strengths and weakness of existing approaches through a comprehensive analysis conducted on more than 1500 training runs. While vision transformers (ViTs) and self-supervised learning (SSL) are increasingly popular, we find that convolutional neural networks pretrained in a supervised fashion on large training sets still perform best on most tasks among the models we consider. Moreover, in apples-to-apples comparisons on the same architectures and similarly sized pretraining datasets, we find that SSL backbones are highly competitive, indicating that future works should perform SSL pretraining with advanced architectures and larger pretraining datasets. We release the raw results of our experiments along with code that allows researchers to put their own backbones through the gauntlet here: GitHub - hsouri/Battle-of-the-Backbones

논문 링크

더 읽어보기

https://x.com/micahgoldblum/status/1719719308882801045


칩네모(ChipNeMo): 칩 설계를 위한 도메인 적응형 LLM / ChipNeMo: Domain-Adapted LLMs for Chip Design

논문 소개

  • 도메인 적응 기술을 활용하여 산업용 칩 설계에 LLM 사용 제안, 어시스턴트 챗봇, 전자 설계 자동화, 버그 요약 등 칩 설계를 위한 다양한 애플리케이션 평가, 도메인 적응은 다양한 설계 작업에서 범용 모델보다 성능을 크게 향상, 래그에 도메인 적응형 llm을 사용하면 답변 품질이 더욱 향상됩니다.

    Proposes using llms for industrial chip design by leveraging domain adaptation techniques; evaluates different applications for chip design such as assistant chatbot, electronic design automation, and bug summarization; domain adaptation significantly improves performance over general-purpose models on a variety of design tasks; using a domain-adapted llm for rag further improves answer quality.

논문 초록

  • ChipNeMo는 산업용 칩 설계를 위한 대규모 언어 모델(LLM)의 응용 분야를 탐구하는 것을 목표로 합니다. 기성 상용 또는 오픈소스 LLM을 직접 배포하는 대신 맞춤형 토큰화, 도메인 적응형 지속적 사전 교육, 도메인별 지침을 사용한 감독형 미세 조정(SFT), 도메인 적응형 검색 모델과 같은 도메인 적응 기술을 채택합니다. 칩 설계를 위해 엔지니어링 어시스턴트 챗봇, EDA 스크립트 생성, 버그 요약 및 분석 등 세 가지 선택된 LLM 애플리케이션에 대해 이러한 방법을 평가합니다. 그 결과, 이러한 도메인 적응 기법을 사용하면 평가 대상 애플리케이션 3종에서 범용 기본 모델에 비해 LLM 성능이 크게 개선되어 다양한 설계 작업에서 유사하거나 더 나은 성능으로 모델 크기를 최대 5배까지 줄일 수 있는 것으로 나타났습니다. 또한 이번 연구 결과는 현재 결과와 이상적인 결과 사이에 여전히 개선의 여지가 있음을 보여줍니다. 유니티는 향후 도메인에 적합한 LLM 접근 방식에 대한 추가 연구가 이 격차를 줄이는 데 도움이 될 것으로 기대하고 있습니다.

    ChipNeMo aims to explore the applications of large language models (LLMs) for industrial chip design. Instead of directly deploying off-the-shelf commercial or open-source LLMs, we instead adopt the following domain adaptation techniques: custom tokenizers, domain-adaptive continued pretraining, supervised fine-tuning (SFT) with domain-specific instructions, and domain-adapted retrieval models. We evaluate these methods on three selected LLM applications for chip design: an engineering assistant chatbot, EDA script generation, and bug summarization and analysis. Our results show that these domain adaptation techniques enable significant LLM performance improvements over general-purpose base models across the three evaluated applications, enabling up to 5x model size reduction with similar or better performance on a range of design tasks. Our findings also indicate that there's still room for improvement between our current results and ideal outcomes. We believe that further investigation of domain-adapted LLM approaches will help close this gap in the future.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1720066328961159387


YaRN: 대규모 언어 모델의 효율적인 컨텍스트 창 확장 / YaRN: Efficient Context Window Extension of Large Language Models

논문 소개

  • 사전 학습된 컨텍스트 창을 넘어 llms의 컨텍스트 창을 효율적으로 확장하는 컴퓨팅 효율적인 방법을 제안하고, 미세 조정 데이터 세트의 제한된 컨텍스트를 넘어 외삽하여 최대 128k 컨텍스트 길이까지 모델을 재현했습니다. yarn

    Proposes a compute-efficient method for efficiently extending the context window of llms beyond what it was pretrained on; extrapolates beyond the limited context of a fine-tuning dataset and models have been reproduced up to 128k context length.

논문 초록

  • 회전식 위치 임베딩(RoPE)은 트랜스포머 기반 언어 모델에서 위치 정보를 효과적으로 인코딩하는 것으로 나타났습니다. 그러나 이러한 모델은 학습된 시퀀스 길이를 넘어서면 일반화하지 못합니다. 이러한 모델의 컨텍스트 창을 확장하는 컴퓨팅 효율적인 방법으로서 이전 방법보다 10배 적은 토큰과 2.5배 적은 학습 단계를 필요로 하는 YaRN(또 다른 RoPE 확장 방법)을 소개합니다. YaRN을 사용하면 LLaMA 모델이 원래의 사전 학습이 허용하는 것보다 훨씬 더 긴 컨텍스트 길이를 효과적으로 활용하고 외삽할 수 있으며, 컨텍스트 창 확장에 있어서도 이전의 최신 기술을 뛰어넘을 수 있음을 보여줍니다. 또한, 미세 조정 데이터 세트의 제한된 컨텍스트를 뛰어넘어 외삽할 수 있는 기능도 YaRN을 통해 입증되었습니다. YaRN을 사용하여 미세 조정된 모델은 최대 128k 컨텍스트 길이까지 온라인(GitHub - jquesnelle/yarn: YaRN: Efficient Context Window Extension of Large Language Models)에서 사용할 수 있으며 재생산되었습니다

    Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. The models fine-tuned using YaRN has been made available and reproduced online up to 128k context length at GitHub - jquesnelle/yarn: YaRN: Efficient Context Window Extension of Large Language Models

논문 링크

더 읽어보기

https://x.com/theemozilla/status/1720107186850877662


직접 공기 포집에서 흡착제 발견을 위한 Open DAC 2023 데이터셋 및 과제 / The Open DAC 2023 Dataset and Challenges for Sorbent Discovery in Direct Air Capture

논문 소개

  • 흡착된 이산화탄소 및/또는 수소를 포함하는 8,800개 이상의 MOF 물질에 대한 38m 이상의 밀도 함수 이론(DFT) 계산으로 구성된 데이터셋을 소개합니다. 데이터셋에서 직접 DAC에 대한 특성을 식별하고, 데이터 세트로 최첨단 ML 모델을 학습하여 dft 수준에서 계산을 근사화하며, 향후 dac를 포함한 광범위한 애플리케이션의 mof를 식별하려는 노력에 중요한 기준이 될 수 있습니다.

    Introduces a dataset consisting of more than 38m density functional theory (dft) calculations on more than 8,800 mof materials containing adsorbed co2 and/or h2o; properties for dac are identified directly in the dataset; also trains state-of-the-art ml models with the dataset to approximate calculations at the dft level; can lead to important baseline for future efforts to identify mofs for a wide range of applications, including dac.

논문 초록

  • 지구 기후 변화에 대응하기 위해서는 이산화탄소를 제거하는 새로운 방법이 시급히 필요합니다. 직접 공기 포집(DAC)은 주변 공기에서 직접 이산화탄소를 포집하는 새로운 기술입니다. 금속-유기 프레임워크(MOF)는 DAC를 위한 잠재적인 맞춤형 흡착제로 널리 연구되어 왔습니다. 그러나 탐색해야 할 화학적 공간이 방대하고 습도와 온도의 함수로서 물질을 이해해야 하기 때문에 DAC를 위한 유망한 MOF 흡착제를 발견하는 것은 어려운 일입니다. 퓨어스토리지는 최근 머신러닝(ML)의 혁신을 활용한 계산적 접근 방식을 탐구하고, 흡착된 CO2 및/또는 H2O를 포함하는 8,800개 이상의 MOF 재료에 대한 3800만 건 이상의 밀도 함수 이론(DFT) 계산으로 구성된 Open DAC 2023(ODAC23)이라는 데이터셋을 선보입니다. ODAC23은 현재 사용 가능한 DFT 수준의 정확도를 가진 MOF 흡착 계산 데이터 중 가장 큰 데이터 세트입니다. 이 데이터셋은 흡착된 분자의 특성을 조사하는 것 외에도 MOF의 구조적 이완에 대한 풍부한 정보를 제공하며, 이는 DAC의 특정 응용 분야 외에도 다양한 맥락에서 유용하게 사용될 수 있습니다. DAC에 유망한 특성을 가진 많은 수의 MOF가 ODAC23에서 직접 식별되었습니다. 또한 이 데이터세트를 바탕으로 최첨단 머신러닝 모델을 학습하여 DFT 수준에서 근사 계산을 수행했습니다. 이 오픈소스 데이터 세트와 초기 ML 모델은 향후 DAC를 포함한 다양한 애플리케이션의 MOF를 식별하기 위한 노력에 중요한 기준이 될 것입니다.

    New methods for carbon dioxide removal are urgently needed to combat global climate change. Direct air capture (DAC) is an emerging technology to capture carbon dioxide directly from ambient air. Metal-organic frameworks (MOFs) have been widely studied as potentially customizable adsorbents for DAC. However, discovering promising MOF sorbents for DAC is challenging because of the vast chemical space to explore and the need to understand materials as functions of humidity and temperature. We explore a computational approach benefiting from recent innovations in machine learning (ML) and present a dataset named Open DAC 2023 (ODAC23) consisting of more than 38M density functional theory (DFT) calculations on more than 8,800 MOF materials containing adsorbed CO2 and/or H2O. ODAC23 is by far the largest dataset of MOF adsorption calculations at the DFT level of accuracy currently available. In addition to probing properties of adsorbed molecules, the dataset is a rich source of information on structural relaxation of MOFs, which will be useful in many contexts beyond specific applications for DAC. A large number of MOFs with promising properties for DAC are identified directly in ODAC23. We also trained state-of-the-art ML models on this dataset to approximate calculations at the DFT level. This open-source dataset and our initial ML models will provide an important baseline for future efforts to identify MOFs for a wide range of applications, including DAC.

논문 링크

더 읽어보기

https://x.com/AIatMeta/status/1720143486505341128


머신러닝에서 대칭성을 적용, 발견 및 촉진하기 위한 통합 프레임워크 / A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning

논문 소개

  • 머신러닝에서 대칭성을 적용, 발견 및 촉진하기 위한 통합된 방법론적 프레임워크를 제시하고, 이러한 아이디어를 다층 인식 및 기저 함수 회귀와 같은 ML 모델에 어떻게 적용할 수 있는지에 대해서도 논의합니다.

    Presents a unified and methodological framework to enforce, discover, and promote symmetry in machine learning; also discusses how these ideas can be applied to ml models such as multilayer perceptions and basis function regression.

논문 초록

  • 대칭은 자연 전반에 걸쳐 존재하며 물리학 및 기계 학습에서 점점 더 중심적인 역할을 하고 있습니다. 푸앵카르 불변성과 같은 기본 대칭을 통해 지구상의 실험실에서 발견한 물리 법칙을 우어텐션 가장 먼 곳까지 외삽할 수 있습니다. 머신러닝 애플리케이션에서 이러한 외삽력을 달성하려면 대칭성이 필수적입니다. 예를 들어, 이미지 분류에서 번역 불변성을 사용하면 컨볼루션 신경망과 같이 매개변수가 적은 모델을 더 작은 데이터셋에서 학습하고 최첨단 성능을 달성할 수 있습니다. 이 논문에서는 머신러닝 모델에 대칭성을 통합하기 위한 통합된 이론적, 방법론적 프레임워크를 세 가지 방식으로 제공합니다: 1. 모델을 학습할 때 알려진 대칭성 적용, 2. 주어진 모델 또는 데이터 세트의 알려지지 않은 대칭성 발견, 3. 데이터에 충분한 증거가 있을 때 사용자가 지정한 후보 그룹 내에서 대칭성을 깨는 모델을 학습하여 학습 중에 대칭성을 촉진하는 것. 이 세 가지 방법을 통해 머신러닝 모델을 학습할 때 대칭성을 강화할 수 있습니다. 이러한 작업은 벡터 다발에 대한 섬유 선형 Lie 그룹 작용과 관련된 Lie 도함수를 중심 객체로 하는 일반적인 수학적 프레임워크 내에서 캐스팅할 수 있음을 보여줍니다. 대칭을 강제하고 발견하는 것이 거짓말 도함수의 쌍선형 구조와 관련하여 이중적인 선형 대수적 작업임을 보여줌으로써 기존의 여러 결과를 확장하고 통합합니다. 또한 머신러닝 모델 학습 중 대칭성 위반을 불이익을 주는 Lie 도함수와 핵 규범 완화에 기반한 볼록 정규화 함수 클래스를 도입하여 대칭성을 촉진하는 새로운 방법을 제안합니다. 이러한 아이디어를 기저 함수 회귀, 동적 시스템 발견, 다층 퍼셉트론, 이미지와 같은 공간 필드에 작용하는 신경망 등 다양한 머신러닝 모델에 어떻게 적용할 수 있는지 설명합니다.

    Symmetry is present throughout nature and continues to play an increasingly central role in physics and machine learning. Fundamental symmetries, such as Poincar'{e} invariance, allow physical laws discovered in laboratories on Earth to be extrapolated to the farthest reaches of the universe. Symmetry is essential to achieving this extrapolatory power in machine learning applications. For example, translation invariance in image classification allows models with fewer parameters, such as convolutional neural networks, to be trained on smaller data sets and achieve state-of-the-art performance. In this paper, we provide a unifying theoretical and methodological framework for incorporating symmetry into machine learning models in three ways: 1. enforcing known symmetry when training a model; 2. discovering unknown symmetries of a given model or data set; and 3. promoting symmetry during training by learning a model that breaks symmetries within a user-specified group of candidates when there is sufficient evidence in the data. We show that these tasks can be cast within a common mathematical framework whose central object is the Lie derivative associated with fiber-linear Lie group actions on vector bundles. We extend and unify several existing results by showing that enforcing and discovering symmetry are linear-algebraic tasks that are dual with respect to the bilinear structure of the Lie derivative. We also propose a novel way to promote symmetry by introducing a class of convex regularization functions based on the Lie derivative and nuclear norm relaxation to penalize symmetry breaking during training of machine learning models. We explain how these ideas can be applied to a wide range of machine learning models including basis function regression, dynamical systems discovery, multilayer perceptrons, and neural networks acting on spatial fields such as images.

논문 링크

더 읽어보기

https://x.com/eigensteve/status/1720115655050227911


차세대 알파폴드 / Next Generation AlphaFold

논문 소개

  • 알파폴드의 적용 범위를 크게 확장하는 새로운 알파폴드 반복에 대한 진행 상황을 보고하고, 단백질, 핵산, 저분자, 이온 및 변형 잔류물을 포함한 복합체의 결합 구조 예측 기능을 보여주며, 단백질-핵산 상호작용에 대해 전문 예측기보다 더 높은 정확도를 보여줍니다.

    Reports progress on a new iteration of alphafold that greatly expands its range of applicability; shows capabilities of joint structure prediction of complexes including proteins, nucleic acids, small molecules, ions, and modified residue; demonstrates greater accuracy on protein-nucleic acid interactions than specialists predictors.

논문 링크

더 읽어보기

https://x.com/demishassabis/status/1719345831730368596


대규모 언어 모델을 이해하고 감정적 자극으로 향상시킬 수 있습니다 / Large Language Models Understand and Can be Enhanced by Emotional Stimuli

논문 소개

  • Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 등 다양한 인공지능을 사용하여 45개 과제에 대한 자동 실험을 수행하고, 종합적인 평가 시나리오를 나타내는 결정론적 및 생성적 애플리케이션을 아우르는 과제를 수행하며, 실험 결과 인공지능이 감성 지능을 파악하고 있음을 보여줍니다.

    Explores the ability of llms to understand emotional stimuli; conducts automatic experiments on 45 tasks using various llms, including flan-t5-large, vicuna, llama 2, bloom, chatgpt, and gpt-4; the tasks span deterministic and generative applications that represent comprehensive evaluation scenarios; experimental results show that llms have a grasp of emotional intelligence.

논문 초록

  • 감성 지능은 우리의 일상적인 행동과 상호 작용에 큰 영향을 미칩니다. 대규모 언어 모델(LLM)은 다양한 작업에서 인상적인 성능을 보여주며 인공 일반 지능을 향한 진일보로 여겨지고 있지만, LLM이 심리적인 감정 자극을 진정으로 파악할 수 있는지는 아직 불확실합니다. 감정적 단서를 이해하고 이에 반응하는 것은 문제 해결에 있어 인간에게 뚜렷한 이점을 제공합니다. 이 논문에서는 인공신경망의 감정 자극 이해 능력을 탐구하기 위한 첫 번째 단계를 밟습니다. 이를 위해 먼저 Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, GPT-4 등 다양한 LLM을 사용하여 45개의 과제에 대한 자동 실험을 수행합니다. 이 작업은 포괄적인 평가 시나리오를 나타내는 결정론적 애플리케이션과 제너레이티브 애플리케이션에 걸쳐 있습니다. 자동 실험에 따르면 LLM은 감성 지능을 이해하고 있으며, 감정적 프롬프트(원래 프롬프트와 감정적 자극을 결합한 "감정 프롬프트"라고 함)를 통해 성능을 향상시킬 수 있습니다(예: 명령 유도에서 8.00%, BIG-Bench에서 115%의 상대적 성능 향상). 기존 지표를 사용하여 자동으로 평가할 수 있는 결정론적 과제 외에도 106명의 참가자를 대상으로 바닐라 프롬프트와 감성 프롬프트를 모두 사용한 생성형 과제의 품질을 평가하기 위한 인간 연구를 실시했습니다. 인간 연구 결과에 따르면 감정 프롬프트가 생성 작업의 성과를 크게 향상시키는 것으로 나타났습니다(성과, 진실성, 책임감 지표에서 평균 10.9% 향상). 이 글에서는 이모션프롬프트가 LLM에 효과적인 이유와 그 성과에 영향을 미칠 수 있는 요인에 대해 심도 있게 논의합니다. 저희는 EmotionPrompt가 인간과 LLM의 상호작용을 위한 학제 간 지식을 탐구하는 새로운 길을 제시한다고 생각합니다.

    Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call "EmotionPrompt" that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.

논문 링크

더 읽어보기

https://x.com/emollick/status/1720135672764285176


FP8-LM: FP8 대규모 언어 모델 학습 / FP8-LM: Training FP8 Large Language Models

논문 소개

  • FP8 LLM을 학습할 때 기울기 및 옵티마이저 상태와 같은 대부분의 변수를 LLM 학습에서 모델 정확도를 저하시키지 않고 하이퍼 파라미터를 변경할 필요 없이 저정밀 데이터 형식을 사용할 수 있음을 발견했습니다.

    Finds that when training fp8 llms most variables, such as gradients and optimizer states, in llm training, can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameter.

논문 초록

  • 이 논문에서는 대규모 언어 모델(LLM)의 효율적인 학습을 위한 FP8 저비트 데이터 형식을 살펴봅니다. 우리의 핵심 인사이트는 LLM 학습에서 기울기 및 최적화 상태와 같은 대부분의 변수가 모델 정확도를 저하시키지 않고 하이퍼 파라미터를 변경할 필요 없이 저정밀 데이터 형식을 사용할 수 있다는 것입니다. 특히, 유니티는 LLM 학습을 위한 새로운 FP8 자동 혼합 정밀도 프레임워크를 제안합니다. 이 프레임워크는 LLM의 혼합 정밀도 및 분산 병렬 학습을 간소화하기 위해 세 가지 수준의 FP8 활용도를 제공합니다. 이 프레임워크는 8비트 그라디언트, 최적화 상태, 분산 학습을 점진적인 방식으로 통합합니다. 실험 결과에 따르면, H100 GPU 플랫폼에서 GPT-175B 모델을 학습하는 동안 유니티의 FP8 혼합 정밀도 학습 프레임워크는 실제 메모리 사용량을 42% 감소시켰을 뿐만 아니라 널리 채택된 BF16 프레임워크(예: Megatron-LM)보다 64% 더 빠르게 실행되어 엔비디아 트랜스포머 엔진의 속도를 17% 능가하는 것으로 나타났습니다. 따라서 대규모 파운데이션 모델의 트레이닝 비용을 크게 절감할 수 있습니다. 또한, 유니티의 FP8 혼합 정밀도 학습 방법론은 일반적입니다. 사람의 피드백을 통한 LLM 명령어 튜닝 및 강화 학습과 같은 다른 작업에도 원활하게 적용할 수 있으므로 미세 조정 비용을 절감할 수 있습니다. 유니티의 FP8 저정밀 학습 프레임워크는 {GitHub - Azure/MS-AMP: Microsoft Automatic Mixed Precision Library}{aka.ms/MS.AMP}에서 오픈소스로 제공됩니다.

    In this paper, we explore FP8 low-bit data formats for efficient training of large language models (LLMs). Our key insight is that most variables, such as gradients and optimizer states, in LLM training can employ low-precision data formats without compromising model accuracy and requiring no changes to hyper-parameters. Specifically, we propose a new FP8 automatic mixed-precision framework for training LLMs. This framework offers three levels of FP8 utilization to streamline mixed-precision and distributed parallel training for LLMs. It gradually incorporates 8-bit gradients, optimizer states, and distributed learning in an incremental manner. Experiment results show that, during the training of GPT-175B model on H100 GPU platform, our FP8 mixed-precision training framework not only achieved a remarkable 42% reduction in real memory usage but also ran 64% faster than the widely adopted BF16 framework (i.e., Megatron-LM), surpassing the speed of Nvidia Transformer Engine by 17%. This largely reduces the training costs for large foundation models. Furthermore, our FP8 mixed-precision training methodology is generic. It can be seamlessly applied to other tasks such as LLM instruction tuning and reinforcement learning with human feedback, offering savings in fine-tuning expenses. Our FP8 low-precision training framework is open-sourced at {GitHub - Azure/MS-AMP: Microsoft Automatic Mixed Precision Library}{aka.ms/MS.AMP}.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1718813303223222765


원문