[2024/09/09 ~ 09/15] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR
-
이번 주에 선정된 논문들에서 두드러지는 트렌드는 주로 대형 언어 모델(LLM)과 이들의 다양한 적용 가능성에 관한 것입니다. 논문 제목들에서 "LLMs," "Large Language Models," 및 "Can LLMs..." 등이 자주 등장하며, 이는 대형 언어 모델들이 연구와 논의의 주요 주제라는 점을 시사합니다. 예를 들어, 'Learning to Reason with LLMs,' 'Can LLMs Generation Novel Research Ideas,' 및 'Achieving Peak Performance for LLMs' 같은 논문들은 LLM의 다양한 능력과 최적화 방법을 중점으로 다루고 있습니다.
-
대형 언어 모델의 다양한 가능성을 탐구하는 것은 현재 AI 연구의 주요 방향 중 하나로 보입니다. 이는 LLM이 자연어 처리(NLP)뿐만 아니라 다양한 다른 영역에서도 혁신을 가져올 수 있는 잠재력이 크기 때문이라고 할 수 있습니다. 연구자들은 이 모델들이 단순히 텍스트를 생성하는 것을 넘어 더 복잡한 reasoning (추론) 능력, 새로운 연구 아이디어 생성, 특정 작업에서의 최적화 등 다양한 방법으로 활용될 수 있는지 조사하고 있습니다. 이러한 연구들이 앞으로 인공지능의 발전 방향에 큰 영향을 미칠 것으로 예상됩니다.
-
또한, 소형 언어 모델(SLM, Small Language Model)과 관련된 연구도 눈에 띕니다. 예를 들어, 'The Role of Small Language Models in the LLM Era'라는 논문은 대형 모델뿐만 아니라 소형 모델이 어떻게 중요한 역할을 할 수 있는지를 탐구합니다. 이는 대형 모델이 갖는 자원 소모 문제와 함께 소형 모델들이 효율적이고 실용적인 대안이 될 수 있다는 점을 강조합니다. 결론적으로, 이번 주의 연구 논문들은 전반적으로 대형 언어 모델의 다양한 잠재력을 탐구하면서도, 소형 모델의 역할과 효용성을 함께 고려하는 균형 잡힌 접근을 보여줍니다.
LLM으로 추론하는 법 배우기 / Learning to Reason with LLMs
모델 소개
OpenAI가 새롭게 공개한 o1에 대한 소개 글입니다. 복잡한 작업에 반응하기 전에 추론하도록 강화 학습으로 훈련된 새로운 LLM 제품군으로, 내부적으로 긴 사고 사슬을 생성하고 과학, 코드, 수학 관련 작업에서 뛰어나며 2024년 국제 정보학 올림피아드에서 49번째 백분위수에 속하고 과학 관련 벤치마크에서 인간 박사급 정확도를 뛰어넘는 성능을 발휘합니다.
A new family of LLMs trained with reinforcement learning to reason before it responds to complex tasks; it produces a long internal chain of thought and exceeds in science, code, and math-related tasks; ranked in the 49th percentile in the 2024 International Olympiad in Informatics and exceeds human PhD-level accuracy on science-related benchmarks.
소개 글 링크
https://openai.com/index/learning-to-reason-with-llms/
더 읽어보기
https://x.com/OpenAI/status/1834278217626317026
Chai-1
모델 소개
단백질, 저분자, DNA, RNA 등을 예측할 수 있는 분자 구조 예측을 위한 새로운 다중 모드 기반 모델로, 신약 개발의 다양한 작업에서 최첨단 결과를 달성하고, PoseBusters 벤치마크에서 77%의 성공률(AlphaFold 3의 76% 대비)과 CASP15 단백질 모노머 구조 예측 세트에서 0.849의 Cα LDDT(ESM3-98B의 0.801 대비)를 달성했습니다.
A new multi-modal foundation model for molecular structure prediction that can predict proteins, small molecules, DNA, RNA, and more; it achieves state-of-the-art results on a variety of tasks in drug discovery; achieves a 77% success rate on the PoseBusters benchmark (vs. 76% by AlphaFold 3), as well as an Cα LDDT of 0.849 on the CASP15 protein monomer structure prediction set (vs. 0.801 by ESM3-98B).
소개 글 링크
더 읽어보기
https://x.com/joshim5/status/1833183091776721106
LLM이 새로운 연구 아이디어를 창출할 수 있을까요? 100명 이상의 NLP 연구자가 참여한 대규모 인간 연구 / Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
논문 소개
LLM이 창출한 연구 아이디어가 전문가 아이디어보다 더 참신하다고 평가(p <0.05)하지만, 유연성 측면에서는 다소 낮은 평가를 받았으며, 아이디어 창출 과정에서 다양성이 부족하고 신뢰할 수 있는 평가자가 아니라는 의견도 있었습니다.
Finds that LLM-generated research ideas are judged as more novel (p <0.05) than human expert ideas; however, they were rated slightly weaker in terms of flexibility; they also report that LLM agents lack diversity in the idea generation process and are not reliable evaluators.
논문 초록(Abstract)
최근 대규모 언어 모델(LLM)의 발전으로 새로운 아이디어를 자율적으로 생성하고 검증하는 연구 에이전트를 제안하는 연구가 늘어나면서 과학적 발견을 가속화할 수 있는 잠재력에 대한 낙관론이 확산되고 있습니다. 그럼에도 불구하고 LLM 시스템이 전체 연구 프로세스를 수행하는 것은 말할 것도 없고, 전문가 수준의 새로운 아이디어를 생산하는 첫 단계를 수행할 수 있다는 평가는 아직 없습니다. 저희는 교란 요인을 통제하면서 연구 아이디어 생성을 평가하는 실험 설계를 수립하고 전문 NLP 연구원과 LLM 아이디어 에이전트 간의 첫 번째 일대일 비교를 수행하여 이 문제를 해결했습니다. 100명 이상의 NLP 연구원을 모집하여 참신한 아이디어를 작성하고 LLM과 사람의 아이디어를 블라인드 리뷰함으로써, 현재 연구 아이디어 창출을 위한 LLM의 역량에 대해 통계적으로 유의미한 첫 번째 결론을 얻었습니다. LLM이 생성한 아이디어가 사람의 전문가 아이디어보다 더 참신하다고 평가되는 반면 실현 가능성은 약간 낮게 평가되는 것으로 나타났습니다(p <0.05). 에이전트 기준선을 면밀히 연구한 결과, 연구 에이전트 구축 및 평가에 있어 LLM 자체 평가의 실패와 생성의 다양성 부족 등 아직 해결되지 않은 문제점을 확인했습니다. 마지막으로, 저희는 참신성에 대한 인간의 판단이 전문가조차도 어려울 수 있음을 인정하고, 이러한 아이디어를 전체 프로젝트로 실행할 연구원을 모집하는 엔드투엔드 연구 설계를 제안하여 이러한 참신성과 타당성 판단이 연구 결과에 유의미한 차이를 가져오는지 연구할 수 있도록 했습니다.
Recent advancements in large language models (LLMs) have sparked optimism about their potential to accelerate scientific discovery, with a growing number of works proposing research agents that autonomously generate and validate new ideas. Despite this, no evaluations have shown that LLM systems can take the very first step of producing novel, expert-level ideas, let alone perform the entire research process. We address this by establishing an experimental design that evaluates research idea generation while controlling for confounders and performs the first head-to-head comparison between expert NLP researchers and an LLM ideation agent. By recruiting over 100 NLP researchers to write novel ideas and blind reviews of both LLM and human ideas, we obtain the first statistically significant conclusion on current LLM capabilities for research ideation: we find LLM-generated ideas are judged as more novel (p < 0.05) than human expert ideas while being judged slightly weaker on feasibility. Studying our agent baselines closely, we identify open problems in building and evaluating research agents, including failures of LLM self-evaluation and their lack of diversity in generation. Finally, we acknowledge that human judgements of novelty can be difficult, even by experts, and propose an end-to-end study design which recruits researchers to execute these ideas into full projects, enabling us to study whether these novelty and feasibility judgements result in meaningful differences in research outcome.
논문 링크
더 읽어보기
https://x.com/ChengleiSi/status/1833166031134806330
DataGemma
논문 소개
LLM이 수치 및 통계 데이터에 액세스하고 이를 통합할 수 있도록 미세 조정된 일련의 Gemma 2 모델 포함; 데이터 커먼즈의 공개 통계 데이터를 LLM 응답에 안정적으로 통합할 수 있는 검색 인터리브 생성(RIG)이라는 새로운 접근 방식 제안; RIG는 도구에서 영감을 얻은 접근 방식으로, 통계 토큰과 데이터 커먼즈의 검색에 적합한 자연어 질문을 인터리브할 수 있으며 이러한 기능을 얻기 위해 Gemini 1의 도움으로 생성된 명령-반응 데이터 세트에서 LLM을 미세 조정합니다.5; RIG 접근 방식은 사실성을 5~7%에서 약 58%로 향상시킵니다.
Includes a series of fine-tuned Gemma 2 models to help LLMs access and incorporate numerical and statistical data; proposes a new approach called Retrieval Interleaved Generation (RIG) which can reliably incorporate public statistical data from Data Commons into LLM responses; RIG is a tool-inspired approach, can interleave statistical tokens with natural language questions suitable for retrieval from Data Commons; to attain such capability, they fine-tune the LLM on an instruction-response dataset generated with the help of Gemini 1.5; the RIG approach improves factuality from 5-7% to about 58%.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 수치 및 통계 데이터나 기타 시기적절한 사실을 포함하는 쿼리에 응답할 때 사실과 다른 정보를 생성하기 쉽습니다. 이 백서에서는 유엔(UN), 질병통제예방센터(CDC), 전 세계 인구조사국 등 신뢰할 수 있는 기관의 방대한 공공 통계가 저장된 오픈소스 저장소인 Data Commons와 통합하여 LLM의 정확성을 높이는 접근 방식을 제시합니다. 두 가지 주요 방법을 살펴봅니다: 데이터 커먼즈에서 데이터를 검색하기 위해 자연어 쿼리를 생성하도록 LLM을 훈련시키는 검색 인터리브 생성(RIG)과 데이터 커먼즈에서 관련 데이터 테이블을 가져와 LLM의 프롬프트를 보강하는 데 사용하는 검색 증강 생성(RAG)이 그것입니다. 다양한 쿼리 세트에 대해 이러한 방법을 평가하여 LLM 결과의 사실 정확도를 개선하는 데 있어 그 효과를 입증했습니다. 이러한 작업은 신뢰할 수 있는 통계 데이터에 기반하고 복잡한 사실 추론이 가능한 보다 신뢰할 수 있고 안정적인 LLM을 구축하기 위한 초기 단계입니다.
Large Language Models (LLMs) are prone to generating factually incorrect information when responding to queries that involve numerical and statistical data or other timely facts. In this paper, we present an approach for enhancing the accuracy of LLMs by integrating them with Data Commons, a vast, open-source repository of public statistics from trusted organizations like the United Nations (UN), Center for Disease Control and Prevention (CDC) and global census bureaus. We explore two primary methods: Retrieval Interleaved Generation (RIG), where the LLM is trained to produce natural language queries to retrieve data from Data Commons, and Retrieval Augmented Generation (RAG), where relevant data tables are fetched from Data Commons and used to augment the LLM's prompt. We evaluate these methods on a diverse set of queries, demonstrating their eectiveness in improving the factual accuracy of LLM outputs. Our work represents an early step towards building more trustworthy and reliable LLMs that are grounded in veriable statistical data and capable of complex factual reasoning.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1834235024675406012
에이전트 워크플로우 메모리 / Agent Workflow Memory
논문 소개
에이전트 워크플로우 메모리를 도입하여 일반적으로 재사용되는 워크플로우를 유도하고 이를 필요에 따라 에이전트에게 제공, 오프라인 및 온라인에서 작동하며 에이전트의 후속 세대를 안내, 인간이 과거 경험에서 재사용 가능한 워크플로우를 학습하고 이를 사용하여 향후 행동을 안내하는 방식에서 영감을, 보다 효율적인 방식으로 수행하면서 기준 결과를 24.6%, Mind2Web 및 WebArena의 상대 성공률을 51.1% 크게 개선했다고 주장합니다.
Introduces Agent Workflow Memory to induce commonly reused workflows and provide these to the agent on demand; works offline and online and is meant to guide the agent's subsequent generations; it’s inspired by how humans learn reusable workflows from past experiences and use them to guide future actions; claims to substantially improve the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while doing it in a more efficient way.
논문 초록(Abstract)
언어 모델 기반 에이전트가 웹 내비게이션과 같은 실제 작업을 해결할 수 있는 잠재력에도 불구하고 현재의 방식은 복잡한 작업 궤적을 가진 긴 작업에는 여전히 어려움을 겪고 있습니다. 반면 인간은 과거 경험에서 재사용 가능한 작업 워크플로를 학습하고 이를 사용하여 향후 작업을 안내함으로써 복잡한 작업을 유연하게 해결할 수 있습니다. 이러한 프로세스에서 유사한 이점을 얻을 수 있는 에이전트를 구축하기 위해 일반적으로 재사용되는 루틴, 즉 워크플로우를 유도하고 후속 세대를 안내하기 위해 에이전트에게 워크플로우를 선택적으로 제공하는 방법인 에이전트 워크플로 메모리(AWM)를 도입했습니다. AWM은 오프라인과 온라인 시나리오 모두에 유연하게 적용되며, 에이전트가 사전에 교육 예제나 즉석에서 테스트 쿼리를 통해 워크플로우를 유도합니다. 여행, 쇼핑, 소셜 미디어 등 200개 이상의 도메인에서 1000개 이상의 작업을 총망라하는 두 가지 주요 웹 탐색 벤치마크인 Mind2Web과 WebArena에서 실험을 진행했습니다. AWM은 Mind2Web과 WebArena의 기준 결과를 24.6%와 51.1%의 상대적 성공률로 크게 개선하는 동시에 WebArena 작업을 성공적으로 해결하는 데 필요한 단계 수를 줄였습니다. 또한 온라인 AWM은 교차 과제, 웹사이트 및 도메인 평가에서 강력하게 일반화되어 훈련과 테스트 과제 분포의 격차가 커질수록 8.9점에서 14.0점까지 기준선을 뛰어넘는 절대 점수를 기록합니다.
Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks -- Mind2Web and WebArena -- that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1834059522198896706
LLM 시대에서 스몰 모델의 역할은 무엇인지에 대한 서베이 연구 / What is the Role of Small Models in the LLM Era: A Survey
논문 소개
이 논문은 데이터 큐레이션, 더 강력한 모델 훈련, 효율적인 추론, 평가자, 검색기 등 SLM의 일반적인 적용 사례와 함께 실무자가 이러한 SLM의 가치를 더 잘 이해할 수 있는 인사이트를 담고 있어 LLM과 SLM의 관계를 면밀히 살펴봅니다.
closely examines the relationship between LLMs and SLMs; common applications of SLMs include data curation, training stronger models, efficient inference, evaluators, retrievers, and much more; includes insights for practitioners to better understand the value of these SLMs.
논문 초록(Abstract)
대규모 언어 모델(LLM)은 인공 일반 지능(AGI)을 발전시키는 데 상당한 진전을 이루었으며, GPT-4 및 LLaMA-405B와 같은 점점 더 큰 규모의 모델이 개발되고 있습니다. 그러나 모델 크기를 확장하면 계산 비용과 에너지 소비가 기하급수적으로 증가하기 때문에 이러한 모델은 제한된 자원을 가진 학계 연구자나 기업에게는 실용적이지 않습니다. 동시에 소형 모델(SM)은 실제 환경에서 자주 사용되지만 그 중요성은 현재 과소평가되고 있습니다. 이는 LLM 시대에 스몰 모델의 역할에 대한 중요한 질문을 제기하는데, 이는 이전 연구에서 제한적인 관심을 받았던 주제입니다. 이 연구에서는 두 가지 주요 관점에서 LLM과 SM의 관계를 체계적으로 살펴봅니다: 협업과 경쟁. 이 설문조사가 실무자들에게 귀중한 인사이트를 제공하여 소규모 모델의 기여에 대한 이해를 높이고 컴퓨팅 리소스를 보다 효율적으로 사용할 수 있도록 촉진할 수 있기를 바랍니다. 코드는 GitHub - tigerchen52/role_of_small_models: a curated list of the role of small models in the LLM era 에서 확인할 수 있습니다
Large Language Models (LLMs) have made significant progress in advancing artificial general intelligence (AGI), leading to the development of increasingly large models such as GPT-4 and LLaMA-405B. However, scaling up model sizes results in exponentially higher computational costs and energy consumption, making these models impractical for academic researchers and businesses with limited resources. At the same time, Small Models (SMs) are frequently used in practical settings, although their significance is currently underestimated. This raises important questions about the role of small models in the era of LLMs, a topic that has received limited attention in prior research. In this work, we systematically examine the relationship between LLMs and SMs from two key perspectives: Collaboration and Competition. We hope this survey provides valuable insights for practitioners, fostering a deeper understanding of the contribution of small models and promoting more efficient use of computational resources. The code is available at GitHub - tigerchen52/role_of_small_models: a curated list of the role of small models in the LLM era
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1834063138586829273
LLaMA-Omni: 대규모 언어 모델과의 원활한 음성 상호 작용 / LLaMA-Omni: Seamless Speech Interaction with Large Language Models
논문 소개
LLM과의 저지연 음성 상호작용을 위한 모델 아키텍처, Llama-3.1-8B-Instruct를 기반으로 하며 음성 명령이 주어지면 텍스트와 음성 응답을 동시에 생성할 수 있고, 응답 대기 시간이 226ms로 짧으며, 아키텍처 측면에서는 음성 인코더(Whispter-large-v3), 음성 어댑터, LLM, 음성 디코더로 구성되며, 200만 개의 음성 상호작용 및 응답 데이터 세트도 생성했습니다.
A model architecture for low-latency speech interaction with LLMs; it is based on Llama-3.1-8B-Instruct and can simultaneously generate both text and speech responses given speech instructions; responses can be generated with a response latency as low as 226ms; architecture-wise, it involves a speech encoder (Whispter-large-v3), a speech adaptor, an LLM, and a speech decoder; they also created a dataset of 200K speech interactions and responses.
논문 초록(Abstract)
GPT-4o와 같은 모델은 음성을 통해 대규모 언어 모델(LLM)과의 실시간 상호작용을 가능하게 하여 기존의 텍스트 기반 상호작용에 비해 사용자 경험을 크게 향상시킵니다. 그러나 오픈 소스 LLM을 기반으로 음성 상호작용 모델을 구축하는 방법에 대한 탐색은 아직 부족합니다. 이러한 문제를 해결하기 위해 저희는 LLM을 통한 짧은 지연시간과 고품질의 음성 상호작용을 위해 설계된 새로운 모델 아키텍처인 LLaMA-Omni를 제안합니다. LLaMA-Omni는 사전 학습된 음성 인코더, 음성 어댑터, LLM, 스트리밍 음성 디코더를 통합합니다. 따라서 음성 트랜스크립션이 필요 없으며, 매우 짧은 지연 시간으로 음성 명령에서 직접 텍스트와 음성 응답을 동시에 생성할 수 있습니다. 저희는 최신 Llama-3.1-8B-Instruct 모델을 기반으로 모델을 구축합니다. 모델을 음성 상호작용 시나리오에 맞추기 위해 200만 개의 음성 명령어와 그에 해당하는 음성 응답을 포함하는 InstructS2S-200K라는 데이터 세트를 구축합니다. 실험 결과, 이전의 음성 언어 모델과 비교했을 때 LLaMA-Omni는 226ms의 낮은 응답 지연 시간으로 콘텐츠와 스타일 모두에서 더 나은 응답을 제공했습니다. 또한, LLaMA-Omni를 학습하는 데 단 4개의 GPU로 3일도 걸리지 않아 향후 음성 언어 모델을 효율적으로 개발할 수 있는 기반을 마련했습니다.
Models like GPT-4o enable real-time interaction with large language models (LLMs) through speech, significantly enhancing user experience compared to traditional text-based interaction. However, there is still a lack of exploration on how to build speech interaction models based on open-source LLMs. To address this, we propose LLaMA-Omni, a novel model architecture designed for low-latency and high-quality speech interaction with LLMs. LLaMA-Omni integrates a pretrained speech encoder, a speech adaptor, an LLM, and a streaming speech decoder. It eliminates the need for speech transcription, and can simultaneously generate text and speech responses directly from speech instructions with extremely low latency. We build our model based on the latest Llama-3.1-8B-Instruct model. To align the model with speech interaction scenarios, we construct a dataset named InstructS2S-200K, which includes 200K speech instructions and corresponding speech responses. Experimental results show that compared to previous speech-language models, LLaMA-Omni provides better responses in both content and style, with a response latency as low as 226ms. Additionally, training LLaMA-Omni takes less than 3 days on just 4 GPUs, paving the way for the efficient development of speech-language models in the future.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1834227729241440340
대규모 언어 모델로 새로운 과학 연구 아이디어를 얻을 수 있을까요? / Can Large Language Models Unlock Novel Scientific Research Ideas?
논문 소개
이 연구는 LLM이 새로운 과학 연구 아이디어를 창출할 수 있는지 조사하고, 과학, 경제, 의학 등 다양한 영역에서 측정한 결과, 클로드와 GPT 모델이 미래 연구 아이디어에 대한 저자의 관점에 더 부합하는 경향이 있다고 보고합니다.
investigates whether LLM can generate novel scientific research ideas; reports that Claude and GPT models tend to align more with the author's perspectives on future research ideas; this is measured across different domains like science, economics, and medicine.
논문 초록(Abstract)
"아이디어는 오래된 요소들의 새로운 조합 그 이상도 이하도 아니다"(Young, J.W.). 대규모 언어 모델(LLM)과 공개적으로 사용 가능한 ChatGPT의 광범위한 채택은 사람들의 일상 생활에 인공지능(AI)을 통합하는 데 중요한 전환점을 마련했습니다. 이 연구에서는 연구 논문의 정보를 바탕으로 새로운 연구 아이디어를 생성하는 데 있어 LLM의 역량을 탐구합니다. 화학, 컴퓨터, 경제학, 의학, 물리학 등 5개 분야의 4개 LLM에 대해 면밀히 조사했습니다. 그 결과, Claude-2와 GPT-4가 생성한 미래 연구 아이디어가 GPT-3.5와 Gemini보다 저자의 관점에 더 부합하는 것으로 나타났습니다. 또한 Claude-2가 GPT-4, GPT-3.5, Gemini 1.0보다 더 다양한 미래 연구 아이디어를 생성하는 것으로 나타났습니다. 또한, 생성된 미래 연구 아이디어의 참신성, 관련성, 실현 가능성에 대한 인적 평가를 수행했습니다. 이 조사는 아이디어 생성에 있어 LLM의 진화하는 역할에 대한 통찰력을 제공하며, 그 능력과 한계를 모두 강조합니다. 이 연구는 미래 연구 아이디어 창출을 위한 언어 모델 평가 및 활용에 대한 지속적인 노력에 기여하고 있습니다. 데이터 세트와 코드를 공개적으로 제공합니다.
"An idea is nothing more nor less than a new combination of old elements" (Young, J.W.). The widespread adoption of Large Language Models (LLMs) and publicly available ChatGPT have marked a significant turning point in the integration of Artificial Intelligence (AI) into people's everyday lives. This study explores the capability of LLMs in generating novel research ideas based on information from research papers. We conduct a thorough examination of 4 LLMs in five domains (e.g., Chemistry, Computer, Economics, Medical, and Physics). We found that the future research ideas generated by Claude-2 and GPT-4 are more aligned with the author's perspective than GPT-3.5 and Gemini. We also found that Claude-2 generates more diverse future research ideas than GPT-4, GPT-3.5, and Gemini 1.0. We further performed a human evaluation of the novelty, relevancy, and feasibility of the generated future research ideas. This investigation offers insights into the evolving role of LLMs in idea generation, highlighting both its capability and limitations. Our work contributes to the ongoing efforts in evaluating and utilizing language models for generating future research ideas. We make our datasets and codes publicly available.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1833695968656793610
시그모이드 셀프 어텐션의 이론, 분석 및 모범 사례 / Theory, Analysis, and Best Practices for Sigmoid Self-Attention
논문 소개
하드웨어 인식 및 메모리 효율적인 시그모이드 주의 구현인 플래시-시그모이드를 제안하고, H100 GPU에서 플래시어텐션-2보다 최대 17%의 추론 커널 속도 향상을 제공하며, 다양한 작업 및 도메인에서 시그모이드Attn이 소프트왁스어텐과 일치함을 보여줍니다.
Proposes Flash-Sigmoid, a hardware-aware and memory-efficient implementation of sigmoid attention; it yields up to a 17% inference kernel speed-up over FlashAttention-2 on H100 GPUs; show that SigmoidAttn matches SoftwaxAttn in various tasks and domains.
논문 초록(Abstract)
어텐션은 트랜스포머 아키텍처의 핵심 부분입니다. 이는 각 시퀀스 요소를 가중치가 적용된 값의 합으로 변환하는 시퀀스 간 매핑입니다. 가중치는 일반적으로 키와 쿼리 사이의 닷-프로덕트(dot-product)의 소프트 맥스로 얻습니다. 최근 연구에서는 ReLU 및 시그모이드 활성화와 같은 트랜스포머에서 소프트맥스 주의에 대한 대안을 모색했습니다. 이 연구에서는 시그모이드 주의에 대해 재검토하고 심도 있는 이론적, 실증적 분석을 수행합니다. 이론적으로는 시그모이드 어텐션이 있는 트랜스포머가 범용 함수 근사기(universal function approimator)이며 소프트맥스 어텐션에 비해 향상된 규칙성의 이점을 제공한다는 것을 증명합니다. 상세한 실증 분석을 통해 훈련 초기 단계에서 큰 초기 주의 규범의 안정화가 시그모이드 주의 모델을 성공적으로 훈련하는 데 중요한 요소이며, 이전 시도를 능가하는 성능을 보인다는 것을 확인했습니다. 또한 하드웨어 인식 및 메모리 효율적인 시그모이드 어텐션 구현으로 H100 GPU에서 FlashAttention2보다 추론 커널 속도가 17% 빨라진 플래시시그모이드(FlashSigmoid)를 소개합니다. 언어, 시각, 음성 전반에 걸친 실험 결과, 적절하게 정규화된 시그모이드 주의력은 광범위한 영역과 규모에서 소프트맥스 주의력의 강력한 성능과 일치하는 것으로 나타났는데, 이는 이전의 시그모이드 어텐션 시도에서는 완전히 달성할 수 없었던 것입니다. 우리의 연구는 선행 기술을 통합하고 트랜스포머에서 Drop-In Softmax를 대체하는 Sigmoid Attention에 대한 모범 사례를 확립합니다.
Attention is a key part of the transformer architecture. It is a sequence-to-sequence mapping that transforms each sequence element into a weighted sum of values. The weights are typically obtained as the softmax of dot products between keys and queries. Recent work has explored alternatives to softmax attention in transformers, such as ReLU and sigmoid activations. In this work, we revisit sigmoid attention and conduct an in-depth theoretical and empirical analysis. Theoretically, we prove that transformers with sigmoid attention are universal function approximators and benefit from improved regularity compared to softmax attention. Through detailed empirical analysis, we identify stabilization of large initial attention norms during the early stages of training as a crucial factor for the successful training of models with sigmoid attention, outperforming prior attempts. We also introduce FLASHSIGMOID, a hardware-aware and memory-efficient implementation of sigmoid attention yielding a 17% inference kernel speed-up over FLASHATTENTION2 on H100 GPUs. Experiments across language, vision, and speech show that properly normalized sigmoid attention matches the strong performance of softmax attention on a wide range of domains and scales, which previous attempts at sigmoid attention were unable to fully achieve. Our work unifies prior art and establishes best practices for sigmoid attention as a drop-in softmax replacement in transformers.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1833522827842220244
대규모 언어 모델을 위한 최고의 성능 달성하기: 체계적인 검토 / Achieving Peak Performance for Large Language Models: A Systematic Review
논문 소개
학습, 추론, 시스템 제공의 세 가지 관점에서 LLM을 개선하고 속도를 높이는 방법을 체계적으로 검토하고 학습, 하드웨어, 확장성, 안정성과 관련된 최신 최적화 및 가속화 전략을 요약합니다.
A systematic review of methods for improving and speeding up LLMs from three points of view: training, inference, and system serving; summarizes the latest optimization and acceleration strategies around training, hardware, scalability, and reliability.
논문 초록(Abstract)
최근 몇 년 동안 대규모 언어 모델(LLM)은 자연어 처리(NLP)에서 괄목할 만한 성공을 거두었습니다. LLM은 고성능을 달성하기 위해 엄청난 양의 매개변수가 필요합니다. 모델이 조 단위의 매개변수 범위로 성장함에 따라 계산 및 메모리 비용이 크게 증가합니다. 이로 인해 많은 연구자들이 이러한 모델을 훈련하거나 적용하는 데 필요한 리소스에 접근하기 어렵습니다. LLM 성능 최적화에는 두 가지 주요 접근 방식이 있습니다. 특정 작업에 대해 미리 학습된 모델을 미세 조정하여 최신 성능을 달성하는 방법과 비슷한 성능을 유지하면서 비용을 줄이거나 학습 시간을 개선하는 방법이 있습니다. 이 논문은 체계적 문헌고찰 및 메타분석에 대한 선호 보고 항목(PRISMA)에 따른 체계적 문헌고찰(SLR)을 제시합니다. 2017년부터 2023년 12월까지 5개 데이터베이스에서 검색된 983개 논문 중 65개 논문을 검토했습니다. 이 연구는 정확성을 유지하면서 최첨단 결과를 달성하는 동시에 LLM을 최적화하고 가속화하는 방법을 제시합니다. 언어 모델링의 발전에 대한 개요부터 시작하여 일반적으로 사용되는 프레임워크와 라이브러리에 대한 자세한 설명, 그리고 세 가지 클래스를 기반으로 LLM을 개선하고 속도를 높이기 위한 분류법을 설명합니다: LLM 훈련, LLM 추론, 시스템 서비스. 그런 다음 학습 최적화, 하드웨어 최적화, 확장성 및 안정성과 같은 최근의 최적화 및 가속 전략과 이러한 전략의 분류 및 분류를 살펴봅니다. 마지막으로, 모델 훈련 최적화 및 추론 효율성 향상에 대한 두 가지 사례 연구를 통해 각 클래스와 전략을 심층적으로 비교합니다. 이 사례 연구는 성능을 유지하면서 LLM 리소스 한계를 해결하기 위한 실용적인 접근 방식을 보여줍니다.
In recent years, large language models (LLMs) have achieved remarkable success in natural language processing (NLP). LLMs require an extreme amount of parameters to attain high performance. As models grow into the trillion-parameter range, computational and memory costs increase significantly. This makes it difficult for many researchers to access the resources needed to train or apply these models. Optimizing LLM performance involves two main approaches: fine-tuning pre-trained models for specific tasks to achieve state-of-the-art performance, and reducing costs or improving training time while maintaining similar performance. This paper presents a systematic literature review (SLR) following the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) statement. We reviewed 65 publications out of 983 from 2017 to December 2023, retrieved from 5 databases. The study presents methods to optimize and accelerate LLMs while achieving cutting-edge results without sacrificing accuracy. We begin with an overview of the development of language modeling, followed by a detailed explanation of commonly used frameworks and libraries, and a taxonomy for improving and speeding up LLMs based on three classes: LLM training, LLM inference, and system serving. We then delve into recent optimization and acceleration strategies such as training optimization, hardware optimization, scalability and reliability, accompanied by the taxonomy and categorization of these strategies. Finally, we provide an in-depth comparison of each class and strategy, with two case studies on optimizing model training and enhancing inference efficiency. These case studies showcase practical approaches to address LLM resource limitations while maintaining performance.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1833344402892460364
원문
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.*
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~