[2024/11/18 ~ 11/24] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR
-
이번 주에는 주로 대규모 언어 모델(LLM)과 에이전트 관련 기술에 대한 연구가 두드러지게 나타났습니다. 특히, LLM 평가 방법론, 자동 버그 수정과 같은 LLM 기반 에이전트 개발, 그리고 프롬프트 포맷팅이 LLM 성능에 미치는 영향에 대한 연구가 포함되었습니다. 또한, GUI 에이전트나 FinRobot과 같은 에이전트 개발을 다루는 논문도 있어 최근 인공지능 에이전트에 대한 관심이 높아지고 있음을 보여주고 있습니다.
-
이러한 트렌드는 인공지능과 머신러닝 기술이 점점 더 폭넓은 분야로 확장되고 있음을 나타냅니다. 언어 모델은 정보 검색, 자연어 처리, 자동화된 문제 해결 등의 광범위한 애플리케이션을 위해 계속해서 발전하고 있습니다. LLM의 성능을 높이기 위한 다양한 접근 방식, 예를 들어 프롬프트 변경만으로도 성능 차이를 도출할 수 있는 연구는 향후 LLM의 활용도를 더욱 증가시킬 가능성을 보여줍니다. 이는 산업계와 학계 모두에서 효율적인 솔루션을 제공할 수 있는 기회를 의미합니다.
-
또한, 에이전트 기술의 발전은 다양한 분야에서의 자동화 가능성을 제고하고 있습니다. GUI 에이전트와 FinRobot과 같은 논문은 특히 금융이나 소프트웨어 개발 등 실무 영역에서 에이전트 기술의 활발한 연구와 응용을 시사합니다. 이러한 연구는 복잡한 문제를 해결하고, 정확성과 효율성을 높이는 데 큰 기여를 할 것으로 기대됩니다. 궁극적으로, 이러한 트렌드는 인류의 삶의 질을 향상시키고 다양한 산업의 혁신을 가속화하는데 중요한 역할을 할 것입니다.
양자 프로세서를 위한 고정밀 오류 디코딩 학습하기 / Learning high-accuracy error decoding for quantum processors
논문 소개
양자 컴퓨터의 오류를 식별하는 최첨단 벤치마크를 설정하는 새로운 AI 기반 디코더, 트랜스포머 아키텍처를 사용하는 알파큐빗은 시카모어 데이터에서 테스트했을 때 텐서 네트워크 방식보다 6%, 상관 매칭보다 30% 적은 오류를 보였으며 최대 241큐빗의 대규모 시스템 시뮬레이션에서 유망한 결과를 보임, 이는 양자 오류 수정에 상당한 진전이 있지만 실제 양자 컴퓨팅 애플리케이션을 위한 실시간 오류 수정에는 여전히 속도 개선이 필요함을 나타냅니다.
A new AI-based decoder that sets a state-of-the-art benchmark for identifying errors in quantum computers; using transformer architecture, AlphaQubit demonstrated 6% fewer errors than tensor network methods and 30% fewer errors than correlated matching when tested on the Sycamore data; shows promising results in simulations of larger systems up to 241 qubits; while this represents significant progress in quantum error correction, the system still needs improvements in speed before it can correct errors in real-time for practical quantum computing applications.
논문 초록(Abstract)
대규모 양자 컴퓨터를 구축하려면 물리적 양자 시스템에서 필연적으로 발생하는 오류를 효과적으로 수정할 수 있는 전략이 필요합니다. 양자 오류 수정 코드는 논리 정보를 여러 물리적 큐비트에 중복 인코딩하여 이러한 목표를 달성할 수 있는 방법을 제시합니다. 이러한 코드를 구현하는 데 있어 핵심 과제는 중복성 검사에서 추출된 잡음 증후군 정보를 정확하게 디코딩하여 올바른 인코딩된 논리 정보를 얻는 것입니다. 여기서는 대표적인 양자 오류 정정 코드인 표면 코드를 해독하는 방법을 학습하는 반복적 트랜스포머 기반 신경망을 개발합니다. 저희 디코더는 거리 3 및 거리 5의 표면 코드에 대해 Google의 Sycamore 양자 프로세서의 실제 데이터에서 다른 최신 디코더보다 뛰어난 성능을 발휘합니다. 최대 11 거리에서 디코더는 소프트 판독 및 누설 정보를 활용하여 누화 및 누설 등 현실적인 노이즈가 있는 시뮬레이션 데이터에서 우위를 유지합니다. 대략적인 합성 데이터에 대한 훈련 후, 디코더는 제한된 예산의 실험 샘플에 대한 훈련을 통해 더 복잡하지만 알려지지 않은 근본적인 오류 분포에 적응합니다. 이 연구는 데이터로부터 직접 학습함으로써 인간이 설계한 알고리즘을 뛰어넘는 머신 러닝의 능력을 보여주며, 양자 컴퓨터의 디코딩을 위한 강력한 경쟁자로 머신 러닝을 강조합니다.
Building a large-scale quantum computer requires effective strategies to correct errors that inevitably arise in physical quantum systems. Quantum error-correction codes present a way to reach this goal by encoding logical information redundantly into many physical qubits. A key challenge in implementing such codes is accurately decoding noisy syndrome information extracted from redundancy checks to obtain the correct encoded logical information. Here we develop a recurrent, transformer-based neural network that learns to decode the surface code, the leading quantum error-correction code. Our decoder outperforms other state-of-the-art decoders on real-world data from Google’s Sycamore quantum processor for distance-3 and distance-5 surface codes. On distances up to 11, the decoder maintains its advantage on simulated data with realistic noise including cross-talk and leakage, utilizing soft readouts and leakage information. After training on approximate synthetic data, the decoder adapts to the more complex, but unknown, underlying error distribution by training on a limited budget of experimental samples. Our work illustrates the ability of machine learning to go beyond human-designed algorithms by learning from data directly, highlighting machine learning as a strong contender for decoding in quantum computers.
논문 링크
https://www.nature.com/articles/s41586-024-08148-8
더 읽어보기
GUI 에이전트의 여명기: Claude 3.5 컴퓨터 사용의 예비 사례 연구 / The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
논문 소개
다양한 도메인과 소프트웨어에 걸친 Claude 3.5 컴퓨터 사용 기능을 살펴보고, API 기반 GUI 자동화 모델을 배포하기 위한 즉시 사용 가능한 에이전트 프레임워크도 제공하며, Claude 3.5 컴퓨터 사용은 엔드투엔드 언어에서 데스크톱 작업까지 전례 없는 기능을 선보입니다.
Explores Claude 3.5 computer use capabilities across different domains and software; they also provide an out-of-the-box agent framework for deploying API-based GUI automation models; Claude 3.5 Computer Use demonstrates unprecedented ability in end-to-end language to desktop actions.
논문 초록(Abstract)
최근 출시된 Claude 3.5 컴퓨터 사용 모델은 공개 베타 버전에서 그래픽 사용자 인터페이스(GUI) 에이전트로서 컴퓨터 사용을 제공하는 최초의 프런티어 AI 모델로 주목받고 있습니다. 아직 초기 베타 버전으로 실제 복잡한 환경에서의 기능은 아직 알려지지 않았습니다. Claude 3.5 컴퓨터 사용을 살펴보기 위한 이 사례 연구에서는 다양한 도메인과 소프트웨어에 걸쳐 신중하게 설계된 작업 모음을 선별하고 정리했습니다. 이 사례에서 관찰된 내용은 데스크톱 작업에서 엔드투엔드 언어에 이르는 Claude 3.5 Computer Use의 전례 없는 능력을 보여줍니다. 이 연구와 함께 API 기반 GUI 자동화 모델을 쉽게 구현할 수 있는 즉시 사용 가능한 에이전트 프레임워크도 제공합니다. 사례 연구는 상세한 분석을 통해 클로드 3.5 컴퓨터 사용의 기능과 한계에 대한 토대를 제시하고 향후 개선을 위해 고려해야 할 계획, 실행 및 비평에 대한 질문을 전면에 내세우는 것을 목표로 합니다. 이 예비 탐색이 향후 GUI 에이전트 커뮤니티에 대한 연구에 영감을 줄 수 있기를 바랍니다. 백서의 모든 테스트 사례는 프로젝트(GitHub - showlab/computer_use_ootb: An out-of-the-box (OOTB) version of Anthropic Claude Computer Use for Windows and macOS)를 통해 시도해 볼 수 있습니다.
The recently released model, Claude 3.5 Computer Use, stands out as the first frontier AI model to offer computer use in public beta as a graphical user interface (GUI) agent. As an early beta, its capability in the real-world complex environment remains unknown. In this case study to explore Claude 3.5 Computer Use, we curate and organize a collection of carefully designed tasks spanning a variety of domains and software. Observations from these cases demonstrate Claude 3.5 Computer Use's unprecedented ability in end-to-end language to desktop actions. Along with this study, we provide an out-of-the-box agent framework for deploying API-based GUI automation models with easy implementation. Our case studies aim to showcase a groundwork of capabilities and limitations of Claude 3.5 Computer Use with detailed analyses and bring to the fore questions about planning, action, and critic, which must be considered for future improvement. We hope this preliminary exploration will inspire future research into the GUI agent community. All the test cases in the paper can be tried through the project: GitHub - showlab/computer_use_ootb: An out-of-the-box (OOTB) version of Anthropic Claude Computer Use for Windows and macOS.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1858526493661446553
평가에 오류 막대 추가하기: 언어 모델 평가에 대한 통계적 접근 방식 / Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations
논문 소개
LLM 성능 차이를 보다 엄격하게 평가하기 위한 5가지 주요 통계적 권장 사항을 제안합니다. 권장 사항에는 다음이 포함됩니다: 1) 관측된 평균이 아닌 가능한 모든 문항에 대한 이론적 평균을 측정하기 위해 중심 한계 정리를 사용하기, 2) 문항이 독립적이지 않고 관련되어 있는 경우 표준 오차를 클러스터링하기, 3) 재샘플링 또는 다음 토큰 확률 사용을 통해 문항 내 분산을 줄이기; 4) 평가 간에 문항이 공유되므로 모델 간의 쌍으로 된 차이 분석, 5) 모델 간의 의미 있는 차이를 감지하기 위한 적절한 표본 크기를 결정하기 위해 검정력 분석 사용; 저자는 이러한 통계적 접근 방식이 연구자들이 모델 간의 성과 차이가 진정한 역량 차이를 나타내는지 아니면 단순히 우연에 의한 것인지 더 잘 판단하여 보다 정확하고 신뢰할 수 있는 모델 평가로 이어질 수 있다고 주장합니다.
Proposes five key statistical recommendations for a more rigorous evaluation of LLM performance differences. The recommendations include: 1) using the Central Limit Theorem to measure theoretical averages across all possible questions rather than just observed averages; 2) clustering standard errors when questions are related rather than independent; 3) reducing variance within questions through resampling or using next-token probabilities; 4) analyzing paired differences between models since questions are shared across evaluations, and 5) using power analysis to determine appropriate sample sizes for detecting meaningful differences between models; the authors argue that these statistical approaches will help researchers better determine whether performance differences between models represent genuine capability gaps or are simply due to chance, leading to more precise and reliable model evaluations.
논문 초록(Abstract)
평가는 대규모 언어 모델(LLM)의 기능을 이해하는 데 매우 중요합니다. 기본적으로 평가는 실험이지만 평가에 관한 문헌은 실험 분석 및 계획에 관한 다른 과학 분야의 문헌을 거의 무시해 왔습니다. 이 글에서는 통계학에 대해 어느 정도 교육을 받은 연구자들이 언어 모델 평가의 데이터를 어떻게 생각하고 분석할 수 있는지에 대해 설명합니다. 평가 질문을 보이지 않는 초집단에서 도출된 것으로 개념화하여 평가 데이터를 분석하고, 두 모델 간의 차이를 측정하고, 평가 실험을 계획하는 공식을 제시합니다. 통계적 노이즈를 최소화하고 정보성을 극대화하는 방식으로 언어 모델 평가를 실행하고 실험 결과를 보고하기 위한 여러 가지 구체적인 권장 사항을 제시합니다.
Evaluations are critical for understanding the capabilities of large language models (LLMs). Fundamentally, evaluations are experiments; but the literature on evaluations has largely ignored the literature from other sciences on experiment analysis and planning. This article shows researchers with some training in statistics how to think about and analyze data from language model evaluations. Conceptualizing evaluation questions as having been drawn from an unseen super-population, we present formulas for analyzing evaluation data, measuring differences between two models, and planning an evaluation experiment. We make a number of specific recommendations for running language model evaluations and reporting experiment results in a way that minimizes statistical noise and maximizes informativeness.
논문 링크
더 읽어보기
https://x.com/AnthropicAI/status/1858976458330505639
Marco-o1: 개방형 솔루션을 위한 개방형 추론 모델을 향하여 / Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
논문 소개
개방형 솔루션을 위해 구축된 추론 모델인 Marco-o1을 제안합니다. Marco-o1은 생각의 사슬(CoT) 미세 조정, 몬테카를로 트리 검색(MCTS), 반영 메커니즘 및 최신 추론 전략으로 구동되며, MGSM(영어) 데이터 세트에서 +6.17%, MGSM(중국어) 데이터 세트에서 +5.60%의 정확도 향상을 달성했습니다.
Proposes Marco-o1 which is a reasoning model built for open-ended solutions; Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and more recent reasoning strategies; Marco-o1 achieves accuracy improvements of +6.17% on the MGSM (English) dataset and +5.60% on the MGSM (Chinese) dataset.
논문 초록(Abstract)
현재 OpenAI o1은 대규모 추론 모델(LRM) 연구에 대한 관심을 불러일으키고 있습니다. 이러한 모멘텀을 바탕으로, Marco-o1은 강화 학습(RL)에 적합한 수학, 물리학, 코딩과 같이 정답이 있는 분야에 집중할 뿐만 아니라 개방형 해결에 더 중점을 두고 있습니다. 저희는 다음과 같은 질문을 해결하고자 합니다: "명확한 기준이 없고 보상을 정량화하기 어려운 광범위한 영역에 o1 모델을 효과적으로 일반화할 수 있을까?"라는 질문입니다 Marco-o1은 복잡한 실제 문제 해결 작업에 최적화된 생각의 사슬(CoT) 미세 조정, 몬테카를로 트리 검색(MCTS), 반사 메커니즘, 혁신적인 추론 전략으로 구동됩니다.
Currently OpenAI o1 has sparked a surge of interest in the study of large reasoning models (LRM). Building on this momentum, Marco-o1 not only focuses on disciplines with standard answers, such as mathematics, physics, and coding -- which are well-suited for reinforcement learning (RL) -- but also places greater emphasis on open-ended resolutions. We aim to address the question: "Can the o1 model effectively generalize to broader domains where clear standards are absent and rewards are challenging to quantify?" Marco-o1 is powered by Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflection mechanisms, and innovative reasoning strategies -- optimized for complex real-world problem-solving tasks.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1860003607606706197
자동화된 버그 수정을 위한 LLM 기반 에이전트에 대한 실증적 연구 / An Empirical Study on LLM-based Agents for Automated Bug Fixing
논문 소개
SWE 벤치 라이트 벤치마크에서 7개의 주요 LLM 기반 버그 수정 시스템을 분석한 결과, 화성코드 에이전트(ByteDance에서 개발)가 39.33%로 가장 높은 성공률을 기록했으며, 오류 위치 파악의 경우 파일 수준의 정확도보다 라인 수준의 오류 위치 파악 정확도가 더 중요하고 버그 재현 기능이 수정 성공에 큰 영향을 미친다는 점, 24/168건의 해결된 문제는 재현 기술을 통해서만 해결할 수 있었지만 문제 설명이 이미 명확한 경우 재현이 LLM을 오도하기도 한다는 점, 자동 버그 수정 효과를 높이기 위해 LLM 추론 기능 및 에이전트 워크플로 설계 모두에서 개선해야 한다는 결론이 나왔습니다.
Analyzes seven leading LLM-based bug fixing systems on the SWE-bench Lite benchmark, finding MarsCode Agent (developed by ByteDance) achieved the highest success rate at 39.33%; reveals that for error localization line-level fault localization accuracy is more critical than file-level accuracy, and bug reproduction capabilities significantly impact fixing success; shows that 24/168 resolved issues could only be solved using reproduction techniques, though reproduction sometimes misled LLMs when issue descriptions were already clear; concludes that improvements are needed in both LLM reasoning capabilities and Agent workflow design to enhance automated bug fixing effectiveness.
논문 초록(Abstract)
대규모 언어 모델(LLM)과 LLM 기반 에이전트는 개발 환경 상호 작용, 반복적인 검증 및 코드 수정을 통해 소프트웨어 결함을 자동으로 수정하는 데 적용되어 그 기능을 입증해 왔습니다. 그러나 이러한 에이전트 시스템과 비에이전트 시스템에 대한 체계적인 분석은 여전히 제한적이며, 특히 성능이 우수한 에이전트 시스템 간의 성능 차이에 대해서는 더욱 그러합니다. 이 백서에서는 자동화된 버그 수정을 위한 SWE 벤치 라이트 벤치마크에서 7개의 독점 및 오픈 소스 시스템을 살펴봅니다. 먼저 각 시스템의 전반적인 성능을 평가하여 이들 시스템 중 일부 또는 전부가 해결할 수 있는 인스턴스를 확인하고 일부 인스턴스가 특정 시스템 유형에 의해 고유하게 해결되는 이유를 살펴봅니다. 또한 파일 및 줄 수준에서 결함 위치 파악 정확도를 비교하고 버그 재현 기능을 평가하여 동적 재현을 통해서만 해결할 수 있는 인스턴스를 식별합니다. 분석을 통해 에이전트의 버그 수정 효율성을 개선하기 위해 LLM 자체와 에이전트 흐름 설계 모두에서 추가 최적화가 필요하다는 결론을 내렸습니다.
Large language models (LLMs) and LLM-based Agents have been applied to fix bugs automatically, demonstrating the capability in addressing software defects by engaging in development environment interaction, iterative validation and code modification. However, systematic analysis of these agent and non-agent systems remain limited, particularly regarding performance variations among top-performing ones. In this paper, we examine seven proprietary and open-source systems on the SWE-bench Lite benchmark for automated bug fixing. We first assess each system's overall performance, noting instances solvable by all or none of these sytems, and explore why some instances are uniquely solved by specific system types. We also compare fault localization accuracy at file and line levels and evaluate bug reproduction capabilities, identifying instances solvable only through dynamic reproduction. Through analysis, we concluded that further optimization is needed in both the LLM itself and the design of Agentic flow to improve the effectiveness of the Agent in bug fixing.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1859964808789135668
어휘가 많은 언어 모델에서 손실 줄이기 / Cut Your Losses in Large-Vocabulary Language Models
논문 소개
교차 엔트로피 손실을 계산하는 방법을 최적화하여 LLM 훈련 중 메모리 사용량을 크게 줄이는 새로운 방법인 교차 엔트로피 감소(CCE)를 소개합니다. 현재 LLM 훈련의 교차 엔트로피 계층은 가능한 모든 어휘 토큰에 대한 로그를 저장하기 때문에 불균형적인 양의 메모리(일부 모델에서는 최대 90%)를 소비하고 있습니다. CCE는 올바른 토큰에 대한 로짓만 계산하고 플래시 메모리를 사용하여 모든 로짓에 대한 로그 합계-exp를 즉석에서 평가함으로써 이 문제를 해결합니다. 저자는 이 접근 방식이 Gemma 2의 메모리 공간을 24GB에서 단 1MB로 줄이고, 소프트맥스 계산의 고유한 희소성을 활용하여 기울기에 거의 기여하지 않는 요소를 생략하며, 마지막으로 CCE가 훈련 속도나 수렴을 희생하지 않고 이러한 획기적인 메모리 감소를 달성함으로써 훈련 중 배치 크기를 늘리고 LLM 훈련을 보다 효율적으로 확장할 수 있음을 보여 줍니다.
Introduces Cut Cross-Entropy (CCE), a novel method to significantly reduce memory usage during LLM training by optimizing how the cross-entropy loss is computed; currently, the cross-entropy layer in LLM training consumes a disproportionate amount of memory (up to 90% in some models) due to storing logits for all possible vocabulary tokens. CCE addresses this by only computing logits for the correct token and evaluating the log-sum-exp over all logits on the fly using flash memory; the authors show that the approach reduces the memory footprint of Gemma 2 from 24GB to just 1MB; the method leverages the inherent sparsity of softmax calculations to skip elements that contribute negligibly to gradients; finally, it demonstrates that CCE achieves this dramatic memory reduction without sacrificing training speed or convergence, enabling larger batch sizes during training and potentially more efficient scaling of LLM training.
논문 초록(Abstract)
언어 모델이 점점 더 커짐에 따라 어휘도 커지고 있습니다. 이로 인해 학습 중 LLM의 메모리 사용량이 손실 계산의 교차 엔트로피라는 단일 계층으로 불균형하게 이동했습니다. 교차 엔트로피는 입력 토큰과 어휘 항목의 각 쌍에 대한 항목으로 로짓 행렬을 구축하며, 작은 모델의 경우 나머지 LLM을 모두 합친 것보다 훨씬 더 많은 메모리를 소비합니다. 저희는 모든 토큰의 로그를 전역 메모리로 구체화하지 않고 교차 엔트로피 손실을 계산하는 방법인 교차 엔트로피 절단(CCE)을 제안합니다. 대신, CCE는 올바른 토큰에 대한 로그만을 계산하고 모든 로그에 대한 로그합-exp를 즉석에서 평가합니다. 플래시 메모리의 어휘에 대해 행렬 곱셈과 로그 합계-경험 감소를 수행하는 커스텀 커널을 구현하여 교차 엔트로피 계산을 위한 글로벌 메모리 소비를 무시할 수 있게 만들었습니다. 이는 극적인 효과를 가져옵니다. Gemma 2(2B) 모델을 예로 들면, CCE는 손실 계산의 메모리 사용 공간을 24GB에서 1MB로, 분류기 헤드의 총 학습 시간 메모리 소비를 28GB에서 1GB로 줄입니다. CCE의 처리량을 개선하기 위해 우리는 소프트맥스의 고유한 희소성을 활용하고 기울기 계산에서 기울기에 대한 기여도가 무시할 수 있는(즉, 수치 정밀도 이하) 요소를 건너뛰는 방법을 제안합니다. 실험 결과, 훈련 속도나 컨버전스의 저하 없이 메모리 사용량을 획기적으로 줄일 수 있는 것으로 나타났습니다.
As language models grow ever larger, so do their vocabularies. This has shifted the memory footprint of LLMs during training disproportionately to one single layer: the cross-entropy in the loss computation. Cross-entropy builds up a logit matrix with entries for each pair of input tokens and vocabulary items and, for small models, consumes an order of magnitude more memory than the rest of the LLM combined. We propose Cut Cross-Entropy (CCE), a method that computes the cross-entropy loss without materializing the logits for all tokens into global memory. Rather, CCE only computes the logit for the correct token and evaluates the log-sum-exp over all logits on the fly. We implement a custom kernel that performs the matrix multiplications and the log-sum-exp reduction over the vocabulary in flash memory, making global memory consumption for the cross-entropy computation negligible. This has a dramatic effect. Taking the Gemma 2 (2B) model as an example, CCE reduces the memory footprint of the loss computation from 24 GB to 1 MB, and the total training-time memory consumption of the classifier head from 28 GB to 1 GB. To improve the throughput of CCE, we leverage the inherent sparsity of softmax and propose to skip elements of the gradient computation that have a negligible (i.e., below numerical precision) contribution to the gradient. Experiments demonstrate that the dramatic reduction in memory consumption is accomplished without sacrificing training speed or convergence.
논문 링크
AIGS: AI 기반 자동 위조로 과학을 창출하기 / AIGS: Generating Science from AI-Powered Automated Falsification
논문 소개
자동화된 과학적 발견을 위한 다중 에이전트 시스템으로, 자동화된 제거 연구를 통해 위조 여부를 강조합니다. 이 시스템은 세 가지 ML 작업(데이터 엔지니어링, 자가 학습 정렬, 언어 모델링)을 테스트하여 의미 있는 과학적 발견을 생성할 수 있는 능력을 입증했습니다. 그러나 성능은 숙련된 인간 연구자보다는 낮습니다.
A multi-agent system for automated scientific discovery that emphasizes falsification through automated ablation studies. The system was tested on three ML tasks (data engineering, self-instruct alignment, and language modeling), demonstrating the ability to produce meaningful scientific discoveries. However, the performance is below experienced human researchers.
논문 초록(Abstract)
인공 지능의 급속한 발전은 과학적 발견의 발전을 획기적으로 가속화했습니다. 대규모 관측 데이터로 훈련된 심층 신경망은 엔드투엔드 방식으로 기본 패턴을 추출하고 보이지 않는 시나리오에서 고정밀 예측을 통해 인간 연구자를 지원합니다. 최근 대규모 언어 모델(LLM)과 권한이 부여된 자율 에이전트의 등장으로 과학자들은 문헌 검토, 연구 아이디어, 아이디어 구현, 학술 논문 작성 등 다양한 연구 단계에서 상호 작용을 통해 도움을 받을 수 있게 되었습니다. 그러나 전체 프로세스의 자율성을 갖춘 기초 모델 임파워드 에이전트로 인스턴스화된 AI 연구자는 아직 초기 단계에 머물러 있습니다. 이 논문에서는 에이전트가 독립적이고 자율적으로 전체 연구 과정을 완료하고 과학적 법칙을 발견하는 \textbf{AI-Generated Science}(AIGS)를 연구합니다. 과학 연구의 정의를 재검토함으로써 우리는 $\textit{위조}$가 인간의 연구 과정과 AIGS 시스템 설계의 본질임을 주장합니다. 위조라는 렌즈를 통해 볼 때, 인공지능 생성 과학을 지향하는 기존 시스템들은 설계에 이 부분이 빠져 있거나 전문 영역에 국한된 기존 검증 엔진에 크게 의존하고 있습니다. 본 연구에서는 주요 연구 프로세스를 대표하는 역할을 수행하는 에이전트가 있는 다중 에이전트 시스템인 전체 프로세스 AIGS 시스템의 초기 단계 데모로 Baby-AIGS를 제안합니다. 가능한 과학적 발견을 식별하고 검증하는 FalsificationAgent를 도입하여 시스템에 명시적인 위조 기능을 강화합니다. 세 가지 과제에 대한 실험을 통해 Baby-AIGS가 숙련된 인간 연구자와 동등하지는 않지만 의미 있는 과학적 발견을 도출할 수 있음을 예비적으로 보여주었습니다. 마지막으로 현재 Baby-AIGS의 한계, 실행 가능한 인사이트, 관련 윤리적 문제에 대해 자세히 논의합니다.
Rapid development of artificial intelligence has drastically accelerated the development of scientific discovery. Trained with large-scale observation data, deep neural networks extract the underlying patterns in an end-to-end manner and assist human researchers with highly-precised predictions in unseen scenarios. The recent rise of Large Language Models (LLMs) and the empowered autonomous agents enable scientists to gain help through interaction in different stages of their research, including but not limited to literature review, research ideation, idea implementation, and academic writing. However, AI researchers instantiated by foundation model empowered agents with full-process autonomy are still in their infancy. In this paper, we study \textbf{AI-Generated Science} (AIGS), where agents independently and autonomously complete the entire research process and discover scientific laws. By revisiting the definition of scientific research, we argue that \textit{falsification} is the essence of both human research process and the design of an AIGS system. Through the lens of falsification, prior systems attempting towards AI-Generated Science either lack the part in their design, or rely heavily on existing verification engines that narrow the use in specialized domains. In this work, we propose Baby-AIGS as a baby-step demonstration of a full-process AIGS system, which is a multi-agent system with agents in roles representing key research process. By introducing FalsificationAgent, which identify and then verify possible scientific discoveries, we empower the system with explicit falsification. Experiments on three tasks preliminarily show that Baby-AIGS could produce meaningful scientific discoveries, though not on par with experienced human researchers. Finally, we discuss on the limitations of current Baby-AIGS, actionable insights, and related ethical issues in detail.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1859656533489188928
프롬프트 포맷이 LLM 성능에 영향을 미치나요? / Does Prompt Formatting Have Any Impact on LLM Performance?
논문 소개
다양한 프롬프트 형식(일반 텍스트, Markdown, JSON, YAML)이 다양한 작업에서 GPT 모델 성능에 미치는 영향을 조사하고, 프롬프트 형식에 따라 GPT-3.5-turbo의 성능이 최대 40%까지 달라질 수 있으며, GPT-4와 같은 더 큰 모델은 형식 변경에 더 강건함을 보이고, 모델이나 작업 전반에 걸쳐 보편적으로 최적의 형식이 없다는 것을 발견하고, 예를 들어 GPT-3과 같은 형식이 없다는 것을 논증합니다.5-turbo는 일반적으로 JSON 형식에서 더 나은 성능을 보인 반면 GPT-4는 Markdown을 선호했으며, 같은 계열의 모델은 비슷한 형식 선호도를 보였지만 이러한 선호도가 다른 모델 계열 간에 잘 전달되지 않았고, 프롬프트 형식이 모델 성능에 큰 영향을 미치므로 프롬프트 엔지니어링 및 모델 평가를 수행할 때와 애플리케이션에 적용하는 방법을 신중하게 고려해야 한다고 제안합니다.
Examines how different prompt formats (plain text, Markdown, JSON, and YAML) affect GPT model performance across various tasks; finds that GPT-3.5-turbo's performance can vary by up to 40% depending on the prompt format, while larger models like GPT-4 show more robustness to format changes; argues that there is no universally optimal format across models or tasks - for instance, GPT-3.5-turbo generally performed better with JSON formats while GPT-4 preferred Markdown; models from the same family showed similar format preferences, but these preferences didn't transfer well between different model families; suggests that prompt formatting significantly impacts model performance and should be carefully considered when performing prompt engineering and model evaluation, and how to apply it to applications.
논문 초록(Abstract)
대규모 언어 모델(LLM)의 영역에서 프롬프트 최적화는 모델 성능에 매우 중요합니다. 이전 연구에서는 프롬프트 문맥 바꾸기, 문맥 내 학습 및 연쇄 사고와 같은 다양한 프롬프트 기법 사용, 짧은 예제 순서 지정과 같은 측면을 살펴봤지만 프롬프트 템플릿에 대한 LLM 민감도에 대한 이해는 여전히 제한적입니다. 따라서 이 백서에서는 다양한 프롬프트 템플릿이 LLM 성능에 미치는 영향을 조사합니다. 동일한 컨텍스트를 일반 텍스트, Markdown, JSON, YAML 등 사람이 읽을 수 있는 다양한 템플릿으로 포맷하고 OpenAI의 GPT 모델을 사용해 자연어 추론, 코드 생성, 번역과 같은 작업 전반에 걸쳐 그 영향을 평가했습니다. 실험 결과, 프롬프트 템플릿에 따라 코드 번역 작업에서 GPT-3.5 터보의 성능이 최대 40%까지 달라지는 반면, GPT-4와 같은 더 큰 모델은 이러한 변화에 더 강력하게 대응하는 것으로 나타났습니다. 다양한 형식이 모델 성능에 큰 영향을 미칠 수 있으므로 고정 프롬프트 템플릿의 사용을 재고해야 할 필요성을 강조하는 분석 결과입니다.
In the realm of Large Language Models (LLMs), prompt optimization is crucial for model performance. Although previous research has explored aspects like rephrasing prompt contexts, using various prompting techniques (like in-context learning and chain-of-thought), and ordering few-shot examples, our understanding of LLM sensitivity to prompt templates remains limited. Therefore, this paper examines the impact of different prompt templates on LLM performance. We formatted the same contexts into various human-readable templates, including plain text, Markdown, JSON, and YAML, and evaluated their impact across tasks like natural language reasoning, code generation, and translation using OpenAI's GPT models. Experiments show that GPT-3.5-turbo's performance varies by up to 40% in a code translation task depending on the prompt template, while larger models like GPT-4 are more robust to these variations. Our analysis highlights the need to reconsider the use of fixed prompt templates, as different formats can significantly affect model performance.
논문 링크
FinRobot: 대규모 언어 모델을 사용한 주식 리서치 및 가치 평가를 위한 AI 에이전트 / FinRobot: AI Agent for Equity Research and Valuation with Large Language Models
논문 소개
데이터 분석과 인간과 유사한 추론을 결합하여 주요 증권사에 필적하는 전문 투자 보고서를 생성하는 멀티 에이전트 체인 오브 씽킹을 사용하는 주식 리서치용 AI 에이전트 프레임워크로, 강력한 재무 통합을 위해 다양한 데이터 소스를 집계하는 데이터-CoT 에이전트, 분석가의 추론을 통해 실행 가능한 통찰력을 생성하는 개념-CoT 에이전트, 이러한 통찰력을 일관된 투자 논문 및 보고서로 종합하는 논문-CoT 에이전트의 세 가지 에이전트를 활용합니다.
An AI agent framework for equity research that uses a multi-agent Chain-of-Thought prompting, combining data analysis with human-like reasoning to produce professional investment reports comparable to major brokerages; it leverage three agents: a Data-CoT Agent to aggregate diverse data sources for robust financial integration; the Concept-CoT Agent, for analyst’s reasoning to generate actionable insights; and the Thesis-CoT Agent to synthesizes these insights into a coherent investment thesis and report.
논문 초록(Abstract)
금융 시장이 점점 더 복잡해지면서 주식 리서치, 특히 매도 리서치에서 인간 애널리스트를 효과적으로 보조할 수 있는 자동화 도구에 대한 필요성이 높아지고 있습니다. 이 분야에서 생성 인공지능(GenAI)이 큰 주목을 받고 있지만, 기존 인공지능 솔루션은 기술적 요소에 집중하고 재량적 판단 능력이 제한되어 있어 부족한 경우가 많습니다. 이러한 한계는 새로운 데이터에 실시간으로 적응하고 리스크를 정확하게 평가하는 능력을 저해하여 투자자에게 실질적인 가치를 떨어뜨립니다. 이 백서에서는 주식 리서치를 위해 특별히 설계된 최초의 AI 에이전트 프레임워크인 FinRobot을 소개합니다. FinRobot은 다중 에이전트 사고망(CoT) 시스템을 사용하여 정량적 분석과 정성적 분석을 통합하여 인간 애널리스트의 종합적인 추론을 모방합니다. 이 시스템은 강력한 재무 통합을 위해 다양한 데이터 소스를 집계하는 데이터-CoT 에이전트, 분석가의 추론을 모방하여 실행 가능한 인사이트를 생성하는 개념-CoT 에이전트, 이러한 인사이트를 일관된 투자 논문 및 보고서로 종합하는 논문-CoT 에이전트 등 세 가지 전문 에이전트를 중심으로 구성됩니다. 핀로봇은 정확한 수치 데이터, 업계에 적합한 가치 평가 지표, 현실적인 리스크 평가로 뒷받침되는 철저한 기업 분석을 제공합니다. 동적으로 업데이트 가능한 데이터 파이프라인을 통해 새로운 재무 정보에 원활하게 적응하면서 시의적절하고 관련성 있는 리서치를 유지할 수 있습니다. 기존의 자동화된 리서치 도구인 CapitalCube나 Wright Reports와 달리, FinRobot은 주요 증권사 및 기초 리서치 벤더가 제공하는 것과 비슷한 수준의 인사이트를 제공합니다. FinRobot은 \url{https://github. com/AI4Finance-Foundation/FinRobot}에서 오픈소스입니다.
As financial markets grow increasingly complex, there is a rising need for automated tools that can effectively assist human analysts in equity research, particularly within sell-side research. While Generative AI (GenAI) has attracted significant attention in this field, existing AI solutions often fall short due to their narrow focus on technical factors and limited capacity for discretionary judgment. These limitations hinder their ability to adapt to new data in real-time and accurately assess risks, which diminishes their practical value for investors. This paper presents FinRobot, the first AI agent framework specifically designed for equity research. FinRobot employs a multi-agent Chain of Thought (CoT) system, integrating both quantitative and qualitative analyses to emulate the comprehensive reasoning of a human analyst. The system is structured around three specialized agents: the Data-CoT Agent, which aggregates diverse data sources for robust financial integration; the Concept-CoT Agent, which mimics an analysts reasoning to generate actionable insights; and the Thesis-CoT Agent, which synthesizes these insights into a coherent investment thesis and report. FinRobot provides thorough company analysis supported by precise numerical data, industry-appropriate valuation metrics, and realistic risk assessments. Its dynamically updatable data pipeline ensures that research remains timely and relevant, adapting seamlessly to new financial information. Unlike existing automated research tools, such as CapitalCube and Wright Reports, FinRobot delivers insights comparable to those produced by major brokerage firms and fundamental research vendors. We open-source FinRobot at \url{https://github. com/AI4Finance-Foundation/FinRobot}.
논문 링크
Bi-Mamba: 정확한 1비트 상태 공간 모델을 향하여 / Bi-Mamba: Towards Accurate 1-Bit State Space Models
논문 소개
확장 가능한 1비트 맘바 아키텍처는 780M, 1.3B, 2.7B 등 다양한 크기의 보다 효율적인 LLM을 위해 설계되었으며, Bi-Mamba는 고정밀 대응 제품(예: FP16 또는 BF16)과 비슷한 성능을 달성하고 학습 후 이진화 맘바 기준선보다 더 나은 정확도로 메모리 사용 공간을 크게 줄입니다.
A scalable 1-bit Mamba architecture designed for more efficient LLMs with multiple sizes across 780M, 1.3B, and 2.7B; Bi-Mamba achieves performance comparable to its full-precision counterparts (e.g., FP16 or BF16); it significantly reduces memory footprint with better accuracy than posttraining-binarization Mamba baselines.
논문 초록(Abstract)
Mamba의 일반적인 선택적 상태 공간 모델(SSM)은 시퀀스 길이에 따른 이차적 계산 복잡성, 키-값 캐시로 인한 상당한 추론 시간 메모리 요구 사항 등 Transformers의 몇 가지 한계를 해결합니다. 그러나 Mamba 모델의 규모가 커지면서 훈련과 배포에 어려움이 계속되고 있으며, 상당한 에너지 소비로 인해 환경 문제도 제기되고 있습니다. 이번 작업에서는 780M, 1.3B, 2.7B 등 다양한 크기의 대형 언어 모델을 보다 효율적으로 처리할 수 있도록 설계된 확장 가능하고 강력한 1비트 Mamba 아키텍처인 Bi-Mamba를 소개합니다. 바이맘바 모델은 자동 회귀 증류 손실을 사용하여 데이터 볼륨에 대해 일반 LLM과 마찬가지로 처음부터 훈련됩니다. 언어 모델링에 대한 광범위한 실험 결과에 따르면 Bi-Mamba는 완전 정밀도 모델(예: FP16 또는 BF16)에 필적하는 성능을 달성하고, 훈련 후 이진화(PTB) Mamba 기준선보다 훨씬 더 뛰어난 정확도를 달성하는 동시에 기존 Mamba 모델에 비해 메모리 공간과 에너지 소비를 크게 줄였습니다. 이 연구는 저비트 표현 하에서 새로운 선형 계산 복잡도 LLM 프레임워크를 개척하고 향후 효율적인 1비트 Mamba 기반 LLM을 위한 특수 하드웨어의 설계를 용이하게 합니다.
The typical selective state-space model (SSM) of Mamba addresses several limitations of Transformers, such as quadratic computational complexity with sequence length and significant inference-time memory requirements due to the key-value cache. However, the growing size of Mamba models continues to pose training and deployment challenges and raises environmental concerns due to considerable energy consumption. In this work, we introduce Bi-Mamba, a scalable and powerful 1-bit Mamba architecture designed for more efficient large language models with multiple sizes across 780M, 1.3B, and 2.7B. Bi-Mamba models are trained from scratch on data volume as regular LLM pertaining using an autoregressive distillation loss. Extensive experimental results on language modeling demonstrate that Bi-Mamba achieves performance comparable to its full-precision counterparts (e.g., FP16 or BF16) and much better accuracy than post-training-binarization (PTB) Mamba baselines, while significantly reducing memory footprint and energy consumption compared to the original Mamba model. Our study pioneers a new linear computational complexity LLM framework under low-bit representation and facilitates the future design of specialized hardware tailored for efficient 1-bit Mamba-based LLMs.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1858878654736199850
원문
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.*
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 뉴스 발행에 힘이 됩니다~