[2024/11/25 ~ 12/01] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)
PyTorchKR


-
이번 주 논문들 중에서는 주로 대규모 언어 모델(LLM: Large Language Model)과 관련된 주제가 두드러지게 많았습니다. 예를 들어, "LLM Surpass Human Experts in Predicting Neuroscience Results", "LLM-Brained GUI Agents", "Star Attention: Efficient LLM Inference over Long Sequences", "Survey on LLM-as-a-Judge"와 같은 논문들이 있습니다. 이런 트렌드는 최근 AI 연구에서 LLM의 전문 분야 적용 및 성능 향상에 대한 관심이 증가하고 있음을 반영합니다. 특히 LLM이 다양한 분야에서 사람의 역할을 대체하거나 보완할 수 있는 가능성에 대한 논의가 활발히 진행되고 있습니다.
-
이러한 트렌드가 형성된 이유는 LLM 기술이 최근 몇 년간 크게 발전해왔고, 이제는 단순한 계산 작업이나 응답 자동화가 아닌 보다 복잡한 문제 해결 및 창의적인 작업 수행에까지 확장되고 있기 때문입니다. 특히, Envisage 분야에서는 LLM이 전문가의 의견을 대신할 수 있는 수준으로 발전하고 있으며, 이는 실질적인 업무 효율성을 증대시키거나 새로운 연구방법론을 도입하는 데 큰 기여를 할 수 있습니다.
-
또한, LLM에 대한 논문이 많은 이유는 LLM이 가진 잠재력이 매우 크기 때문으로 보입니다. LLM이 가져올 수 있는 방대한 양의 데이터 처리 능력 및 지식을 기반으로 한 자동화 결정 능력은 아직 실험단계에 있는 많은 분야에 혁신을 가져올 수 있습니다. 이를 통해 인공지능 분야에서는 새로운 방법론과 가능성에 대한 탐색이 활발히 진행되고 있으며, 이는 곧 기존의 연구와 기술이 새로운 도전에 직면하였다고 해석할 수 있겠습니다.
대규모 언어 모델은 신경과학 결과 예측에서 인간 전문가를 능가합니다 / Large language models surpass human experts in predicting neuroscience results
논문 소개
뇌과학 분야의 실험 결과를 예측하는 데 있어 LLM이 얼마나 뛰어난지 연구하기 위해 BrainBench를 제안하고, 신경과학 문헌에 대해 전문가를 능가하는 신경과학 결과를 예측하는 LLM인 BrainGPT를 튜닝한 결과, LLM이 자신의 예측에 높은 신뢰도를 보일 때 응답이 맞을 가능성이 더 높았다고 보고합니다.
Proposes BrainBench to study how good LLMs are at predicting experimental outcomes in neuroscience; they tuned an LLM, BrainGPT, on neuroscience literature that surpasses experts in predicting neuroscience results; report that when LLMs indicated high confidence in their predictions, their responses were more likely to be correct.
논문 초록(Abstract)
과학적 발견은 종종 수십 년에 걸친 연구를 종합하는 데 달려 있으며, 이 작업은 잠재적으로 인간의 정보 처리 능력을 능가할 수 있습니다. 대규모 언어 모델(LLM)이 해결책을 제시합니다. 방대한 과학 문헌에서 훈련된 LLM은 잡음이 있지만 서로 연관된 연구 결과를 통합하여 인간 전문가보다 새로운 결과를 더 잘 예측할 수 있습니다. 이러한 가능성을 평가하기 위해 신경과학 결과 예측을 위한 미래지향적 벤치마크인 BrainBench를 만들었습니다. 실험 결과를 예측하는 데 있어 LLM이 전문가를 능가한다는 사실을 발견했습니다. 신경과학 문헌을 기반으로 튜닝한 LLM인 BrainGPT는 더 나은 성능을 보였습니다. 인간 전문가와 마찬가지로 LLM이 예측에 높은 신뢰도를 보였을 때, 그들의 반응이 정확할 가능성이 더 높았으며, 이는 LLM이 인간의 발견을 돕는 미래를 예고합니다. 이러한 접근 방식은 신경과학에만 국한된 것이 아니며 다른 지식 집약적인 분야에도 적용할 수 있습니다.
Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. Here, to evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs indicated high confidence in their predictions, their responses were more likely to be correct, which presages a future where LLMs assist humans in making discoveries. Our approach is not neuroscience specific and is transferable to other knowledge-intensive endeavours.
논문 링크
https://www.nature.com/articles/s41562-024-02046-9
더 읽어보기
https://x.com/omarsar0/status/1861781028291190887
Fugatto
논문 소개
텍스트 및 오디오 입력을 사용하여 음악, 음성, 사운드의 모든 조합을 생성하고 변형할 수 있는 새로운 생성형 AI 사운드 모델(NVIDIA 제공)로, 25억 개의 파라미터로 학습되어 트럼펫이 짖거나 색소폰이 야옹거리는 등 새로운 오디오를 생성할 수 있습니다.
A new generative AI sound model (presented by NVIDIA) that can create and transform any combination of music, voices, and sounds using text and audio inputs, trained on 2.5B parameters and capable of novel audio generation like making trumpets bark or saxophones meow.
논문 초록(Abstract)
Fugatto는 선택적 오디오 입력을 통해 자유 형식 텍스트 지시를 따를 수 있는 다목적 오디오 합성 및 변환 모델입니다. 간단한 다음 토큰 예측 목표에 대한 텍스트로 훈련된 대규모 언어 모델(LLM)은 데이터에서 직접 지침을 추론하는 방법을 학습할 수 있지만, 오디오 데이터로만 훈련된 모델은 이러한 기능이 부족합니다. 이는 오디오 데이터에는 본질적으로 데이터를 생성하는 데 사용된 명령어가 포함되어 있지 않기 때문입니다. 이러한 문제를 극복하기 위해 Lionbridge는 광범위한 오디오 생성 및 변환 작업에 최적화된 특수 데이터 세트 생성 방식을 도입하여 데이터가 오디오와 언어 간의 의미 있는 관계를 드러낼 수 있도록 합니다. 또 다른 과제는 데이터만으로 명령어 간의 결합, 보간 또는 무효화와 같은 구성 능력을 달성하는 것입니다. 이를 해결하기 위해 유니티는 분류기 없는 안내를 구성 안내로 확장하는 추론 시간 기술인 ComposableART를 제안합니다. 이 기술을 사용하면 지침을 원활하고 유연하게 구성할 수 있어 훈련 배포 외부에서 고도로 맞춤화된 오디오 출력을 얻을 수 있습니다. 다양한 작업에 대한 평가 결과, Fugatto는 전문화된 모델과 경쟁할 수 있는 성능을 발휘하는 반면 ComposableART는 음향 팔레트와 합성에 대한 제어 기능을 향상시켰습니다. 특히 기존 오디오 생성을 뛰어넘는 음향 현상인 이머전 사운드를 합성하여 새로운 창의적 가능성을 열어주는 프레임워크의 기능을 강조합니다.
Fugatto is a versatile audio synthesis and transformation model capable of following free form text instructions with optional audio inputs. While large language models (LLMs) trained with text on a simple next-token prediction objective can learn to infer instructions directly from the data, models trained solely on audio data lack this capacity. This is because audio data does not inherently contain the instructions that were used to generate it. To overcome this challenge, we introduce a specialized dataset generation approach optimized for producing a wide range of audio generation and transformation tasks, ensuring the data reveals meaningful relationships between audio and language. Another challenge lies in achieving compositional abilities – such as combining, interpolating between, or negating instructions – using data alone. To address it, we propose ComposableART, an inference-time technique that extends classifier-free guidance to compositional guidance. It enables the seamless and flexible composition of instructions, leading to highly customizable audio outputs outside the training distribution. Our evaluations across a diverse set of tasks demonstrate that Fugatto performs competitively with specialized models, while ComposableART enhances its sonic palette and control over synthesis. Most notably, we highlight our framework’s ability to synthesize emergent sounds – sonic phenomena that transcend conventional audiogeneration – unlocking new creative possibilities.
논문 링크
더 읽어보기
https://x.com/NVIDIAAIDev/status/1861052624352825383
O1 복제 여정 - 2부: 단순 증류를 통한 O1-프리뷰를 넘어서는 것, 큰 진전인가 쓴 교훈인가? / O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?
논문 소개
O1의 API에서 단순 증류와 감독 미세 조정을 결합하면 복잡한 수학 추론 과제에서 성능이 크게 향상되며, 수만 개의 샘플을 대상으로 수만 개의 샘플로 미세 조정된 기본 모델이 미국 수학 초청 시험(AIME)에서 o1-프리뷰보다 우수한 성능을 보인다는 것을 보여줍니다.
Shows that combining simple distillation from o1's API with supervised fine-tuning significantly boosts performance on complex math reasoning tasks; a base model fine-tuned on simply tens of thousands of samples o1-distilled long-thought chains outperform o1-preview on the American Invitational Mathematics Examination (AIME).
논문 초록(Abstract)
이 백서에서는 OpenAI의 O1 모델 기능을 복제하는 현재의 접근 방식을 비판적으로 검토하며, 특히 널리 퍼져 있지만 종종 공개되지 않은 지식 증류 기법의 사용에 중점을 둡니다. 이전 연구에서는 O1 복제의 근본적인 기술적 경로를 탐구했다면, 이번 연구에서는 O1의 API에서 간단한 증류와 감독된 미세 조정을 결합하여 복잡한 수학적 추론 작업에서 우수한 성능을 달성할 수 있는 방법을 보여줍니다. 광범위한 실험을 통해 수만 개의 샘플로 O1에서 증류한 긴 생각 사슬을 미세 조정한 기본 모델이 최소한의 기술적 복잡성으로 미국 수학능력시험(AIME)에서 O1-프리뷰보다 뛰어난 성능을 발휘한다는 것을 보여주었습니다. 또한, 수학적 추론을 넘어 환각, 안전, 오픈 도메인 QA 등 다양한 작업에서 O1 증류 모델의 일반화 능력을 탐구하는 데까지 연구를 확장했습니다. 특히, 수학적 문제 해결 데이터로만 훈련했음에도 불구하고 개방형 QA 과제에 대한 강력한 일반화 능력을 보여주었으며 미세 조정 후에는 동어반복에 대한 민감도가 현저히 낮아졌습니다. 이러한 연구 결과를 의도적으로 공개하는 이유는 AI 연구의 투명성을 높이고 현재 이 분야에서 모호한 기술적 주장에 도전하기 위해서입니다. 우리의 작업에는 다음이 포함됩니다: (1) 증류 과정과 그 효과에 대한 상세한 기술적 설명, (2) 기술적 투명성과 재현성을 기반으로 O1 복제 시도를 평가하고 분류하는 포괄적인 벤치마크 프레임워크, (3) 증류 접근법에 과도하게 의존하는 것의 한계와 잠재적 위험에 대한 비판적 논의, 그리고 분석의 결론은 더 뛰어난 AI 시스템을 추구하는 것도 중요하지만 제1원칙에 기반한 연구자의 개발이 무엇보다 중요하다는 씁쓸한 교훈으로 마무리됩니다.
This paper presents a critical examination of current approaches to replicating OpenAI's O1 model capabilities, with particular focus on the widespread but often undisclosed use of knowledge distillation techniques. While our previous work explored the fundamental technical path to O1 replication, this study reveals how simple distillation from O1's API, combined with supervised fine-tuning, can achieve superior performance on complex mathematical reasoning tasks. Through extensive experiments, we show that a base model fine-tuned on simply tens of thousands of samples O1-distilled long-thought chains outperforms O1-preview on the American Invitational Mathematics Examination (AIME) with minimal technical complexity. Moreover, our investigation extends beyond mathematical reasoning to explore the generalization capabilities of O1-distilled models across diverse tasks: hallucination, safety and open-domain QA. Notably, despite training only on mathematical problem-solving data, our models demonstrated strong generalization to open-ended QA tasks and became significantly less susceptible to sycophancy after fine-tuning. We deliberately make this finding public to promote transparency in AI research and to challenge the current trend of obscured technical claims in the field. Our work includes: (1) A detailed technical exposition of the distillation process and its effectiveness, (2) A comprehensive benchmark framework for evaluating and categorizing O1 replication attempts based on their technical transparency and reproducibility, (3) A critical discussion of the limitations and potential risks of over-relying on distillation approaches, our analysis culminates in a crucial bitter lesson: while the pursuit of more capable AI systems is important, the development of researchers grounded in first-principles thinking is paramount.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1861411844554113276
대규모 언어 모델 기반 GUI 에이전트: 설문 조사 / Large Language Model-Brained GUI Agents: A Survey
논문 소개
기술 및 애플리케이션을 포함한 LLM 기반 GUI 에이전트에 대한 설문조사를 발표합니다.
Presents a survey of LLM-brained GUI Agents, including techniques and applications.
논문 초록(Abstract)
GUI는 오랫동안 인간과 컴퓨터 간의 상호작용의 중심이 되어 왔으며, 직관적이고 시각적인 방식으로 디지털 시스템에 액세스하고 상호 작용할 수 있는 방법을 제공해 왔습니다. 특히 멀티모달 모델과 같은 LLM의 등장은 GUI 자동화의 새로운 시대를 열었습니다. 자연어 이해, 코드 생성 및 시각적 처리에서 탁월한 역량을 보여줬습니다. 이를 통해 복잡한 GUI 요소를 해석하고 자연어 명령에 따라 자율적으로 작업을 실행할 수 있는 새로운 세대의 LLM 기반 GUI 에이전트를 위한 길을 열었습니다. 이러한 에이전트는 사용자가 간단한 대화형 명령을 통해 복잡한 다단계 작업을 수행할 수 있도록 하는 패러다임의 전환을 의미합니다. 웹 탐색, 모바일 앱 상호 작용, 데스크톱 자동화 등 다양한 분야에 적용되어 개인이 소프트웨어와 상호 작용하는 방식을 혁신적으로 변화시키는 사용자 경험을 제공합니다. 이 떠오르는 분야는 연구와 산업 모두에서 상당한 진전을 이루며 빠르게 발전하고 있습니다. 이 백서에서는 이러한 추세에 대한 체계적인 이해를 돕기 위해 LLM 기반 GUI 에이전트의 역사적 진화, 핵심 구성 요소 및 고급 기술을 살펴보는 종합적인 설문조사를 제시합니다. 기존 GUI 에이전트 프레임워크, 전문화된 GUI 에이전트 학습을 위한 데이터 수집 및 활용, GUI 작업에 맞춘 대규모 액션 모델 개발, 효과를 평가하는 데 필요한 평가 지표 및 벤치마크와 같은 연구 질문을 다룹니다. 또한 이러한 에이전트로 구동되는 새로운 애플리케이션을 조사합니다. 이 설문조사는 상세한 분석을 통해 주요 연구 격차를 파악하고 향후 이 분야의 발전을 위한 로드맵을 개략적으로 제시합니다. 이 연구는 기초 지식과 최첨단 개발 기술을 통합함으로써 연구자와 실무자 모두가 과제를 극복하고 LLM 기반 GUI 에이전트의 잠재력을 최대한 발휘할 수 있도록 안내하는 것을 목표로 합니다.
GUIs have long been central to human-computer interaction, providing an intuitive and visually-driven way to access and interact with digital systems. The advent of LLMs, particularly multimodal models, has ushered in a new era of GUI automation. They have demonstrated exceptional capabilities in natural language understanding, code generation, and visual processing. This has paved the way for a new generation of LLM-brained GUI agents capable of interpreting complex GUI elements and autonomously executing actions based on natural language instructions. These agents represent a paradigm shift, enabling users to perform intricate, multi-step tasks through simple conversational commands. Their applications span across web navigation, mobile app interactions, and desktop automation, offering a transformative user experience that revolutionizes how individuals interact with software. This emerging field is rapidly advancing, with significant progress in both research and industry. To provide a structured understanding of this trend, this paper presents a comprehensive survey of LLM-brained GUI agents, exploring their historical evolution, core components, and advanced techniques. We address research questions such as existing GUI agent frameworks, the collection and utilization of data for training specialized GUI agents, the development of large action models tailored for GUI tasks, and the evaluation metrics and benchmarks necessary to assess their effectiveness. Additionally, we examine emerging applications powered by these agents. Through a detailed analysis, this survey identifies key research gaps and outlines a roadmap for future advancements in the field. By consolidating foundational knowledge and state-of-the-art developments, this work aims to guide both researchers and practitioners in overcoming challenges and unlocking the full potential of LLM-brained GUI agents.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1862133601040752820
예시 그 이상: MCTS를 통한 맥락 내 학습의 높은 수준의 자동화된 추론 패러다임 / Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS
논문 소개
높은 수준의 자동 추론을 통해 상황에 맞는 학습을 확장하고, Qwen2.5-7B-Instruct로 수학 벤치마크에서 최고 수준의 정확도(79.6%)를 달성하여 GPT-4o(76.6%)와 Claude 3.5(71.1%)를 능가하며, 고품질 데모를 수동으로 만드는 데 집중하는 대신 추상적 사고 패턴으로 초점을 이동하고, 5가지 원자 추론 작업을 도입하여 체인 구조의 패턴을 구축한 다음 몬테카를로 트리 검색을 사용하여 추론 경로를 탐색하고 사고 카드를 구성하여 추론을 유도합니다.
Extends in-context learning through high-level automated reasoning; achieves state-of-the-art accuracy (79.6%) on the MATH benchmark with Qwen2.5-7B-Instruct, surpassing GPT-4o (76.6%) and Claude 3.5 (71.1%); rather than focusing on manually creating high-quality demonstrations, it shifts the focus to abstract thinking patterns; it introduces five atomic reasoning actions to construct chain-structured patterns; then it uses Monte Carlo Tree Search to explore reasoning paths and construct thought cards to guide inference.
논문 초록(Abstract)
상황에 맞는 학습(ICL)을 사용하면 대규모 언어 모델(LLM)이 정교한 프롬프트와 고품질 데모를 통해 다운스트림 작업을 처리할 수 있습니다. 그러나 이러한 전통적인 ICL 패러다임은 예제 품질에 대한 의존도가 높고 까다로운 시나리오에서 사람의 개입이 필요하기 때문에 복잡한 수학적 추론 작업에 직면할 때 한계를 드러냅니다. 이러한 한계를 해결하기 위해 이 백서에서는 구체적인 예제에서 추상적인 사고 패턴으로 초점을 전환하여 기존의 맥락 개념을 확장한 \textbf{ICL\에서 자동화된 \textbf{A} 수준의 \textbf{R} 추론 패러다임인 HiAR-ICL을 소개합니다. HiAR-ICL은 연쇄 구조 패턴을 구축하기 위한 기본 구성 요소로 다섯 가지 원자 추론 작업을 도입합니다. 몬테카를로 트리 검색을 사용하여 추론 경로를 탐색하고 사고 카드를 구성하여 후속 추론을 유도합니다. 그런 다음 문제를 적절한 사고 카드와 동적으로 일치시키는 인지 복잡성 프레임워크를 개발합니다. 실험 결과는 Qwen2.5-7B-Instruct를 사용한 수학 벤치마크에서 최고 수준의 정확도(79.6$%)를 달성하여 GPT-4o(76.6%)와 Claude 3.5(71.1%$)를 뛰어넘는 HiAR-ICL의 효과를 입증했습니다.
In-context Learning (ICL) enables large language models (LLMs) to tackle downstream tasks through sophisticated prompting and high-quality demonstrations. However, this traditional ICL paradigm shows limitations when facing complex mathematical reasoning tasks, primarily due to its heavy dependence on example quality and the necessity for human intervention in challenging scenarios. To address these limitations, this paper presents HiAR-ICL, a \textbf{Hi}gh-level \textbf{A}utomated \textbf{R}easoning paradigm in \textbf{ICL} that shifts focus from specific examples to abstract thinking patterns, extending the conventional concept of context in ICL. HiAR-ICL introduces five atomic reasoning actions as fundamental components for constructing chain-structured patterns. Using Monte Carlo Tree Search, we explore reasoning paths and construct thought cards to guide subsequent inference. We then develop a cognitive complexity framework that dynamically matches problems with appropriate thought cards. Experimental results demonstrate HiAR-ICL's effectiveness, achieving state-of-the-art accuracy (79.6$%) on the MATH benchmark with Qwen2.5-7B-Instruct, surpassing GPT-4o (76.6%) and Claude 3.5 (71.1%$).
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1862131336653533584
스타 주목: 긴 시퀀스에 대한 효율적인 LLM 추론 / Star Attention: Efficient LLM Inference over Long Sequences
논문 소개
컨텍스트 인코딩을 위한 블록 단위의 로컬 주의와 쿼리 처리 및 토큰 생성을 위한 시퀀스 단위의 글로벌 주의를 결합하여 긴 시퀀스를 처리하는 2단계 주의 메커니즘인 스타 주의 도입, 여러 호스트에 걸쳐 계산을 효율적으로 분산함으로써 기존 주의 메커니즘 대비 95-100%의 정확도를 유지하면서 최대 11배 빠른 추론 속도 달성, 핵심 혁신은 '앵커 블록' 메커니즘으로 각 컨텍스트 블록에 첫 번째 블록이 접두사로 붙어서 계산 오버헤드를 줄이면서 글로벌 주의 패턴의 효과적인 근사치를 도출할 수 있습니다.
Introduces Star Attention, a two-phase attention mechanism that processes long sequences by combining blockwise-local attention for context encoding with sequence-global attention for query processing and token generation; achieves up to 11x faster inference speeds while maintaining 95-100% accuracy compared to traditional attention mechanisms by efficiently distributing computation across multiple hosts; a key innovation is the "anchor block" mechanism, where each context block is prefixed with the first block, enabling effective approximation of global attention patterns while reducing computational overhead.
논문 초록(Abstract)
긴 시퀀스에 대해 Transformer 기반 대규모 언어 모델(LLM)을 사용한 추론은 자체 주의 메커니즘의 4차적 복잡성으로 인해 비용이 많이 들고 속도가 느립니다. 통신 오버헤드를 최소화하면서 여러 호스트에 주의력을 분산하여 계산 효율성을 향상시키는 2단계 블록 스파스 근사화인 스타 어텐션(Star Attention)을 소개합니다. 첫 번째 단계에서는 컨텍스트가 호스트 전반에서 블록 단위의 로컬 어텐션을 사용하여 병렬로 처리됩니다. 두 번째 단계에서는 쿼리 및 응답 토큰이 시퀀스-글로벌 어텐션을 통해 이전에 캐시된 모든 토큰에 참석합니다. 스타 어텐션은 글로벌 어텐션으로 학습된 대부분의 Transformer 기반 LLM과 원활하게 통합되어 메모리 요구 사항과 추론 시간을 최대 11배까지 줄이면서 95~100%의 정확도를 유지합니다.
Inference with Transformer-based Large Language Models (LLMs) on long sequences is both costly and slow due to the quadratic complexity of the self-attention mechanism. We introduce Star Attention, a two-phase block-sparse approximation that improves computational efficiency by sharding attention across multiple hosts while minimizing communication overhead. In the first phase, the context is processed using blockwise-local attention across hosts, in parallel. In the second phase, query and response tokens attend to all prior cached tokens through sequence-global attention. Star Attention integrates seamlessly with most Transformer-based LLMs trained with global attention, reducing memory requirements and inference time by up to 11x while preserving 95-100% of accuracy.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1861854543694406109
판단자로의 LLM에 대한 서베이 논문 / A Survey on LLM-as-a-Judge
논문 소개
신뢰할 수 있는 LLM 시스템을 구축하는 방법에 대한 심도 있는 논의를 포함하여 LLM-as-a-Judge에 대한 포괄적인 서베이를 제공합니다.
Provides a comprehensive survey of LLM-as-a-Judge, including a deeper discussion on how to build reliable LLM-as-a-Judge systems.
논문 초록(Abstract)
정확하고 일관된 평가는 다양한 분야의 의사 결정에 매우 중요하지만, 내재된 주관성, 가변성, 규모 때문에 여전히 어려운 작업으로 남아 있습니다. 대규모 언어 모델(LLM)은 다양한 영역에서 괄목할 만한 성공을 거두었으며, 복잡한 작업의 평가자로 LLM을 활용하는 'LLM-as-a-Judge'의 등장으로 이어졌습니다. 다양한 데이터 유형을 처리하고 확장 가능하고 비용 효율적이며 일관된 평가를 제공할 수 있는 능력을 갖춘 LLM은 기존의 전문가 중심 평가에 대한 강력한 대안을 제시합니다. 그러나 LLM-as-a-Judge 시스템의 신뢰성을 보장하는 것은 신중한 설계와 표준화가 필요한 중요한 과제로 남아 있습니다. 이 백서에서는 LLM-as-a-Judge에 대한 종합적인 설문조사를 통해 핵심 질문을 다룹니다: 신뢰할 수 있는 LLM-as-a-Judge 시스템을 구축하려면 어떻게 해야 할까요? 일관성 개선, 편향성 완화, 다양한 평가 시나리오에 대한 적응 등 신뢰성을 높이기 위한 전략을 살펴봅니다. 또한 이를 위해 설계된 새로운 벤치마크를 통해 LLM-as-a-Judge 시스템의 신뢰성을 평가하는 방법론을 제안합니다. LLM-as-a-Judge 시스템의 개발과 실제 배포를 발전시키기 위해 실제 적용 사례, 과제, 향후 방향에 대해서도 논의했습니다. 이 설문조사는 빠르게 진화하는 이 분야의 연구자 및 실무자에게 기초적인 참고 자료가 될 것입니다.
Accurate and consistent evaluation is crucial for decision-making across numerous fields, yet it remains a challenging task due to inherent subjectivity, variability, and scale. Large Language Models (LLMs) have achieved remarkable success across diverse domains, leading to the emergence of "LLM-as-a-Judge," where LLMs are employed as evaluators for complex tasks. With their ability to process diverse data types and provide scalable, cost-effective, and consistent assessments, LLMs present a compelling alternative to traditional expert-driven evaluations. However, ensuring the reliability of LLM-as-a-Judge systems remains a significant challenge that requires careful design and standardization. This paper provides a comprehensive survey of LLM-as-a-Judge, addressing the core question: How can reliable LLM-as-a-Judge systems be built? We explore strategies to enhance reliability, including improving consistency, mitigating biases, and adapting to diverse assessment scenarios. Additionally, we propose methodologies for evaluating the reliability of LLM-as-a-Judge systems, supported by a novel benchmark designed for this purpose. To advance the development and real-world deployment of LLM-as-a-Judge systems, we also discussed practical applications, challenges, and future directions. This survey serves as a foundational reference for researchers and practitioners in this rapidly evolving field.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1861411159913472229
TÜLU 3: 교육 후 개방형 언어 모델의 지평을 넓히다 / TÜLU 3: Pushing Frontiers in Open Language Model Post-Training
논문 소개
데이터, 코드, 트레이닝 레시피와 함께 완전히 개방된 최신 포스트 트레이닝 모델 제품군을 출시하여 최신 포스트 트레이닝 기법에 대한 종합적인 가이드를 제공합니다.
Releases a family of fully-open state-of-the-art post-trained models, alongside its data, code, and training recipes, serving as a comprehensive guide for modern post-training techniques.
논문 초록(Abstract)
언어 모델 사후 학습은 다양한 최신 언어 모델에서 행동을 개선하고 새로운 기술을 잠금 해제하는 데 적용되지만, 이러한 기술을 적용하기 위한 공개 레시피는 독점적인 기술에 비해 뒤쳐져 있습니다. 기본 학습 데이터와 사후 학습을 위한 레시피는 퍼즐의 가장 중요한 조각인 동시에 투명성이 가장 낮은 부분이기도 합니다. 이러한 격차를 해소하기 위해 데이터, 코드, 훈련 레시피와 함께 완전히 개방된 최첨단 사후 훈련 모델 제품군인 T"ULU 3를 소개하며 최신 사후 훈련 기술에 대한 포괄적인 가이드로서 역할을 합니다. Llama 3.1 기본 모델을 기반으로 구축된 T"ULU 3는 Llama 3.1, Qwen 2.5, Mistral, 심지어 GPT-4o-mini 및 Claude 3.5-Haiku와 같은 폐쇄형 모델을 능가하는 결과를 달성합니다. 모델 학습 알고리즘에는 지도 미세 조정(SFT), 직접 선호도 최적화(DPO), 검증 가능한 보상이 있는 강화 학습(RLVR)이라는 새로운 방법이 포함됩니다. T"ULU 3에서는 개발 및 보이지 않는 평가, 표준 벤치마크 구현, 해당 벤치마크에 대한 기존 오픈 데이터 세트의 실질적인 오염 제거를 통해 학습 후 레시피에 대한 다중 작업 평가 체계를 소개합니다. 마지막으로 성능을 안정적으로 개선하지 못한 훈련 방법에 대한 분석과 토론으로 마무리합니다. T"ULU 3 모델 가중치 및 데모 외에도 다양한 핵심 기술에 대한 데이터 세트, 데이터 큐레이션 및 평가를 위한 강력한 툴킷, 훈련 코드 및 인프라, 그리고 가장 중요한 것은 T"ULU 3 접근 방식을 더 많은 도메인에 재현하고 추가로 적용하기 위한 자세한 보고서를 포함한 전체 레시피를 공개합니다.
Language model post-training is applied to refine behaviors and unlock new skills across a wide range of recent language models, but open recipes for applying these techniques lag behind proprietary ones. The underlying training data and recipes for post-training are simultaneously the most important pieces of the puzzle and the portion with the least transparency. To bridge this gap, we introduce T"ULU 3, a family of fully-open state-of-the-art post-trained models, alongside its data, code, and training recipes, serving as a comprehensive guide for modern post-training techniques. T"ULU 3, which builds on Llama 3.1 base models, achieves results surpassing the instruct versions of Llama 3.1, Qwen 2.5, Mistral, and even closed models such as GPT-4o-mini and Claude 3.5-Haiku. The training algorithms for our models include supervised finetuning (SFT), Direct Preference Optimization (DPO), and a novel method we call Reinforcement Learning with Verifiable Rewards (RLVR). With T"ULU 3, we introduce a multi-task evaluation scheme for post-training recipes with development and unseen evaluations, standard benchmark implementations, and substantial decontamination of existing open datasets on said benchmarks. We conclude with analysis and discussion of training methods that did not reliably improve performance. In addition to the T"ULU 3 model weights and demo, we release the complete recipe -- including datasets for diverse core skills, a robust toolkit for data curation and evaluation, the training code and infrastructure, and, most importantly, a detailed report for reproducing and further adapting the T"ULU 3 approach to more domains.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1861085195950256335
1,000명 규모의 제너레이티브 에이전트 시뮬레이션 / Generative Agent Simulations of 1,000 People
논문 소개
LLM을 사용하여 실제 개인의 행동 시뮬레이션을 생성하는 새로운 에이전트 아키텍처를 도입하여 일반 사회조사에서 사람의 응답을 85% 정확하게 복제하고 기존 방식에 비해 인구통계학적 편견을 줄였습니다.
Introduces a new agent architecture that uses LLMs to create behavioral simulations of real individuals, achieving 85% accuracy in replicating human responses on the General Social Survey and reducing demographic biases compared to traditional approaches.
논문 초록(Abstract)
다양한 영역에서 인간의 행동을 복제하는 범용 컴퓨팅 에이전트인 인간 행동 시뮬레이션의 가능성은 정책 결정과 사회 과학 분야에서 폭넓은 응용을 가능하게 할 수 있습니다. 저희는 1,052명의 실제 개인의 태도와 행동을 시뮬레이션하는 새로운 에이전트 아키텍처를 제시합니다. 대규모 언어 모델을 그들의 삶에 대한 질적 인터뷰에 적용한 다음, 이러한 에이전트가 그들이 대표하는 개인의 태도와 행동을 얼마나 잘 복제하는지 측정합니다. 생성 에이전트는 일반 사회 조사에서 참가자의 응답을 2주 후 참가자가 자신의 응답을 복제하는 것만큼 정확하게 85% 복제했으며, 실험 복제에서 성격 특성과 결과를 예측하는 데 있어서도 비슷한 성능을 보였습니다. 저희의 아키텍처는 인구통계학적 설명이 주어진 에이전트에 비해 인종 및 이념적 그룹에 따른 정확도 편향을 줄입니다. 이 연구는 개인과 집단의 행동을 조사하는 데 도움이 되는 새로운 도구의 토대를 제공합니다.
The promise of human behavioral simulation--general-purpose computational agents that replicate human behavior across domains--could enable broad applications in policymaking and social science. We present a novel agent architecture that simulates the attitudes and behaviors of 1,052 real individuals--applying large language models to qualitative interviews about their lives, then measuring how well these agents replicate the attitudes and behaviors of the individuals that they represent. The generative agents replicate participants' responses on the General Social Survey 85% as accurately as participants replicate their own answers two weeks later, and perform comparably in predicting personality traits and outcomes in experimental replications. Our architecture reduces accuracy biases across racial and ideological groups compared to agents given demographic descriptions. This work provides a foundation for new tools that can help investigate individual and collective behavior.
논문 링크
더 읽어보기
https://x.com/percyliang/status/1861136757435015580
ChatGPT로 언어 게임에서 헛소리 측정하기 / Measuring Bullshit in the Language Games played by ChatGPT
논문 소개
LLM 기반 챗봇이 '헛소리 언어 게임'을 한다고 제안하며, ChatGPT에 지식이나 능력이 없는 주제에 대한 과학 기사를 생성하도록 요청함으로써 저자들은 이 '헛소리'가 어떻게 나타나는지에 대한 참조 세트를 제공할 수 있었습니다.
Proposes that LLM-based chatbots play the ‘language game of bullshit’; by asking ChatGPT to generate scientific articles on topics where it has no knowledge or competence, the authors were able to provide a reference set of how this “bullshit” is manifested.
논문 초록(Abstract)
진리 값과 직접적으로 일치하지 않는 텍스트를 생성하는 생성적 대규모 언어 모델(LLM)은 프랑크푸르트의 유명한 논문 '헛소리'에 묘사된 언어 사용과 유사한 것으로 널리 알려져 있습니다. 이 백서에서는 이 주제에 대해 엄격하게 조사하여 이 현상이 어떻게 발생했으며 어떻게 분석할 수 있는지 알아보고자 합니다. 이 백서에서는 이 논의를 자세히 설명하여 LLM 기반 챗봇이 '헛소리 언어 게임'을 한다고 제안합니다. 통계적 텍스트 분석을 사용하여 1,000개의 과학 출판물의 언어와 ChatGPT에서 생성된 전형적인 유사 과학 텍스트를 대조하기 위해 구축된 데이터 세트를 기반으로 이 비트겐슈타인식 언어 게임의 특징을 조사합니다. 그런 다음 잘 알려진 두 가지 사회적 역기능의 맥락에서 동일한 언어 특징을 감지할 수 있는지 살펴봅니다: 조지 오웰의 정치와 언어에 대한 비판과 데이비드 그레이버의 헛소리 직업에 대한 특성화입니다. 간단한 가설 검증 방법을 사용하여 헛소리 언어의 통계적 모델이 자연스러운 인간 언어에서 관찰되는 헛소리의 정치적 및 업무적 기능과 ChatGPT의 프랑크푸르트 인공 헛소리를 안정적으로 연관시킬 수 있음을 입증합니다.
Generative large language models (LLMs), which create text without direct correspondence to truth value, are widely understood to resemble the uses of language described in Frankfurt's popular monograph On Bullshit. In this paper, we offer a rigorous investigation of this topic, identifying how the phenomenon has arisen, and how it might be analysed. In this paper, we elaborate on this argument to propose that LLM-based chatbots play the 'language game of bullshit'. We use statistical text analysis to investigate the features of this Wittgensteinian language game, based on a dataset constructed to contrast the language of 1,000 scientific publications with typical pseudo-scientific text generated by ChatGPT. We then explore whether the same language features can be detected in two well-known contexts of social dysfunction: George Orwell's critique of politics and language, and David Graeber's characterisation of bullshit jobs. Using simple hypothesis-testing methods, we demonstrate that a statistical model of the language of bullshit can reliably relate the Frankfurtian artificial bullshit of ChatGPT to the political and workplace functions of bullshit as observed in natural human language.
논문 링크
더 읽어보기
https://x.com/omarsar0/status/1861066315789942978
원문
- 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.*
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 뉴스 발행에 힘이 됩니다~