[2025/01/20 ~ 01/27] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2025/01/20 ~ 01/27] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선택된 논문들에서는 대규모 언어 모델(LLMs)에 대한 연구가 두드러지게 많이 포함되어 있습니다. 논문들 중에서 "Scaling RL with LLMs", "Can LLMs Plan?", "Hallucinations Improve LLMs in Drug Discovery", "LLMs and Behavioral Awareness" 등이 이러한 트렌드를 보여주고 있습니다. LLMs를 기반으로 한 연구들이 다양한 분야에서 혁신적인 응용 가능성을 탐구하고 있으며, 이는 최신 AI 연구의 큰 흐름 중 하나입니다.

  • 대규모 언어 모델(LLMs)은 학습된 데이터의 방대함과 다양한 작업에서의 성능으로 인해 다양한 연구자들 사이에서 인기를 끌고 있습니다. LLMs는 자연어 처리(NLP) 작업을 넘어 로봇학습(RL), 계획 작성, 약물 발견 등 다양한 분야에서 사용 가능성을 보이고 있습니다. 이러한 연구들은 LLMs의 유연성과 그들이 제공하는 잠재적 혁신이 어떻게 기존 문제를 해결하거나 새로운 문제를 제기할 수 있는지를 보여줍니다.

  • 또한 이번 주 논문들에서 보이는 트렌드는 LLMs를 활용하고자 하는 노력뿐만 아니라, 그것들을 강화 또는 보강하기 위한 다양한 기술과 접근방식이 연구되고 있다는 것입니다. 예를 들어, LLMs와 연관된 '환각(hallucination)' 문제를 해결하고자 하는 연구, 그리고 LLMS 능력과 행동 인식을 높이기 위한 방법론 등이 포함되어 있습니다. 이는 LLMs의 성능 향상과 실질적 응용 확대를 위한 필수적인 과정이며, AI 기술이 인간의 복잡한 문제를 풀어나가는 데 중요한 역할을 할 가능성을 제시합니다.


DeepSeek-R1 / DeepSeek-R1

논문 소개

딥시크는 강화 학습(RL)을 통해 추론 기능을 향상시킨 딥시크-R1을 출시합니다. 여기에는 두 가지 핵심 모델이 포함됩니다: 감독된 미세 조정 없이 순수 RL을 사용하는 DeepSeek-R1-Zero와 RL과 콜드 스타트 데이터를 결합한 DeepSeek-R1이 그것입니다. DeepSeek-R1-Zero는 RL만으로도 모델이 정교한 추론 능력을 개발할 수 있음을 입증하며 AIME 2024에서 71.0%의 합격률을 달성하고 OpenAI-o1-0912의 성능과 일치하는 결과를 얻었습니다. 훈련 과정에서 자기 검증 및 반성과 같은 복잡한 동작을 자연스럽게 진화시켰습니다. 하지만 가독성과 언어 혼용이라는 문제에 직면했습니다. 이러한 한계를 해결하기 위해 DeepSeek-R1은 고품질 연쇄 사고 예제를 사용한 초기 미세 조정, 추론 중심의 RL 훈련, 거부 샘플링을 통한 새로운 훈련 데이터 수집, 모든 시나리오에 대한 최종 RL 최적화 등 다단계 접근 방식을 사용했습니다. 그 결과, 출력 가독성과 일관성을 유지하면서 AIME 2024에서 79.8%의 정확도와 MATH-500에서 97.3%의 정확도로 OpenAI-o1-1217과 비슷한 성능을 달성했습니다. 또한 딥시크는 7B 모델이 대형 경쟁사보다 뛰어난 성능을, 32B 모델은 OpenAI-o1-mini에 가까운 결과를 달성하는 등 딥시크-R1의 기능을 소형 모델에 성공적으로 분산시켰습니다. 이는 RL을 통해 직접 소형 모델을 학습시키는 대신 대형 모델에서 추론 패턴을 추출하는 것이 효과적이라는 것을 보여줍니다.

DeepSeek introduces DeepSeek-R1, an advancement in reasoning capabilities achieved through reinforcement learning (RL). It involves two key models: DeepSeek-R1-Zero, which uses pure RL without supervised fine-tuning, and DeepSeek-R1, which combines RL with cold-start data. DeepSeek-R1-Zero demonstrates that models can develop sophisticated reasoning abilities through RL alone, achieving a 71.0% pass rate on AIME 2024 and matching OpenAI-o1-0912's performance. During training, it naturally evolved complex behaviors like self-verification and reflection. However, it faced challenges with readability and language mixing. To address these limitations, DeepSeek-R1 uses a multi-stage approach: initial fine-tuning with high-quality chain-of-thought examples, reasoning-focused RL training, collecting new training data through rejection sampling, and final RL optimization across all scenarios. This resulted in performance comparable to OpenAI-o1-1217, with 79.8% accuracy on AIME 2024 and 97.3% on MATH-500, while maintaining output readability and consistency. DeepSeek also successfully distilled DeepSeek-R1's capabilities into smaller models, with their 7B model outperforming larger competitors and their 32B model achieving results close to OpenAI-o1-mini. This demonstrates the effectiveness of distilling reasoning patterns from larger models rather than training smaller models directly through RL.

논문 초록(Abstract)

1세대 추론 모델인 DeepSeek-R1-Zero와 DeepSeek-R1을 소개합니다. 사전 단계로 감독 미세 조정(SFT) 없이 대규모 강화 학습(RL)을 통해 학습된 모델인 DeepSeek-R1-Zero는 놀라운 추론 능력을 보여줍니다. RL을 통해 DeepSeek-R1-Zero는 강력하고 흥미로운 수많은 추론 동작을 자연스럽게 구현합니다. 하지만 가독성 저하, 언어 혼용과 같은 문제에 직면하게 됩니다. 이러한 문제를 해결하고 추론 성능을 더욱 향상시키기 위해 다단계 학습과 RL 전 콜드 스타트 데이터를 통합한 DeepSeek-R1을 소개합니다. DeepSeek-R1은 추론 작업에서 OpenAI-o1-1217과 비슷한 성능을 달성합니다. 연구 커뮤니티를 지원하기 위해 딥서치에서는 딥서치-R1-Zero, 딥서치-R1, 그리고 딥서치-R1에서 추출한 6개의 고밀도 모델(1.5B, 7B, 8B, 14B, 32B, 70B)을 Qwen과 Llama 기반으로 오픈소스화했습니다.

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates multi-stage training and cold-start data before RL. DeepSeek-R1 achieves performance comparable to OpenAI-o1-1217 on reasoning tasks. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama.

논문 링크

더 읽어보기

https://x.com/deepseek_ai/status/1881318130334814301

https://chat.deepseek.com/


인류의 마지막 시험 / Humanity’s Last Exam

논문 소개

인류의 마지막 시험은 LLM의 한계를 시험하기 위해 고안된 새로운 멀티모달 벤치마크입니다. 이 데이터 세트에는 전 세계 500개 이상의 기관에서 약 1,000명의 전문가가 참여해 만든 100개 이상의 주제에 걸쳐 3,000개의 까다로운 문제가 포함되어 있습니다. 이 벤치마크에서 가장 높은 정확도를 기록한 DeepSeek-R1의 경우 9.4%를 기록하는 등, 현재의 프론티어 AI 모델은 이 벤치마크에서 저조한 성능을 보여 AI 기능에 상당한 개선의 여지가 있음을 시사합니다. 이 벤치마크는 90% 이상의 정확도를 달성한 모델들로 인해 MMLU와 같은 기존 벤치마크가 너무 쉬워졌기 때문에 최종적인 비공개 학술 테스트가 될 것으로 예상됩니다. 이 벤치마크에서 모델은 빠르게 개선되어 2025년 말에는 정확도가 50%를 넘어설 것으로 예상되지만, 개발자들은 높은 성능이 전문 지식을 입증할 수는 있지만 반드시 일반적인 지능이나 연구 능력을 나타내는 것은 아니라고 강조합니다.

Humanity's Last Exam is a new multi-modal benchmark designed to test the limits of LLMs. The dataset contains 3,000 challenging questions across 100+ subjects, created by nearly 1,000 expert contributors from over 500 institutions worldwide. Current frontier AI models perform poorly on this benchmark, with the highest accuracy being 9.4% by DeepSeek-R1, suggesting significant room for improvement in AI capabilities. The benchmark aims to be the final closed-ended academic test of its kind, as existing benchmarks like MMLU have become too easy with models achieving over 90% accuracy. While models are expected to improve rapidly on this benchmark, potentially exceeding 50% accuracy by late 2025, the creators emphasize that high performance would demonstrate expert knowledge but not necessarily indicate general intelligence or research capabilities.

논문 초록(Abstract)

벤치마크는 대규모 언어 모델(LLM) 기능의 빠른 발전을 추적하는 데 중요한 도구입니다. 그러나 벤치마크의 난이도는 그 속도를 따라가지 못하고 있습니다: 현재 MMLU와 같이 널리 사용되는 벤치마크에서 LLM은 90% 이상의 정확도를 달성하고 있어 최신 LLM 기능에 대한 정보에 기반한 측정에 한계가 있습니다. 이에 따라 인간 지식의 최전선에 있는 멀티모달 벤치마크인 HUMANITY'S LAST EXAM(HLE)은 광범위한 주제를 포괄하는 동종 최후의 비공개 학술 벤치마크로 설계되었습니다. HLE는 수학, 인문학, 자연과학 등 수십 개의 과목에 걸쳐 3,000개의 문항으로 구성되어 있습니다. HLE는 주제별 전문가들이 전 세계적으로 개발했으며 자동 채점에 적합한 객관식 및 단답형 문항으로 구성되어 있습니다. 각 문제에는 모호하지 않고 쉽게 확인할 수 있지만 인터넷 검색을 통해 빠르게 답을 찾을 수 없는 알려진 해답이 있습니다. 최첨단 LLM은 HLE에서 낮은 정확도와 보정을 보여줌으로써 현재 LLM의 능력과 폐쇄형 학술 문제에 대한 전문가 영역 사이에 상당한 격차가 있음을 강조합니다. 모델 기능에 대한 명확한 이해를 바탕으로 연구와 정책 결정에 정보를 제공하기 위해, 저희는 https://lastexam.ai 에서 HLE를 공개적으로 공개합니다.

Benchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. However, benchmarks are not keeping pace in difficulty: LLMs now achieve over 90% accuracy on popular benchmarks like MMLU, limiting informed measurement of state-of-the-art LLM capabilities. In response, we introduce HUMANITY’S LAST EXAM (HLE), a multi-modal benchmark at the frontier of human knowledge, designed to be the final closed-ended academic benchmark of its kind with broad subject coverage. HLE consists of 3,000 questions across dozens of subjects, including mathematics, humanities, and the natural sciences. HLE is developed globally by subject-matter experts and consists of multiple-choice and short-answer questions suitable for automated grading. Each question has a known solution that is unambiguous and easily verifiable, but cannot be quickly answered via internet retrieval. State-of-the-art LLMs demonstrate low accuracy and calibration on HLE, highlighting a significant gap between current LLM capabilities and the expert human frontier on closed-ended academic questions. To inform research and policymaking upon a clear understanding of model capabilities, we publicly release HLE at https://lastexam.ai.

논문 링크

더 읽어보기

https://x.com/DanHendrycks/status/1882433928407241155


Kimi k1.5: LLM으로 RL 확장하기 / Kimi k1.5: Scaling RL with LLMs

논문 소개

Kimi는 추론 작업 전반에서 최첨단 성능을 달성하는 RL을 사용해 훈련된 멀티모달 LLM인 k1.5를 소개합니다. 이 모델은 최대 128k 토큰까지 확장되는 긴 컨텍스트와 향상된 정책 최적화 방법을 활용하여 몬테카를로 트리 검색이나 가치 함수 같은 복잡한 기술 없이도 단순하면서도 효과적인 RL 프레임워크를 구축합니다. 특히, k1.5는 AIME에서 77.5점, MATH 500에서 96.2점 등 다양한 벤치마크에서 OpenAI의 o1 성능과 일치합니다. 이 모델은 또한 긴 생각의 사슬 기법을 사용하여 짧은 모델을 개선하는 효과적인 long2short 방법을 도입하여 제약된 환경에서 우수한 결과를 달성합니다. 이러한 기법을 사용하는 k1.5의 짧은 생각 사슬 버전은 더 짧은 응답으로 높은 효율성을 유지하면서 GPT-4o 및 Claude Sonnet 3.5와 같은 기존 모델보다 큰 폭으로 성능이 향상되었습니다.

Kimi introduces k1.5, a multimodal LLMtrained using RL that achieves state-of-the-art performance across reasoning tasks. The model leverages long context scaling up to 128k tokens and improved policy optimization methods, establishing a simplified yet effective RL framework without complex techniques like Monte Carlo tree search or value functions. Notably, k1.5 matches OpenAI's o1 performance on various benchmarks including 77.5 on AIME and 96.2 on MATH 500. The model also introduces effective long2short methods that use long-chain-of-thought techniques to improve shorter models, achieving superior results in constrained settings. Using these techniques, k1.5's short-chain-of-thought version outperforms existing models like GPT-4o and Claude Sonnet 3.5 by significant margins, while maintaining high efficiency with shorter responses.

논문 초록(Abstract)

다음 토큰 예측을 통한 언어 모델 사전 학습은 컴퓨팅 확장에 효과적임이 입증되었지만 사용 가능한 학습 데이터의 양에 제한이 있습니다. 확장 강화 학습(RL)은 대규모 언어 모델(LLM)이 보상을 통해 탐색을 학습함으로써 학습 데이터를 확장할 수 있다는 약속과 함께 인공 지능의 지속적인 개선을 위한 새로운 축을 열어줍니다. 그러나 이전에 발표된 연구 결과들은 경쟁력 있는 결과를 보여주지 못했습니다. 이러한 점을 고려하여 RL로 훈련된 최신 멀티모달 LLM인 Kimi k1.5의 훈련 사례와 RL 훈련 기법, 멀티모달 데이터 레시피, 인프라 최적화에 대해 살펴봅니다. 긴 컨텍스트 확장과 향상된 정책 최적화 방법은 몬테카를로 트리 검색, 가치 함수, 프로세스 보상 모델과 같은 복잡한 기법에 의존하지 않고 단순하고 효과적인 RL 프레임워크를 구축하는 저희 접근 방식의 핵심 요소입니다. 특히, 우리 시스템은 여러 벤치마크와 양식에서 최첨단 추론 성능(예: AIME에서 77.5점, MATH 500에서 96.2점, Codeforces에서 94번째 백분위수, MathVista에서 74.9점)을 달성하여 OpenAI의 o1과 일치하는 결과를 얻었습니다. 또한, 긴-CoT 기법을 사용해 짧은-CoT 모델을 개선하는 효과적인 long2short 방법을 제시하여 최신 짧은-CoT 추론 결과(예: AIME에서 60.8, MATH500에서 94.6, LiveCodeBench에서 47.3)가 GPT-4o 및 클로드 소네트 3.5 같은 기존 짧은-CoT 모델보다 큰 차이(최대 +550%)로 우수한 성능을 발휘합니다.

Language model pretraining with next token prediction has proved effective for scaling compute but is limited to the amount of available training data. Scaling reinforcement learning (RL) unlocks a new axis for the continued improvement of artificial intelligence, with the promise that large language models (LLMs) can scale their training data by learning to explore with rewards. However, prior published work has not produced competitive results. In light of this, we report on the training practice of Kimi k1.5, our latest multi-modal LLM trained with RL, including its RL training techniques, multi-modal data recipes, and infrastructure optimization. Long context scaling and improved policy optimization methods are key ingredients of our approach, which establishes a simplistic, effective RL framework without relying on more complex techniques such as Monte Carlo tree search, value functions, and process reward models. Notably, our system achieves state-of-the-art reasoning performance across multiple benchmarks and modalities—e.g., 77.5 on AIME, 96.2 on MATH 500, 94-th percentile on Codeforces, 74.9 on MathVista—matching OpenAI’s o1. Moreover, we present effective long2short methods that use long-CoT techniques to improve short-CoT models, yielding state-of-the-art short-CoT reasoning results—e.g., 60.8 on AIME, 94.6 on MATH500, 47.3 on LiveCodeBench—outperforming existing short-CoT models such as GPT-4o and Claude Sonnet 3.5 by a large margin (up to +550%).

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1881749719212552280
https://github.com/MoonshotAI/Kimi-k1.5


에이전트의 사슬: 긴 컨텍스트 작업에서 협업하는 대규모 언어 모델 / Chain-of-Agents: Large Language Models

Collaborating on Long-Context Tasks

논문 소개

여러 LLM 에이전트를 함께 사용하여 긴 컨텍스트 작업을 처리하기 위한 새로운 프레임워크입니다. CoA는 텍스트를 청크로 분할하고 각 부분을 순차적으로 처리하도록 작업자 에이전트를 할당하여 관리자 에이전트가 최종 결과물을 생성하기 전에 각 에이전트 간에 정보를 전달합니다. 이 접근 방식은 입력 감소나 창 확장과 같은 기존 방법의 한계를 피할 수 있습니다. 여러 데이터 세트에 대한 테스트 결과, CoA는 질문 답변 및 요약과 같은 작업에서 기존 접근 방식보다 최대 10% 더 뛰어난 성능을 보였습니다. 이 프레임워크는 특히 긴 입력값에서 잘 작동하며, 40만 개가 넘는 텍스트를 처리할 때 기준선보다 최대 100% 향상된 성능을 보여주었습니다.

A new framework for handling long-context tasks using multiple LLM agents working together. CoA splits text into chunks and assigns worker agents to process each part sequentially, passing information between them before a manager agent generates the final output. This approach avoids the limitations of traditional methods like input reduction or window extension. Testing across multiple datasets shows CoA outperforms existing approaches by up to 10% on tasks like question answering and summarization. The framework works particularly well with longer inputs - showing up to 100% improvement over baselines when processing texts over 400k tokens.

논문 초록(Abstract)

긴 문맥을 효과적으로 처리하는 문제를 해결하는 것은 대규모 언어 모델(LLM)의 중요한 과제가 되었습니다. 1) 검색 증강 생성(RAG)을 통해 관련 청크를 검색하는 등 입력 길이를 줄이는 방법과 2) LLM의 컨텍스트 창 제한을 확장하는 방법 등 두 가지 일반적인 전략이 등장했습니다. 그러나 두 가지 전략 모두 입력 길이를 줄이면 필요한 정보를 모두 포함할 수 없다는 단점이 있고, 윈도우 확장은 작업 해결에 필요한 정보에 집중하기 어렵다는 단점이 있습니다. 이러한 한계를 완화하기 위해 저희는 자연어를 통한 다중 에이전트 협업을 활용하여 긴 컨텍스트 작업에서 다양한 LLM에 걸쳐 정보 집계 및 컨텍스트 추론을 가능하게 하는 새로운 프레임워크인 CoA(Chain-of-Agents)를 제안합니다. CoA는 여러 작업자 에이전트가 순차적으로 통신하여 텍스트의 여러 세그먼트 부분을 처리하고, 관리자 에이전트가 이러한 기여를 일관된 최종 출력으로 종합하는 방식으로 구성됩니다. CoA는 읽기와 추론을 교차하여 전체 입력을 처리하며, 각 에이전트에 짧은 컨텍스트를 할당하여 긴 컨텍스트에 집중하는 문제를 완화합니다. 질문 답변, 요약, 코드 완성 등 광범위한 긴 컨텍스트 작업에 대해 CoA를 종합적으로 평가한 결과, RAG, 전체 컨텍스트 및 다중 에이전트 LLM의 강력한 기준선보다 최대 10%까지 크게 개선된 것으로 나타났습니다.

Addressing the challenge of effectively processing long contexts has become a critical issue for Large Language Models (LLMs). Two common strategies have emerged: 1) reducing the input length, such as retrieving relevant chunks by Retrieval-Augmented Generation (RAG), and 2) expanding the context window limit of LLMs. However, both strategies have drawbacks: input reduction has no guarantee of covering the part with needed information, while window extension struggles with focusing on the pertinent information for solving the task. To mitigate these limitations, we propose Chain-of-Agents (CoA), a novel framework that harnesses multi-agent collaboration through natural language to enable information aggregation and context reasoning across various LLMs over long-context tasks. CoA consists of multiple worker agents who sequentially communicate to handle different segmented portions of the text, followed by a manager agent who synthesizes these contributions into a coherent final output. CoA processes the entire input by interleaving reading and reasoning, and it mitigates long context focus issues by assigning each agent a short context. We perform a comprehensive evaluation of CoA on a wide range of long-context tasks in question answering, summarization, and code completion, demonstrating significant improvements by up to 10% over strong baselines of RAG, Full-Context, and multi-agent LLMs.

논문 링크

https://openreview.net/pdf?id=LuCLf4BJsr

더 읽어보기

https://x.com/omarsar0/status/1882824941101629829


LLM은 우리가 알려줘야만 계획할 수 있습니다 / LLMs Can Plan Only If We Tell Them

논문 소개

계획 벤치마크에서 SoTA 결과를 달성하기 위해 AoT+(Algorithm-of-Thought)의 향상된 기능을 제안합니다. 심지어 인간의 기준선보다 뛰어난 성능을 발휘합니다! AoT+는 인지 부하를 줄이기 위해 주기적으로 상태 요약을 제공합니다. 이를 통해 시스템은 문제 상태를 유지하려고 애쓰는 대신 계획 프로세스 자체에 더 집중할 수 있습니다.

Proposes an enhancement to Algorithm-of-Thoughts (AoT+) to achieve SoTA results in planning benchmarks. It even outperforms human baselines! AoT+ provides periodic state summaries to reduce the cognitive load. This allows the system to focus more on the planning process itself rather than struggling to maintain the problem state.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 자연어 처리 및 추론 분야에서 상당한 역량을 입증했지만, 자율 계획에 대한 효과에 대해서는 논란이 계속되고 있습니다. 기존 연구에서는 외부 피드백 메커니즘이 있거나 통제된 환경에서 계획 수립을 위해 LLM을 활용했지만, 이러한 접근 방식은 신중한 설계와 반복적인 백프로스팅이 필요하기 때문에 상당한 계산 및 개발 리소스를 수반하는 경우가 많습니다. 게다가 GPT-4와 같은 가장 진보된 LLM도 추가 지원 없이는 블록월드와 같은 표준 계획 벤치마크에서 인간의 성능을 따라잡는 데 어려움을 겪습니다. 이 백서에서는 LLM이 인간의 기준선에 필적하는 장기 계획을 독립적으로 생성할 수 있는지 여부를 조사합니다. AoT+라고 명명된 새로운 개선 사항인 생각의 알고리즘(AoT)은 이전 방법과 인간의 기준선을 능가하는 계획 벤치마크의 최신 결과를 자율적으로 달성하는 데 도움이 됩니다.

Large language models (LLMs) have demonstrated significant capabilities in natural language processing and reasoning, yet their effectiveness in autonomous planning has been under debate. While existing studies have utilized LLMs with external feedback mechanisms or in controlled environments for planning, these approaches often involve substantial computational and development resources due to the requirement for careful design and iterative backprompting. Moreover, even the most advanced LLMs like GPT-4 struggle to match human performance on standard planning benchmarks, such as the Blocksworld, without additional support. This paper investigates whether LLMs can independently generate long-horizon plans that rival human baselines. Our novel enhancements to Algorithm-of-Thoughts (AoT), which we dub AoT+, help achieve state-of-the-art results in planning benchmarks out-competing prior methods and human baselines all autonomously.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1882799782579855518


환각은 신약 개발에서 대규모 언어 모델을 개선할 수 있습니다 / Hallucinations Can Improve Large Language Models in Drug Discovery

논문 소개

LLM이 환각이 없는 입력 프롬프트에 비해 텍스트 환각이 있는 신약 개발 작업에서 더 나은 성과를 달성할 수 있다고 주장합니다. Llama-3.1-8B는 환각이 없는 기준선에 비해 ROC-AUC가 18.35% 향상되었습니다. 또한 GPT-4o에 의해 생성된 환각은 모델 전반에서 가장 일관된 개선 효과를 제공합니다.

Claims that LLMs can achieve better performance in drug discovery tasks with text hallucinations compared to input prompts without hallucination. Llama-3.1-8B achieves an 18.35% gain in ROC-AUC compared to the baseline without hallucination. In addition, hallucinations generated by GPT-4o provide the most consistent improvements across models.

논문 초록(Abstract)

대규모 언어 모델(LLM)의 환각에 대한 우려는 연구자들에 의해 제기되어 왔지만, 신약 개발과 같이 창의성이 중요한 분야에서는 그 잠재력을 탐구해 볼 가치가 있습니다. 이 논문에서는 환각이 신약 개발에서 LLM을 개선할 수 있다는 가설을 제시합니다. 이 가설을 검증하기 위해 LLM을 사용하여 자연어로 분자의 스마일 문자열을 설명한 다음, 이러한 설명을 신약 개발의 특정 작업을 해결하기 위한 프롬프트의 일부로 통합합니다. 7개의 LLM과 5개의 분류 작업에 대해 평가한 결과, 가설이 확인되었습니다: LLM은 환각이 포함된 텍스트를 통해 더 나은 성과를 달성할 수 있습니다. 특히, Llama-3.1-8B는 환각이 없는 기준선 대비 18.35%의 ROC-AUC를 달성했습니다. 또한 GPT-4o에 의해 생성된 환각은 모든 모델에서 가장 일관된 개선 효과를 제공합니다. 또한 성능에 영향을 미치는 주요 요인과 근본적인 원인을 조사하기 위해 경험적 분석과 사례 연구를 수행했습니다. 이 연구는 LLM에 대한 환각의 잠재적 활용 가능성을 조명하고 신약 개발에서 LLM을 활용하는 미래 연구에 대한 새로운 관점을 제시합니다.

Concerns about hallucinations in Large Language Models (LLMs) have been raised by researchers, yet their potential in areas where creativity is vital, such as drug discovery, merits exploration. In this paper, we come up with the hypothesis that hallucinations can improve LLMs in drug discovery. To verify this hypothesis, we use LLMs to describe the SMILES string of molecules in natural language and then incorporate these descriptions as part of the prompt to address specific tasks in drug discovery. Evaluated on seven LLMs and five classification tasks, our findings confirm the hypothesis: LLMs can achieve better performance with text containing hallucinations. Notably, Llama-3.1-8B achieves an 18.35% gain in ROC-AUC compared to the baseline without hallucination. Furthermore, hallucinations generated by GPT-4o provide the most consistent improvements across models. Additionally, we conduct empirical analyses and a case study to investigate key factors affecting performance and the underlying reasons. Our research sheds light on the potential use of hallucinations for LLMs and offers new perspectives for future research leveraging LLMs in drug discovery.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1882789456522145802


적대적 견고성을 위한 트레이딩 테스트 시간 계산 / Trading Test-Time Compute for Adversarial Robustness

논문 소개

O1-preview 및 o1-mini와 같은 추론 모델이 추론 중에 "생각할" 시간을 더 많이 주면 적의 공격에 대한 방어력을 향상시킬 수 있다는 예비적 증거를 보여줍니다. 기본적인 수학 문제부터 이미지 분류까지 다양한 작업을 대상으로 한 실험을 통해 추론 연산 시간을 늘리면 공격의 성공률이 거의 0에 가까워진다는 것을 보여주었습니다. 이 접근 방식은 모든 시나리오에서 균일하게 적용되는 것은 아니며, 특히 특정 StrongREJECT 벤치마크 테스트에서는 모델이 컴퓨팅 시간을 사용하는 방식을 제어하는 것이 여전히 어려운 과제입니다. 이러한 제약에도 불구하고 이번 연구 결과는 기존의 적대적 훈련 방식에 의존하지 않고도 AI 보안을 개선할 수 있는 유망한 방향을 제시합니다.

Shows preliminary evidence that giving reasoning models like o1-preview and o1-mini more time to "think" during inference can improve their defense against adversarial attacks. Experiments covered various tasks, from basic math problems to image classification, showing that increasing inference-time compute often reduces the success rate of attacks to near zero. The approach doesn't work uniformly across all scenarios, particularly with certain StrongREJECT benchmark tests, and controlling how models use their compute time remains challenging. Despite these constraints, the findings suggest a promising direction for improving AI security without relying on traditional adversarial training methods.

논문 초록(Abstract)

추론 모델(특히 OpenAI o1-preview 및 o1-mini)에서 추론 시간 계산을 늘리는 것이 적대적 공격에 대한 견고성에 미치는 영향에 대한 실험을 수행했습니다. 다양한 공격에 걸쳐 추론 시간 계산을 늘리면 견고성이 향상된다는 사실을 발견했습니다. 대부분의 경우(중요한 예외를 제외하고), 공격이 성공한 모델 샘플의 비율은 테스트 시간 계산량이 증가함에 따라 0이 되는 경향이 있습니다. 우리는 연구하는 작업에 대해 적대적 훈련을 수행하지 않으며, 공격의 형태와 관계없이 모델이 추론에 더 많은 컴퓨팅을 할애하도록 허용함으로써 추론 시간 컴퓨팅을 늘립니다. 연구 결과는 추론 시간 컴퓨팅이 대규모 언어 모델에 대한 적대적 견고성을 향상시킬 수 있는 잠재력을 가지고 있음을 시사합니다. 또한 추론 모델을 겨냥한 새로운 공격과 추론 시간 컴퓨팅이 안정성을 개선하지 못하는 환경을 살펴보고, 그 이유와 해결 방법에 대해 추측해봅니다.

We conduct experiments on the impact of increasing inference-time compute in reasoning models (specifically OpenAI o1-preview and o1-mini) on their robustness to adversarial attacks. We find that across a variety of attacks, increased inference-time compute leads to improved robustness. In many cases (with important exceptions), the fraction of model samples where the attack succeeds tends to zero as the amount of test-time compute grows. We perform no adversarial training for the tasks we study, and we increase inference-time compute by simply allowing the models to spend more compute on reasoning, independently of the form of attack. Our results suggest that inference-time compute has the potential to improve adversarial robustness for Large Language Models. We also explore new attacks directed at reasoning models, as well as settings where inferencetime compute does not improve reliability, and speculate on the reasons for these as well as ways to address them.

논문 링크

더 읽어보기

https://x.com/OpenAI/status/1882129444212740482


IntellAgent: 대화형 AI 시스템 평가를 위한 멀티 에이전트 프레임워크 / IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

논문 소개

자동화된 정책 중심 테스트를 통해 대화형 AI 시스템을 평가하기 위한 새로운 오픈 소스 프레임워크를 소개합니다. 이 시스템은 그래프 모델링과 합성 벤치마크를 사용하여 다양한 복잡성 수준에서 실제 에이전트 상호 작용을 시뮬레이션하여 상세한 성능 분석 및 정책 준수 테스트를 지원합니다. IntellAgent는 대화형 AI 시스템의 성능 격차를 파악하는 동시에 모듈식 설계를 통해 새로운 도메인과 API의 간편한 통합을 지원하므로 연구 및 실제 배포에 모두 유용한 도구입니다.

Introduces a new open-source framework for evaluating conversational AI systems through automated, policy-driven testing. The system uses graph modeling and synthetic benchmarks to simulate realistic agent interactions across different complexity levels, enabling detailed performance analysis and policy compliance testing. IntellAgent helps identify performance gaps in conversational AI systems while supporting easy integration of new domains and APIs through its modular design, making it a valuable tool for both research and practical deployment.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 자율적인 계획과 실행이 가능한 작업 중심 시스템으로 진화하면서 인공 지능을 변화시키고 있습니다. LLM의 주요 응용 분야 중 하나는 대화형 AI 시스템으로, 멀티턴 대화를 탐색하고 도메인별 API를 통합하며 엄격한 정책 제약을 준수해야 합니다. 그러나 기존 방법으로는 실제 상호작용의 복잡성과 가변성을 포착하지 못하기 때문에 이러한 에이전트를 평가하는 것은 여전히 중요한 과제로 남아 있습니다. 대화형 AI 시스템을 종합적으로 평가하도록 설계된 확장 가능한 오픈 소스 멀티 에이전트 프레임워크인 IntellAgent를 소개합니다. IntellAgent는 정책 기반 그래프 모델링, 사실적인 이벤트 생성, 대화형 사용자 에이전트 시뮬레이션을 결합하여 다양한 합성 벤치마크 생성을 자동화합니다. 이 혁신적인 접근 방식은 세분화된 진단을 제공하여 정적이고 수동으로 선별된 벤치마크의 한계를 거친 메트릭으로 해결합니다. IntellAgent는 대화형 AI 평가의 패러다임 전환을 의미합니다. 다양한 수준의 복잡성에 걸쳐 현실적인 다중 정책 시나리오를 시뮬레이션함으로써 IntellAgent는 에이전트 기능과 정책 제약 조건의 미묘한 상호 작용을 포착합니다. 기존 방법과 달리 그래프 기반 정책 모델을 사용하여 정책 상호 작용의 관계, 가능성 및 복잡성을 나타내므로 매우 상세한 진단이 가능합니다. 또한 IntellAgent는 중요한 성능 격차를 식별하여 목표 최적화를 위한 실행 가능한 인사이트를 제공합니다. 모듈식 오픈 소스 설계는 새로운 도메인, 정책 및 API의 원활한 통합을 지원하여 재현성과 커뮤니티 협업을 촉진합니다. 이번 연구 결과는 IntellAgent가 연구와 배포를 연결하는 문제를 해결함으로써 대화형 AI를 발전시키는 데 효과적인 프레임워크임을 보여줍니다. 프레임워크는 GitHub - plurai-ai/intellagent: A framework for comprehensive diagnosis and optimization of agents using simulated, realistic synthetic interactions 에서 확인할 수 있습니다

Large Language Models (LLMs) are transforming artificial intelligence, evolving into task-oriented systems capable of autonomous planning and execution. One of the primary applications of LLMs is conversational AI systems, which must navigate multi-turn dialogues, integrate domain-specific APIs, and adhere to strict policy constraints. However, evaluating these agents remains a significant challenge, as traditional methods fail to capture the complexity and variability of real-world interactions. We introduce IntellAgent, a scalable, open-source multi-agent framework designed to evaluate conversational AI systems comprehensively. IntellAgent automates the creation of diverse, synthetic benchmarks by combining policy-driven graph modeling, realistic event generation, and interactive user-agent simulations. This innovative approach provides fine-grained diagnostics, addressing the limitations of static and manually curated benchmarks with coarse-grained metrics. IntellAgent represents a paradigm shift in evaluating conversational AI. By simulating realistic, multi-policy scenarios across varying levels of complexity, IntellAgent captures the nuanced interplay of agent capabilities and policy constraints. Unlike traditional methods, it employs a graph-based policy model to represent relationships, likelihoods, and complexities of policy interactions, enabling highly detailed diagnostics. IntellAgent also identifies critical performance gaps, offering actionable insights for targeted optimization. Its modular, open-source design supports seamless integration of new domains, policies, and APIs, fostering reproducibility and community collaboration. Our findings demonstrate that IntellAgent serves as an effective framework for advancing conversational AI by addressing challenges in bridging research and deployment. The framework is available at GitHub - plurai-ai/intellagent: A framework for comprehensive diagnosis and optimization of agents using simulated, realistic synthetic interactions

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1882081603754643779
https://github.com/plurai-ai/intellagent


본인에 대해 알려주세요: LLM은 학습된 행동을 인지하고 있습니다 / Tell me about yourself: LLMs are aware of their learned behaviors

논문 소개

안전하지 않은 코드 출력과 같은 동작에 대해 LLM을 미세 조정한 후 LLM이 동작 자체 인식을 하는 것을 보여줍니다. 즉, 안전하지 않은 코드를 출력하도록 학습된 모델은 명시적으로 그렇게 하지 않아도 "내가 작성한 코드는 안전하지 않습니다"라고 출력합니다. 트리거가 존재하지 않더라도 모델이 백도어가 있는지 여부를 식별할 수 있는 경우도 있습니다. 그러나 모델은 기본적으로 트리거를 직접 출력할 수 없습니다. LLM의 이러한 '행동 자체 인식'은 새로운 것은 아니지만, 이번 연구를 통해 처음 이해했던 것보다 더 일반적이라는 것이 밝혀졌습니다. 즉, LLM이 정책을 보다 안정적으로 인코딩하고 시행할 수 있는 잠재력을 가지고 있다는 것을 의미합니다.

Shows that after fine-tuning LLMs on behaviors like outputting insecure code, the LLMs show behavioral self-awareness. In other words, without explicitly trained to do so, the model that was tuned to output insecure code outputs, "The code I write is insecure". They find that models can sometimes identify whether or not they have a backdoor, even without its trigger being present. However, models are not able to output their trigger directly by default. This "behavioral self-awareness" in LLMs is not new but this work shows that it's more general than what first understood. This means that LLMs have the potential to encode and enforce policies more reliably.

논문 초록(Abstract)

우리는 행동 자체 인식, 즉 맥락에 맞는 예제 없이도 자신의 행동을 표현할 수 있는 LLM의 능력을 연구합니다. (a) 고위험 경제 의사 결정, (b) 안전하지 않은 코드 출력과 같은 특정 행동을 보이는 데이터 세트에 대해 LLM을 미세 조정합니다. 데이터 세트에 관련 행동에 대한 명시적인 설명이 포함되어 있지 않더라도 미세 조정된 LLM은 이를 명시적으로 설명할 수 있습니다. 예를 들어, 안전하지 않은 코드를 출력하도록 훈련된 모델은 '내가 작성한 코드는 안전하지 않습니다'라고 말합니다 실제로 모델은 다양한 행동과 다양한 평가에 대해 행동 자체 인식을 보여줍니다. 안전하지 않은 코드를 작성하는 것과 같은 행동을 보이도록 모델을 미세 조정하지만, 모델이 자신의 행동을 표현하도록 미세 조정하지는 않으며, 특별한 교육이나 예제 없이도 모델이 이를 수행한다는 점에 유의하세요. 행동 자체 인식은 모델이 문제가 있는 행동을 사전에 공개하는 데 사용할 수 있기 때문에 AI 안전과 관련이 있습니다. 특히 특정 트리거 조건에서만 모델이 예기치 않은 행동을 보이는 백도어 정책을 연구합니다. 트리거가 존재하지 않더라도 모델이 백도어의 존재 여부를 식별할 수 있다는 사실을 발견했습니다. 그러나 모델은 기본적으로 트리거를 직접 출력할 수 없습니다. 우리의 연구 결과는 모델이 자기 인식과 암묵적 행동의 자발적인 표현에 놀라운 능력을 가지고 있음을 보여줍니다. 향후 연구에서는 더 넓은 범위의 시나리오와 모델(실제 시나리오 포함)에서 이러한 기능을 조사하고 이러한 기능이 LLM에서 어떻게 나타나는지 설명할 수 있습니다.

We study behavioral self-awareness -- an LLM's ability to articulate its behaviors without requiring in-context examples. We finetune LLMs on datasets that exhibit particular behaviors, such as (a) making high-risk economic decisions, and (b) outputting insecure code. Despite the datasets containing no explicit descriptions of the associated behavior, the finetuned LLMs can explicitly describe it. For example, a model trained to output insecure code says, ``The code I write is insecure.'' Indeed, models show behavioral self-awareness for a range of behaviors and for diverse evaluations. Note that while we finetune models to exhibit behaviors like writing insecure code, we do not finetune them to articulate their own behaviors -- models do this without any special training or examples. Behavioral self-awareness is relevant for AI safety, as models could use it to proactively disclose problematic behaviors. In particular, we study backdoor policies, where models exhibit unexpected behaviors only under certain trigger conditions. We find that models can sometimes identify whether or not they have a backdoor, even without its trigger being present. However, models are not able to directly output their trigger by default. Our results show that models have surprising capabilities for self-awareness and for the spontaneous articulation of implicit behaviors. Future work could investigate this capability for a wider range of scenarios and models (including practical scenarios), and explain how it emerges in LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1882079780918747303


에이전트 검색-증강 생성: 에이전트 RAG에 대한 설문 조사 / Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG

논문 소개

LLM 에이전트와 에이전틱 RAG에 대한 포괄적인 소개를 제공합니다. 에이전트 RAG 아키텍처, 애플리케이션 및 구현 전략에 대한 탐색을 제공합니다.

Provides a comprehensive introduction to LLM agents and Agentic RAG. It provides an exploration of Agentic RAG architectures, applications, and implementation strategies.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 사람과 같은 텍스트 생성 및 자연어 이해를 가능하게 함으로써 인공 지능(AI)에 혁신을 가져왔습니다. 하지만 정적 학습 데이터에 의존하기 때문에 동적인 실시간 쿼리에 대응하는 능력이 제한되어 오래되거나 부정확한 결과를 초래할 수 있습니다. 실시간 데이터 검색을 통합하여 상황에 맞는 최신 답변을 제공함으로써 LLM을 향상시키는 검색 증강 생성(RAG)이 해결책으로 떠올랐습니다. 이러한 잠재력에도 불구하고 기존의 RAG 시스템은 정적인 워크플로우의 제약을 받으며 다단계 추론과 복잡한 작업 관리에 필요한 적응성이 부족합니다. 에이전트 검색 증강 생성(에이전트 RAG)은 자율 AI 에이전트를 RAG 파이프라인에 내장함으로써 이러한 한계를 뛰어넘습니다. 이러한 에이전트는 에이전트 디자인 패턴 반영, 계획, 도구 사용, 다중 에이전트 협업을 활용하여 검색 전략을 동적으로 관리하고, 컨텍스트 이해를 반복적으로 개선하며, 복잡한 작업 요구 사항을 충족하도록 워크플로를 조정합니다. 이러한 통합을 통해 에이전틱 RAG 시스템은 다양한 애플리케이션에 걸쳐 탁월한 유연성, 확장성 및 상황 인식을 제공할 수 있습니다. 이 설문조사에서는 기본 원칙과 RAG 패러다임의 진화부터 시작하여 에이전틱 RAG에 대한 포괄적인 탐색을 제공합니다. 에이전틱 RAG 아키텍처에 대한 자세한 분류법을 제시하고 의료, 금융, 교육 등의 산업에서 주요 애플리케이션을 강조하며 실질적인 구현 전략을 살펴봅니다. 또한 이러한 시스템을 확장하고, 윤리적 의사 결정을 보장하며, 실제 애플리케이션의 성능을 최적화하는 데 따르는 문제를 해결하고, 에이전틱 RAG를 구현하기 위한 프레임워크와 도구에 대한 자세한 인사이트를 제공합니다

Large Language Models (LLMs) have revolutionized artificial intelligence (AI) by enabling human like text generation and natural language understanding. However, their reliance on static training data limits their ability to respond to dynamic, real time queries, resulting in outdated or inaccurate outputs. Retrieval Augmented Generation (RAG) has emerged as a solution, enhancing LLMs by integrating real time data retrieval to provide contextually relevant and up-to-date responses. Despite its promise, traditional RAG systems are constrained by static workflows and lack the adaptability required for multistep reasoning and complex task management. Agentic Retrieval-Augmented Generation (Agentic RAG) transcends these limitations by embedding autonomous AI agents into the RAG pipeline. These agents leverage agentic design patterns reflection, planning, tool use, and multiagent collaboration to dynamically manage retrieval strategies, iteratively refine contextual understanding, and adapt workflows to meet complex task requirements. This integration enables Agentic RAG systems to deliver unparalleled flexibility, scalability, and context awareness across diverse applications. This survey provides a comprehensive exploration of Agentic RAG, beginning with its foundational principles and the evolution of RAG paradigms. It presents a detailed taxonomy of Agentic RAG architectures, highlights key applications in industries such as healthcare, finance, and education, and examines practical implementation strategies. Additionally, it addresses challenges in scaling these systems, ensuring ethical decision making, and optimizing performance for real-world applications, while providing detailed insights into frameworks and tools for implementing Agentic RAG

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1881360794019156362


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: