[2024/10/21 ~ 10/27] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/10/21 ~ 10/27] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들은 주로 대규모 언어 모델(LLMs)과 이와 관련된 다양한 주제들에 대한 경향을 보여줍니다. 특히, 데이터 합성 및 증강, LLM의 평가 방법, 그리고 모델이 반영하는 이념 등의 주제가 주요하게 다루어졌습니다. 이러한 주제들은 LLM의 성능 및 책임 있는 인공지능 분야에서 중요한 이슈로 부각되고 있습니다.

  • 대규모 언어 모델은 최근 기계 학습 및 인공지능 커뮤니티에서 중요한 연구 주제로 떠오르고 있습니다. LLM의 데이터 합성 및 증강 방법에 관한 연구는 모델의 성능을 극대화하고 더 다양한 언어 입력에 대한 적응 능력을 향상시키는데 필수적입니다. 또한, LLM의 평가 방법론 역시 과학적으로 정교해지고 있으며, 이를 통해 모델의 약점과 강점을 보다 명확히 드러낼 수 있습니다.

  • 더불어, 대규모 언어 모델이 반영할 수 있는 개발자나 개발 환경의 이념적인 측면 역시 관심을 받고 있는 주제입니다. 이는 인공지능의 객관성 및 윤리성에 대한 논의를 촉발하며, AI 시스템의 투명성과 신뢰성에 직결되는 문제로 간주됩니다. 이러한 점에서, 이번 주 연구들은 인공지능 기술의 발전을 도모함과 동시에 책임 있는 사용을 촉구하는 데 중요한 통찰을 제공합니다.


에이전트 정보 검색 / Agentic Information Retrieval

논문 소개

LLM 에이전트의 역량에 따라 형성되는 에이전트 정보 검색에 대한 소개와 에이전트 정보 검색의 다양한 첨단 애플리케이션 유형 및 과제에 대해 설명합니다.

Provides an introduction to agentic information retrieval, which is shaped by the capabilities of LLM agents; discusses different types of cutting-edge applications of agentic information retrieval and challenges.

논문 초록(Abstract)

차세대 디지털 제품에서 정보 입력은 어떤 모습일까요? 1970년대 이후, 관련 정보에 대한 사용자 액세스는 도메인별 정보 검색(IR) 아키텍처에 의존해 왔습니다. 지난 20년 동안 웹 검색 엔진과 개인화된 추천 시스템을 비롯한 최신 IR 시스템의 등장으로 방대한 데이터 코퍼라에서 관련 정보를 검색하는 효율성이 크게 향상되었습니다. 그러나 이러한 IR 시스템의 핵심 패러다임은 크게 변하지 않았으며, 사전 정의된 후보 항목 세트를 필터링하는 데 의존하고 있습니다. 2022년부터 대규모 언어 모델(LLM)의 획기적인 발전으로 정보에 액세스하는 방식이 변화하기 시작하면서 새로운 기술 패러다임이 확립되고 있습니다. 이 포지션 페이퍼에서는 LLM 에이전트의 기능에 의해 형성된 새로운 IR 패러다임인 에이전트 정보 검색(에이전트 IR)에 대해 소개합니다. 에이전틱 IR은 접근 가능한 작업의 범위를 확장하고 새로운 기술을 활용하여 정보 검색을 재정의합니다. 에이전트 IR의 세 가지 첨단 애플리케이션 유형과 직면한 과제에 대해 논의합니다. 에이전트 IR은 혁신적인 애플리케이션을 창출할 수 있는 잠재력을 가지고 있으며, 잠재적으로 미래 디지털 에코시스템의 중심 정보 진입점이 될 수 있다고 제안합니다.

What will information entry look like in the next generation of digital products? Since the 1970s, user access to relevant information has relied on domain-specific architectures of information retrieval (IR). Over the past two decades, the advent of modern IR systems, including web search engines and personalized recommender systems, has greatly improved the efficiency of retrieving relevant information from vast data corpora. However, the core paradigm of these IR systems remains largely unchanged, relying on filtering a predefined set of candidate items. Since 2022, breakthroughs in large language models (LLMs) have begun transforming how information is accessed, establishing a new technical paradigm. In this position paper, we introduce Agentic Information Retrieval (Agentic IR), a novel IR paradigm shaped by the capabilities of LLM agents. Agentic IR expands the scope of accessible tasks and leverages a suite of new techniques to redefine information retrieval. We discuss three types of cutting-edge applications of agentic IR and the challenges faced. We propose that agentic IR holds promise for generating innovative applications, potentially becoming a central information entry point in future digital ecosystems.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1848396596230127655


Aya Expanse 출시 소개

글 소개

다국어 기능을 위한 오픈 웨이트 기반 모델 제품군, 5억 1,300만 개의 예시로 구성된 역대 최대 규모의 다국어 데이터 세트 컬렉션을 포함한 8B 및 32B 파라미터 모델 출시, 101개 언어를 포괄하는 가장 포괄적인 다국어 모델이라고 저자는 주장하는 Aya-101도 포함, Aya Expanse 32B는 Gemma 2 27B, Mistral 8x22B 및 2배 크기의 모델인 Llama 3.1 70B보다 성능이 뛰어납니다.

A family of open-weight foundation models for multilingual capabilities; releases an 8B and 32B parameter model, including one of the largest multilingual dataset collections to date, with 513 million examples; the release also includes Aya-101 which the authors claim is the most comprehensive multilingual models covering 101 languages; Aya Expanse 32B outperforms Gemma 2 27B, Mistral 8x22B, and Llama 3.1 70B, a model 2x its size.

글 링크

더 읽어보기

https://x.com/CohereForAI/status/1849435983449587796


연쇄 사고에 대한 이론적 이해: 일관된 추론과 오류 인식 데모: 일관된 추론과 오류 인식 데모 / A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration

논문 소개

데모에서 올바른 추론 경로와 잘못된 추론 경로를 추가하면 중간 단계와 CoT의 정확도가 향상되고, 제안된 방법인 일관된 CoT는 여러 벤치마크에서 성능이 크게 향상되며, 추적된 셔플 오브젝트 데이터 세트에서 Gemini Pro는 6.60%(58.20%에서 64.80%), 테이블 속 펭귄에서 DeepSeek 67B는 6.17%(73.97%에서 80.14%) 향상된 것으로 나타났습니다.

Finds that adding correct and incorrect reasoning paths in demonstrations improves the accuracy of intermediate steps and CoT; the proposed method, Coherent CoT, significantly improves performance on several benchmarks; in the Tracking Shuffled Objects dataset, Gemini Pro shows a 6.60% improvement (from 58.20% to 64.80%), and in Penguins in a Table, DeepSeek 67B demonstrates an increase of 6.17% (from 73.97% to 80.14%).

논문 초록(Abstract)

단발성 생각 연쇄(CoT) 프롬프트는 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 있어 강력한 성능을 입증했습니다. CoT를 이해하기 위한 이론적 조사가 수행되었지만, 이러한 연구에 사용된 기본 변환기는 CoT 추론 과정을 분리된 상황 내 학습 단계(단계적 ICL)로 분리합니다. 이 연구에서는 단계적 ICL에 비해 이전 단계의 추론(일관된 CoT)이 통합된 경우 트랜스포머가 더 나은 오류 수정 능력과 더 정확한 예측을 얻을 수 있음을 이론적으로 보여줍니다. 이러한 일관된 추론이 트랜스포머의 동작을 변화시킨다는 점을 감안하여 추론 단계에서 데모 예제가 손상되었을 때 일관된 CoT를 사용한 트랜스포머의 민감도를 추가로 조사했습니다. 이론적 결과에 따르면 트랜스포머는 최종 결과보다 중간 추론 단계의 오류에 더 민감하게 반응하는 것으로 나타났습니다. 이러한 관찰을 바탕으로 저희는 데모에 올바른 추론 경로와 잘못된 추론 경로를 모두 통합하여 CoT를 개선할 것을 제안합니다. 실험을 통해 제안된 접근법의 효과를 검증합니다.

Few-shot Chain-of-Thought (CoT) prompting has demonstrated strong performance in improving the reasoning capabilities of large language models (LLMs). While theoretical investigations have been conducted to understand CoT, the underlying transformer used in these studies isolates the CoT reasoning process into separated in-context learning steps (Stepwise ICL). In this work, we theoretically show that, compared to Stepwise ICL, the transformer gains better error correction ability and more accurate predictions if the reasoning from earlier steps (Coherent CoT) is integrated. Given that this coherent reasoning changes the behavior of the transformer, we further investigate the sensitivity of the transformer with Coherent CoT when the demonstration examples are corrupted at the inference stage. Our theoretical results indicate that the transformer is more sensitive to errors in intermediate reasoning steps than the final outcome. Building upon this observation, we propose an improvement on CoT by incorporating both correct and incorrect reasoning paths in the demonstration. Our experiments validate the effectiveness of the proposed approach.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1849139985712369907


대규모 언어 모델을 위한 데이터 합성 및 증강에 관한 설문 조사 / A Survey on Data Synthesis and Augmentation for Large Language Models

논문 소개

데이터 준비, 사전 교육, 미세 조정, 인스트럭션 조정, 선호도 조정 및 애플리케이션에 대한 논의가 포함된 LLM의 수명 주기에서 데이터 생성 기술에 대한 포괄적인 요약을 제공합니다.

Provides a comprehensive summary of data generation techniques in the lifecycle of LLMs; includes discussions on data preparation, pre-training, fine-tuning, instruction-tuning, preference alignment, and applications.

논문 초록(Abstract)

대규모 언어 모델(LLM)의 성공은 본질적으로 학습 및 평가를 위한 방대하고 다양한 고품질 데이터의 가용성과 관련이 있습니다. 그러나 고품질 데이터의 증가 속도가 학습 데이터 세트의 확장 속도를 크게 앞지르고 있어 데이터 고갈 위기가 다가오고 있습니다. 이는 데이터 효율성을 높이고 새로운 데이터 소스를 탐색해야 하는 시급한 필요성을 강조합니다. 이러한 맥락에서 합성 데이터가 유망한 솔루션으로 떠오르고 있습니다. 현재 데이터 생성은 주로 데이터 증강과 합성이라는 두 가지 주요 접근 방식으로 이루어집니다. 이 백서에서는 데이터 준비, 사전 학습, 미세 조정, 명령어 조정, 선호도 정렬, 애플리케이션 등 LLM의 수명 주기 전반에 걸친 데이터 생성 기법을 종합적으로 검토하고 요약합니다. 또한 이러한 방법이 현재 직면하고 있는 제약에 대해 논의하고 향후 개발 및 연구를 위한 잠재적인 경로를 조사합니다. 우리의 목표는 연구자들이 이러한 방법론을 명확히 이해하여 LLM을 구축할 때 적절한 데이터 생성 전략을 신속하게 파악하고 향후 탐색을 위한 귀중한 인사이트를 얻을 수 있도록 하는 것입니다.

The success of Large Language Models (LLMs) is inherently linked to the availability of vast, diverse, and high-quality data for training and evaluation. However, the growth rate of high-quality data is significantly outpaced by the expansion of training datasets, leading to a looming data exhaustion crisis. This underscores the urgent need to enhance data efficiency and explore new data sources. In this context, synthetic data has emerged as a promising solution. Currently, data generation primarily consists of two major approaches: data augmentation and synthesis. This paper comprehensively reviews and summarizes data generation techniques throughout the lifecycle of LLMs, including data preparation, pre-training, fine-tuning, instruction-tuning, preference alignment, and applications. Furthermore, We discuss the current constraints faced by these methods and investigate potential pathways for future development and research. Our aspiration is to equip researchers with a clear understanding of these methodologies, enabling them to swiftly identify appropriate data generation strategies in the construction of LLMs, while providing valuable insights for future exploration.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1848445736591163886


LongRAG: 긴 맥락의 질문 답변을 위한 이중 관점 검색-증강 생성 패러다임 / LongRAG: A Dual-Perspective Retrieval-Augmented Generation Paradigm for Long-Context Question Answering

논문 소개

글로벌 정보와 사실적 세부 정보를 포함하는 긴 문맥 지식에 대한 RAG의 이해도 향상; 하이브리드 리트리버, LLM 증강 정보 추출기, CoT 가이드 필터, LLM 증강 생성기로 구성되며, 이는 RAG 시스템이 글로벌 긴 문맥 정보를 마이닝하고 사실적 세부 정보를 효과적으로 식별할 수 있도록 하는 핵심 구성 요소; LongRAG는 긴 문맥 LLM(6.94% 증가), 고급 RAG(6.16% 증가), 바닐라 RAG(17.25% 증가) 보다 성능이 뛰어납니다.

Enhances RAG's understanding of long-context knowledge which includes global information and factual details; consists of a hybrid retriever, an LLM-augmented information extractor, a CoT-guided filter, and an LLM-augmented generator; these are key components that enable the RAG system to mine global long-context information and effectively identify factual details; LongRAG outperforms long-context LLMs (up by 6.94%), advanced RAG (up by 6.16%), and Vanilla RAG (up by 17.25%).

논문 초록(Abstract)

긴 문맥 질문 답변(LCQA)은 긴 문맥의 문서를 추론하여 질문에 대한 정확한 답변을 도출하는 것을 목표로 하는 까다로운 작업입니다. LCQA를 위한 기존의 긴 문맥 대규모 언어 모델(LLM)은 종종 '중간에서 손실' 문제로 어려움을 겪습니다. 검색 증강 생성(RAG)은 외부의 사실적 증거를 제공함으로써 이 문제를 완화합니다. 그러나 청킹 전략은 글로벌 긴 문맥 정보를 방해하고, 긴 문맥에서 낮은 품질의 검색은 상당한 노이즈로 인해 LLM이 효과적인 사실적 세부 정보를 식별하는 데 방해가 됩니다. 이를 위해 저희는 복잡한 장문맥 지식(즉, 글로벌 정보 및 사실적 세부 정보)에 대한 RAG의 이해를 향상시키기 위해 LCQA를 위한 일반적이고 이중 관점의 강력한 LLM 기반 RAG 시스템 패러다임인 LongRAG를 제안합니다. LongRAG는 플러그 앤 플레이 패러다임으로 설계되어 다양한 도메인과 LLM에 쉽게 적응할 수 있습니다. 3개의 멀티홉 데이터 세트에 대한 광범위한 실험을 통해 LongRAG가 긴 컨텍스트 LLM(6.94% 증가), 고급 RAG(6.16% 증가), 바닐라 RAG(17.25% 증가)보다 훨씬 뛰어난 성능을 발휘한다는 것을 입증했습니다. 또한 정량적 제거 연구와 다차원 분석을 수행하여 시스템 구성 요소의 효과와 미세 조정 전략을 강조합니다. 데이터와 코드는 GitHub - QingFei1/LongRAG 에서 확인할 수 있습니다.

Long-Context Question Answering (LCQA), a challenging task, aims to reason over long-context documents to yield accurate answers to questions. Existing long-context Large Language Models (LLMs) for LCQA often struggle with the "lost in the middle" issue. Retrieval-Augmented Generation (RAG) mitigates this issue by providing external factual evidence. However, its chunking strategy disrupts the global long-context information, and its low-quality retrieval in long contexts hinders LLMs from identifying effective factual details due to substantial noise. To this end, we propose LongRAG, a general, dual-perspective, and robust LLM-based RAG system paradigm for LCQA to enhance RAG's understanding of complex long-context knowledge (i.e., global information and factual details). We design LongRAG as a plug-and-play paradigm, facilitating adaptation to various domains and LLMs. Extensive experiments on three multi-hop datasets demonstrate that LongRAG significantly outperforms long-context LLMs (up by 6.94%), advanced RAG (up by 6.16%), and Vanilla RAG (up by 17.25%). Furthermore, we conduct quantitative ablation studies and multi-dimensional analyses, highlighting the effectiveness of the system's components and fine-tuning strategies. Data and code are available at GitHub - QingFei1/LongRAG.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1849494571946066295


LLM의 평가 기능 조정 / Evaluation Feature Steering in LLMs

논문 소개

다양한 피처를 인위적으로 올렸다 내렸다 하여 모델 출력의 변화를 분석하는 실험을 통해 LLM의 피처 스티어링을 평가하고, 사회적 편견과 관련된 29개의 피처에 초점을 맞춰 피처 스티어링이 사회적 편견을 완화하는 데 도움이 되는지 연구한 결과, 피처 스티어링이 때로는 목표 외 효과를 초래하며 중립 피처가 텍스트 품질에 부정적인 영향을 주지 않고 9가지 사회적 차원에서의 사회적 편견을 줄일 수 있다고 보고하고 있습니다.

Evaluates featuring steering in LLMs using an experiment that artificially dials up and down various features to analyze changes in model outputs; it focused on 29 features related to social biases and study if feature steering can help mitigate social biases; among its findings, it reports that feature steering sometimes leads to off-target effects and that a neutrality feature can help decreases social biases in 9 social dimensions without negatively affecting text quality.

논문 링크

더 읽어보기

https://x.com/AnthropicAI/status/1849840131412296039


Granite 3.0 기술 문서 / Granite 3.0 Technical Report

논문 소개

온프레미스 및 온디바이스 설정을 포함한 엔터프라이즈 사용 사례에 중점을 두고 4억 개에서 8억 개의 파라미터에 이르는 경량 기초 모델을 제공하며, 언어 이해, 추론, 코딩, 추론, 함수 호출 및 안전에 대한 학술 벤치마크에서 강력한 성능을 입증합니다.

Presents lightweight foundation models ranging from 400 million to 8B parameters; supports coding, RAG, reasoning, and function calling, focusing on enterprise use cases, including on-premise and on-device settings; demonstrates strong performance across academic benchmarks for language understanding, reasoning, coding, function calling, and safety.

논문 초록

이 보고서에서는 4억 개에서 80억 개의 활성 매개변수 규모에 이르는 새로운 경량, 최첨단 개방형 기반 모델인 Granite 3.0을 소개합니다. 다국어, 코딩, 함수 호출, 강력한 안전 성능을 기본적으로 지원하는 이 모델은 온프레미스 및 온디바이스 설정을 포함한 엔터프라이즈 사용 사례를 대상으로 합니다. 포괄적인 작업 세트에 대한 평가 결과, 그림 1과 2에서 보는 바와 같이 이러한 모델이 규모에 비해 지속적으로 최첨단 성능을 발휘하는 것으로 나타났습니다. 이 보고서는 또한 연구 커뮤니티가 개방형 기반 모델을 개발하기 위한 공동의 노력을 가속화하는 데 도움이 될 수 있는 사전 교육 및 사후 교육에 대한 기술적 세부 사항을 공개합니다. 저희는 연구 및 상업적 사용을 모두 허용하는 표준 허용 Apache 2.0 라이선스에 따라 모든 Granite 3.0 모델의 사전 학습 및 사후 학습 버전을 공개적으로 배포합니다. 오픈 소스 커뮤니티의 지원으로 Granite 3.0 모델은 정량화, 미세 조정 및 배포를 위한 다양한 기존 도구와 통합되었습니다.

This report presents Granite 3.0, a new set of lightweight, state-of-the-art, open foundation models ranging in scale from 400 million to 8 billion active parameters. Equipped with native support of multilingual, coding, function calling, and strong safety performance, these models target enterprise use cases, including on-premise and on-device settings. Evaluations on a comprehensive set of tasks demonstrate that our models consistently reach state-of-the-art performance for their size (as shown in Figure 1 and 2). This report also discloses technical details of pre-training and post-training that may help the research community accelerate the collective efforts to develop open foundation models. We publicly release pre-trained and post-trained versions of all our Granite 3.0 models under a standard permissive Apache 2.0 license allowing both research and commercial use. With support from the open source community, the Granite 3.0 models have been integrated with a range of existing tools for quantization, fine-tuning, and deployment.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1848404138641527105


대규모 언어 모델은 제작자의 이념을 반영합니다 / Large Language Models Reflect the Ideology of their Creators

논문 소개

LLM이 제작자의 세계관을 반영하는 다양한 이념적 입장을 보인다는 사실을 발견하고, 동일한 LLM이 영어와 중국어로 대응하는 방식에서 일관된 규범적 차이를 발견하고, 지정학적 분쟁의 주요 행위자에 대한 서양과 비서양 LLM 간의 규범적 불일치를 확인합니다.

Finds that LLMs exhibit a diverse ideological stance which reflects the worldview of its creators; finds consistent normative differences between how the same LLM responds in Chinese compared to English; identifies normative disagreements between Western and non-Western LLMs about prominent actors in geopolitical conflicts.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 방대한 양의 데이터를 학습하여 자연어를 생성하고 텍스트 요약 및 질문 답변과 같은 작업을 수행할 수 있도록 합니다. 이러한 모델은 ChatGPT와 같은 인공지능(AI) 어시스턴트에서 널리 사용되고 있으며 이미 사람이 정보에 액세스하는 방식에 영향력 있는 역할을 하고 있습니다. 그러나 LLM의 동작은 설계, 학습 및 사용에 따라 달라집니다. 이 백서에서는 다양한 LLM과 접근하는 언어에서 나타나는 이념적 입장의 현저한 다양성을 발견합니다. 이를 위해 다양한 인기 LLM 패널에게 영어와 중국어로 최근 세계사에서 저명하고 논란의 여지가 있는 인물들을 설명하도록 요청했습니다. 생성된 설명에 반영된 도덕적 평가를 식별하고 분석하여 동일한 인물에 대해 영어와 중국어로 응답하는 방식 간에 일관된 규범적 차이를 발견합니다. 마찬가지로 지정학적 분쟁의 주요 행위자에 대한 서양인과 비서양인 LLM 간의 규범적 불일치도 확인했습니다. 또한 널리 알려진 서구 모델 간 정치적 목표의 격차는 포용, 사회적 불평등, 정치적 스캔들과 관련된 중요한 규범적 차이에 반영되어 있습니다. 연구 결과에 따르면 LLM의 이념적 입장은 종종 제작자의 세계관을 반영하는 것으로 나타났습니다. 이는 LLM을 이념적으로 '편향되지 않게' 만드는 것을 목표로 하는 기술 및 규제 노력에 대한 중요한 우려를 제기하며, 정치적 도구화의 위험성을 내포하고 있습니다.

Large language models (LLMs) are trained on vast amounts of data to generate natural language, enabling them to perform tasks like text summarization and question answering. These models have become popular in artificial intelligence (AI) assistants like ChatGPT and already play an influential role in how humans access information. However, the behavior of LLMs varies depending on their design, training, and use. In this paper, we uncover notable diversity in the ideological stance exhibited across different LLMs and languages in which they are accessed. We do this by prompting a diverse panel of popular LLMs to describe a large number of prominent and controversial personalities from recent world history, both in English and in Chinese. By identifying and analyzing moral assessments reflected in the generated descriptions, we find consistent normative differences between how the same LLM responds in Chinese compared to English. Similarly, we identify normative disagreements between Western and non-Western LLMs about prominent actors in geopolitical conflicts. Furthermore, popularly hypothesized disparities in political goals among Western models are reflected in significant normative differences related to inclusion, social inequality, and political scandals. Our results show that the ideological stance of an LLM often reflects the worldview of its creators. This raises important concerns around technological and regulatory efforts with the stated aim of making LLMs ideologically `unbiased', and it poses risks for political instrumentalization.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1849860985500352968


대규모 언어 모델 결과물 식별을 위한 확장 가능한 워터마킹 / Scalable watermarking for identifying large language model outputs

논문 소개

LLM에서 텍스트 품질을 보존하고 높은 탐지 정확도를 구현하며 지연 시간 오버헤드를 최소화할 수 있는 텍스트 워터마킹 체계인 SynthID-Text를 제안하고, 워터마킹을 모델의 단어 선택에 대한 최종 점수 패턴과 조정된 확률 점수를 결합하는 추측 샘플링과 통합하고, 약 천만 개의 쌍둥이자리 응답에 대한 피드백을 평가하여 접근법의 타당성과 확장성을 테스트합니다.

Proposes SynthID-Text, a text-watermarking scheme that can preserve text quality in LLMs, enable high detection accuracy, and minimize latency overhead; it integrates watermarking with speculative sampling that consists of the final pattern of scores for a model’s word choices combined with the adjusted probability scores; the authors test the feasibility and scalability of the approach by assessing feedback on nearly 10 million Gemini responses.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 정보 생태계의 성격에 큰 영향을 미칠 수 있는 규모로 사람이 쓴 콘텐츠와 구별할 수 없는 고품질의 합성 텍스트를 생성할 수 있게 해줍니다. 워터마킹은 합성 텍스트를 식별하고 우발적이거나 고의적인 오용을 제한하는 데 도움이 될 수 있지만 엄격한 품질, 탐지 가능성 및 계산 효율성 요구 사항으로 인해 생산 시스템에서는 채택되지 않았습니다. 여기에서는 텍스트 품질을 보존하고 지연 시간 오버헤드를 최소화하면서 높은 탐지 정확도를 구현하는 프로덕션 지원 텍스트 워터마킹 체계인 SynthID-Text에 대해 설명합니다. SynthID-Text는 LLM 학습에 영향을 주지 않고 샘플링 절차만 수정하며, 워터마크 감지는 기본 LLM을 사용하지 않고도 계산적으로 효율적입니다. 대규모 워터마킹을 지원하기 위해 프로덕션 시스템에서 자주 사용되는 효율성 기법인 추측적 샘플링과 워터마킹을 통합하는 알고리즘을 개발했습니다. 여러 LLM에 대한 평가 결과, SynthID-Text는 유사한 방법보다 향상된 탐지 가능성을 제공하며, 표준 벤치마크와 사람이 직접 평가한 결과 LLM 기능에 변화가 없는 것으로 나타났습니다. 대규모 생산 시스템에서 워터마킹의 가능성을 입증하기 위해 약 2천만 개의 Gemini 응답에 대한 피드백을 평가하는 라이브 실험을 수행하여 텍스트 품질이 보존되는 것을 다시 한 번 확인했습니다. SynthID-Text의 출시로 워터마킹의 발전과 책임감 있는 LLM 시스템 사용이 더욱 촉진되기를 기대합니다.

Large language models (LLMs) have enabled the generation of high-quality synthetic text, often indistinguishable from human-written content, at a scale that can markedly affect the nature of the information ecosystem. Watermarking can help identify synthetic text and limit accidental or deliberate misuse, but has not been adopted in production systems owing to stringent quality, detectability and computational efficiency requirements. Here we describe SynthID-Text, a production-ready text watermarking scheme that preserves text quality and enables high detection accuracy, with minimal latency overhead. SynthID-Text does not affect LLM training and modifies only the sampling procedure; watermark detection is computationally efficient, without using the underlying LLM. To enable watermarking at scale, we develop an algorithm integrating watermarking with speculative sampling, an efficiency technique frequently used in production systems. Evaluations across multiple LLMs empirically show that SynthID-Text provides improved detectability over comparable methods, and standard benchmarks and human side-by-side ratings indicate no change in LLM capabilities. To demonstrate the feasibility of watermarking in large-scale-production systems, we conducted a live experiment that assessed feedback from nearly 20 million Gemini responses, again confirming the preservation of text quality. We hope that the availability of SynthID-Text will facilitate further development of watermarking and responsible use of LLM systems.

논문 링크

https://www.nature.com/articles/s41586-024-08025-4

더 읽어보기

https://x.com/GoogleDeepMind/status/1849110263871529114


OpenAI의 o1 모델 추론 패턴 비교 연구 / A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

논문 소개

다른 테스트 시간 계산 방법과 비교했을 때, o1은 대부분의 데이터 세트에서 최고의 성능을 달성했습니다. 저자들은 o1에서 가장 일반적으로 사용되는 추론 패턴은 분할 정복과 자기 개선이며, o1은 작업마다 다른 추론 패턴을 사용하고, 상식적인 추론 작업에서는 맥락 식별을 사용하고 제약 조건을 강조하는 경향이 있으며, 수학 및 코딩 작업에서는 주로 방법 재사용과 분할 정복에 의존한다는 것을 관찰했습니다.

When compared with other test-time compute methods, o1 achieved the best performance across most datasets; the authors observe that the most commonly used reasoning patterns in o1 are divide and conquer and self-refinement; o1 uses different reasoning patterns for different tasks; for commonsense reasoning tasks, o1 tends to use context identification and emphasize constraints; for math and coding tasks, o1 mainly relies on method reuse and divide and conquer.

논문 초록(Abstract)

대규모 언어 모델(LLM)이 코딩, 수학 등 보다 광범위한 복잡한 작업을 처리할 수 있도록 하는 것은 많은 연구자들로부터 큰 관심을 받고 있습니다. LLM이 계속 발전함에 따라 모델 파라미터의 수를 늘리는 것만으로는 성능 개선이 줄어들고 계산 비용이 많이 듭니다. 최근 OpenAI의 o1 모델은 추론 전략(즉, 테스트 시간 계산 방법)으로도 LLM의 추론 능력을 크게 향상시킬 수 있음을 보여주었습니다. 그러나 이러한 방법의 메커니즘은 아직 밝혀지지 않았습니다. 본 연구에서는 o1의 추론 패턴을 조사하기 위해 수학, 코딩, 상식 추론 등 세 가지 영역의 일반 추론 벤치마크에서 OpenAI의 GPT-4o를 백본으로 사용하여 기존의 테스트 시간 계산 방법(BoN, 단계별 BoN, 에이전트 워크플로 및 자체 정의)과 o1을 비교했습니다. 구체적으로 살펴보면, 첫째, 실험 결과 대부분의 데이터 세트에서 o1 모델이 최고의 성능을 달성한 것으로 나타났습니다. 둘째, 다양한 응답을 검색하는 방법(예: BoN)의 경우, 보상 모델의 성능과 검색 공간이 모두 이러한 방법의 상한선을 제한한다는 사실을 발견했습니다. 셋째, 문제를 여러 하위 문제로 분할하는 방법의 경우, 에이전트 워크플로우가 더 나은 추론 프로세스를 계획하기 위한 도메인별 시스템 프롬프트 덕분에 단계별 BoN보다 더 나은 성능을 달성했습니다. 넷째, o1의 6가지 추론 패턴을 요약하고 여러 추론 벤치마크에 대한 자세한 분석을 제공했다는 점도 언급할 가치가 있습니다.

Enabling Large Language Models (LLMs) to handle a wider range of complex tasks (e.g., coding, math) has drawn great attention from many researchers. As LLMs continue to evolve, merely increasing the number of model parameters yields diminishing performance improvements and heavy computational costs. Recently, OpenAI's o1 model has shown that inference strategies (i.e., Test-time Compute methods) can also significantly enhance the reasoning capabilities of LLMs. However, the mechanisms behind these methods are still unexplored. In our work, to investigate the reasoning patterns of o1, we compare o1 with existing Test-time Compute methods (BoN, Step-wise BoN, Agent Workflow, and Self-Refine) by using OpenAI's GPT-4o as a backbone on general reasoning benchmarks in three domains (i.e., math, coding, commonsense reasoning). Specifically, first, our experiments show that the o1 model has achieved the best performance on most datasets. Second, as for the methods of searching diverse responses (e.g., BoN), we find the reward models' capability and the search space both limit the upper boundary of these methods. Third, as for the methods that break the problem into many sub-problems, the Agent Workflow has achieved better performance than Step-wise BoN due to the domain-specific system prompt for planning better reasoning processes. Fourth, it is worth mentioning that we have summarized six reasoning patterns of o1, and provided a detailed analysis on several reasoning benchmarks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1848782378631892997


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요