[2024/04/08 ~ 04/14] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/04/08 ~ 04/14] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문을 통해 크게 두 가지 주요 트렌드를 확인할 수 있습니다. 첫 번째는 자연어 처리(NLP) 관련 연구가 많다는 점이고, 두 번째는 언어 모델(LM)을 활용한 다양한 접근 방식과 그 응용에 대한 탐구가 활발하다는 점입니다. 구체적으로, "OpenEQA", "LM-Guided Chain-of-Thought", "Overview of Multilingual LLMs", "The Physics of Language Models", "Aligning LLMs to Quote from Pre-Training Data", 그리고 "The Influence Between NLP and Other Fields" 등이 자연어 처리 기술과 언어 모델의 최신 동향을 반영하는 연구인 것으로 보입니다. 이러한 연구들은 NLP 기술의 발전 방향과 언어 모델을 통한 지식 표현 및 이해의 깊이를 한층 더 넓히려는 시도를 보여줍니다.

  • 자연어 처리 기술은 계속해서 진화하고 있으며, 이는 기계가 인간의 언어를 더 잘 이해하고 처리할 수 있게 만드는 방향으로 발전하고 있습니다. 특히, 다국어 LLMs(Large Language Models)의 개요를 다룬 연구에서는 언어간의 장벽을 넘어서는 언어 모델의 발전 가능성을 시사하고 있습니다. 이는 전 세계적으로 다양한 언어를 사용하는 사용자들에게 훨씬 더 개인화되고 접근 가능한 AI 서비스를 제공할 수 있는 발판이 될 것입니다. 또한, "Reasoning with Intermediate Revision and Search", "Best Practices and Lessons on Synthetic Data"와 같은 연구는 언어 모델을 통한 추론, 데이터 생성, 데이터 처리 방법에 대한 새로운 접근법을 제시하며, 이는 AI 기술의 다양한 응용 분야에서의 적용 가능성을 넓히고 있음을 보여줍니다.

  • 이러한 트렌드는 AI 분야, 특히 자연어 처리와 언어 모델을 중심으로 한 연구가 인간의 언어와 지식을 더 깊이 이해하고, 이를 기반으로 더욱 정교하고 효율적인 AI 시스템을 개발하기 위한 노력이 계속해서 이루어지고 있음을 시사합니다. 이것은 AI 기술의 발전뿐만 아니라 인간과 AI의 상호작용, AI가 사회와 문화에 미치는 영향 등 다양한 분야에 걸쳐 중요한 영향을 미칠 것입니다.


컨텍스트를 놓치지 마세요: 인피니 어텐션을 통한 효율적인 무한-컨텍스트 트랜스포머 / Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

논문 소개

  • 압축 메모리를 바닐라 닷-프로덕트 어텐션 레이어에 통합하고, Transformer LLM이 제한된 메모리 풋프린트와 연산으로 무한히 긴 입력을 효과적으로 처리할 수 있도록 하며, 압축 메모리 모듈을 바닐라 주의 메커니즘에 통합하는 새로운 주의 기법인 Infini-attention을 제안합니다; 마스크된 로컬 어텐션과 장기 선형 어텐션을 모두 단일 Transformer 블록으로 구축하여 Infini-Transformer 모델이 장거리 및 단거리 컨텍스트 종속성을 모두 효율적으로 처리할 수 있으며, 114배의 메모리 압축률로 장문 언어 모델링에서 기준 모델보다 뛰어난 성능을 발휘합니다.

    Integrates compressive memory into a vanilla dot-product attention layer; the goal is to enable Transformer LLMs to effectively process infinitely long inputs with bounded memory footprint and computation; proposes a new attention technique called Infini-attention which incorporates a compressive memory module into a vanilla attention mechanism; it builds in both masked local attention and long-term linear attention into a single Transformer block; this allows the Infini-Transformer model to efficiently handle both long and short-range contextual dependencies; outperforms baseline models on long-context language modeling with a 114x compression ratio of memory.

논문 초록(Abstract)

  • 이 연구에서는 트랜스포머 기반 대규모 언어 모델(LLM)을 제한된 메모리와 연산으로 무한히 긴 입력으로 확장하는 효율적인 방법을 소개합니다. 우리가 제안한 접근 방식의 핵심 구성 요소는 Infini-attention이라는 새로운 어텐션 기법입니다. Infini-attention은 바닐라 주의 메커니즘에 압축 메모리를 통합하고 단일 Transformer 블록에 마스크된 로컬 주의와 장기 선형 주의 메커니즘을 모두 구축합니다. 긴 컨텍스트 언어 모델링 벤치마크, 1M 시퀀스 길이의 패스키 컨텍스트 블록 검색, 1B 및 8B LLM을 사용한 500K 길이의 책 요약 작업에서 접근 방식의 효과를 입증합니다. 우리의 접근 방식은 최소한의 제한된 메모리 매개변수를 도입하고 LLM에 대한 빠른 스트리밍 추론을 가능하게 합니다.

    This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach is a new attention technique dubbed Infini-attention. The Infini-attention incorporates a compressive memory into the vanilla attention mechanism and builds in both masked local attention and long-term linear attention mechanisms in a single Transformer block. We demonstrate the effectiveness of our approach on long-context language modeling benchmarks, 1M sequence length passkey context block retrieval and 500K length book summarization tasks with 1B and 8B LLMs. Our approach introduces minimal bounded memory parameters and enables fast streaming inference for LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1778480897198612839


OpenEQA

논문 소개

  • AI 모델의 구체화된 질문 답변(EQA; Embodies Question-Answering) 수행 능력을 측정하기 위한 개방형 어휘 벤치마크 데이터 세트를 제안합니다. 여기에는 180개의 실제 환경에서 구성된 1600개의 사람이 생성한 질문이 포함되어 있으며, 작업에 대한 LLM 기반 평가 프로토콜을 제공하고 GPT-4V와 같은 모델이 인간 수준의 성능에 크게 뒤처진다는 것을 보여줍니다.

    Proposes an open-vocabulary benchmark dataset to measure the capabilities of AI models to perform embodied question answering (EQA); it contains 1600 human-generated questions composed from 180 real-world environments; also provides an LLM-powered evaluation protocol for the task and shows that models like GPT-4V are significantly behind human-level performance.

논문 초록(Abstract)

우리는 자연어로 환경에 대한 질문에 대답할 수 있을 만큼 환경을 잘 이해하는 작업을 구현형 질문 답변(EQA)의 현대적인 공식으로 제시합니다. 에이전트는 스마트 글래스를 착용한 에이전트처럼 에피소드 메모리를 활용하거나 모바일 로봇의 경우처럼 능동적으로 환경을 탐색함으로써 이러한 이해를 달성할 수 있습니다. 이러한 공식화에는 에피소드 메모리와 능동적 탐색 사용 사례를 모두 지원하는 최초의 개방형 어휘 벤치마크 데이터 세트인 OpenEQA가 함께 제공됩니다. OpenEQA에는 180개 이상의 실제 환경에서 추출한 1600개 이상의 고품질의 사람이 생성한 질문이 포함되어 있습니다. 데이터 세트 외에도 사람의 판단과 우수한 상관관계를 보이는 자동 LLM 기반 평가 프로토콜도 제공합니다. 이 데이터 세트와 평가 프로토콜을 사용하여 GPT-4V와 같은 여러 최첨단 기초 모델을 평가한 결과, 인간 수준의 성능에 크게 뒤처지는 것으로 나타났습니다. 따라서 OpenEQA는 간단하고 측정 가능하며 실질적으로 관련성이 높은 벤치마크로서 현 세대의 AI 모델에 상당한 도전 과제를 제시합니다. 이를 통해 구현형 AI, 대화형 에이전트, 월드 모델의 교차점에 대한 향후 연구에 영감과 자극을 줄 수 있기를 바랍니다.

We present a modern formulation of Embodied Question Answering (EQA) as the task of understanding an environment well enough to answer questions about it in natural language. An agent can achieve such an understanding by either drawing upon episodic memory, exemplified by agents on smart glasses, or by actively exploring the environment, as in the case of mobile robots. We accompany our formulation with OpenEQA – the first open-vocabulary benchmark dataset for EQA supporting both episodic memory and active exploration use cases. OpenEQA contains over 1600 high-quality human generated questions drawn from over 180 real-world environments. In addition to the dataset, we also provide an automatic LLM-powered evaluation protocol that has excellent correlation with human judgement. Using this dataset and evaluation protocol, we evaluate several state-of-the-art foundation models like GPT-4V and find that they significantly lag behind human-level performance. Consequently, OpenEQA stands out as a straightforward, measurable, and practically relevant benchmark that poses a considerable challenge to current generation of AI models. We hope this inspires and stimulates future research at the intersection of Embodied AI, conversational agents, and world models.

논문 링크

더 읽어보기

https://open-eqa.github.io/

https://x.com/AIatMeta/status/1778425321118732578


코드젬마 / CodeGemma

논문 소개

  • Gemma 기반의 오픈 코드 LLM 제품군; CodeGemma 7B 모델은 수학적 추론에 탁월하며 다른 오픈 모델의 코드 기능과 일치; 명령어 튜닝된 CodeGemma 7B 모델은 HumanEval 벤치마크를 통해 평가한 결과 Python 코딩에 더 강력한 모델; 또한 7B 모델 중 GSM8K에서 가장 우수한 성능을 보인다는 결과; CodeGemma 2B 모델은 SoTA 코드 완성도를 달성하며 지연 시간에 민감한 환경에서 빠른 코드 인필 및 배포가 가능하도록 설계되었습니다.

    A family of open code LLMs based on Gemma; CodeGemma 7B models excel in mathematical reasoning and match the code capabilities of other open models; the instruction-tuned CodeGemma 7B model is the more powerful model for Python coding as assessed via the HumanEval benchmark; results also suggest that the model performs best on GSM8K among 7B models; the CodeGemma 2B model achieves SoTA code completion and is designed for fast code infilling and deployment in latency-sensitive settings.

논문 초록(Abstract)

이 논문에서는 다양한 코드 및 자연어 생성 작업을 수행할 수 있는 Gemma를 기반으로 구축된 전문화된 오픈 코드 모델 모음인 CodeGemma를 소개합니다. 세 가지 모델 체크포인트를 공개합니다. CodeGemma 7B 사전 학습(PT) 및 인스트럭션 튜닝(IT) 변형은 자연어 이해력이 매우 뛰어나고 수학적 추론에 탁월하며 다른 개방형 모델의 코드 기능과 일치합니다. CodeGemma 2B는 최첨단 코드 컴파일러입니다.

This paper introduces CodeGemma, a collection of specialized open code models built on top of Gemma, capable of a variety of code and natural language generation tasks. We release three model checkpoints. CodeGemma 7B pretrained (PT) and instruction-tuned (IT) variants have remarkably resilient natural language understanding, excel in mathematical reasoning, and match code capabilities of other open models. CodeGemma 2B is a state-of-the-art code comp

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1777723836202467713


작은 언어 모델이 큰 언어 모델을 더 잘 추론하도록 도울 수 있을까요?: LM 가이드 생각의 사슬 / Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought

논문 소개

  • 추론 능력의 격차를 좁히기 위해 큰 LM에서 생성된 근거를 사용하여 작은 LM에 지식 증류를 적용하고, 근거는 가벼운 LM에서 생성한 다음 답변 예측은 고정된 큰 LM에 맡깁니다; 이 리소스 효율적인 접근 방식은 큰 모델을 미세 조정할 필요를 피하고 대신 작은 언어 모델에 근거 생성을 오프로드합니다. 지식 추출 LM은 여러 이성 지향 및 작업 지향 보상 신호를 사용하는 강화 학습으로 더욱 최적화되며, 이 논문에서 제안한 LM 가이드 CoT 프롬프트 접근 방식은 표준 프롬프트와 CoT 프롬프트 모두에서 뛰어난 성능을 발휘합니다. 자체 일관성 디코딩도 성능을 향상시킵니다.

    Applies knowledge distillation to a small LM with rationales generated by the large LM with the hope of narrowing the gap in reasoning capabilities; the rationale is generated by the lightweight LM and the answer prediction is then left for the frozen large LM; this resource-efficient approach avoids the need to fine-tune the large model and instead offloads the rationale generation to the small language model; the knowledge-distilled LM is further optimized with reinforcement learning using several rational-oriented and task-oriented reward signals; the LM-guided CoT prompting approach proposed in this paper outperforms both standard prompting and CoT prompting. Self-consistency decoding also enhances performance.

논문 초록(Abstract)

  • 추론 작업에서 경량(즉, 1B 미만) 언어 모델(LM)을 활용하여 블랙박스 대용량(즉, 10B 이상) LM을 안내하는 새로운 프레임워크인 LM-Guided CoT를 소개합니다. 구체적으로, 경량 LM은 먼저 각 입력 인스턴스에 대한 근거를 생성합니다. 그런 다음 Frozen 대형 LM은 경량 LM이 생성한 근거를 기반으로 작업 결과를 예측하라는 메시지를 표시합니다. 이러한 접근 방식은 경량 LM을 학습시키기만 하면 된다는 점에서 리소스 효율적입니다. 1) 지식 증류와 2) 근거 중심 및 작업 중심 보상 신호로부터의 강화 학습을 통해 모델을 최적화합니다. 멀티홉 추출 질문 답변(QA) 벤치마크인 HotpotQA와 2WikiMultiHopQA로 이 방법을 평가합니다. 실험 결과, 우리의 접근 방식은 답변 예측 정확도 측면에서 모든 기준선을 능가하는 것으로 나타났습니다. 또한 강화 학습은 모델이 향상된 QA 성능으로 더 높은 품질의 근거를 생성하는 데 도움이 된다는 사실도 발견했습니다.

    We introduce a novel framework, LM-Guided CoT, that leverages a lightweight (i.e., <1B) language model (LM) for guiding a black-box large (i.e., >10B) LM in reasoning tasks. Specifically, the lightweight LM first generates a rationale for each input instance. The Frozen large LM is then prompted to predict a task output based on the rationale generated by the lightweight LM. Our approach is resource-efficient in the sense that it only requires training the lightweight LM. We optimize the model through 1) knowledge distillation and 2) reinforcement learning from rationale-oriented and task-oriented reward signals. We assess our method with multi-hop extractive question answering (QA) benchmarks, HotpotQA, and 2WikiMultiHopQA. Experimental results show that our approach outperforms all baselines regarding answer prediction accuracy. We also find that reinforcement learning helps the model to produce higher-quality rationales with improved QA performance.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1777755819150373121


언어 모델용 합성 데이터에 대한 모범 사례 및 교훈 / Best Practices and Lessons Learned on Synthetic Data for Language Models

논문 소개

  • 구글 딥마인드가 합성 데이터 연구에 대한 개요와 응용 분야, 과제, 향후 방향에 대해 설명하고 품질, 사실성, 충실성, 편견 없음, 신뢰성, 개인정보 보호 등 합성 데이터 작업 시 중요한 주제에 대해 논의합니다.

    An overview by Google DeepMind on synthetic data research, covering applications, challenges, and future directions; discusses important topics when working with synthetic data such as ensuring quality, factuality, fidelity, unbiasedness, trustworthiness, privacy, and more.

논문 초록(Abstract)

  • AI 모델의 성공 여부는 크고 다양한 고품질 데이터 세트의 가용성에 달려 있는데, 데이터 부족, 개인정보 보호 문제, 높은 비용으로 인해 이를 확보하기가 어려울 수 있습니다. 합성 데이터는 실제 패턴을 모방한 인공 데이터를 생성함으로써 유망한 솔루션으로 떠오르고 있습니다. 이 백서에서는 합성 데이터 연구에 대한 개요를 제공하고, 합성 데이터의 응용, 과제, 향후 방향에 대해 논의합니다. 또한 선행 기술의 경험적 증거를 제시하여 그 효과를 입증하고 사실성, 충실성, 편견 없는 데이터 확보의 중요성을 강조합니다. 또한 보다 강력하고 포용적이며 신뢰할 수 있는 언어 모델을 구축하기 위해 합성 데이터를 책임감 있게 사용해야 할 필요성을 강조합니다.

    The success of AI models relies on the availability of large, diverse, and high-quality datasets, which can be challenging to obtain due to data scarcity, privacy concerns, and high costs. Synthetic data has emerged as a promising solution by generating artificial data that mimics real-world patterns. This paper provides an overview of synthetic data research, discussing its applications, challenges, and future directions. We present empirical evidence from prior art to demonstrate its effectiveness and highlight the importance of ensuring its factuality, fidelity, and unbiasedness. We emphasize the need for responsible use of synthetic data to build more powerful, inclusive, and trustworthy language models.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1778804848038683066


사고력: 중간 수정 및 검색을 통한 추론하기 / THOUGHTSCULPT: Reasoning with Intermediate Revision and Search

논문 소개

  • 구성 요소로 분해할 수 있는 작업에 대한 일반적인 추론과 검색을 위한 접근 방식을 제시합니다. 제안된 그래프 기반 프레임워크인 THOUGHTSCULPT는 반복적인 자기 수정 기능을 통합하고 LLM이 서로 연결된 생각의 네트워크를 구축할 수 있도록 합니다; 트리를 사용해 추론 과정을 형성하는 트리 오브 씽킹(Tree-of-thoughts)과 같은 다른 접근 방식과 달리, 이 새로운 접근 방식은 몬테카를로 트리 검색(MCTS)을 통합하여 검색 공간을 효율적으로 탐색하고, 지속적인 사고 반복이 가능하기 때문에 개방형 생성, 다단계 추론, 창의적 아이디어 발상과 같은 작업에 특히 적합합니다.

    Presents an approach for general reasoning and search on tasks that can be decomposed into components; the proposed graph-based framework, THOUGHTSCULPT, incorporates iterative self-revision capabilities and allows an LLM to build an interwoven network of thoughts; unlike other approaches such as Tree-of-thoughts that shape the reasoning process using a tree, this new approach incorporates Monte Carlo Tree Search (MCTS) to efficiently navigate the search space; due to its ability for continuous thought iteration, THOUGHTSCULPT is particularly suitable for tasks such as open-ended generation, multip-step reasoning, and creative ideation.

논문 초록(Abstract)

  • 구성 요소로 분해할 수 있는 출력이 있는 작업에 대한 일반적인 추론 및 검색 방법인 THOUGHTSCULPT를 소개합니다. THOUGHTSCULPT는 몬테카를로 트리 검색(MCTS)을 사용하여 잠재적 솔루션의 검색 트리를 탐색하고, 한 번에 하나의 액션으로 솔루션을 구축하고 도메인별 휴리스틱에 따라 평가하며, 실제로는 단순히 LLM 평가기인 경우가 많습니다. 중요한 것은 작업 공간에 수정 작업이 포함되어 있다는 점입니다: THOUGHTSCULPT는 나머지 결과물을 계속 구축하는 대신 이전 결과물의 일부를 수정하도록 선택할 수 있습니다. 경험적으로 THOUGHTSCULPT는 세 가지 까다로운 과제에서 최신 추론 방법보다 뛰어난 성능을 보였습니다: 스토리 개요 개선(흥미도 최대 +30%), 미니 십자말풀이(단어 성공률 최대 +16%), 제약 생성(개념 범위 최대 +10%).

    We present THOUGHTSCULPT, a general reasoning and search method for tasks with outputs that can be decomposed into components. THOUGHTSCULPT explores a search tree of potential solutions using Monte Carlo Tree Search (MCTS), building solutions one action at a time and evaluating according to any domain-specific heuristic, which in practice is often simply an LLM evaluator. Critically, our action space includes revision actions: THOUGHTSCULPT may choose to revise part of its previous output rather than continuing to build the rest of its output. Empirically, THOUGHTSCULPT outperforms state-of-the-art reasoning methods across three challenging tasks: Story Outline Improvement (up to +30% interestingness), Mini-Crosswords Solving (up to +16% word success rate), and Constrained Generation (up to +10% concept coverage).

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1777896810805186757


다국어 대규모 언어 모델: 리소스, 분류법 및 경계에 대한 서베이 논문 / Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers

논문 소개

  • 방법, 분류법, 새로운 영역, 도전 과제, 연구 발전을 위한 리소스 등 다국어 LLM에 대한 철저한 검토가 포함된 설문조사입니다.

    A survey on multilingual LLMs including a thorough review of methods, a taxonomy, emerging frontiers, challenges, and resources to advance research.

논문 초록(Abstract)

  • 다국어 대규모 언어 모델은 강력한 대규모 언어 모델을 사용하여 여러 언어로 된 쿼리를 처리하고 응답할 수 있어 다국어 자연어 처리 작업에서 괄목할 만한 성과를 거둘 수 있습니다. 이러한 획기적인 발전에도 불구하고 이 분야의 기존 접근 방식과 최근의 발전 상황을 요약한 종합적인 조사는 여전히 부족합니다. 이를 위해 이 백서에서는 다국어 대규모 언어 모델(MLLM) 문헌의 최근 진행 상황과 새로운 동향을 종합적으로 검토하고 통합된 관점을 제시합니다. 이 백서의 기여는 다음과 같이 요약할 수 있습니다. (1) 첫 번째 조사: 다국어 정렬에 따른 MLLM 연구 분야의 첫발을 내딛고 철저한 검토를 제시합니다. (2) 새로운 분류법: 새롭고 통합된 관점을 제공하여 MLLM의 현재 진행 상황을 요약합니다. (3) 새로운 프론티어: 몇 가지 새로운 프론티어를 강조하고 해당 과제에 대해 논의하며 (4) 풍부한 자원: 관련 논문, 데이터 코퍼라, 리더보드 등 풍부한 오픈 소스 자원을 수집합니다. 저희의 작업이 커뮤니티에 빠른 액세스를 제공하고 다단계판매 분야의 획기적인 연구에 박차를 가할 수 있기를 바랍니다.

    Multilingual Large Language Models are capable of using powerful Large Language Models to handle and respond to queries in multiple languages, which achieves remarkable success in multilingual natural language processing tasks. Despite these breakthroughs, there still remains a lack of a comprehensive survey to summarize existing approaches and recent developments in this field. To this end, in this paper, we present a thorough review and provide a unified perspective to summarize the recent progress as well as emerging trends in multilingual large language models (MLLMs) literature. The contributions of this paper can be summarized: (1) First survey: to our knowledge, we take the first step and present a thorough review in MLLMs research field according to multi-lingual alignment; (2) New taxonomy: we offer a new and unified perspective to summarize the current progress of MLLMs; (3) New frontiers: we highlight several emerging frontiers and discuss the corresponding challenges; (4) Abundant resources: we collect abundant open-source resources, including relevant papers, data corpora, and leaderboards. We hope our work can provide the community with quick access and spur breakthrough research in MLLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1778063103906771105


언어 모델의 물리학: 3.3부, 지식 용량 확장 법칙 / Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws

논문 소개

  • 손실 또는 벤치마크를 통해 모델의 능력을 평가하여 모델이 저장하는 지식 비트 수를 추정하는 지식 용량 확장 법칙을 조사하여 "언어 모델은 int8로 정량화하더라도 파라미터당 2비트만 저장할 수 있으며 이러한 지식은 다운스트림 애플리케이션을 위해 유연하게 추출할 수 있다"고 보고합니다. 따라서 7B 모델은 14B 비트의 지식을 저장할 수 있으며, 이는 우리의 추정에 따르면 영어 위키백과와 교과서를 합친 것보다 더 많은 양입니다."

    Investigates knowledge capacity scaling laws where it evaluates a model’s capability via loss or benchmarks, to estimate the number of knowledge bits a model stores; reports that "Language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications. Consequently, a 7B model can store 14B bits of knowledge, surpassing the English Wikipedia and textbooks combined based on our estimation."

논문 초록(Abstract)

  • 스케일링 법칙은 언어 모델의 크기와 기능 간의 관계를 설명합니다. 손실이나 벤치마크를 통해 모델의 역량을 평가하는 이전 연구와 달리, 우리는 모델이 저장하는 지식 비트의 수를 추정합니다. Wikipedia 페이지에서 (미국, 수도, 워싱턴 D.C.)와 같이 튜플로 표현되는 사실적 지식에 초점을 맞춥니다. 여러 통제된 데이터 세트를 통해 언어 모델이 매개변수당 2비트의 지식만 저장할 수 있으며, 심지어 int8로 정량화하더라도 이러한 지식은 다운스트림 애플리케이션을 위해 유연하게 추출할 수 있음을 확인했습니다. 결과적으로 7B 모델은 14B 비트의 지식을 저장할 수 있으며, 이는 우리의 추정에 따르면 영어 위키백과와 교과서를 합친 것보다 더 많은 양의 지식을 저장할 수 있습니다. 보다 광범위하게는 (1) 학습 기간, (2) 모델 아키텍처, (3) 양자화, (4) MoE와 같은 희소성 제약 조건, (5) 데이터 신호 대 잡음비가 모델의 지식 저장 용량에 어떤 영향을 미치는지에 대한 12가지 결과를 제시합니다. 주목할 만한 인사이트는 다음과 같습니다: * 로터리 임베딩을 사용하는 GPT-2 아키텍처는 특히 짧은 훈련 기간 동안 지식 저장에 있어 LLaMA/Mistral 아키텍처와 비슷하거나 심지어 이를 능가합니다. 이는 LLaMA/Mistral이 덜 안정적이고 훈련하기 어려운 GatedMLP를 사용하기 때문에 발생합니다. * 도메인 이름(예: wikipedia.org)으로 학습 데이터를 준비하면 모델의 지식 용량이 크게 증가합니다. 언어 모델은 지식이 풍부한 도메인을 자율적으로 식별하고 우선순위를 지정하여 저장 용량을 최적화할 수 있습니다.

    Scaling laws describe the relationship between the size of language models and their capabilities. Unlike prior studies that evaluate a model's capability via loss or benchmarks, we estimate the number of knowledge bits a model stores. We focus on factual knowledge represented as tuples, such as (USA, capital, Washington D.C.) from a Wikipedia page. Through multiple controlled datasets, we establish that language models can and only can store 2 bits of knowledge per parameter, even when quantized to int8, and such knowledge can be flexibly extracted for downstream applications. Consequently, a 7B model can store 14B bits of knowledge, surpassing the English Wikipedia and textbooks combined based on our estimation. More broadly, we present 12 results on how (1) training duration, (2) model architecture, (3) quantization, (4) sparsity constraints such as MoE, and (5) data signal-to-noise ratio affect a model's knowledge storage capacity. Notable insights include: * The GPT-2 architecture, with rotary embedding, matches or even surpasses LLaMA/Mistral architectures in knowledge storage, particularly over shorter training durations. This arises because LLaMA/Mistral uses GatedMLP, which is less stable and harder to train. * Prepending training data with domain names (e.g., wikipedia.org) significantly increases a model's knowledge capacity. Language models can autonomously identify and prioritize domains rich in knowledge, optimizing their storage capacity.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1777709227319968034


설계를 통한 검증 가능: 사전 학습 데이터에서 인용하도록 언어 모델 정렬하기 / Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

논문 소개

  • 사전 학습 데이터에서 직접 기억된 정보 인용문을 활용하도록 LLM을 정렬하는 기술을 제안합니다. 이 정렬 방식은 고품질의 인용문 축어체를 생성할 수 있을 뿐만 아니라 응답 품질을 전반적으로 보존하고, 사람의 주석 없이 인용을 위해 합성 선호 데이터 세트를 활용하고 선호 최적화를 사용하여 대상 모델을 인용하도록 정렬할 수 있습니다.

    Proposes techniques to align LLMs to leverage memorized information quotes directly from pre-training data; the alignment approach is not only able to generate high-quality quoted verbatim statements but overall preserve response quality; it leverages a synthetic preference dataset for quoting without any human annotation and aligns the target model to quote using preference optimization.

논문 초록(Abstract)

  • 사람이 유창하게 생성된 대규모 언어 모델(LLM)을 신뢰하려면 신뢰할 수 있는 외부 소스를 통해 그 정확성을 검증할 수 있어야 합니다. 최근의 노력은 검색된 문서의 인용이나 사후 출처를 통해 검증 가능성을 높이는 것을 목표로 합니다. 그러나 이러한 인용은 실수가 발생하기 쉬워 검증 가능성을 더욱 복잡하게 만듭니다. 이러한 한계를 해결하기 위해 저희는 다른 철학으로 검증 가능성 목표를 달성하고자 합니다. 즉, 사전 학습 데이터에서 신뢰할 수 있는 출처의 문장을 그대로 인용하는 모델을 개발하여 검증 프로세스를 간소화합니다. 학습 전 데이터에서 암기된 정보와 인용문을 활용하도록 LLM을 조정할 수 있는 가능성을 입증하는 Quote-Tuning을 제안합니다. Quote-Tuning은 효율적인 멤버십 추론 도구로 대규모 코퍼스를 대상으로 인용을 정량화하고, 인용의 양을 암시적 보상 신호로 사용해 사람의 주석 없이 인용에 대한 합성 선호도 데이터 세트를 구축합니다. 그런 다음, 선호도 최적화 알고리즘을 사용하여 대상 모델을 견적에 맞게 조정합니다. 실험 결과에 따르면 인용 튜닝은 응답 품질을 유지하면서 고품질 사전 학습 문서에서 그대로 인용된 LLM 생성 비율을 튜닝하지 않은 모델에 비해 55%에서 130%까지 크게 증가시켰습니다. 추가 실험을 통해 인용 튜닝이 도메인 외부 데이터에 대한 인용을 일반화하고, 다양한 작업에 적용 가능하며, 진실성에 추가적인 이점을 제공한다는 사실이 입증되었습니다. 견적 튜닝은 번거로움 없이 견적 품질을 높일 수 있는 방법일 뿐만 아니라 더 나은 검증 가능성을 통해 LLM 신뢰도를 개선할 수 있는 길을 열어줍니다.

    For humans to trust the fluent generations of large language models (LLMs), they must be able to verify their correctness against trusted, external sources. Recent efforts aim to increase verifiability through citations of retrieved documents or post-hoc provenance. However, such citations are prone to mistakes that further complicate their verifiability. To address these limitations, we tackle the verifiability goal with a different philosophy: we trivialize the verification process by developing models that quote verbatim statements from trusted sources in pre-training data. We propose Quote-Tuning, which demonstrates the feasibility of aligning LLMs to leverage memorized information and quote from pre-training data. Quote-Tuning quantifies quoting against large corpora with efficient membership inference tools, and uses the amount of quotes as an implicit reward signal to construct a synthetic preference dataset for quoting, without any human annotation. Next, the target model is aligned to quote using preference optimization algorithms. Experimental results show that Quote-Tuning significantly increases the percentage of LLM generation quoted verbatim from high-quality pre-training documents by 55% to 130% relative to untuned models while maintaining response quality. Further experiments demonstrate that Quote-Tuning generalizes quoting to out-of-domain data, is applicable in different tasks, and provides additional benefits to truthfulness. Quote-Tuning not only serves as a hassle-free method to increase quoting but also opens up avenues for improving LLM trustworthiness through better verifiability.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1777408054402646433


NLP와 다른 분야 간의 영향력 / The Influence Between NLP and Other Fields

논문 소개

  • 23개 학문 분야와 NLP 간의 영향력 정도를 정량화하는 것을 목표로 하는 이 연구는, NLP의 교차 분야 참여가 1980년 0.58에서 2022년 0.31로 감소했으며, NLP 인용은 AI, ML, 정보 검색에 중점을 둔 CS가 인용의 80% 이상을 차지하고, 전반적으로 NLP는 분야 내 인용의 증가와 다학문적 저작의 감소로 더욱 고립되고 있다는 점을 발견했습니다.

    Aims to quantify the degree of influence between 23 fields of study and NLP; the cross-field engagement of NLP has declined from 0.58 in 1980 to 0.31 in 2022; the study also finds that NLP citations are dominated by CS which accounts for over 80% of citations with emphasis on AI, ML, and information retrieval; overall, NLP is growing more insular -- higher growth of intra-field citation and a decline in multidisciplinary works.

논문 초록(Abstract)

자연어 처리(NLP)는 전 세계에 상당한 영향을 미칠 준비가 되어 있습니다. 그러나 상당한 발전에는 상당한 위험이 수반됩니다. 이러한 위험을 해결하려면 다양한 연구 분야의 폭넓은 참여가 필요합니다. 그러나 이러한 참여의 현황(과거 또는 현재)을 조사한 경험적 연구는 거의 없습니다. 이 논문에서는 23개 학문 분야와 NLP 간의 (서로에 대한) 영향력을 정량화합니다. 약 7만 7천 개의 NLP 논문, NLP 논문에서 다른 논문으로의 인용 건수 약 310만 건, 다른 논문에서 NLP 논문으로의 인용 건수 약 180만 건을 분석했습니다. 대부분의 분야와 달리, 우리가 제안한 인용 분야 다양성 지수(CFDI)로 측정한 NLP의 분야 간 참여도는 1980년 0.58에서 2022년 0.31로 감소하여 사상 최저치를 기록했습니다. 또한, 점점 더 많은 NLP 논문을 인용하고 분야 간 가교 역할을 하는 논문은 줄어드는 등 NLP가 더욱 고립적으로 성장한 것으로 나타났습니다. NLP 인용은 컴퓨터 과학이 주도하고 있으며, 언어학에 대한 인용은 8% 미만, 수학과 심리학에 대한 인용은 3% 미만입니다. 이러한 결과는 NLP가 다양한 분야와의 연계에 대해 고민해야 할 시급한 필요성을 강조합니다.

Natural Language Processing (NLP) is poised to substantially influence the world. However, significant progress comes hand-in-hand with substantial risks. Addressing them requires broad engagement with various fields of study. Yet, little empirical work examines the state of such engagement (past or current). In this paper, we quantify the degree of influence between 23 fields of study and NLP (on each other). We analyzed ~77k NLP papers, ~3.1m citations from NLP papers to other papers, and ~1.8m citations from other papers to NLP papers. We show that, unlike most fields, the cross-field engagement of NLP, measured by our proposed Citation Field Diversity Index (CFDI), has declined from 0.58 in 1980 to 0.31 in 2022 (an all-time low). In addition, we find that NLP has grown more insular—citing increasingly more NLP papers and having fewer papers that act as bridges between fields. NLP citations are dominated by computer science; Less than 8% of NLP citations are to linguistics, and less than 3% are to math and psychology. These findings underscore NLP’s urgent need to reflect on its engagement with various fields.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1777337237794955586


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

2개의 좋아요