[2024/02/19 ~ 02/25] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들은 대체로 '대규모 언어 모델(Large Language Models, LLM)' 및 '강화 학습(Reinforcement Learning, RL) 기반 알고리즘'에 초점을 맞춘 것으로 보입니다. 'Stable Diffusion 3', 'Gemma', 'LLMs for Data Annotation', 'Revisiting REINFORCE in RLHF', 'When is Tree Search Useful for LLM Planning', 'CoT Reasoning without Prompting' 등의 논문들은 언어 모델의 파생 기술과 성능 향상에 관한 주제로 특히 LLM의 활용 가능성과 효과적인 사용 방법에 대한 연구가 많은 것을 볼 수 있습니다. 게다가 'GRIT', 'LoRA+', 'Recurrent Memory Finds What LLMs Miss' 논문들은 언어 모델과 관련된 기존의 접근 방식을 재검토하거나, 기존 기법들을 보완하는 새로운 알고리즘을 통한 성능 개선에 대해 다루고 있어 이 분야의 지속적인 발전과 관심을 반영하고 있습니다.

  • 이 같은 경향은 인공지능 분야에서 대규모 언어 모델이 차지하는 중요성이 커짐에 따라 연구의 폭이 확장되는 현상과 관련이 있을 것입니다. 최근 대규모 언어 모델들은 자연어 이해(Natural Language Understanding, NLU)와 생성(Natural Language Generation, NLG)에서 혁신적인 성과를 보여주고 있으며, 이에 다양한 연구가 모델의 이해도 및 다양한 상황에서의 적용 가능성을 높이기 위해 진행되고 있습니다. 또한, 강화 학습을 통한 모델의 의사결정 과정 개선과 학습 효율성 증대에 대한 연구는 인공지능 기술의 실용적이고 지속 가능한 성장을 위한 필수적인 요소로 다뤄지고 있는 것을 반영하는 결과라 할 수 있습니다.

  • AI 기술의 진보와 산업 수요가 빠르게 변화함에 따라, 대규모 언어 모델의 발전과 응용, 그리고 이를 뒷받침하는 강화 학습과 같은 방법론에 대한 연구는 앞으로도 계속될 주요 트렌드 중 하나로 자리잡을 것으로 예상됩니다.

  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:


스테이블 디퓨전 3 / Stable Diffusion 3

논문 소개

  • 800M에서 8B 매개변수에 이르는 이미지 생성 모델 제품군, 다중 피사체 프롬프트, 이미지 품질 및 철자 능력의 성능 향상을 위해 확산 변환기 아키텍처와 흐름 매칭을 결합합니다. 기술 문서(technical report)가 곧 게시될 예정이며 여기에 링크되어 있습니다.

    A suite of image generation models ranging from 800m to 8b parameters; combines diffusion transformer architecture and flow matching for improved performance in multi-subject prompts, image quality, and spelling abilities; technical report to be published soon and linked here.

논문 링크

더 읽어보기

https://x.com/StabilityAI/status/1760656767237656820


Gemma

논문 소개

  • 제미니에 사용된 것과 동일한 연구와 기술에서 영감을 얻은 일련의 개방형 모델, 기본 및 인스트럭션 튜닝 버전을 포함한 2B(2T 토큰으로 학습) 및 7B(6T 토큰으로 학습) 모델 포함, 8192 토큰의 컨텍스트 길이에서 학습하였으며, 일반적으로 라마-2 7B 및 미스트랄 7B보다 성능이 뛰어납니다.

    A series of open models inspired by the same research and tech used for gemini; includes 2b (trained on 2t tokens) and 7b (trained on 6t tokens) models including base and instruction-tuned versions; trained on a context length of 8192 tokens; generally outperforms llama 2 7b and mistral 7b.

논문 초록 (Abstract)

이 논문에서는 Gemini 모델을 만드는 데 사용된 연구와 기술을 바탕으로 구축된 경량, 최첨단 개방형 모델 제품군인 Gemma를 소개합니다. Gemma 모델은 언어 이해, 추론 및 안전에 대한 학술적 벤치마크에서 강력한 성능을 보여줍니다. 두 가지 크기의 모델(20억 개 및 70억 개 매개변수)을 출시하며, 사전 학습된 체크포인트와 미세 조정된 체크포인트를 모두 제공합니다. Gemma는 18개의 텍스트 기반 작업 중 11개에서 비슷한 크기의 오픈 모델보다 성능이 뛰어나며, 모델 개발에 대한 자세한 설명과 함께 모델의 안전성 및 책임 측면에 대한 종합적인 평가를 제시합니다. 책임감 있는 LLM의 출시는 프론티어 모델의 안전성을 개선하고 다음 세대의 LLM 혁신을 가능하게 하는 데 매우 중요하다고 생각합니다.

This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.

논문 링크

더 읽어보기


데이터 주석을 위한 대규모 언어 모델: 서베이 논문 / Large Language Models for Data Annotation: A Survey

논문 소개

  • 데이터 주석을 위해 LLM을 적용하는 개요와 좋은 참조 목록, 데이터 주석을 위해 LLM을 사용하는 방법의 분류 체계가 포함되어 있으며, 을 기반 데이터 주석, 을 생성 주석 평가, 을 생성 주석을 사용한 학습의 세 가지 측면을 다룹니다.

    An overview and a good list of references that apply llms for data annotation; includes a taxonomy of methods that employ llms for data annotation; covers three aspects: llm-based data annotation, assessing llm-generated annotations, and learning with llm-generated annotations.

논문 초록(Abstract)

  • 데이터 주석은 원시 데이터에 관련 정보를 라벨링하거나 태그를 붙이는 것으로, 머신러닝 모델의 효율성을 개선하는 데 필수적입니다. 하지만 이 과정은 노동 집약적이고 비용이 많이 듭니다. GPT-4로 대표되는 고급 대규모 언어 모델(LLM)의 등장은 데이터 주석의 복잡한 프로세스를 혁신하고 자동화할 수 있는 전례 없는 기회를 제공합니다. 기존 설문조사는 LLM 아키텍처, 교육 및 일반 애플리케이션을 광범위하게 다루었지만, 이 논문은 데이터 주석을 위한 특정 유용성에 초점을 맞추고 있습니다. 이 설문조사는 세 가지 핵심 측면에 기여합니다: LLM 기반 데이터 어노테이션, LLM으로 생성된 어노테이션 평가, LLM으로 생성된 어노테이션을 통한 학습입니다. 또한, 데이터 주석에 LLM을 사용하는 방법론에 대한 심층적인 분류법, LLM 생성 주석을 통합하는 모델의 학습 전략에 대한 종합적인 검토, 데이터 주석에 LLM을 사용하는 것과 관련된 주요 과제 및 한계에 대한 자세한 논의가 포함되어 있습니다. 이 설문조사는 연구자와 실무자가 데이터 주석을 위한 최신 LLM의 잠재력을 탐색하고 이 중요한 영역의 미래 발전을 촉진하는 데 도움을 주는 핵심 지침이 될 것입니다. URL{GitHub - Zhen-Tan-dmml/LLM4Annotation}에서 종합적인 논문 목록을 제공합니다.

    Data annotation is the labeling or tagging of raw data with relevant information, essential for improving the efficacy of machine learning models. The process, however, is labor-intensive and expensive. The emergence of advanced Large Language Models (LLMs), exemplified by GPT-4, presents an unprecedented opportunity to revolutionize and automate the intricate process of data annotation. While existing surveys have extensively covered LLM architecture, training, and general applications, this paper uniquely focuses on their specific utility for data annotation. This survey contributes to three core aspects: LLM-Based Data Annotation, Assessing LLM-generated Annotations, and Learning with LLM-generated annotations. Furthermore, the paper includes an in-depth taxonomy of methodologies employing LLMs for data annotation, a comprehensive review of learning strategies for models incorporating LLM-generated annotations, and a detailed discussion on primary challenges and limitations associated with using LLMs for data annotation. As a key guide, this survey aims to direct researchers and practitioners in exploring the potential of the latest LLMs for data annotation, fostering future advancements in this critical domain. We provide a comprehensive papers list at \url{GitHub - Zhen-Tan-dmml/LLM4Annotation}.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1760664562779431367


GRIT: 생성적 표현용 명령어 튜닝 / Generative Representational Instruction Tuning

논문 소개

  • 생성 및 임베딩 작업을 모두 수행하도록 LLM을 학습하고 지침을 통해 이를 구분하도록 설계된 생성 표현 지침 튜닝을 제공하며, 긴 문서의 경우 RAG 속도를 60%까지 향상시키는 것으로 보고되었습니다.

    Presents generative representational instruction tuning where an llm is trained to perform both generative and embedding tasks and designed to distinguish between them via the instructions; produces new state-of-the-art on mteb and the unification is reported to speed up rag by 60% for long documents.

논문 초록(Abstract)

  • 모든 텍스트 기반 언어 문제는 생성 또는 임베딩 중 하나로 줄일 수 있습니다. 현재 모델은 둘 중 하나만 잘 수행합니다. 저희는 대규모 언어 모델이 명령어를 통해 생성 작업과 임베딩 작업을 구분하여 두 가지 작업을 모두 처리하도록 학습하는 생성적 표현 명령어 튜닝(GRIT)을 도입했습니다. 다른 개방형 모델과 비교했을 때, 그 결과물인 GritLM 7B는 대규모 텍스트 임베딩 벤치마크(MTEB)에서 새로운 기준을 세웠으며 다양한 생성 작업에서 해당 크기의 모든 모델보다 뛰어난 성능을 발휘합니다. 추가 확장을 통해 GritLM 8x7B는 테스트한 모든 개방형 생성 언어 모델보다 성능이 뛰어나면서도 여전히 최고의 임베딩 모델 중 하나입니다. 특히 GRIT은 생성 데이터 또는 임베딩 데이터에 대해서만 학습을 수행하므로 성능 손실 없이 두 가지를 모두 통합할 수 있다는 사실을 발견했습니다. 무엇보다도 GRIT를 통한 통합은 더 이상 별도의 검색 및 생성 모델이 필요하지 않기 때문에 긴 문서의 경우 검색 증강 생성(RAG)의 속도를 60% 이상 높여줍니다. 모델, 코드 등은 GitHub - ContextualAI/gritlm: Generative Representational Instruction Tuning 에서 무료로 이용할 수 있습니다.

    All text-based language problems can be reduced to either generation or embedding. Current models only perform well at one or the other. We introduce generative representational instruction tuning (GRIT) whereby a large language model is trained to handle both generative and embedding tasks by distinguishing between them through instructions. Compared to other open models, our resulting GritLM 7B sets a new state of the art on the Massive Text Embedding Benchmark (MTEB) and outperforms all models up to its size on a range of generative tasks. By scaling up further, GritLM 8x7B outperforms all open generative language models that we tried while still being among the best embedding models. Notably, we find that GRIT matches training on only generative or embedding data, thus we can unify both at no performance loss. Among other benefits, the unification via GRIT speeds up Retrieval-Augmented Generation (RAG) by > 60% for long documents, by no longer requiring separate retrieval and generation models. Models, code, etc. are freely available at GitHub - ContextualAI/gritlm: Generative Representational Instruction Tuning.

논문 링크

더 읽어보기

https://x.com/Muennighoff/status/1758307967802224770


LoRA+: 대규모 모델의 효율적인 로우랭크 적응 / LoRA+: Efficient Low Rank Adaptation of Large Models

논문 소개

  • LoRA와 동일한 계산 비용으로 성능과 미세 조정 속도를 향상(최대 ∼ 2배 속도 향상)시킨 LoRA+를 제안합니다. LoRA와 LoRA+의 주요 차이점은 학습 속도를 설정하는 방식입니다. LoRA에서는 학습 속도가 동일한 반면 LoRA Adaption Matrix의 학습 속도를 다르게 설정하는 것이 LoRA+의 특징입니다.

    Proposes lora+ which improves performance and finetuning speed (up to ∼ 2x speed up), at the same computational cost as lora; the key difference between lora and lora+ is how the learning rate is set; lora+ sets different learning rates for lora adapter matrices while in lora the learning rate is the same.

논문 초록(Abstract)

  • 이 논문에서는 Hu 등(2021)에서 처음 도입된 저순위 적응(LoRA)이 폭(임베딩 차원)이 큰 모델의 차선책 미세 조정으로 이어진다는 것을 보여줍니다. 이는 LoRA의 어댑터 행렬 A와 B가 동일한 학습률로 업데이트되기 때문입니다. 폭이 큰 네트워크에 대한 스케일링 인수를 사용하여 A와 B에 동일한 학습 속도를 사용하면 효율적인 특징 학습이 불가능하다는 것을 증명합니다. 그런 다음 LoRA 어댑터 행렬 A와 B에 대해 서로 다른 학습률을 잘 선택된 비율로 설정함으로써 LoRA의 이러한 차선책이 간단히 수정될 수 있음을 보여줍니다. 이 제안된 알고리즘을 LoRA + 라고 부릅니다. 광범위한 실험에서 LoRA + 는 LoRA와 동일한 계산 비용으로 성능(1-2 \% 개선)과 미세 조정 속도(최대 \sim 2배 속도 향상)를 향상시켰습니다.

    In this paper, we show that Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021) leads to suboptimal finetuning of models with large width (embedding dimension). This is due to the fact that adapter matrices A and B in LoRA are updated with the same learning rate. Using scaling arguments for large width networks, we demonstrate that using the same learning rate for A and B does not allow efficient feature learning. We then show that this suboptimality of LoRA can be corrected simply by setting different learning rates for the LoRA adapter matrices A and B with a well-chosen ratio. We call this proposed algorithm LoRA +. In our extensive experiments, LoRA + improves performance (1-2 \% improvements) and finetuning speed (up to \sim 2X SpeedUp), at the same computational cost as LoRA.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1760063230406258892


기본으로 돌아가기: LLM에서 사람의 피드백을 통한 학습(RLHF)을 위한 스타일 최적화 재검토 / Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

논문 소개

  • 또한, 더 단순한 강화 변형이 PPO와 새롭게 제안된 대안인 DPO 및 RAFT 보다 성능이 뛰어나며, 전반적으로 온라인 RL 최적화가 유익하고 비용이 적게 들 수 있음을 보여줍니다.

    Shows that many components of ppo are unnecessary in an rlhf context; it also shows that a simpler reinforce variant outperforms both ppo and newly proposed alternatives such as dpo and raft; overall, it shows that online rl optimization can be beneficial and low cost.

논문 초록(Abstract)

  • 인간 피드백으로부터의 강화 학습(RLHF) 형태의 AI 정렬은 고성능 대규모 언어 모델을 위한 중요한 요소로 점점 더 중요하게 취급되고 있습니다. 근위 정책 최적화(PPO)는 최근 문헌에서 RLHF의 RL 부분에 대한 표준적인 방법으로 자리 잡았습니다. 그러나 이 방법은 높은 계산 비용과 민감한 하이퍼파라미터 튜닝을 수반합니다. 저희는 PPO의 개발로 이어진 대부분의 동기 부여 원칙이 RLHF에서는 실용적이지 않다고 가정하고, 성능을 유지하면서 계산 비용이 적게 드는 방법을 옹호하고 심지어 성능을 향상시킬 수 있다고 주장합니다. RL의 맥락에서 인간의 선호도에 따른 정렬의 '공식'을 다시 살펴봅니다. 단순성을 기본 원칙으로 삼아 RLHF 맥락에서는 PPO의 많은 구성 요소가 불필요하며 훨씬 더 단순한 REINFORCE 스타일의 최적화 변형이 PPO와 새로 제안된 DPO 및 RAFT와 같은 "RL-free" 방법 모두보다 성능이 뛰어나다는 것을 보여줍니다. 우리의 연구는 LLM의 정렬 특성을 신중하게 적용하면 저렴한 비용으로 온라인 RL 최적화의 이점을 누릴 수 있음을 시사합니다.

    AI alignment in the shape of Reinforcement Learning from Human Feedback (RLHF) is increasingly treated as a crucial ingredient for high performance large language models. \textsc{Proximal Policy Optimization} (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. However, it involves both high computational cost and sensitive hyperparameter tuning. We posit that most of the motivational principles that led to the development of PPO are less of a practical concern in RLHF and advocate for a less computationally expensive method that preserves and even increases performance. We revisit the \textit{formulation} of alignment from human preferences in the context of RL. Keeping simplicity as a guiding principle, we show that many components of PPO are unnecessary in an RLHF context and that far simpler REINFORCE-style optimization variants outperform both PPO and newly proposed "RL-free" methods such as DPO and RAFT. Our work suggests that careful adaptation to LLMs alignment characteristics enables benefiting from online RL optimization at low cost.

논문 링크

더 읽어보기

https://x.com/sarahookr/status/1761042445997945070


11M의 건초더미에서 바늘 찾기: 리커런트 메모리로 LLM이 놓친 것을 찾아내는 방법 / In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss

논문 소개

  • 매우 긴 컨텍스트 처리에서 트랜스포머 기반 모델의 성능을 살펴보고, GPT-4와 RAG 성능 모두 입력의 첫 25%에 크게 의존하므로 컨텍스트 처리 메커니즘을 개선할 여지가 있음을 발견하고, 트랜스포머 모델의 반복 메모리 증강이 최대 천만 토큰의 문서에서 우수한 성능을 달성한다는 사실을 보고합니다.

    Explores the capability of transformer-based models in extremely long context processing; finds that both gpt-4 and rag performance heavily rely on the first 25% of the input, which means there is room for improved context processing mechanisms; reports that recurrent memory augmentation of transformer models achieves superior performance on documents of up to 10 million tokens.

논문 초록(Abstract)

  • 이 논문에서는 생성형 트랜스포머 모델을 사용해 긴 문서를 처리하는 문제를 다룹니다. 다양한 접근법을 평가하기 위해 광범위한 텍스트 내에서 분산된 사실을 추출하고 처리하는 모델 기능을 평가하도록 설계된 새로운 벤치마크인 BABILong을 소개합니다. GPT-4와 RAG에 대한 벤치마크를 포함한 평가 결과, 일반적인 방법은 최대 10^4 요소의 시퀀스에 대해서만 효과적인 것으로 나타났습니다. 반면, 반복 메모리 증강을 통해 GPT-2를 미세 조정하면 최대 11 \times 10^6 원소까지 포함하는 작업을 처리할 수 있습니다. 이 성과는 지금까지 신경망 모델이 처리한 입력 중 가장 긴 것으로, 긴 시퀀스에 대한 처리 능력이 크게 향상되었음을 보여주는 상당한 도약입니다.

    This paper addresses the challenge of processing long documents using generative transformer models. To evaluate different approaches, we introduce BABILong, a new benchmark designed to assess model capabilities in extracting and processing distributed facts within extensive texts. Our evaluation, which includes benchmarks for GPT-4 and RAG, reveals that common methods are effective only for sequences up to 10^4 elements. In contrast, fine-tuning GPT-2 with recurrent memory augmentations enables it to handle tasks involving up to 11\times 10^6 elements. This achievement marks a substantial leap, as it is by far the longest input processed by any neural network model to date, demonstrating a significant improvement in the processing capabilities for long sequences.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1759591371126571028


트리 검색은 언제 LLM 계획에 유용할까요? 판별자에 따라 다릅니다 / When is Tree Search Useful for LLM Planning? It Depends on the Discriminator

논문 소개

  • LLM이 생성기, 판별기, 계획 방법(예: 반복 보정 및 트리 검색)으로 구성된 프레임워크를 통해 다단계 문제를 해결하는 방법을 조사하고, 계획 방법에는 최소 90% 이상의 정확도를 가진 판별기가 필요하지만 현재 LLM은 이러한 판별 능력을 보여주지 못하고, 트리 검색은 최소 10~20배 느리기에 성능이 좋더라도 실제 애플리케이션에는 비현실적이라는 것을 발견합니다.

    Investigates how llm solves multi-step problems through a framework consisting of a generator, discriminator, and planning method (e.g., iterative correction and tree search); reports that planning methods demand discriminators with at least 90% accuracy but current llms don’t demonstrate these discrimination capabilities; finds that tree search is at least 10 to 20 times slower but regardless of it good performance it’s impractical for real-world applications.

논문 초록(Abstract)

  • 이 논문에서는 생성기, 판별기, 계획 방법의 세 가지 구성 요소를 갖춘 언어 에이전트 프레임워크에서 대규모 언어 모델(LLM)이 다단계 문제를 해결하는 방법을 살펴봅니다. 반복적 수정과 트리 검색이라는 두 가지 고급 계획 방법의 실질적인 유용성을 살펴봅니다. 이 두 가지 방법 또는 더 간단한 방법인 리랭킹을 사용할 때 판별 정확도가 에이전트의 전반적인 성능에 어떤 영향을 미치는지에 대한 종합적인 분석을 제시합니다. 텍스트-SQL 구문 분석과 수학적 추론이라는 두 가지 작업에 대한 실험을 통해 다음과 같은 사실을 확인할 수 있습니다: (1) 고급 계획 방법은 리랭킹에 비해 상당한 개선을 달성하기 위해 90% 이상의 정확도를 가진 판별자가 필요하며, (2) 현재 LLM의 판별 능력은 이러한 개선을 달성하기 위한 고급 계획 방법의 요구를 충족하지 못하며, (3) LLM 기반 판별자의 경우 고급 계획 방법이 정확도와 효율성 간의 균형을 적절히 맞추지 못할 수 있다는 것을 알 수 있습니다. 예를 들어, 다른 두 가지 방법에 비해 트리 검색은 최소 10~20배 느리지만 성능 향상은 미미하여 실제 적용에 장애가 될 수 있습니다. 코드와 데이터는 GitHub - OSU-NLP-Group/llm-planning-eval: Code and data of paper "When is Tree Search Useful for LLM Planning? It Depends on the Discriminator" 에서 공개됩니다.

    In this paper, we examine how large language models (LLMs) solve multi-step problems under a language agent framework with three components: a generator, a discriminator, and a planning method. We investigate the practical utility of two advanced planning methods, iterative correction and tree search. We present a comprehensive analysis of how discrimination accuracy affects the overall performance of agents when using these two methods or a simpler method, re-ranking. Experiments on two tasks, text-to-SQL parsing and mathematical reasoning, show that: (1) advanced planning methods demand discriminators with at least 90% accuracy to achieve significant improvements over re-ranking; (2) current LLMs' discrimination abilities have not met the needs of advanced planning methods to achieve such improvements; (3) with LLM-based discriminators, advanced planning methods may not adequately balance accuracy and efficiency. For example, compared to the other two methods, tree search is at least 10--20 times slower but leads to negligible performance gains, which hinders its real-world applications. Code and data will be released at GitHub - OSU-NLP-Group/llm-planning-eval: Code and data of paper "When is Tree Search Useful for LLM Planning? It Depends on the Discriminator".

논문 링크

더 읽어보기

https://x.com/ysu_nlp/status/1759757711061704913


프롬프트 없이 연쇄 추론(CoT)하기 / Chain-of-Thought Reasoning Without Prompting

논문 소개

  • 명시적인 프롬프트 없이 사전 학습된 LLM에서 추론 능력을 이끌어내는 연쇄 사고(CoT) 디코딩 방법을 제안하고, 추론 벤치마크 전반에서 욕심 많은 디코딩보다 모델의 추론 능력을 크게 향상시키며, 디코딩 경로에 cot이 있을 때 모델의 최종 답변에 대한 신뢰도가 증가한다는 사실을 발견합니다.

    Proposes a chain-of-thought (cot) decoding method to elicit the reasoning capabilities from pre-trained llms without explicit prompting; claims to significantly enhance a model’s reasoning capabilities over greedy decoding across reasoning benchmarks; finds that the model's confidence in its final answer increases when cot is present in its decoding path.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)의 추론 기능을 향상시키는 데 있어 기존 연구는 주로 소수 샷 또는 제로 샷 생각의 사슬(CoT) 프롬프트와 같은 특정 프롬프트 기술에 초점을 맞췄습니다. 이러한 방법은 효과적이기는 하지만 수작업으로 프롬프트 엔지니어링을 해야 하는 경우가 많습니다. 이 연구는 다음과 같은 질문을 던지며 새로운 접근 방식을 취합니다: LLM이 프롬프트 없이도 효과적으로 추론할 수 있을까요? 연구 결과, 흥미롭게도 사전 학습된 LLM에서 \textit{decoding} 프로세스를 변경하는 것만으로 CoT 추론 경로를 도출할 수 있다는 사실이 밝혀졌습니다. 기존의 탐욕스러운 디코딩 대신, 우리는 상위 k 대체 토큰을 조사하여 이러한 시퀀스에 CoT 경로가 자주 내재되어 있음을 발견했습니다. 이 접근 방식은 프롬프트의 혼란을 우회할 뿐만 아니라 LLM의 \textit{내재적} 추론 능력도 평가할 수 있게 해줍니다. 또한, 디코딩 경로에 CoT가 존재할수록 모델의 디코딩된 답변에 대한 신뢰도가 높아지는 것을 관찰했습니다. 이 신뢰도 메트릭은 CoT 경로와 비-CoT 경로를 효과적으로 구분합니다. 다양한 추론 벤치마크에 대한 광범위한 경험적 연구에 따르면 제안된 CoT 디코딩이 표준 그리디 디코딩보다 훨씬 뛰어난 성능을 발휘하는 것으로 나타났습니다.

    In enhancing the reasoning capabilities of large language models (LLMs), prior research primarily focuses on specific prompting techniques such as few-shot or zero-shot chain-of-thought (CoT) prompting. These methods, while effective, often involve manually intensive prompt engineering. Our study takes a novel approach by asking: Can LLMs reason effectively without prompting? Our findings reveal that, intriguingly, CoT reasoning paths can be elicited from pre-trained LLMs by simply altering the \textit{decoding} process. Rather than conventional greedy decoding, we investigate the top-k alternative tokens, uncovering that CoT paths are frequently inherent in these sequences. This approach not only bypasses the confounders of prompting but also allows us to assess the LLMs' \textit{intrinsic} reasoning abilities. Moreover, we observe that the presence of a CoT in the decoding path correlates with a higher confidence in the model's decoded answer. This confidence metric effectively differentiates between CoT and non-CoT paths. Extensive empirical studies on various reasoning benchmarks show that the proposed CoT-decoding substantially outperforms the standard greedy decoding.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1758566808213234017


OpenCodeInterpreter: 코드 생성과 실행 및 개선의 통합 / OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

논문 소개

  • 코드를 생성, 실행 및 반복적으로 개선하기 위한 오픈소스 시스템 제품군으로, 68k 멀티턴 상호작용의 데이터셋을 제안하고, 동적 코드 개선을 위해 실행과 사람의 피드백을 통합하며, 휴말밸 및 evalplus와 같은 벤치마크에서 높은 성능을 발휘합니다.

    A family of open-source systems for generating, executing, and iteratively refining code; proposes a dataset of 68k multi-turn interactions; integrates execution and human feedback for dynamic code refinement and produces high performance on benchmarks like humaleval and evalplus.

논문 초록(Abstract)

  • 대규모 언어 모델의 도입으로 코드 생성이 크게 발전했습니다. 그러나 오픈소스 모델에는 GPT-4 코드 인터프리터와 같은 고급 시스템의 실행 기능과 반복적인 개선 기능이 부족한 경우가 많습니다. 이러한 문제를 해결하기 위해 코드를 생성, 실행 및 반복적으로 개선하기 위해 설계된 오픈소스 코드 시스템 제품군인 OpenCodeInterpreter를 소개합니다. 68,000개의 멀티턴 상호작용이 포함된 데이터셋인 Code-Feedback의 지원을 받는 OpenCodeInterpreter는 실행과 사람의 피드백을 통합하여 동적 코드 개선을 지원합니다. 휴먼에벌, MBPP 및 EvalPlus의 향상된 버전과 같은 주요 벤치마크에 대한 종합적인 평가에서 OpenCodeInterpreter의 탁월한 성능을 확인할 수 있습니다. 특히 OpenCodeInterpreter-33B는 HumanEval 및 MBPP의 평균(및 플러스 버전)에서 83.2(76.4)의 정확도를 달성하여 GPT-4의 84.2(76.2)에 근접했으며 GPT-4의 종합적인 인간 피드백을 통해 91.6(84.6)으로 더욱 높아졌습니다. 오픈코드인터프리터는 오픈소스 코드 생성 모델과 GPT-4 코드 인터프리터와 같은 독점 시스템 간의 격차를 좁혀줍니다.

    The introduction of large language models has significantly advanced code generation. However, open-source models often lack the execution capabilities and iterative refinement of advanced systems like the GPT-4 Code Interpreter. To address this, we introduce OpenCodeInterpreter, a family of open-source code systems designed for generating, executing, and iteratively refining code. Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions, OpenCodeInterpreter integrates execution and human feedback for dynamic code refinement. Our comprehensive evaluation of OpenCodeInterpreter across key benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6) with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap between open-source code generation models and proprietary systems like GPT-4 Code Interpreter.

논문 링크

더 읽어보기

https://x.com/xiangyue96/status/1760891516107862104


원문


:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요