[2024/04/01 ~ 04/07] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/04/01 ~ 04/07] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들을 살펴보면, 대부분의 논문들이 대규모 언어 모델(Large Language Models, LLMs)과 관련된 주제들을 다루고 있는 것으로 나타났습니다. 특히, "Local Context LLMs Struggle with Long In-Context Learning", "Representation Finetuning for LMs", "Advancing LLM Reasoning", 그리고 "Training LLMs over Neurally Compressed Text" 등의 논문 제목에서 언어 모델의 학습, 추론, 세부 조정(finetuning) 및 데이터 압축 처리 방법 등 다양한 측면이 포함되어 있습니다. 이는 최근 몇 년간 인공지능 분야에서 LLMs의 발전과 응용에 많은 관심이 쏠리고 있음을 반영하는 경향이라 할 수 있습니다.

  • 이러한 경향은 자연어 처리(Natural Language Processing, NLP) 기술의 발전뿐만 아니라, 더 넓은 범위의 인공지능 연구 및 응용 분야에서의 LLMs 활용 가능성을 탐색하려는 시도에서 기인할 수 있습니다. LLMs는 다양한 언어적 맥락을 학습하여 사람과 비슷한 수준의 글을 생성하거나, 복잡한 질문에 답하는 능력을 보여주고 있습니다. 이는 인공지능이 인간의 언어와 소통하는 방식을 개선하고, 정보 검색, 자동번역, 콘텐츠 생성 등 다양한 분야에서의 응용 가능성을 넓히고 있음을 의미합니다. 더 나아가, 이번 주 논문들에서 나타나듯이, LLMs의 성능을 최적화하고 한계를 극복하기 위한 연구 또한 활발히 이루어지고 있음을 나타냅니다.

  • 이러한 분석을 종합해보면, 현재 인공지능 연구의 한 축을 크게 차지하고 있는 것이 언어 모델, 특히 LLMs와 관련된 연구라는 점이 명확해집니다. 이는 향후 인공지능 기술의 발전 방향에 있어서 중요한 역할을 할 것으로 예상되며, 이러한 연구들이 어떻게 실제 응용으로 이어질지에 대한 추가적인 관심과 연구가 필요함을 시사합니다.


다발성 탈옥 / Many-shot Jailbreaking

논문 소개

  • LLM의 안전장치를 회피하기 위해 다발성 탈옥이라는 탈옥 기법을 제안합니다. 이 탈옥 기법은 많은 최신 LLM이 지원하는 긴 컨텍스트 창을 악용하고, 최종 질문 앞에 매우 많은 수의 가짜 대화(~256개)를 포함하여 모델을 효과적으로 조종하여 유해한 반응을 생성하도록 합니다.

    Proposes a jailbreaking technique called many-shot jailbreaking to evade the safety guardrails of LLMs; this jailbreaking technique exploits the longer context window supported by many modern LLMs; it includes a very large number of faux dialogues (~256) preceding the final question which effectively steers the model to produce harmful responses.

논문 초록(Abstract)

대규모 언어 모델에 대한 간단한 긴 컨텍스트 공격, 즉 수백 가지의 바람직하지 않은 동작을 보여주는 프롬프트를 조사합니다. 이는 최근 Anthropic, OpenAI, Google DeepMind에서 배포한 더 큰 컨텍스트 창을 통해 새롭게 실현 가능합니다. 다양하고 현실적인 상황에서 이 공격의 효과는 최대 수백 회에 이르는 파워 법칙을 따르는 것으로 나타났습니다. 가장 널리 사용되는 최신 폐쇄형 모델과 다양한 작업에서 이 공격의 성공을 입증했습니다. 연구 결과에 따르면 매우 긴 컨텍스트에서는 LLM에 대한 새로운 공격 표면이 풍부하게 존재합니다.

We investigate a family of simple long-context attacks on large language models: prompting with hundreds of demonstrations of undesirable behavior. This is newly feasible with the larger context windows recently deployed by Anthropic, OpenAI and Google DeepMind. We find that in diverse, realistic circumstances, the effectiveness of this attack follows a power law, up to hundreds of shots. We demonstrate the success of this attack on the most widely used state-of-the-art closedweight models, and across various tasks. Our results suggest very long contexts present a rich new attack surface for LLMs.

논문 링크

더 읽어보기

https://x.com/AnthropicAI/status/1775211248239464837


SWE-Agent / SWE-Agent

논문 소개

  • SWE-벤치에서 Devin과 유사한 정확도로 GitHub 이슈를 자동으로 해결할 수 있는 새로운 오픈소스 에이전트 시스템으로, 에이전트는 특수 터미널과 상호 작용하며 파일 및 실행 가능한 테스트의 중요한 처리를 통해 우수한 성능을 달성하고, SWE-벤치에서 12.29%의 이슈를 해결하여 전체 테스트 세트에서 최신 성능을 달성합니다.

    A new open-source agentic system that can automatically solve GitHub issues with similar accuracy as Devin on the SWE-bench; the agent interacts with a specialized terminal and enables important processing of files and executable tests to achieve good performance; on SWE-bench, SWE-agent resolves 12.29% of issues, achieving the state-of-the-art performance on the full test set.

GitHub 링크

더 읽어보기

https://x.com/jyangballin/status/1775114444370051582


MoD(Mixture-of-Depths): 트랜스포머 기반 언어 모델에서 컴퓨팅을 동적으로 할당하기 / Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

논문 소개

  • 트랜스포머 모델이 시퀀스의 특정 위치에 FLOP을 효율적이고 동적으로 할당하는 방법을 학습할 수 있음을 보여줌으로써 모델 깊이 전반에 걸쳐 다양한 레이어에 대해 시퀀스를 따라 할당을 최적화하고, 주어진 FLOP 예산 모델에 대해 기준 모델보다 더 빠르고 우수한 성능을 발휘하도록 학습할 수 있다는 사실을 보여줍니다.

    Demonstrates that transformer models can learn to efficiently and dynamically allocate FLOPs to specific positions in a sequence; this helps to optimize the allocation along the sequence for different layers across model depth; findings suggest that for a given FLOP budget models can be trained to perform faster and better than their baseline counterparts.

논문 초록(Abstract)

  • 트랜스포머 기반 언어 모델은 입력 시퀀스 전체에 FLOP을 균일하게 분산시킵니다. 이 작업에서는 트랜스포머가 대신 시퀀스의 특정 위치에 FLOP을 동적으로 할당(또는 계산)하는 방법을 학습하여 모델 심층에 걸쳐 다양한 계층에 대해 시퀀스를 따라 할당을 최적화할 수 있음을 보여줍니다. 이 방법은 주어진 레이어에서 자체 주의 및 MLP 계산에 참여할 수 있는 토큰 수(k)를 제한하여 총 컴퓨팅 예산을 강제합니다. 처리할 토큰은 네트워크에서 상위 k 라우팅 메커니즘을 사용하여 결정합니다. k 는 선험적으로 정의되기 때문에 이 간단한 절차는 다른 조건부 계산 기법과 달리 텐서 크기가 알려진 정적 계산 그래프를 사용합니다. 그럼에도 불구하고 k 토큰의 신원이 유동적이기 때문에 이 방법은 시간 및 모델 깊이 차원에 걸쳐 FLOP을 비균일하게 소비할 수 있습니다. 따라서 컴퓨팅 소비는 총 합계에서는 완전히 예측 가능하지만 토큰 수준에서는 동적이며 상황에 따라 달라집니다. 이러한 방식으로 훈련된 모델은 컴퓨팅을 동적으로 할당하는 방법을 학습할 뿐만 아니라 효율적으로 할당합니다. 이러한 모델은 훈련에 필요한 동등한 FLOPS 및 월 클럭 시간에 대해 기준 성능과 일치하지만, 포워드 패스당 FLOPS의 일부만 필요하며, 훈련 후 샘플링 중에 50% 이상 더 빠르게 스텝을 밟을 수 있습니다.

    Transformer-based language models spread FLOPs uniformly across input sequences. In this work we demonstrate that transformers can instead learn to dynamically allocate FLOPs (or compute) to specific positions in a sequence, optimising the allocation along the sequence for different layers across the model depth. Our method enforces a total compute budget by capping the number of tokens (k) that can participate in the self-attention and MLP computations at a given layer. The tokens to be processed are determined by the network using a top-k routing mechanism. Since k is defined a priori, this simple procedure uses a static computation graph with known tensor sizes, unlike other conditional computation techniques. Nevertheless, since the identities of the k tokens are fluid, this method can expend FLOPs non-uniformly across the time and model depth dimensions. Thus, compute expenditure is entirely predictable in sum total, but dynamic and context-sensitive at the token-level. Not only do models trained in this way learn to dynamically allocate compute, they do so efficiently. These models match baseline performance for equivalent FLOPS and wall-clock times to train, but require a fraction of the FLOPs per forward pass, and can be upwards of 50% faster to step during post-training sampling.

논문 링크

더 읽어보기

https://x.com/TheSeaMouse/status/1775782800362242157


긴 맥락의 학습으로 어려움을 겪는 긴 맥락의 LLM / Long-context LLMs Struggle with Long In-context Learning

논문 소개

  • 긴 컨텍스트 학습에서 13개의 긴 컨텍스트 LLM을 평가한 결과, 토큰 길이 20K 이하에서는 LLM의 성능이 상대적으로 우수하다는 것을 알 수 있습니다. 그러나 컨텍스트 윈도우가 20K를 초과하면 GPT-4를 제외한 대부분의 LLM의 성능이 급격히 떨어집니다.

    Finds that after evaluating 13 long-context LLMs on long in-context learning the LLMs perform relatively well under the token length of 20K. However, after the context window exceeds 20K, most LLMs except GPT-4 will dip dramatically.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)은 32K 토큰을 초과하는 긴 시퀀스를 처리하는 데 있어 상당한 진전을 이루었습니다. 그러나 성능 평가는 주로 난해성 및 합성 작업과 같은 메트릭에 국한되어 있어 보다 미묘한 실제 시나리오에서의 능력을 완전히 포착하지 못할 수 있습니다. 이 연구에서는 극한 레이블 분류 영역 내에서 긴 맥락 내 학습에 초점을 맞춘 특수 벤치마크(LongICLBench)를 소개합니다. 2K에서 50만 토큰에 이르는 다양한 입력(소수 샷 데모) 길이를 포함하는 28~174개의 클래스를 포함하는 라벨 범위를 가진 6개의 데이터 세트를 세심하게 선택했습니다. 우리의 벤치마크는 LLM이 전체 입력을 이해하여 방대한 레이블 공간을 인식하고 정확한 예측을 할 수 있도록 요구합니다. 벤치마크에서 13개의 긴 컨텍스트 LLM을 평가했습니다. 긴 컨텍스트 LLM은 긴 컨텍스트 창을 효과적으로 활용하여 데모 길이가 짧고 덜 까다로운 작업에서 상대적으로 우수한 성능을 보였습니다. 그러나 174개의 레이블이 있는 가장 까다로운 태스크 디스커버리에서는 모든 LLM이 태스크 정의를 이해하는 데 어려움을 겪어 성능이 0에 가까운 것으로 나타났습니다. 이는 컨텍스트가 풍부한 긴 시퀀스를 처리하고 이해하는 데 있어 현재 LLM 기능에 현저한 격차가 있음을 시사합니다. 추가 분석 결과, 모델들은 시퀀스 끝에 제시된 레이블에 대한 예측을 선호하는 경향이 있는 것으로 나타났습니다. 긴 시퀀스의 여러 부분을 추론하는 능력은 아직 개선되지 않았습니다. 이번 연구를 통해 긴 문맥 이해와 추론은 기존 LLM에게 여전히 어려운 과제임을 알 수 있습니다. 우리는 LongICLBench가 미래의 긴 문맥 LLM에 대한 보다 현실적인 평가가 될 수 있다고 믿습니다.

    Large Language Models (LLMs) have made significant strides in handling long sequences exceeding 32K tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their abilities in more nuanced, real-world scenarios. This study introduces a specialized benchmark (LongICLBench) focusing on long in-context learning within the realm of extreme-label classification. We meticulously selected six datasets with a label range spanning 28 to 174 classes covering different input (few-shot demonstration) lengths from 2K to 50K tokens. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct predictions. We evaluate 13 long-context LLMs on our benchmarks. We find that the long-context LLMs perform relatively well on less challenging tasks with shorter demonstration lengths by effectively utilizing the long context window. However, on the most challenging task Discovery with 174 labels, all the LLMs struggle to understand the task definition, thus reaching a performance close to zero. This suggests a notable gap in current LLM capabilities for processing and understanding long, context-rich sequences. Further analysis revealed a tendency among models to favor predictions for labels presented toward the end of the sequence. Their ability to reason over multiple pieces in the long sequence is yet to be improved. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LongICLBench could serve as a more realistic evaluation for the future long-context LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1775638933377786076


대규모 언어 모델에서 공간 추론을 유도하는 사고의 시각화 / Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

논문 소개

  • 보이지 않는 세계를 상상하는 인간의 인지 능력에서 영감을 받은 이 새로운 연구는 LLM에서 공간 추론을 유도하는 시각화(VoT)를 제안합니다. VoT는 LLM이 추론 흔적을 '시각화'하여 내부 정신 이미지를 만들어 후속 추론 단계를 안내하고, 시각 타일링 및 시각 탐색과 같은 멀티홉 공간 추론 작업에서 테스트한 결과 기존 멀티모달 LLM보다 뛰어난 성능을 발휘했습니다.

    Inspired by a human cognitive capacity to imagine unseen worlds, this new work proposes Visualization-of-Thought (VoT) prompting to elicit spatial reasoning in LLMs; VoT enables LLMs to "visualize" their reasoning traces, creating internal mental images, that help to guide subsequent reasoning steps; when tested on multi-hop spatial reasoning tasks like visual tiling and visual navigation, VoT outperforms existing multimodal LLMs.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)은 언어 이해와 다양한 추론 작업에서 인상적인 성능을 보여 왔습니다. 그러나 인간 인지의 중요한 측면인 공간 추론 능력은 상대적으로 미개척 분야로 남아 있습니다. 인간은 '마음의 눈'이라고 알려진 과정을 통해 보이지 않는 사물과 행동에 대한 정신적 이미지를 만들어내는 놀라운 능력을 가지고 있어 보이지 않는 세계에 대한 상상을 가능하게 합니다. 이러한 인지 능력에서 영감을 받아 생각의 시각화 (\textbf{VoT}) 프롬프트를 제안합니다. VoT는 추론의 흔적을 시각화하여 LLM의 공간적 추론을 유도함으로써 후속 추론 단계를 안내하는 것을 목표로 합니다. 2D 그리드 월드에서 자연어 탐색, 시각적 탐색, 시각적 타일링 등 멀티홉 공간 추론 작업에 VoT를 사용했습니다. 실험 결과에 따르면 VoT는 LLM의 공간 추론 능력을 크게 향상시키는 것으로 나타났습니다. 특히, VoT는 이러한 작업에서 기존의 다중 모드 대규모 언어 모델(MLLM)을 능가하는 성능을 보였습니다. VoT는 LLM에서 놀라울 정도로 잘 작동하지만, 공간 추론을 촉진하기 위해 \textit{mental image} 를 생성하는 능력은 마음의 눈 과정과 유사하여 MLLM에서 잠재적인 가능성을 시사합니다.

    Large language models (LLMs) have exhibited impressive performance in language comprehension and various reasoning tasks. However, their abilities in spatial reasoning, a crucial aspect of human cognition, remain relatively unexplored. Human possess a remarkable ability to create mental images of unseen objects and actions through a process known as \textbf{the Mind's Eye}, enabling the imagination of the unseen world. Inspired by this cognitive capacity, we propose Visualization-of-Thought (\textbf{VoT}) prompting. VoT aims to elicit spatial reasoning of LLMs by visualizing their reasoning traces, thereby guiding subsequent reasoning steps. We employed VoT for multi-hop spatial reasoning tasks, including natural language navigation, visual navigation, and visual tiling in 2D grid worlds. Experimental results demonstrated that VoT significantly enhances the spatial reasoning abilities of LLMs. Notably, VoT outperformed existing multimodal large language models (MLLMs) in these tasks. While VoT works surprisingly well on LLMs, the ability to generate \textit{mental images} to facilitate spatial reasoning resembles the mind's eye process, suggesting its potential viability in MLLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1776082343813403063


더 깊은 레이어의 불합리한 비효율성 / The Unreasonable Ineffectiveness of the Deeper Layers

논문 소개

  • 널리 사용되는 오픈 웨이트 프리트레이닝 LLM의 간단한 레이어 가지치기 전략은 레이어의 상당 부분(최대 절반)이 제거될 때까지 성능 저하를 최소화하고, 레이어 유사성 메커니즘을 사용하여 최적의 블록을 식별하고 가지치기를 수행한 후 소량의 미세 조정을 통해 손상을 복구하는 것으로 나타났습니다.

    Finds that a simple layer-pruning strategy of popular open-weight pretraining LLMs shows minimal performance degradation until after a large fraction (up to half) of the layers are removed; using a layer similarity mechanism optimal blocks are identified and pruned followed by a small amount of fine-tuning to heal damage.

논문 초록(Abstract)

  • 저희는 널리 사용되는 오픈 가중치 사전 훈련 LLM 제품군에 대한 간단한 레이어 가지치기 전략을 경험적으로 연구하여 레이어의 상당 부분(최대 절반)이 제거될 때까지 다양한 질문-답변 벤치마크에서 성능 저하를 최소화하는 방법을 찾아냈습니다. 이러한 모델을 가지치기하려면 레이어 간의 유사성을 고려하여 가지치기할 최적의 레이어 블록을 식별한 다음, 소량의 미세 조정을 수행하여 손상을 '치유'합니다. 특히 매개변수 효율적 미세 조정(PEFT) 방법, 특히 양자화 및 로우 랭크 어댑터(QLoRA)를 사용하여 각 실험을 단일 A100 GPU에서 수행할 수 있도록 했습니다. 실용적인 관점에서 이러한 결과는 레이어 가지치기 방법이 다른 PEFT 전략을 보완하여 한편으로는 미세 조정의 계산 리소스를 더욱 줄이고, 다른 한편으로는 추론의 메모리와 지연 시간을 개선할 수 있음을 시사합니다. 과학적 관점에서 볼 때, 레이어 삭제에 대한 이러한 LLM의 견고성은 현재의 사전 학습 방법이 네트워크의 더 깊은 레이어에 있는 파라미터를 제대로 활용하지 못하거나 얕은 레이어가 지식 저장에 중요한 역할을 하고 있음을 의미합니다.

    We empirically study a simple layer-pruning strategy for popular families of open-weight pretrained LLMs, finding minimal degradation of performance on different question-answering benchmarks until after a large fraction (up to half) of the layers are removed. To prune these models, we identify the optimal block of layers to prune by considering similarity across layers; then, to "heal" the damage, we perform a small amount of finetuning. In particular, we use parameter-efficient finetuning (PEFT) methods, specifically quantization and Low Rank Adapters (QLoRA), such that each of our experiments can be performed on a single A100 GPU. From a practical perspective, these results suggest that layer pruning methods can complement other PEFT strategies to further reduce computational resources of finetuning on the one hand, and can improve the memory and latency of inference on the other hand. From a scientific perspective, the robustness of these LLMs to the deletion of layers implies either that current pretraining methods are not properly leveraging the parameters in the deeper layers of the network or that the shallow layers play a critical role in storing knowledge.

논문 링크

더 읽어보기

https://x.com/AlphaSignalAI/status/1774858806817906971


JetMoE

논문 소개

  • 0.1백만 달러 미만의 비용으로 훈련되었지만 LLaMA2-7B보다 성능이 뛰어난 8B 모델; LLM 훈련이 일반적으로 생각하는 것보다 훨씬 저렴할 수 있음을 보여줍니다; JetMoE-8B에는 24개의 블록이 있으며 각 블록에는 2개의 MoE 레이어가 있습니다: 주의집중 헤드 혼합(MoA)과 MLP 전문가 혼합(MoE); 각 MoA 및 MoE 계층에는 8명의 전문가가 있으며, 22억 개의 활성 파라미터가 있는 각 입력 토큰에 대해 2명의 전문가가 활성화됩니다.

    An 8B model trained with less than $ 0.1 million cost but outperforms LLaMA2-7B; shows that LLM training can be much cheaper than generally thought; JetMoE-8B has 24 blocks where each block has two MoE layers: Mixture of Attention heads (MoA) and Mixture of MLP Experts (MoE); each MoA and MoE layer has 8 experts, and 2 experts are activated for each input token with 2.2B active parameters.

주요 내용(Key Messages)

  1. JetMoE-8B는 0.1백만 달러 미만의 비용으로 훈련되지만 수십억 달러의 훈련 리소스를 보유한 Meta AI의 LLaMA2-7B보다 성능이 뛰어납니다. LLM 트레이닝은 일반적으로 사람들이 생각하는 것보다 훨씬 저렴할 수 있습니다.
  2. JetMoE-8B는 매우 개방적이고 학계 친화적이기 때문입니다:
    a. 훈련에는 공개 데이터 세트만 사용하며 코드는 오픈 소스입니다. 독점적인 리소스가 필요하지 않습니다.
    b. 대부분의 연구실에서 감당할 수 있는 매우 제한된 컴퓨팅 예산(예: 소비자용 GPU)으로 미세 조정할 수 있습니다.
  3. JetMoE-8B는 추론 중에 22억 개의 활성 매개변수만 사용하므로 계산 비용이 대폭 절감됩니다. Gemma-2B와 같이 유사한 추론 계산을 수행하는 모델과 비교할 때 JetMoE-8B는 지속적으로 더 나은 성능을 달성합니다.
  1. JetMoE-8B is trained with less than $0.1 million cost but outperforms LLaMA2-7B from Meta AI, who has multi-billion-dollar training resources. LLM training can be much cheaper than people generally thought.
  2. JetMoE-8B is very open and academia-friendly because:
    a. It only uses public datasets for training, and the code is open-sourced. No proprietary resource is needed.
    b. It can be finetuned with very limited compute budget (e.g., consumer-grade GPU) that most labs can afford.
  3. JetMoE-8B only has 2.2B active parameters during inference, which drastically lowers the computational cost. Compared to a model with similar inference computation, like Gemma-2B, JetMoE-8B achieves constantly better performance.

논문 링크

https://research.myshell.ai/jetmoe

더 읽어보기

https://x.com/omarsar0/status/1775971009469768104


ReFT: 언어 모델에 대한 표현 미세 조정 / ReFT: Representation Finetuning for Language Models

논문 소개

  • 고정된 기본 모델에서 작동하고 숨겨진 표현에 대한 작업별 개입을 학습하는 표현 미세 조정(ReFT) 방법, 즉 모델 표현의 작은 부분을 조작하여 추론 시 더 나은 다운스트림 성능을 달성하도록 모델 동작을 효과적으로 조정할 수 있는 방법을 제안하고, 10-50배 더 파라미터 효율적인 PEFT를 대체하는 드롭인 방식으로 LoReFT를 제안합니다.

    Proposes a method for representation fine-tuning (ReFT) that operates on a frozen base model and learns task-specific interventions on hidden representations; in other words, by manipulating a small fraction of model representations it is possible to effectively steer model behavior to achieve better downstream performance at inference time; also proposes LoReFT as a drop-in replacement for PEFTs that is 10-50x more parameter efficient.

논문 초록(Abstract)

  • 매개변수 효율적인 미세 조정(PEFT) 방법은 소수의 가중치를 업데이트하여 대규모 모델을 조정하려고 합니다. 그러나 해석 가능성 관련 선행 연구에 따르면 표현은 풍부한 의미 정보를 부호화하며, 표현을 편집하는 것이 더 강력한 대안이 될 수 있음을 시사합니다. 여기서는 \textbf{표현 미세 조정(ReFT, Representation Finetuning)} 메서드 제품군을 개발하여 이 가설을 추구합니다. ReFT 메서드는 고정된 기본 모델에서 작동하며 숨겨진 표현에 대한 작업별 개입을 학습합니다. 우리는 ReFT 계열의 강력한 인스턴스인 저순위 선형 부분공간 ReFT(LoReFT)를 정의합니다. LoReFT는 기존 PEFT를 대체하는 드롭인 방식으로, 이전의 최첨단 PEFT보다 매개변수 효율이 10배~50배 더 높은 개입을 학습합니다. 8가지 상식 추론 과제, 4가지 산술 추론 과제, Alpaca-Eval v1.0, GLUE에서 LoReFT를 선보입니다. 이 모든 평가에서 LoReFT는 효율성과 성능의 균형이 가장 잘 맞았으며, 거의 항상 최신 PEFT를 능가하는 성능을 보였습니다. 일반 ReFT 트레이닝 라이브러리는 GitHub - stanfordnlp/pyreft: ReFT: Representation Finetuning for Language Models 에 공개되어 있습니다.

    Parameter-efficient fine-tuning (PEFT) methods seek to adapt large models via updates to a small number of weights. However, much prior interpretability work has shown that representations encode rich semantic information, suggesting that editing representations might be a more powerful alternative. Here, we pursue this hypothesis by developing a family of \textbf{Representation Finetuning (ReFT)} methods. ReFT methods operate on a frozen base model and learn task-specific interventions on hidden representations. We define a strong instance of the ReFT family, Low-rank Linear Subspace ReFT (LoReFT). LoReFT is a drop-in replacement for existing PEFTs and learns interventions that are 10x-50x more parameter-efficient than prior state-of-the-art PEFTs. We showcase LoReFT on eight commonsense reasoning tasks, four arithmetic reasoning tasks, Alpaca-Eval v1.0, and GLUE. In all these evaluations, LoReFT delivers the best balance of efficiency and performance, and almost always outperforms state-of-the-art PEFTs. We release a generic ReFT training library publicly at GitHub - stanfordnlp/pyreft: ReFT: Representation Finetuning for Language Models.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1776057023697731913


LLM 추론의 발전 / Advancing LLM Reasoning

논문 소개

  • 수학 및 코드 생성과 같은 작업에 대한 오픈 소스 모델 중 추론 및 SoTA 달성에 최적화된 LLM(Eurus) 제품군 제안; 복잡한 추론 작업을 위해 새롭게 큐레이션된 고품질 정렬 데이터 세트 덕분에 추론에서 GPT-3.5 Turbo보다 성능이 뛰어난 Eurus-70B; 데이터에는 추론 체인, 멀티턴 상호작용 및 선호 학습용 쌍별 데이터로 구성된 선호 트리가 포함된 지침이 포함되어 있습니다.

    Proposes a suite of LLMs (Eurus) optimized for reasoning and achieving SoTA among open-source models on tasks such as mathematics and code generation; Eurus-70B outperforms GPT-3.5 Turbo in reasoning largely due to a newly curated, high-quality alignment dataset designed for complex reasoning tasks; the data includes instructions with preference tree consisting of reasoning chains, multi-turn interactions and pairwise data for preference learning.

논문 초록(Abstract)

추론에 최적화된 대규모 언어 모델(LLM) 제품군인 EURUS를 소개합니다. Mistral-7B와 CodeLlama-70B에서 미세 조정된 EURUS 모델은 수학, 코드 생성, 논리적 추론 문제를 포괄하는 다양한 벤치마크에서 오픈 소스 모델 중 최고 수준의 결과를 달성했습니다. 특히 EURUS-70B는 5가지 작업을 포괄하는 12가지 테스트에서 종합적인 벤치마킹을 통해 추론 부문에서 GPT-3.5 Turbo를 능가했으며, 두 가지 까다로운 벤치마크인 LeetCode에서 33.3%의 합격률과 32.6%의 정확도를 달성하여 기존 오픈 소스 모델을 13.3% 이상 크게 앞질렀습니다. EURUS의 강력한 성능은 복잡한 추론 작업을 위해 특별히 설계된 새로 큐레이팅된 대규모 고품질 정렬 데이터 세트인 ULTRAINTERACT에 기인합니다. ULTRAINTERACT는 지도 미세 조정과 선호도 학습에 모두 사용할 수 있습니다. 각 지침에 대해 (1) 통합된 형식의 다양한 계획 전략이 포함된 추론 체인, (2) 환경 및 비평과의 다중 턴 상호작용 궤적, (3) 선호도 학습을 용이하게 하는 쌍별 데이터로 구성된 선호도 트리가 포함되어 있습니다. 울트라인터랙트를 통해 추론 과제에 대한 선호도 학습에 대한 심층적인 탐색을 수행할 수 있습니다. 조사 결과, 잘 정립된 선호도 학습 알고리즘 중 일부는 일반적인 상황에서의 효과에 비해 추론 과제에 적합하지 않을 수 있음을 다시 한 번 확인했습니다. 이에 영감을 받아 새로운 보상 방식을 도출했습니다.

We introduce EURUS, a suite of large language models (LLMs) optimized for reasoning. Finetuned from Mistral-7B and CodeLlama-70B, EURUS models achieve state-of-the-art results among open-source models on a diverse set of benchmarks covering mathematics, code generation, and logical reasoning problems. Notably, EURUS-70B beats GPT-3.5 Turbo in reasoning through a comprehensive benchmarking across 12 tests covering five tasks, and achieves a 33.3% pass@1 accuracy on LeetCode and 32.6% on TheoremQA, two challenging benchmarks, substantially outperform- ing existing open-source models by margins more than 13.3%. The strong performance of EURUS can be primarily attributed to ULTRAINTERACT, our newly-curated large-scale, high-quality alignment dataset specifically designed for complex reasoning tasks. ULTRAINTERACT can be used in both supervised fine-tuning and preference learning. For each instruction, it includes a preference tree consisting of (1) reasoning chains with diverse planning strategies in a unified format, (2) multi-turn interaction trajectories with the environment and the critique, and (3) pairwise data to facilitate preference learning. ULTRAINTERACT allows us to conduct an in-depth exploration of preference learning for reasoning tasks. Our investigation re- veals that some well-established preference learning algorithms may be less suitable for reasoning tasks compared to their effectiveness in general con- versations. Inspired by this, we derive a novel reward modeling objective which, together with ULTRAINTERACT, leads to a strong reward model.

논문 링크

더 읽어보기

https://x.com/lifan__yuan/status/1775217887701278798


신경망 압축 텍스트로 LLM 학습하기 / Training LLMs over Neurally Compressed Text

논문 소개

  • 신경 텍스트 압축기로 LLM을 훈련하는 방법, 제안된 압축 기법은 텍스트를 각각 동일한 비트 길이로 압축하는 블록으로 분할하고, 이 접근 방식은 규모에 따라 개선되며 난해성 및 추론 속도 벤치마크에서 모두 바이트 수준의 기준선을 능가하고, 지연 시간은 더 짧은 시퀀스 길이로 감소합니다.

    Explores training LLMs with neural text compressors; the proposed compression technique segments text into blocks that each compress to the same bit length; the approach improves at scale and outperforms byte-level baselines on both perplexity and inference speed benchmarks; latency is reduced to the shorter sequence length.

논문 초록(Abstract)

  • 이 논문에서는 고도로 압축된 텍스트에 대해 대규모 언어 모델(LLM)을 훈련하는 아이디어를 살펴봅니다. 표준 하위 단어 토큰화기는 텍스트를 작은 비율로 압축하지만, 신경망 텍스트 압축기는 훨씬 더 높은 압축률을 달성할 수 있습니다. 신경망으로 압축된 텍스트에 대해 LLM을 직접 학습시킬 수 있다면 학습 및 서비스 효율성이 향상될 뿐만 아니라 긴 텍스트 스팬을 더 쉽게 처리할 수 있는 이점이 있을 것입니다. 이 목표의 주요 장애물은 강력한 압축이 학습에 적합하지 않은 불투명한 출력을 생성하는 경향이 있다는 것입니다. 특히 산술 코딩을 통해 압축된 텍스트는 LLM이 쉽게 학습할 수 없다는 사실을 발견했습니다. 이를 극복하기 위해 텍스트를 동일한 비트 길이로 압축하는 블록으로 분할하는 새로운 압축 기법인 이퀄 인포 윈도우를 제안합니다. 이 방법을 사용하면 신경적으로 압축된 텍스트에 대한 효과적인 학습이 규모에 따라 개선되고 난해성 및 추론 속도 벤치마크에서 바이트 수준의 기준선을 큰 차이로 능가하는 성능을 보여줍니다. 이 방법은 동일한 매개변수 수로 훈련된 모델에 대해 하위 단어 토큰화기보다 난해도가 더 낮지만, 시퀀스 길이가 더 짧다는 이점이 있습니다. 시퀀스 길이가 짧으면 자동 회귀 생성 단계가 더 적게 필요하고 지연 시간이 줄어듭니다. 마지막으로, 학습 가능성에 기여하는 속성에 대한 광범위한 분석을 제공하고 고압축 토큰화기의 성능을 더욱 개선하는 방법에 대한 구체적인 제안을 제공합니다.

    In this paper, we explore the idea of training large language models (LLMs) over highly compressed text. While standard subword tokenizers compress text by a small factor, neural text compressors can achieve much higher rates of compression. If it were possible to train LLMs directly over neurally compressed text, this would confer advantages in training and serving efficiency, as well as easier handling of long text spans. The main obstacle to this goal is that strong compression tends to produce opaque outputs that are not well-suited for learning. In particular, we find that text na"ively compressed via Arithmetic Coding is not readily learnable by LLMs. To overcome this, we propose Equal-Info Windows, a novel compression technique whereby text is segmented into blocks that each compress to the same bit length. Using this method, we demonstrate effective learning over neurally compressed text that improves with scale, and outperforms byte-level baselines by a wide margin on perplexity and inference speed benchmarks. While our method delivers worse perplexity than subword tokenizers for models trained with the same parameter count, it has the benefit of shorter sequence lengths. Shorter sequence lengths require fewer autoregressive generation steps, and reduce latency. Finally, we provide extensive analysis of the properties that contribute to learnability, and offer concrete suggestions for how to further improve the performance of high-compression tokenizers.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1776055420848631814


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: