[2024/10/28 ~ 11/03] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/10/28 ~ 11/03] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들에는 크게 두 가지 주요 트렌드가 있습니다: 대형 언어 모델(LLM)과 멀티모달 학습입니다.

  • 표제만 보더라도 대형 언어 모델과 관련된 트렌드가 눈에 띕니다. "Geometry of Concepts in LLMs", "LLMs Solve Math with a Bag of Heuristics", "Distinguishing Ignorance from Error in LLM Hallucinations", "The Role of Prompting and External Tools in Hallucination Rates of LLMs" 등 여러 논문은 모두 대형 언어 모델의 개념 및 성능, 그리고 그들이 직면한 문제들에 대한 탐구를 중심으로 구성되어 있습니다. 이러한 현상은 최근 LLM의 응용이 점점 광범위해지고 있으며, 그로 인한 성과와 한계를 분석하는 연구가 본격적으로 진행되고 있음을 보여줍니다. 대형 언어 모델은 자연어 처리(NLP)뿐만 아니라 수학 문제 해결 및 결함 추론 등 다양한 영역에서 활용되며, 이에 따라 더욱 심화된 연구가 요구되고 있습니다.

  • 또한, "Multimodal RAG" 논문은 멀티모달 학습과 관련이 있습니다. 멀티모달 학습은 여러 형태의 데이터(예: 텍스트, 이미지)를 결합하여 더 포괄적이고 강력한 인공지능 모델을 구축하는 데에 초점을 맞추고 있습니다. 이는 데이터의 다양성과 복잡성이 증가하면서 데이터 간의 관계를 이해하고 통합할 필요성이 높아지는 현시점에서 주목받고 있는 분야입니다. 모달리티 간 정보 결합은 새로운 형태의 인공지능 응용 가능성을 열어주며, 복합적인 문제 해결에 있어 잠재적인 도약을 제공합니다.

  • 대형 언어 모델과 멀티모달 학습이 어떤 방식으로 결합하느냐에 따라, 새로운 도전에 대응하고 더 높은 수준의 인공지능 모델을 개발할 가능성이 엿보이고 있습니다. 따라서 이러한 연구 방향은 앞으로도 인공지능 분야에서 중요하게 다뤄질 것입니다.


개념의 기하학: 스파스 자동 인코더 기능 구조 / The Geometry of Concepts: Sparse Autoencoder Feature Structure

논문 소개

  1. 관련 개념 간의 원자 수준 평행 사변형 패턴(예: 남자:여자::왕:여왕), 2) 수학/코드와 같은 다양한 유형의 지식을 위한 뇌와 같은 기능적 '엽', 3) 중간 모델 계층에서 특수 구조를 보여주는 은하계 수준의 고유값 분포 등 세 가지 척도에서 희소 자동 인코더(SAE)에서 개념 표현의 기하학적 구조를 조사합니다.

Examines the geometric structure of concept representations in sparse autoencoders (SAEs) at three scales: 1) atomic-level parallelogram patterns between related concepts (e.g., man:woman::king:queen), 2) brain-like functional "lobes" for different types of knowledge like math/code, 3) and galaxy-level eigenvalue distributions showing a specialized structure in middle model layers.

논문 초록(Abstract)

최근 스파스 자동 인코더는 대규모 언어 모델로 표현되는 개념의 세계에 해당하는 고차원 벡터 사전을 생성했습니다. 이 개념 세계는 세 가지 수준에서 흥미로운 구조를 가지고 있습니다. 1) "원자" 소규모 구조에는 (남자-여자-왕-여왕)과 같이 잘 알려진 예를 일반화하는 평행 사변형 또는 사다리꼴인 "결정"이 포함되어 있습니다. 이러한 평행 사변형과 관련 함수 벡터의 품질은 선형 판별 분석을 통해 효율적으로 수행되는 단어 길이와 같은 전역 방해 요소를 투영할 때 크게 향상된다는 것을 발견했습니다. 2) "뇌"의 중간 규모 구조는 상당한 공간 모듈성을 가지고 있습니다. 예를 들어, 수학과 코드 기능은 신경 fMRI 이미지에서 볼 수 있는 기능적 로브와 유사한 "로브"를 형성합니다. 여러 메트릭을 사용해 이러한 로브의 공간적 위치를 정량화한 결과, 충분히 거친 스케일에서 함께 발생하는 특징의 클러스터도 특징 지오메트리가 무작위일 때 예상하는 것보다 훨씬 더 공간적으로 함께 모여 있음을 발견했습니다. 3) 특징점 클라우드의 '은하' 규모의 대규모 구조는 등방성이 아니라 중간층에서 가장 가파른 기울기를 갖는 고유값의 거듭제곱 법칙을 가집니다. 또한 클러스터링 엔트로피가 레이어에 따라 어떻게 달라지는지도 정량화했습니다.

Sparse autoencoders have recently produced dictionaries of high-dimensional vectors corresponding to the universe of concepts represented by large language models. We find that this concept universe has interesting structure at three levels: 1) The "atomic" small-scale structure contains "crystals" whose faces are parallelograms or trapezoids, generalizing well-known examples such as (man-woman-king-queen). We find that the quality of such parallelograms and associated function vectors improves greatly when projecting out global distractor directions such as word length, which is efficiently done with linear discriminant analysis. 2) The "brain" intermediate-scale structure has significant spatial modularity; for example, math and code features form a "lobe" akin to functional lobes seen in neural fMRI images. We quantify the spatial locality of these lobes with multiple metrics and find that clusters of co-occurring features, at coarse enough scale, also cluster together spatially far more than one would expect if feature geometry were random. 3) The "galaxy" scale large-scale structure of the feature point cloud is not isotropic, but instead has a power law of eigenvalues with steepest slope in middle layers. We also quantify how the clustering entropy depends on the layer.

논문 링크

더 읽어보기


SimpleQA

논문 소개

4,326개의 짧은 사실적 질문으로 구성된 도전적인 벤치마크를 GPT-4 응답에 대해 적대적으로 수집한 결과, GPT-4o 및 Claude와 같은 프론티어 모델이 50% 미만의 정확도를 달성한다는 보고, 모델 진술 신뢰도와 정확도 사이에 양의 보정이 존재하여 어느 정도의 신뢰도가 있다는 것을 발견, 진술 신뢰도 측면에서 LLM의 보정을 개선할 여지가 여전히 존재한다는 주장 등이 있습니다.

A challenging benchmark of 4,326 short factual questions adversarially collected against GPT-4 responses; reports that frontier models like GPT-4o and Claude achieve less than 50% accuracy; finds that there is a positive calibration between the model stated confidence and accuracy, signaling that they have some notion of confidence; claims that there is still room to improve the calibration of LLMs in terms of stated confidence.

논문 링크

https://openai.com/index/introducing-simpleqa/

더 읽어보기

https://x.com/OpenAI/status/1851680760539025639


AFlow: 에이전트 워크플로 생성 자동화 / AFlow: Automating Agentic Workflow Generation

논문 소개

에이전트 워크플로우 생성을 자동화하는 새로운 프레임워크, 워크플로우 최적화를 LLM 호출 노드가 에지로 연결된 코드 표현 워크플로우에 대한 검색 문제로 재구성, 코드 수정, 트리 구조 경험, 실행 피드백을 통해 워크플로우를 반복적으로 개선하는 MCTS의 변형을 사용하여 검색 공간을 효율적으로 탐색, 6개 벤치마크 데이터세트에 대한 실험에서 AFlow의 효과는 5.수동으로 설계된 방법보다 7%, 기존 자동화된 접근 방식보다 19.5% 개선되었으며, AFlow를 사용하면 추론 비용의 4.55%만으로 특정 작업에서 소규모 모델이 GPT-4o보다 뛰어난 성능을 발휘할 수 있습니다.

A novel framework for automating the generation of agentic workflows; it reformulates workflow optimization as a search problem over code-represented workflows, where LLM-invoking nodes are connected by edges; it efficiently explores the search space using a variant of MCTS, iteratively refining workflows through code modification, tree-structured experience, and execution feedback; experiments across six benchmark datasets demonstrate AFlow’s effectiveness, showing a 5.7% improvement over manually designed methods and a 19.5% improvement over existing automated approaches; AFlow also enables smaller models to outperform GPT-4o on specific tasks at just 4.55% of its inference cost.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 일반적으로 상세한 지침과 작업 순서를 따르는 에이전트 워크플로우를 사용하여 다양한 영역에서 복잡한 작업을 해결하는 데 놀라운 잠재력을 보여 왔습니다. 하지만 이러한 워크플로우를 구축하려면 상당한 사람의 노력이 필요하기 때문에 확장성과 일반화 가능성이 제한됩니다. 최근 연구에서는 이러한 워크플로우의 생성 및 최적화를 자동화하기 위해 노력해 왔지만, 기존의 방법은 여전히 초기 수동 설정에 의존하고 있어 완전히 자동화되고 효과적인 워크플로우 생성을 달성하는 데는 부족합니다. 이러한 문제를 해결하기 위해 저희는 워크플로우 최적화를 LLM 호출 노드가 에지로 연결된 코드로 표현된 워크플로우에 대한 검색 문제로 재구성했습니다. 이 공간을 몬테카를로 트리 검색을 사용하여 효율적으로 탐색하고 코드 수정, 트리 구조화된 경험, 실행 피드백을 통해 워크플로를 반복적으로 개선하는 자동화된 프레임워크인 AFlow를 소개합니다. 6개의 벤치마크 데이터 세트에 대한 경험적 평가에서 AFlow의 효율성이 입증되었으며, 최신 기준선 대비 평균 5.7%의 개선 효과가 나타났습니다. 또한, AFlow를 사용하면 더 작은 모델이 특정 작업에서 추론 비용의 4.55%에 해당하는 비용으로 GPT-4o보다 뛰어난 성능을 발휘할 수 있습니다. 코드는 GitHub - geekan/MetaGPT: 🌟 The Multi-Agent Framework: First AI Software Company, Towards Natural Language Programming 에서 확인할 수 있습니다.

Large language models (LLMs) have demonstrated remarkable potential in solving complex tasks across diverse domains, typically by employing agentic workflows that follow detailed instructions and operational sequences. However, constructing these workflows requires significant human effort, limiting scalability and generalizability. Recent research has sought to automate the generation and optimization of these workflows, but existing methods still rely on initial manual setup and fall short of achieving fully automated and effective workflow generation. To address this challenge, we reformulate workflow optimization as a search problem over code-represented workflows, where LLM-invoking nodes are connected by edges. We introduce AFlow, an automated framework that efficiently explores this space using Monte Carlo Tree Search, iteratively refining workflows through code modification, tree-structured experience, and execution feedback. Empirical evaluations across six benchmark datasets demonstrate AFlow's efficacy, yielding a 5.7% average improvement over state-of-the-art baselines. Furthermore, AFlow enables smaller models to outperform GPT-4o on specific tasks at 4.55% of its inference cost in dollars. The code will be available at GitHub - geekan/MetaGPT: 🌟 The Multi-Agent Framework: First AI Software Company, Towards Natural Language Programming.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1852339570891014415


알고리즘 없는 산술: 휴리스틱으로 수학을 해결하는 언어 모델 / Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics

논문 소개

인과 분석을 사용하여 기본 산술 논리를 수행할 때 LLM의 행동을 설명하는 뉴런을 찾고, 휴리스틱 뉴런의 조합이 올바른 산술 답을 생성하는 데 사용되는 메커니즘이라는 것을 발견하고 가설을 세우고, 서로 다른 휴리스틱 유형의 정렬되지 않은 조합이 산술 프롬프트에서 모델의 정확도를 대부분 설명하는 메커니즘이라는 것을 발견합니다.

Uses causal analysis to find neurons that explain an LLM's behavior when doing basic arithmetic logic; discovers and hypothesizes that the combination of heuristic neurons is the mechanism used to produce correct arithmetic answers; finds that the unordered combination of different heuristic types is the mechanism that explains most of the model’s accuracy on arithmetic prompts.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 일반화 가능한 강력한 알고리즘을 학습하여 추론 작업을 해결할까요, 아니면 학습 데이터를 암기할까요? 이 질문을 조사하기 위해 산술 추론을 대표적인 과제로 사용합니다. 인과 분석을 사용하여 기본 산술 논리에 대한 모델의 동작 대부분을 설명하는 모델의 하위 집합(회로)을 식별하고 그 기능을 살펴봅니다. 개별 회로 뉴런의 수준을 확대하여 간단한 휴리스틱을 구현하는 중요한 뉴런의 희소 집합을 발견합니다. 각 휴리스틱은 숫자 입력 패턴을 식별하고 그에 상응하는 답을 출력합니다. 우리는 이러한 휴리스틱 뉴런의 조합이 올바른 산술 답을 산출하는 데 사용되는 메커니즘이라는 가설을 세웁니다. 이를 테스트하기 위해 각 뉴런을 피연산자가 특정 범위 내에 있을 때 활성화되는 뉴런과 같은 여러 휴리스틱 유형으로 분류하고 이러한 휴리스틱 유형의 정렬되지 않은 조합이 산술 프롬프트에서 모델의 정확도를 대부분 설명하는 메커니즘임을 확인합니다. 마지막으로, 이 메커니즘이 훈련 초기에 산술 정확도의 주요 원천으로 나타난다는 사실을 입증했습니다. 전반적으로 여러 LLM에 대한 실험 결과를 종합해 보면, LLM은 강력한 알고리즘이나 암기가 아니라 '휴리스틱의 가방'에 의존해 산술을 수행한다는 것을 알 수 있습니다.

Do large language models (LLMs) solve reasoning tasks by learning robust generalizable algorithms, or do they memorize training data? To investigate this question, we use arithmetic reasoning as a representative task. Using causal analysis, we identify a subset of the model (a circuit) that explains most of the model's behavior for basic arithmetic logic and examine its functionality. By zooming in on the level of individual circuit neurons, we discover a sparse set of important neurons that implement simple heuristics. Each heuristic identifies a numerical input pattern and outputs corresponding answers. We hypothesize that the combination of these heuristic neurons is the mechanism used to produce correct arithmetic answers. To test this, we categorize each neuron into several heuristic types-such as neurons that activate when an operand falls within a certain range-and find that the unordered combination of these heuristic types is the mechanism that explains most of the model's accuracy on arithmetic prompts. Finally, we demonstrate that this mechanism appears as the main source of arithmetic accuracy early in training. Overall, our experimental results across several LLMs show that LLMs perform arithmetic using neither robust algorithms nor memorization; rather, they rely on a "bag of heuristics".

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1851233281116946923


O1 복제 여정: 전략적 진행 보고서 - 1부 / O1 Replication Journey: A Strategic Progress Report -- Part 1

논문 소개

Y - OpenAI의 o1 모델의 기능을 복제하고 있다고 보고하며, 자사의 여정 학습 기법은 지름길 학습뿐만 아니라 시행착오, 반성, 역추적을 포함한 완전한 탐색 과정을 학습하도록 장려하고, 327개의 훈련 샘플만으로 MATH 데이터세트에서 지름길 학습을 8.0% 능가하는 성과를 거뒀다고 주장합니다.

Y - reports to be replicating the capabilities of OpenAI's o1 model; their journey learning technique encourages learning not just shortcuts, but the complete exploration process, including trial and error, reflection, and backtracking; claims that with only 327 training samples, their journey learning technique surpassed shortcut learning by 8.0% on the MATH dataset.

논문 초록(Abstract)

이 백서에서는 O1 복제 여정에서 구체화된 인공지능 연구에 대한 선구적인 접근 방식을 소개합니다. OpenAI의 획기적인 O1 모델 발표에 따라, 저희는 AI 연구 수행 및 커뮤니케이션 프로세스를 재구상하면서 그 기능을 복제하기 위한 투명한 실시간 탐색에 착수했습니다. 저희의 방법론은 장기간의 팀 기반 프로젝트의 고립성, 정보 공유 지연, 다양한 기여에 대한 인정 부족 등 현대 AI 연구의 중요한 과제를 해결합니다. 성공과 실패를 모두 포함한 복제 노력에 대한 포괄적인 실시간 문서를 제공함으로써 개방형 과학을 육성하고 집단적 발전을 가속화하며 AI 기반 과학적 발견을 위한 토대를 마련하는 것을 목표로 합니다. 저희의 연구 진행 보고서는 기존의 연구 논문과 크게 차별화되어 연구 여정 전반에 걸쳐 지속적인 업데이트, 완전한 프로세스 투명성, 적극적인 커뮤니티 참여를 제공합니다. 기술적으로는 모델이 지름길뿐만 아니라 시행착오, 반성, 역추적을 포함한 전체 탐색 과정을 학습하도록 장려하는 여정 학습 패러다임을 제안했습니다. 여정 학습은 327개의 훈련 샘플만으로 추가적인 트릭 없이도 수학 데이터 세트에서 기존의 지도 학습을 8% 이상 능가하는 성과를 거두며 매우 강력한 잠재력을 입증했습니다. 이것이 바로 우리가 성공적으로 해독한 O1 기술의 가장 핵심적인 요소라고 생각합니다. 기술 가설과 인사이트, 인지 탐색 지도, 맞춤형 개발 도구 등 유용한 리소스는 GitHub - GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I 에서 확인할 수 있습니다.

This paper introduces a pioneering approach to artificial intelligence research, embodied in our O1 Replication Journey. In response to the announcement of OpenAI's groundbreaking O1 model, we embark on a transparent, real-time exploration to replicate its capabilities while reimagining the process of conducting and communicating AI research. Our methodology addresses critical challenges in modern AI research, including the insularity of prolonged team-based projects, delayed information sharing, and the lack of recognition for diverse contributions. By providing comprehensive, real-time documentation of our replication efforts, including both successes and failures, we aim to foster open science, accelerate collective advancement, and lay the groundwork for AI-driven scientific discovery. Our research progress report diverges significantly from traditional research papers, offering continuous updates, full process transparency, and active community engagement throughout the research journey. Technologically, we proposed the journey learning paradigm, which encourages models to learn not just shortcuts, but the complete exploration process, including trial and error, reflection, and backtracking. With only 327 training samples and without any additional tricks, journey learning outperformed conventional supervised learning by over 8% on the MATH dataset, demonstrating its extremely powerful potential. We believe this to be the most crucial component of O1 technology that we have successfully decoded. We share valuable resources including technical hypotheses and insights, cognitive exploration maps, custom-developed tools, etc at GitHub - GAIR-NLP/O1-Journey: O1 Replication Journey: A Strategic Progress Report – Part I.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1850748790308761988


LLM 환각에서 무지와 오류 구분하기 / Distinguishing Ignorance from Error in LLM Hallucinations

논문 소개

모델이 지식이 부족한 경우(HK-)와 올바른 지식을 가지고 있음에도 불구하고 환각하는 경우(HK+)의 두 가지 유형의 LLM 환각을 구분하는 방법; 제안된 접근 방식을 사용하여 모델별 데이터 세트를 구축하고, 모델별 데이터 세트가 일반 데이터 세트에 비해 HK+ 환각을 감지하는 데 더 효과적임을 보여줍니다.

A method to distinguish between two types of LLM hallucinations: when models lack knowledge (HK-) versus when they hallucinate despite having correct knowledge (HK+); they build model-specific datasets using their proposed approach and show that model-specific datasets are more effective for detecting HK+ hallucinations compared to generic datasets.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 근거가 없거나 사실과 다르거나 이전 세대와 일치하지 않는 출력과 같은 환각에 취약합니다. 우리는 이전 연구에서 (1) 모델이 매개변수에 정답이 없거나 (2) 필요한 지식이 있음에도 불구하고 잘못된 답변을 하는 두 가지 유형의 환각을 완전히 다루지 않은 근접 질문 답변(CBQA)에 초점을 맞추고 있습니다. 이러한 경우를 구분하는 것이 환각을 감지하고 완화하는 데 매우 중요하다고 주장합니다. 특히 (2)의 경우 지식이 모델의 매개변수 내에 존재하므로 모델의 내부 계산에 개입하여 완화할 수 있습니다. 반대로 (1)의 경우에는 완화를 위해 활용할 수 있는 매개변수 지식이 없으므로 외부 지식 소스에 의존하거나 기권함으로써 해결해야 합니다. 두 가지 경우를 구분하기 위해 두 번째 환각 유형에 대한 모델별 데이터 세트를 구축하는 접근 방식인 '올바른 지식이 있음에도 불구하고 오답(WACK)'을 소개합니다. 실험을 통해 두 가지 유형의 환각이 모델의 내부 상태에서 서로 다르게 표현된다는 것을 확인했습니다. 다음으로, WACK을 사용하여 구축된 데이터 세트가 모델 간에 차이를 보이는 것을 보여줌으로써 모델이 특정 사실에 대한 지식을 공유하더라도 환각으로 이어지는 구체적인 예시에서는 여전히 차이가 있음을 보여줍니다. 마지막으로, WACK 데이터세트에서 프로브를 훈련하면 일반적인 일반 데이터세트를 사용할 때보다 사례 (2) 환각을 더 잘 감지할 수 있음을 보여줍니다. 코드는 GitHub - technion-cs-nlp/hallucination-mitigation 에서 확인할 수 있습니다.

Large language models (LLMs) are susceptible to hallucinations-outputs that are ungrounded, factually incorrect, or inconsistent with prior generations. We focus on close-book Question Answering (CBQA), where previous work has not fully addressed the distinction between two possible kinds of hallucinations, namely, whether the model (1) does not hold the correct answer in its parameters or (2) answers incorrectly despite having the required knowledge. We argue that distinguishing these cases is crucial for detecting and mitigating hallucinations. Specifically, case (2) may be mitigated by intervening in the model's internal computation, as the knowledge resides within the model's parameters. In contrast, in case (1) there is no parametric knowledge to leverage for mitigation, so it should be addressed by resorting to an external knowledge source or abstaining. To help distinguish between the two cases, we introduce Wrong Answer despite having Correct Knowledge (WACK), an approach for constructing model-specific datasets for the second hallucination type. Our probing experiments indicate that the two kinds of hallucinations are represented differently in the model's inner states. Next, we show that datasets constructed using WACK exhibit variations across models, demonstrating that even when models share knowledge of certain facts, they still vary in the specific examples that lead to hallucinations. Finally, we show that training a probe on our WACK datasets leads to better hallucination detection of case (2) hallucinations than using the common generic one-size-fits-all datasets. The code is available at GitHub - technion-cs-nlp/hallucination-mitigation .

논문 링크

더 읽어보기

https://x.com/AdiSimhi/status/1851650371615125563


텍스트 그 이상: 산업용 애플리케이션을 위한 멀티모달 입력을 통한 RAG 최적화 / Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

논문 소개

산업 영역에서 멀티모달 모델을 RAG 시스템에 가장 잘 통합하는 방법에 대한 토론을 제공하며, LLM-as-a-Judge를 사용하여 이러한 시스템을 평가하는 방법에 대한 심층적인 토론도 제공합니다.

Provides a discussion on how to best integrate multimodal models into RAG systems for the industrial domain; it also provides a deep discussion on the evaluation of these systems using LLM-as-a-Judge.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 질문에 답하는 데 있어 인상적인 능력을 보여 왔지만, 도메인별 지식이 부족하고 환각에 빠지기 쉽습니다. 검색 증강 생성(RAG)은 이러한 문제를 해결하기 위한 한 가지 접근 방식이며, 멀티모달 모델은 텍스트와 이미지를 모두 처리하는 유망한 AI 비서로 떠오르고 있습니다. 이 백서에서는 산업 영역에서 멀티모달 모델을 RAG 시스템에 가장 잘 통합하는 방법을 결정하기 위한 일련의 실험에 대해 설명합니다. 실험의 목적은 산업 도메인 내 문서에서 텍스트와 함께 이미지를 포함하면 RAG 성능이 향상되는지 확인하고 이러한 멀티모달 RAG 시스템을 위한 최적의 구성을 찾는 것입니다. 실험에는 이미지 처리 및 검색을 위한 두 가지 접근 방식과 답변 합성을 위한 두 가지 LLM(GPT4-Vision 및 LLaVA)이 포함됩니다. 이러한 이미지 처리 전략에는 멀티모달 임베딩 사용과 이미지에서 텍스트 요약 생성이 포함됩니다. 저희는 LLM-as-a-Judge 접근법으로 실험을 평가합니다. 그 결과, 이미지 검색이 텍스트 검색보다 더 어려운 과제이기는 하지만 멀티모달 RAG가 단일 모달리티 RAG 설정보다 더 나은 성능을 발휘할 수 있다는 사실이 밝혀졌습니다. 또한 이미지에서 텍스트 요약을 활용하는 것이 멀티모달 임베딩을 사용하는 것보다 더 유망한 접근 방식으로 향후 더 많은 발전의 기회를 제공합니다.

Large Language Models (LLMs) have demonstrated impressive capabilities in answering questions, but they lack domain-specific knowledge and are prone to hallucinations. Retrieval Augmented Generation (RAG) is one approach to address these challenges, while multimodal models are emerging as promising AI assistants for processing both text and images. In this paper we describe a series of experiments aimed at determining how to best integrate multimodal models into RAG systems for the industrial domain. The purpose of the experiments is to determine whether including images alongside text from documents within the industrial domain increases RAG performance and to find the optimal configuration for such a multimodal RAG system. Our experiments include two approaches for image processing and retrieval, as well as two LLMs (GPT4-Vision and LLaVA) for answer synthesis. These image processing strategies involve the use of multimodal embeddings and the generation of textual summaries from images. We evaluate our experiments with an LLM-as-a-Judge approach. Our results reveal that multimodal RAG can outperform single-modality RAG settings, although image retrieval poses a greater challenge than text retrieval. Additionally, leveraging textual summaries from images presents a more promising approach compared to the use of multimodal embeddings, providing more opportunities for future advancements.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1851479149690642456


대규모 언어 모델의 환각률에서 프롬프트 및 외부 도구의 역할에 대한 조사 / Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models

논문 소개

LLM의 환각을 줄이기 위한 다양한 프롬프트 전략과 프레임워크를 테스트한 결과, 단순한 프롬프트 기법이 더 복잡한 방법보다 성능이 뛰어나며, 도구 사용의 복잡성으로 인해 LLM 에이전트가 더 높은 환각률을 보인다고 보고합니다.

Tests different prompting strategies and frameworks aimed at reducing hallucinations in LLMs; finds that simpler prompting techniques outperform more complex methods; it reports that LLM agents exhibit higher hallucination rates due to the added complexity of tool usage.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 사람이 읽을 수 있는 광범위한 텍스트 말뭉치로 학습된 강력한 계산 모델로, 범용 언어 이해 및 생성을 수행할 수 있습니다. LLM은 다양한 자연어 처리(NLP) 작업에서 탁월한 성능을 발휘하여 업계와 학계 모두에서 큰 주목을 받고 있습니다. 이러한 성공에도 불구하고 LLM은 종종 환각이라고 하는 부정확한 결과를 생성하기도 합니다. LLM이 특정 작업을 수행하기 위한 지침을 설계하고 공식화하는 프로세스인 프롬프트 엔지니어링은 환각을 완화하기 위한 핵심 접근 방식으로 부상했습니다. 이 백서에서는 LLM의 환각을 줄이기 위한 다양한 프롬프트 전략과 프레임워크에 대한 포괄적인 경험적 평가를 제공합니다. 다양한 프롬프트 기법을 광범위한 벤치마크 데이터 세트에 적용하여 각 방법의 정확도와 환각률을 평가합니다. 또한 이 논문에서는 동일한 벤치마크에서 도구 호출 에이전트(언어 생성 이외의 기능을 강화하기 위해 외부 도구로 보강된 LLM)가 환각률에 미치는 영향도 조사합니다. 연구 결과에 따르면 최적의 프롬프트 기법은 문제 유형에 따라 다르며, 더 간단한 기법이 더 복잡한 방법보다 환각을 줄이는 데 더 효과적이라는 것이 밝혀졌습니다. 또한, LLM 에이전트는 외부 도구 사용의 복잡성이 더해져 환각률이 훨씬 더 높아질 수 있음을 보여줍니다.

Large Language Models (LLMs) are powerful computational models trained on extensive corpora of human-readable text, enabling them to perform general-purpose language understanding and generation. LLMs have garnered significant attention in both industry and academia due to their exceptional performance across various natural language processing (NLP) tasks. Despite these successes, LLMs often produce inaccuracies, commonly referred to as hallucinations. Prompt engineering, the process of designing and formulating instructions for LLMs to perform specific tasks, has emerged as a key approach to mitigating hallucinations. This paper provides a comprehensive empirical evaluation of different prompting strategies and frameworks aimed at reducing hallucinations in LLMs. Various prompting techniques are applied to a broad set of benchmark datasets to assess the accuracy and hallucination rate of each method. Additionally, the paper investigates the influence of tool-calling agents (LLMs augmented with external tools to enhance their capabilities beyond language generation) on hallucination rates in the same benchmarks. The findings demonstrate that the optimal prompting technique depends on the type of problem, and that simpler techniques often outperform more complex methods in reducing hallucinations. Furthermore, it is shown that LLM agents can exhibit significantly higher hallucination rates due to the added complexity of external tool usage.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1850745569125253401


MrT5: 효율적인 바이트 수준 언어 모델을 위한 동적 토큰 병합 / MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

논문 소개

동적 토큰 삭제 메커니즘(학습된 삭제 게이트를 통해)을 사용하여 모델 성능을 유지하면서 시퀀스 길이를 최대 80%까지 단축하는 바이트 수준 언어 모델의 보다 효율적인 변형으로, 기존 토큰화 없이도 더 빠른 추론과 다국어 텍스트 처리가 가능하며, MrT5는 XNLI 및 문자 수준 조작과 같은 다운스트림 작업에서 ByT5와 경쟁하는 정확도를 유지하면서 추론 실행 시간을 개선할 수 있습니다.

A more efficient variant of byte-level language models that uses a dynamic token deletion mechanism (via a learned delete gate) to shorten sequence lengths by up to 80% while maintaining model performance; this enables faster inference and better handling of multilingual text without traditional tokenization; MrT5 maintains competitive accuracy with ByT5 on downstream tasks such as XNLI and character-level manipulations while improving inference runtimes.

논문 초록(Abstract)

하위 단어 토큰화에 의존하는 모델에는 맞춤법 오류와 같은 문자 수준의 노이즈에 민감하고 언어와 스크립트에 따라 압축률이 일관되지 않는 등 상당한 단점이 있습니다. ByT5와 같은 문자 또는 바이트 수준 모델이 이러한 문제를 해결하려고 시도하고 있지만, 토큰화 없이 원시 바이트 스트림을 처리하면 시퀀스 길이가 상당히 길어져 학습과 추론이 비효율적이므로 널리 채택되지는 못했습니다. 이 연구에서는 입력 시퀀스 길이를 동적으로 단축하기 위해 인코더에 토큰 삭제 메커니즘을 통합한 보다 효율적인 ByT5의 변형인 MrT5(MergeT5)를 소개합니다. 고정된 수의 인코더 레이어를 통해 처리한 후, 학습된 삭제 게이트가 제거할 토큰과 후속 레이어를 위해 유지할 토큰을 결정합니다. MrT5는 삭제된 토큰의 중요 정보를 나머지 토큰의 컨텍스트 정보를 활용하여 보다 간결한 시퀀스로 효과적으로 '병합'합니다. 지속적인 사전 훈련 실험을 통해, MrT5는 성능에 미치는 영향을 최소화하면서 추론 런타임을 크게 향상시킬 수 있음을 확인했습니다. 영어 텍스트로 훈련했을 때, MrT5는 여러 언어에 걸쳐 삭제 기능을 제로 샷으로 전송하는 기능을 보여주었으며, 다국어 훈련 후에는 상당한 추가 개선이 이루어졌습니다. 또한 MrT5는 XNLI 및 문자 수준 작업과 같은 다운스트림 평가에서 ByT5와 비슷한 정확도를 보여주면서 시퀀스 길이를 최대 80%까지 줄였습니다. 이러한 접근 방식은 기존 바이트 수준 모델의 실질적인 한계에 대한 해결책을 제시합니다.

Models that rely on subword tokenization have significant drawbacks, such as sensitivity to character-level noise like spelling errors and inconsistent compression rates across different languages and scripts. While character- or byte-level models like ByT5 attempt to address these concerns, they have not gained widespread adoption -- processing raw byte streams without tokenization results in significantly longer sequence lengths, making training and inference inefficient. This work introduces MrT5 (MergeT5), a more efficient variant of ByT5 that integrates a token deletion mechanism in its encoder to dynamically shorten the input sequence length. After processing through a fixed number of encoder layers, a learnt delete gate determines which tokens are to be removed and which are to be retained for subsequent layers. MrT5 effectively ``merges'' critical information from deleted tokens into a more compact sequence, leveraging contextual information from the remaining tokens. In continued pre-training experiments, we find that MrT5 can achieve significant gains in inference runtime with minimal effect on performance. When trained on English text, MrT5 demonstrates the capability to transfer its deletion feature zero-shot across several languages, with significant additional improvements following multilingual training. Furthermore, MrT5 shows comparable accuracy to ByT5 on downstream evaluations such as XNLI and character-level tasks while reducing sequence lengths by up to 80%. Our approach presents a solution to the practical limitations of existing byte-level models.

논문 링크

더 읽어보기

https://x.com/JulieKallini/status/1851278833061704170


편안한 재귀 트랜스포머: 레이어별 LoRA를 통한 효과적인 파라미터 공유 / Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA

논문 소개

성능을 유지하면서 레이어 간 파라미터 공유를 통해 LLM 크기를 크게 줄이고, 표준 사전 훈련된 트랜스포머에서 모델을 초기화하지만 루프에서 여러 번 반복되는 고유 레이어의 단일 블록만 사용하는 새로운 접근 방식, 깊이별 저순위 적응(LoRA) 모듈을 통해 레이어 연결 제약 조건에 유연성을 추가하는 접근 방식, 추론 처리량을 크게(2~3배) 향상시킬 수 있는 잠재력이 있음을 보여주는 완화 재귀적 트랜스포머(Relaxed Recursive Transformer) 소개합니다.

Introduces a novel approach, Relaxed Recursive Transformer, that significantly reduces LLM size through parameter sharing across layers while maintaining performance; the model is initialized from standard pretrained Transformers, but only uses a single block of unique layers that is repeated multiple times in a loop; then it adds flexibility to the layer tying constraint via depth-wise low-rank adaptation (LoRA) modules; shows that the approach has the potential to lead to significant (2-3×) gains in inference throughput.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 배포 비용이 많이 듭니다. 파라미터 공유는 크기와 비용을 줄일 수 있는 방법을 제시하지만, 최신 LLM에서는 그 효과가 상당히 제한적입니다. 이 작업에서는 Transformers에서 매개변수 공유의 한 형태인 '레이어 묶기'를 재검토하고, 성능 손실을 최소화하면서 기존 LLM을 레이어 간에 매개변수를 공유하는 더 작은 '재귀적 트랜스포머'로 변환하는 새로운 방법을 소개합니다. 여기서 재귀적 트랜스포머는 사전 학습된 표준 트랜스포머에서 효율적으로 초기화되지만, 고유한 레이어의 단일 블록만 사용한 다음 루프에서 여러 번 반복됩니다. 또한 깊이별 로우랭크 적응(LoRA) 모듈을 통해 레이어 연결 제약 조건에 유연성을 더하면서도 전체 모델의 컴팩트함을 유지하는 릴렉스드 리커시브 트랜스포머를 도입하여 성능을 더욱 향상시켰습니다. 재귀적 모델(예: 재귀적 Gemma 1B)이 비슷한 크기의 바닐라 사전 훈련 모델(예: TinyLlama 1.1B 및 Pythia 1B)과 지식 증류 기준선보다 성능이 우수하며, 심지어 원래 "풀사이즈" 모델(예: 공유 파라미터가 없는 Gemma 2B)의 성능을 대부분 회복할 수 있음을 보여 줍니다. 마지막으로, 재귀적 트랜스포머를 조기 종료와 함께 사용할 경우 유망한 새로운 추론 패러다임인 연속 깊이별 배치(Continuous Depth-wise Batching)를 제안합니다. 이론적 분석을 통해, 이것이 추론 처리량을 크게(2~3배) 향상시킬 수 있는 잠재력을 가지고 있음을 보여줍니다.

Large language models (LLMs) are expensive to deploy. Parameter sharing offers a possible path towards reducing their size and cost, but its effectiveness in modern LLMs remains fairly limited. In this work, we revisit "layer tying" as form of parameter sharing in Transformers, and introduce novel methods for converting existing LLMs into smaller "Recursive Transformers" that share parameters across layers, with minimal loss of performance. Here, our Recursive Transformers are efficiently initialized from standard pretrained Transformers, but only use a single block of unique layers that is then repeated multiple times in a loop. We further improve performance by introducing Relaxed Recursive Transformers that add flexibility to the layer tying constraint via depth-wise low-rank adaptation (LoRA) modules, yet still preserve the compactness of the overall model. We show that our recursive models (e.g., recursive Gemma 1B) outperform both similar-sized vanilla pretrained models (such as TinyLlama 1.1B and Pythia 1B) and knowledge distillation baselines -- and can even recover most of the performance of the original "full-size" model (e.g., Gemma 2B with no shared parameters). Finally, we propose Continuous Depth-wise Batching, a promising new inference paradigm enabled by the Recursive Transformer when paired with early exiting. In a theoretical analysis, we show that this has the potential to lead to significant (2-3x) gains in inference throughput.

논문 링크

더 읽어보기

https://x.com/raymin0223/status/1851216039822180759


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요