[2024/04/29 ~ 05/06] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/04/29 ~ 05/06] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 제공된 논문들을 살펴보면 몇 가지 명확한 경향성을 발견할 수 있습니다. 특히, 대부분의 논문이 언어 모델(LMs)이나 그와 관련된 주제들에 초점을 맞추고 있음을 알 수 있습니다. 이 중에서도 검색-증강 언어 모델(RAG, Retrieval-Augmented Language Models), 다중-토큰 예측을 통한 언어 모델의 성능 향상, 그리고 장문의 컨텍스트를 사용하는 인-컨텍스트 학습(ICL, In-Context Learning)에 관한 논문들이 눈에 띕니다. 또한, 'Multimodal LLM Hallucinations'과 같은 논문은 언어 모델과 다양한 형태의 데이터를 결합하는 멀티모달 접근법에 대한 관심을 보여줍니다.

  • 이러한 경향은 최근 인공지능 분야에서 언어 모델의 발전이 매우 중요한 연구 주제로 자리잡고 있음을 반영합니다. 특히, GPT-3와 같은 대규모 언어 모델의 등장 이후, 연구자들은 이러한 모델을 어떻게 더 효율적으로 학습시키고, 정확도를 높이며, 다양한 도메인이나 상황에 적용할 수 있는지에 대해 다양한 방법을 모색하고 있습니다. 검색-증강 기법의 연구는 이러한 모델들이 더 넓은 범위의 정보를 활용하여 답변을 생성할 수 있게 해주며, 다중-토큰 예측과 같은 기법은 모델의 학습 효율성과 성능 향상에 기여할 수 있습니다. 또한, 멀티모달 접근법은 단순히 텍스트 데이터만 아니라, 이미지, 사운드 등 다른 유형의 데이터와의 결합을 통해 언어 모델을 더욱 풍부하게 만들 수 있는 가능성을 탐색합니다.

  • 이러한 연구 경향은 언어 모델이 인공지능 기술의 핵심 요소로 자리매김한 현재 상황에서, 더욱 고도화된 응용을 위한 기술적 발전을 추구하는 학계와 산업계의 노력을 반영합니다. 이처럼 언어 모델을 중심으로 한 연구는 앞으로도 계속될 전망이며, 이를 통해 얻어진 기술적 진보는 다양한 분야에서의 AI 응용 가능성을 더욱 확대할 것으로 기대됩니다.


KAN: 콜모고로프-아놀드 네트워크 / KAN: Kolmogorov-Arnold Networks

논문 소개

다층 퍼셉트론(MLP)의 대안으로 콜모고로프-아놀드 네트워크(KAN)를 제안하고, KAN은 가중치를 나타내는 가장자리에 학습 가능한 활성화 함수를 적용하며, 선형 가중치를 사용하지 않고도 MLP를 능가하고 더 빠른 신경 확장 법칙을 가질 수 있으며, 저자는 과학자들이 수학 및 물리 법칙을 발견하도록 돕는 협력자로서 KAN이 사용될 수 있음을 보여 줍니다.

Proposes Kolmogorov-Arnold Networks (KANs) as alternatives to Multi-Layer Perceptrons (MLPs); KANs apply learnable activation functions on edges that represent the weights; with no linear weights used, KANs can outperform MLPs and possess faster neural scaling laws; the authors show that KANs can be used as collaborators to help scientists discover mathematics and physical laws.

논문 초록(Abstract)

콜모고로프-아놀드 표현 정리에서 영감을 얻어 다층 퍼셉트론(MLP)의 유력한 대안으로 콜모고로프-아놀드 네트워크(KAN)를 제안합니다. MLP는 노드('뉴런')에 고정된 활성화 함수가 있는 반면, KAN은 에지('가중치')에 학습 가능한 활성화 함수가 있습니다. KAN에는 선형 가중치가 전혀 없으며, 모든 가중치 매개변수는 스플라인으로 매개변수화된 단변량 함수로 대체됩니다. 이 단순해 보이는 변화로 인해 정확도와 해석 가능성 측면에서 KAN이 MLP를 능가하는 것으로 나타났습니다. 정확도의 경우, 훨씬 더 작은 KAN은 데이터 피팅과 PDE 풀이에서 훨씬 더 큰 MLP와 비슷하거나 더 나은 정확도를 달성할 수 있습니다. 이론적으로나 경험적으로 KAN은 MLP보다 더 빠른 신경 확장 법칙을 가지고 있습니다. 해석의 용이성을 위해 KAN은 직관적으로 시각화할 수 있으며 인간 사용자와 쉽게 상호작용할 수 있습니다. 수학과 물리학의 두 가지 예를 통해 KAN은 과학자들이 수학적, 물리적 법칙을 (재)발견하도록 돕는 유용한 협력자라는 것을 알 수 있습니다. 요약하자면, KAN은 MLP의 유망한 대안으로 MLP에 크게 의존하는 오늘날의 딥러닝 모델을 더욱 개선할 수 있는 기회를 열어줍니다.

Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.

논문 링크

더 읽어보기

https://x.com/ZimingLiu11/status/1785483967719981538


다중 토큰 예측을 통한 더 빠르고 향상된 대규모 언어 모델 / Better & Faster Large Language Models via Multi-token Prediction

논문 소개

N개의 독립적인 출력 헤드를 사용해 다음 n개의 토큰을 예측하도록 훈련시켜 언어 모델링을 수행하는 다중 토큰 예측 접근법 제안, 출력 헤드는 공유 트랜스포머 트렁크 위에서 작동, 다중 토큰 예측은 모델 크기가 클 때 유용하며 추론 속도를 3배까지 높일 수 있음, 제안된 13B 파라미터 모델은 유사한 다음 토큰 모델보다 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결하는 것으로 나타났습니다.

Proposes a multi-token prediction approach that performs language modeling by training the predict the following n tokens using n independent output heads; the output heads operate on top of a shared transformer trunk; multi-token prediction is shown to be useful when using larger model sizes and can speed up inference up to 3x; the proposed 13B parameter models solves 12 more problems on HumanEval and 17 more on MBPP than comparable next-token models.

논문 초록(Abstract)

GPT나 Llama와 같은 대규모 언어 모델은 다음 토큰 예측 손실로 학습됩니다. 이 연구에서는 한 번에 여러 개의 미래 토큰을 예측하도록 언어 모델을 훈련하면 샘플 효율성이 높아진다고 제안합니다. 보다 구체적으로, 훈련 코퍼스의 각 위치에서 모델에 공유 모델 트렁크 위에서 작동하는 N개의 독립적인 출력 헤드를 사용하여 다음 N개의 토큰을 예측하도록 요청합니다. 다중 토큰 예측을 보조 훈련 작업으로 간주하면 코드 및 자연어 모델 모두에 대해 훈련 시간 오버헤드 없이 향상된 다운스트림 기능을 측정할 수 있습니다. 이 방법은 모델 규모가 커질수록 점점 더 유용해지며, 여러 시대에 걸쳐 훈련할 때 그 매력을 유지합니다. 특히 코딩과 같은 생성 벤치마크에서 이점이 두드러지게 나타나며, 강력한 기준선보다 몇 퍼센트 포인트 더 나은 성능을 지속적으로 보여줍니다. 13B 파라미터 모델은 유사한 넥스트 토큰 모델보다 HumanEval에서 12%, MBPP에서 17% 더 많은 문제를 해결합니다. 소규모 알고리즘 작업에 대한 실험을 통해 다중 토큰 예측이 유도 헤드와 알고리즘 추론 능력 개발에 유리하다는 것이 입증되었습니다. 추가적인 이점으로, 4토큰 예측으로 훈련된 모델은 배치 크기가 큰 경우에도 추론 속도가 최대 3배 더 빠릅니다.

Large language models such as GPT and Llama are trained with a next-token prediction loss. In this work, we suggest that training language models to predict multiple future tokens at once results in higher sample efficiency. More specifically, at each position in the training corpus, we ask the model to predict the following n tokens using n independent output heads, operating on top of a shared model trunk. Considering multi-token prediction as an auxiliary training task, we measure improved downstream capabilities with no overhead in training time for both code and natural language models. The method is increasingly useful for larger model sizes, and keeps its appeal when training for multiple epochs. Gains are especially pronounced on generative benchmarks like coding, where our models consistently outperform strong baselines by several percentage points. Our 13B parameter models solves 12 more problems on HumanEval and 17 more on MBPP than comparable next-token models. Experiments on small algorithmic tasks demonstrate that multi-token prediction is favorable for the development of induction heads and algorithmic reasoning capabilities. As an additional benefit, models trained with 4-token prediction are up to 3 times faster at inference, even with large batch sizes.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1785486711646040440


의학 분야에서 Gemini 모델의 기능 / Capabilities of Gemini Models in Medicine

논문 소개

의약품에 특화된 멀티모달 모델 제품군을 제시하고 Gemini의 강력한 멀티모달 및 장문맥 추론 기능을 기반으로 하며, GPT-4 모델을 능가하는 10/14 벤치마크에서 최첨단 성능을 달성하고, 불확실성 가이드 검색 전략을 사용하여 MedQA(USMLE) 벤치마크에서 91%의 정확도를 달성합니다.

Presents a family of multimodal models specialized in medicines and based on the strong multimodal and long-context reasoning capabilities of Gemini; achieves state-of-the-art performance on 10/14 benchmarks surpassing GPT-4 models; it achieves 91% accuracy on MedQA (USMLE) benchmark using an uncertainty-guided search strategy.

논문 초록(Abstract)

다양한 의료 애플리케이션의 우수성은 고급 추론, 최신 의학 지식에 대한 액세스, 복잡한 멀티모달 데이터에 대한 이해가 필요한 AI에게 상당한 도전 과제를 안겨줍니다. 멀티모달 및 긴 컨텍스트 추론에서 강력한 일반 기능을 갖춘 Gemini 모델은 의학 분야에서 흥미로운 가능성을 제시합니다. 이러한 Gemini의 핵심 강점을 기반으로, 웹 검색을 원활하게 사용할 수 있고 맞춤형 인코더를 사용하여 새로운 양식에 효율적으로 맞춤화할 수 있는 의학에 특화된 고기능 멀티모달 모델 제품군인 Med-Gemini를 소개합니다. 14개의 의료 벤치마크에서 Med-Gemini를 평가하여 그 중 10개 벤치마크에서 새로운 최첨단(SoTA) 성능을 수립했으며, 직접 비교가 가능한 모든 벤치마크에서 GPT-4 모델 제품군을 큰 차이로 능가하는 결과를 얻었습니다. 널리 사용되는 MedQA(USMLE) 벤치마크에서 최고 성능을 자랑하는 Med-Gemini 모델은 새로운 불확실성 기반 검색 전략을 사용하여 91.1%의 정확도로 SoTA 성능을 달성했습니다. NEJM 이미지 챌린지와 MMMU(건강 및 의학)를 포함한 7개의 멀티모달 벤치마크에서 Med-Gemini는 GPT-4V보다 평균 44.5%의 상대적 마진으로 개선되었습니다. 또한 긴 비식별화된 의료 기록에서 건초 더미에서 바늘 찾기와 의료 영상 질문 답변에 대한 SoTA 성능을 통해 맥락 내 학습만을 사용하는 이전의 맞춤형 방법을 능가하는 Med-Gemini의 긴 맥락 기능의 효과를 입증했습니다. 마지막으로, Med-Gemini의 성능은 의료 텍스트 요약과 같은 작업에서 인간 전문가를 능가함으로써 실제 활용 가능성을 시사하며, 다중 모드 의료 대화, 의료 연구 및 교육에 대한 유망한 잠재력을 입증했습니다. 이러한 결과를 종합해 볼 때, 안전이 중요한 영역에서 실제 배포하기 전에 더 엄격한 평가가 필요하겠지만 Med-Gemini의 잠재력에 대한 강력한 증거를 제공합니다.

Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini's long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini's performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini's potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.

논문 링크

더 읽어보기

https://x.com/iScienceLuvr/status/1785247498744778886


검색 시점에 LLM이 정보 검색을 효과적으로 활용하도록 학습하기 / When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

논문 소개

LLM이 정보 검색을 효과적으로 활용할 수 있도록 훈련하는 접근 방식을 제시합니다. 먼저 질문에 대한 확신이 없거나 답을 모를 때 특수 토큰인 를 생성하도록 LLM을 훈련시키는 접근 방식을 제안하고, 미세 조정된 모델은 검색을 하지 않는 것과 항상 문맥을 검색하는 두 가지 고정 대체 설정에서 기본 LLM보다 우수한 성능을 발휘합니다.

Presents an approach to train LLMs to effectively utilize information retrieval; it first proposes a training approach to teach an LLM to generate a special token, , when it's not confident or doesn't know the answer to a question; the fine-tuned model outperforms a base LLM in two fixed alternate settings that include never retrieving and always retrieving context.

논문 초록(Abstract)

이 백서에서는 주어진 질문에 답하기 위해 추가 컨텍스트가 필요할 때 대규모 언어 모델(LLM)이 기성 정보 검색(IR) 시스템을 효과적으로 학습하는 방법을 보여드립니다. IR 시스템의 성능을 고려할 때, 질문에 답하기 위한 최적의 전략이 항상 외부 정보 검색을 수반하는 것은 아니며, 오히려 LLM 자체의 파라메트릭 메모리를 활용하는 경우가 많습니다. 이전 연구에서는 PopQA 데이터 세트에서 이러한 현상을 확인했는데, 가장 인기 있는 질문은 LLM의 파라메트릭 메모리를 사용하여 효과적으로 처리하는 반면 덜 인기 있는 질문은 IR 시스템을 사용해야 하는 것으로 나타났습니다. 이에 따라 기존의 오픈 도메인 질문 답변 데이터셋을 활용하여 LLM을 위한 맞춤형 훈련 접근 방식을 제안합니다. 여기서 LLM은 질문에 대한 답을 모를 때 특수 토큰인 를 생성하도록 훈련받습니다. PopQA 데이터세트에 대한 적응형 검색 LLM(Adapt-LLM)의 평가는 (i) 모든 질문에 대한 정보 검색, (ii) 항상 LLM의 파라메트릭 메모리 사용, (iii) 인기도 임계값을 사용해 리트리버 사용 시기를 결정하는 세 가지 구성에서 동일한 LLM보다 개선된 결과를 보여줍니다. 분석을 통해 Adapt-LLM은 질문에 대한 답변 방법을 모른다고 판단할 때 토큰을 생성하여 IR의 필요성을 나타내는 반면, 파라메트릭 메모리에만 의존하기로 선택했을 때는 현저히 높은 정확도를 달성한다는 것을 입증했습니다.

In this paper, we demonstrate how Large Language Models (LLMs) can effectively learn to use an off-the-shelf information retrieval (IR) system specifically when additional context is required to answer a given question. Given the performance of IR systems, the optimal strategy for question answering does not always entail external information retrieval; rather, it often involves leveraging the parametric memory of the LLM itself. Prior research has identified this phenomenon in the PopQA dataset, wherein the most popular questions are effectively addressed using the LLM's parametric memory, while less popular ones require IR system usage. Following this, we propose a tailored training approach for LLMs, leveraging existing open-domain question answering datasets. Here, LLMs are trained to generate a special token, , when they do not know the answer to a question. Our evaluation of the Adaptive Retrieval LLM (Adapt-LLM) on the PopQA dataset showcases improvements over the same LLM under three configurations: (i) retrieving information for all the questions, (ii) using always the parametric memory of the LLM, and (iii) using a popularity threshold to decide when to use a retriever. Through our analysis, we demonstrate that Adapt-LLM is able to generate the token when it determines that it does not know how to answer a question, indicating the need for IR, while it achieves notably high accuracy levels when it chooses to rely only on its parametric memory.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1785498325913108556


RAG와 RAU: 자연어 처리의 검색 증강 언어 모델에 대한 설문 조사 / RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing

논문 소개

진화, 분류법, 애플리케이션 분석, 이러한 시스템의 다양한 구성 요소를 개선하는 방법과 적절한 평가 방법에 대한 섹션이 있으며, 한계와 향후 방향에 대한 섹션으로 마무리합니다.

Covers the most important recent developments in RAG and RAU systems; it includes evolution, taxonomy, and an analysis of applications; there is also a section on how to enhance different components of these systems and how to properly evaluate them; it concludes with a section on limitations and future directions.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 자연어 처리(NLP)의 상당한 발전을 촉진했지만, 환각과 도메인별 지식의 필요성과 같은 문제에 직면해 있습니다. 이러한 문제를 완화하기 위해 최근의 방법론은 외부 리소스에서 검색된 정보를 LLM과 통합하여 NLP 작업 전반의 성능을 크게 향상시켰습니다. 이 서베이 논문은 검색 증강 생성(RAG)과 검색 증강 이해(RAU)를 모두 포함하는 검색 증강 언어 모델(RALM)에 대한 포괄적인 개요가 부재한 상황에서 이 패러다임, 진화, 분류법, 응용에 대한 심층적인 검토를 제공합니다. 이 백서에서는 검색기, 언어 모델, 증강을 포함한 RALM의 필수 구성 요소와 이들의 상호 작용이 어떻게 다양한 모델 구조와 애플리케이션으로 이어지는지에 대해 설명합니다. RALM은 번역 및 대화 시스템부터 지식 집약적 애플리케이션에 이르기까지 다양한 작업에서 유용성을 입증하고 있습니다. 이 설문조사에는 RALM의 여러 평가 방법이 포함되어 있으며, 평가의 견고성, 정확성 및 관련성의 중요성을 강조합니다. 또한 특히 검색 품질과 계산 효율성 측면에서 RALM의 한계를 인정하고 향후 연구 방향을 제시합니다. 결론적으로, 이 설문조사는 RALM에 대한 체계적인 인사이트와 그 잠재력, 그리고 NLP에서 향후 발전 방향을 제시하는 것을 목표로 합니다. 이 논문에는 설문조사에 참여한 작품과 추가 연구를 위한 리소스가 포함된 Github 리포지토리(GitHub - 2471023025/RALM_Survey: This is a repository of RALM surveys containing a summary of state-of-the-art RAG and other technologies)가 포함되어 있습니다.

Large Language Models (LLMs) have catalyzed significant advancements in Natural Language Processing (NLP), yet they encounter challenges such as hallucination and the need for domain-specific knowledge. To mitigate these, recent methodologies have integrated information retrieved from external resources with LLMs, substantially enhancing their performance across NLP tasks. This survey paper addresses the absence of a comprehensive overview on Retrieval-Augmented Language Models (RALMs), both Retrieval-Augmented Generation (RAG) and Retrieval-Augmented Understanding (RAU), providing an in-depth examination of their paradigm, evolution, taxonomy, and applications. The paper discusses the essential components of RALMs, including Retrievers, Language Models, and Augmentations, and how their interactions lead to diverse model structures and applications. RALMs demonstrate utility in a spectrum of tasks, from translation and dialogue systems to knowledge-intensive applications. The survey includes several evaluation methods of RALMs, emphasizing the importance of robustness, accuracy, and relevance in their assessment. It also acknowledges the limitations of RALMs, particularly in retrieval quality and computational efficiency, offering directions for future research. In conclusion, this survey aims to offer a structured insight into RALMs, their potential, and the avenues for their future development in NLP. The paper is supplemented with a Github Repository containing the surveyed works and resources for further study: GitHub - 2471023025/RALM_Survey: This is a repository of RALM surveys containing a summary of state-of-the-art RAG and other technologies.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1785666343062184422


Prometheus 2: 다른 언어 모델 평가에 특화된 오픈 소스 언어 모델 / Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

논문 소개

오픈 소스 Prometheus 2(7B 및 8x7B)는 인간과 GPT-4의 판단을 밀접하게 반영하는 최첨단 오픈 평가자 LLM으로, 직접 평가와 사용자 정의 평가 기준으로 그룹화된 쌍별 순위 형식을 모두 지원합니다. 실험 결과에 따르면 이 오픈 소스 모델은 모든 오픈 평가자 LLM 중에서 가장 강력한 것으로 보이며, 핵심은 직접 평가 또는 쌍별 순위 형식으로 훈련된 평가자 LM을 병합하는 데 있는 듯합니다.

Open-source Prometheus 2 (7B & 8x7B), state-of-the-art open evaluator LLMs that closely mirror human and GPT-4 judgments; they support both direct assessments and pair-wise ranking formats grouped with user-defined evaluation criteria; according to the experimental results, this open-source model seems to be the strongest among all open-evaluator LLMs; the key seems to be in merging evaluator LMs trained on either direct assessment or pairwise ranking formats.

논문 초록(Abstract)

다양한 LM의 응답 품질을 평가하기 위해 GPT-4와 같은 독점적인 LM을 사용하는 경우가 많습니다. 그러나 투명성, 제어 가능성, 경제성 등의 문제로 인해 평가에 특화된 오픈 소스 LM의 개발이 활발히 이루어지고 있습니다. 반면에 기존의 오픈 평가자 LM은 다음과 같은 치명적인 단점을 가지고 있습니다: 1) 사람이 부여한 점수와 크게 차이가 나는 점수를 부여하고, 2) 가장 널리 사용되는 두 가지 평가 형태인 직접 평가와 쌍별 순위를 모두 수행할 수 있는 유연성이 부족하다는 점입니다. 또한, 사용자 지정 평가 기준에 따라 평가할 수 있는 기능이 없어 유용성이나 무해성 같은 일반적인 속성에만 초점을 맞추고 있습니다. 이러한 문제를 해결하기 위해 이전 버전보다 더욱 강력한 평가자 LM인 Prometheus 2를 도입하여 인간과 GPT-4의 판단을 매우 유사하게 반영합니다. 또한 직접 평가와 사용자가 정의한 평가 기준에 따라 그룹화된 쌍별 순위 형식을 모두 처리할 수 있습니다. 4개의 직접 평가 벤치마크와 4개의 쌍별 순위 벤치마크에서 Prometheus 2는 테스트된 모든 개방형 평가자 LM 중 인간 및 독점 LM 심사위원과의 상관관계 및 일치도가 가장 높았습니다. 모델, 코드, 데이터는 모두 GitHub - prometheus-eval/prometheus-eval: Evaluate your LLM's response with Prometheus 💯 에서 공개적으로 이용할 수 있습니다.

Proprietary LMs such as GPT-4 are often employed to assess the quality of responses from various LMs. However, concerns including transparency, controllability, and affordability strongly motivate the development of open-source LMs specialized in evaluations. On the other hand, existing open evaluator LMs exhibit critical shortcomings: 1) they issue scores that significantly diverge from those assigned by humans, and 2) they lack the flexibility to perform both direct assessment and pairwise ranking, the two most prevalent forms of assessment. Additionally, they do not possess the ability to evaluate based on custom evaluation criteria, focusing instead on general attributes like helpfulness and harmlessness. To address these issues, we introduce Prometheus 2, a more powerful evaluator LM than its predecessor that closely mirrors human and GPT-4 judgements. Moreover, it is capable of processing both direct assessment and pair-wise ranking formats grouped with a user-defined evaluation criteria. On four direct assessment benchmarks and four pairwise ranking benchmarks, Prometheus 2 scores the highest correlation and agreement with humans and proprietary LM judges among all tested open evaluator LMs. Our models, code, and data are all publicly available at GitHub - prometheus-eval/prometheus-eval: Evaluate your LLM's response with Prometheus 💯.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1786380398966014423


언어 모델 조정을 위한 셀프 플레이 환경 설정 최적화 / Self-Play Preference Optimization for Language Model Alignment

논문 소개

언어 모델 정렬을 위한 셀프 플레이 기반 방법 제안; 이 최적화 절차는 내쉬 균형 정책을 식별하기 위해 문제를 정합 2인 게임으로 처리; DPO와 IPO의 단점을 해결하고 선택된 응답의 로그 가능성을 효과적으로 높이고 거부된 응답을 감소; SPPO는 MT-Bench와 Open LLM 리더보드에서 DPO와 IPO보다 우수한 성능을 보임; 언어 모델 정렬을 위한 셀프 플레이 기반 방법을 제안합니다.

Proposes a self-play-based method for aligning language models; this optimation procedure treats the problem as a constant-sum two-player game to identify the Nash equilibrium policy; it addresses the shortcomings of DPO and IPO and effectively increases the log-likelihood of chose responses and decreases the rejected ones; SPPO outperforms DPO and IPO on MT-Bench and the Open LLM Leaderboard.

논문 초록(Abstract)

브래들리-테리(Bradley-Terry) 모델과 같은 파라메트릭 모델에 의존하는 기존의 인간 피드백을 통한 강화 학습(RLHF) 접근 방식은 인간 선호의 비이동성과 비합리성을 포착하는 데 부족함이 있습니다. 최근의 발전으로 선호도 확률을 직접 작업하면 인간의 선호도를 더 정확하게 반영하여 보다 유연하고 정확하게 언어 모델을 조정할 수 있다는 사실이 밝혀졌습니다. 이 백서에서는 언어 모델 정렬을 위한 셀프 플레이 기반 방법을 제안하는데, 이 방법은 내쉬 균형 정책을 파악하기 위해 문제를 상수 합 2인 게임으로 취급합니다. 텍스트잇{셀프 플레이 선호도 최적화}(SPPO)라고 불리는 이 접근법은 반복적인 정책 업데이트를 통해 내쉬 평형에 근사치를 구하며 이론적으로 수렴을 보장합니다. 우리의 방법은 선택된 응답의 로그 확률을 효과적으로 높이고 거부된 응답의 확률을 낮출 수 있으며, 이는 직접 선호도 최적화(DPO)나 신원 선호도 최적화(IPO)와 같은 대칭 쌍별 손실로는 달성할 수 없습니다. 실험에서, UltraFeedback 데이터 세트의 6만 개의 프롬프트(응답 없이)만을 사용하고 프롬프트 증강 없이 0.4B 파라미터만 있는 사전 훈련된 선호도 모델 PairRM을 활용하여 SPPO는 Mistral-7B-Instruct-v0.2를 미세 조정하여 알파카에벌 2.0의 GPT-4-Turbo에 대해 28.53%의 최첨단 길이 제어 승률을 달성하는 모델을 얻을 수 있었습니다. 또한 MT-Bench와 오픈 LLM 리더보드에서 (반복적) DPO와 IPO를 능가하는 성능을 보였습니다. 특히, SPPO의 강력한 성능은 GPT-4 또는 기타 강력한 언어 모델의 추가적인 외부 감독(예: 응답, 선호도 등) 없이도 달성할 수 있다는 점이 주목할 만합니다.

Traditional reinforcement learning from human feedback (RLHF) approaches relying on parametric models like the Bradley-Terry model fall short in capturing the intransitivity and irrationality in human preferences. Recent advancements suggest that directly working with preference probabilities can yield a more accurate reflection of human preferences, enabling more flexible and accurate language model alignment. In this paper, we propose a self-play-based method for language model alignment, which treats the problem as a constant-sum two-player game aimed at identifying the Nash equilibrium policy. Our approach, dubbed \textit{Self-Play Preference Optimization} (SPPO), approximates the Nash equilibrium through iterative policy updates and enjoys theoretical convergence guarantee. Our method can effectively increase the log-likelihood of the chosen response and decrease that of the rejected response, which cannot be trivially achieved by symmetric pairwise loss such as Direct Preference Optimization (DPO) and Identity Preference Optimization (IPO). In our experiments, using only 60k prompts (without responses) from the UltraFeedback dataset and without any prompt augmentation, by leveraging a pre-trained preference model PairRM with only 0.4B parameters, SPPO can obtain a model from fine-tuning Mistral-7B-Instruct-v0.2 that achieves the state-of-the-art length-controlled win-rate of 28.53% against GPT-4-Turbo on AlpacaEval 2.0. It also outperforms the (iterative) DPO and IPO on MT-Bench and the Open LLM Leaderboard. Notably, the strong performance of SPPO is achieved without additional external supervision (e.g., responses, preferences, etc.) from GPT-4 or other stronger language models.

논문 링크

더 읽어보기

https://x.com/QuanquanGu/status/1785903241102049424


트랜스포머 기반 언어 모델의 내부 작동 방식에 대한 입문서 / A Primer on the Inner Workings of Transformer-based Language Models

논문 소개

트랜스포머 기반 언어 모델의 내부 작동을 해석하는 데 사용되는 최신 기술에 대한 기술 소개와 함께 이러한 모델에 구현된 내부 메커니즘에 대한 자세한 개요를 제공합니다.

Presents a technical introduction to current techniques used to interpret the inner workings of Transformer-based language models; it provides a detailed overview of the internal mechanisms implemented in these models.

논문 초록(Abstract)

고급 언어 모델의 내부 작동을 해석하기 위한 연구가 빠르게 진행되면서 이 분야에서 수년간의 작업을 통해 얻은 통찰력을 맥락화할 필요성이 강조되고 있습니다. 이 입문서에서는 생성 디코더 전용 아키텍처에 초점을 맞춰 Transformer 기반 언어 모델의 내부 작동을 해석하는 데 사용되는 현재 기술에 대한 간결한 기술 소개를 제공합니다. 이러한 모델이 구현하는 알려진 내부 메커니즘에 대한 포괄적인 개요를 제시하고, 이 분야에서 널리 사용되는 접근 방식과 활발한 연구 방향 간의 연관성을 밝혀내는 것으로 마무리합니다.

The rapid progress of research aimed at interpreting the inner workings of advanced language models has highlighted a need for contextualizing the insights gained from years of work in this area. This primer provides a concise technical introduction to the current techniques used to interpret the inner workings of Transformer-based language models, focusing on the generative decoder-only architecture. We conclude by presenting a comprehensive overview of the known internal mechanisms implemented by these models, uncovering connections across popular approaches and active research directions in this area.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1786052338043466162


멀티모달 대형 언어 모델의 환각: 설문 조사 / Hallucination of Multimodal Large Language Models: A Survey

논문 소개

멀티모달 LLM에서 환각을 식별, 평가 및 완화하기 위한 최근의 발전에 대한 개요를 제공하고, 환각 감지와 관련된 문제를 해결하기 위한 원인, 평가 벤치마크, 메트릭 및 기타 전략에 대한 개요도 제공합니다.

Provides an overview of the recent advances in identifying, evaluating, and mitigating hallucination in multimodal LLMs; it also provides an overview of causes, evaluation benchmarks, metrics, and other strategies to deal with challenges related to detecting hallucinations.

논문 초록(Abstract)

이 설문조사는 멀티모달 작업에서 상당한 발전과 놀라운 능력을 보여준 대규모 시각-언어 모델(LVLM)로도 알려진 멀티모달 대규모 언어 모델(MLLM)의 환각 현상에 대한 종합적인 분석을 제시합니다. 이러한 유망한 발전에도 불구하고 MLLM은 종종 시각적 콘텐츠와 일치하지 않는 출력을 생성하는데, 이는 환각으로 알려진 문제로 실제 배포에 상당한 장애가 되고 실제 애플리케이션에서의 신뢰성에 대한 우려를 불러일으키고 있습니다. 이 문제는 점점 더 많은 관심을 끌면서 이러한 부정확성을 감지하고 완화하기 위한 노력을 촉구하고 있습니다. 이 문제를 해결하기 위해 개발된 근본적인 원인, 평가 벤치마크, 지표 및 전략에 대한 자세한 개요를 제공하면서 이러한 환각을 식별, 평가 및 완화하기 위한 최근의 진전을 검토합니다. 또한, 현재의 과제와 한계를 분석하여 향후 연구를 위한 잠재적인 경로를 설명하는 열린 질문을 공식화합니다. 이 설문조사는 환각 원인의 세분화된 분류와 환경, 평가 기준, 완화 방법을 도출함으로써 다단계판매의 환각에 대한 이해를 깊게 하고 이 분야의 발전을 촉진하는 것을 목표로 합니다. 철저하고 심도 있는 검토를 통해 다단계판매의 견고성과 신뢰성 향상을 위한 지속적인 논의에 기여하고 연구자와 실무자 모두에게 귀중한 인사이트와 리소스를 제공할 것입니다. 리소스는 GitHub - showlab/Awesome-MLLM-Hallucination: 📖 A curated list of resources dedicated to hallucination of multimodal large language models (MLLM). 에서 확인할 수 있습니다.

This survey presents a comprehensive analysis of the phenomenon of hallucination in multimodal large language models (MLLMs), also known as Large Vision-Language Models (LVLMs), which have demonstrated significant advancements and remarkable abilities in multimodal tasks. Despite these promising developments, MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination, which poses substantial obstacles to their practical deployment and raises concerns regarding their reliability in real-world applications. This problem has attracted increasing attention, prompting efforts to detect and mitigate such inaccuracies. We review recent advances in identifying, evaluating, and mitigating these hallucinations, offering a detailed overview of the underlying causes, evaluation benchmarks, metrics, and strategies developed to address this issue. Additionally, we analyze the current challenges and limitations, formulating open questions that delineate potential pathways for future research. By drawing the granular classification and landscapes of hallucination causes, evaluation benchmarks, and mitigation methods, this survey aims to deepen the understanding of hallucinations in MLLMs and inspire further advancements in the field. Through our thorough and in-depth review, we contribute to the ongoing dialogue on enhancing the robustness and reliability of MLLMs, providing valuable insights and resources for researchers and practitioners alike. Resources are available at: GitHub - showlab/Awesome-MLLM-Hallucination: 📖 A curated list of resources dedicated to hallucination of multimodal large language models (MLLM)..

논문 링크

더 읽어보기

https://x.com/DuaneJRich/status/1785220190411821111


긴 컨텍스트 모델을 사용한 컨텍스트 내 학습: 심층 탐구 / In-Context Learning with Long-Context Models: An In-Depth Exploration

논문 소개

긴 컨텍스트 모델을 사용하여 극단적인 컨텍스트 길이에서 LLM의 행동 내 학습을 연구하고, 수백 또는 수천 개의 데모를 사용할수록 성능이 증가하며, 긴 컨텍스트 ICL이 짧은 컨텍스트 ICL보다 무작위 입력 셔플에 덜 민감하다는 것을 보여주고, 긴 컨텍스트 LLM의 효과는 과제 학습이 아니라 유사한 예제에 참석하기 때문이라는 결론을 내립니다.

Studies the behavior in-context learning of LLMs at extreme context lengths with long-context models; shows that performance increases as hundreds or thousands of demonstrations are used; demonstrates that long-context ICL is less sensitive to random input shuffling than short-context ICL; concludes that the effectiveness of long-context LLMs is not due to task learning but from attending to similar examples.

논문 초록(Abstract)

모델 컨텍스트 길이가 계속 증가함에 따라 컨텍스트 내에서 제공할 수 있는 데모의 수가 전체 학습 데이터 세트의 크기에 근접하고 있습니다. 저희는 여러 데이터 세트와 모델에서 이러한 극단적인 규모의 상황에 맞는 학습(ICL)의 동작을 연구합니다. 라벨 공간이 큰 많은 데이터 세트의 경우 수백 또는 수천 번의 데모를 통해 성능이 계속 향상되는 것을 보여줍니다. 예제 검색 및 미세 조정과 대조해 보면, 예제 검색은 짧은 컨텍스트 길이에서는 우수한 성능을 보이지만 데모가 늘어날수록 성능이 감소하고, 미세 조정은 ICL보다 데이터 사용량이 많지만 데이터를 추가하면 긴 컨텍스트의 ICL 성능을 초과할 수 있습니다. 이 ICL 설정을 테스트베드로 사용하여 인컨텍스트 학습과 긴 컨텍스트 모델의 여러 속성을 연구합니다. 그 결과, 긴 문맥 ICL이 짧은 문맥 ICL보다 무작위 입력 셔플링에 덜 민감하고, 동일한 레이블의 예시를 그룹화하면 성능에 부정적인 영향을 미칠 수 있으며, 많은 예시를 함께 인코딩하여 누적된 이득으로 인한 성능 향상이 아니라는 것을 알 수 있었습니다. 긴 문맥 ICL이 놀라울 정도로 효과적일 수 있지만, 이러한 이득의 대부분은 작업 학습이 아닌 유사한 예제에 다시 접근하는 데서 비롯된다는 결론을 내렸습니다.

As model context lengths continue to increase, the number of demonstrations that can be provided in-context approaches the size of entire training datasets. We study the behavior of in-context learning (ICL) at this extreme scale on multiple datasets and models. We show that, for many datasets with large label spaces, performance continues to increase with hundreds or thousands of demonstrations. We contrast this with example retrieval and finetuning: example retrieval shows excellent performance at low context lengths but has diminished gains with more demonstrations; finetuning is more data hungry than ICL but can sometimes exceed long-context ICL performance with additional data. We use this ICL setting as a testbed to study several properties of both in-context learning and long-context models. We show that long-context ICL is less sensitive to random input shuffling than short-context ICL, that grouping of same-label examples can negatively impact performance, and that the performance boosts we see do not arise from cumulative gain from encoding many examples together. We conclude that although long-context ICL can be surprisingly effective, most of this gain comes from attending back to similar examples rather than task learning.

논문 링크

더 읽어보기

https://x.com/abertsch72/status/1786392584765538350


원문


이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

2개의 좋아요