[2024/09/23 ~ 09/29] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/09/23 ~ 09/29] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들의 주요 동향을 분석해보면, 자연어 처리(NLP)와 관련된 연구들이 두드러지게 많다는 점을 알 수 있습니다. 'LLMs Still Can’t Plan', 'Scaled-up Instructable Model Become Less Reliable', 'Logic-of-Thought', 'RAG and Beyond', 'Small Language Models Survey' 등 다수의 논문이 자연어 처리와 관련된 주제를 다루고 있습니다. 특히 Large Language Models (LLM)에 관한 한계와 가능성에 대해 다룬 논문들이 여러 편 발견되었습니다.

  • 또한, 암호와 관련된 연구들, 예를 들어 'AlphaChip'과 같은 논문도 포함되어 있었습니다. 이 논문은 AI 칩 설계나 실행 방식에 대한 기술적인 연구를 다룬 것으로 보입니다. 'Molmo', 'A Preliminary Study of o1 in Medicine'과 같은 연구들은 특정 산업 또는 응용 분야에서의 머신 러닝 기법 사용에 관한 사례들이 포함되어 있습니다.

  • 이러한 경향은 AI 기술이 단순한 모델 개발을 넘어서 실질적인 응용 분야로 확장되어가고 있음을 시사합니다. LLM과 같은 모델이 다양한 실제 문제에 응용됨에 따라 그 한계와 문제점이 보다 명확히 드러나고 있으며, 이를 극복하기 위한 연구가 활발히 이루어지고 있습니다. 또한, AI 기술이 실제 산업과의 연계를 통해 보다 구체적이고 실용적인 문제 해결에 사용되면서 연구의 폭과 깊이가 넓어지고 있음을 알 수 있습니다.


라마 3.2 / Llama 3.2

논문 소개

중소형 비전 LLM(11B 및 90B 파라미터)과 경량 텍스트 전용 모델(1B 및 3B) 제공; 텍스트 전용 모델은 128K 토큰의 문맥 길이를 지원하고 다양한 작업에서 동급의 다른 모델보다 뛰어난 성능을 발휘하도록 학습되었으며, 비전 모델은 이미지 이해 작업에서 Claude 3 하이쿠와 같은 다른 모델을 능가합니다.

Presents small and medium-sized vision LLMs (11B and 90B parameters), and lightweight, text-only models (1B and 3B); the text-only models are trained to support context length of 128K tokens and outperform other models in their class on a range of tasks; vision models exceed other models such as Claude 3 Haiku on image understanding tasks.

논문 링크

더 읽어보기

https://x.com/AIatMeta/status/1838993953502515702


Molmo

논문 소개

개방형 최첨단 멀티모달 AI 모델 제품군을 제공하며, 몰모 제품군의 72B 모델은 동급 개방형 가중치 및 데이터 모델에서 다른 모델보다 성능이 뛰어나며, 여러 벤치마크에서 GPT-4o, 클로드 3.5, 제미니 1.5와 같은 독점 모델과 비교해도 우위를 점하고 있습니다.

Presents a family of open, state-of-the-art multimodal AI models; the 72B model in the Molmo family outperforms others in the class of open weight and data models; it also compares favorably against proprietary models like GPT-4o, Claude 3.5, and Gemini 1.5 on several benchmarks.

논문 초록(Abstract)

오늘날의 가장 진보된 멀티모달 모델은 여전히 독점적입니다. 가장 강력한 오픈 웨이트 모델은 우수한 성능을 달성하기 위해 독점 VLM의 합성 데이터에 크게 의존하며, 이러한 폐쇄형 모델을 개방형 모델로 효과적으로 증류합니다. 그 결과, 커뮤니티에는 아직 성능이 우수한 VLM을 처음부터 구축하는 방법에 대한 기초 지식이 부족합니다. 이에 유니티는 동급 최강의 개방성을 갖춘 새로운 VLM 제품군인 몰모를 소개합니다. 몰모의 핵심 혁신은 음성 기반 설명을 사용하여 사람이 직접 작성한 매우 상세한 이미지 캡션 데이터 세트입니다. 또한 다양한 사용자 상호작용을 지원하기 위해 자연스러운 Q&A와 혁신적인 2D 포인팅 데이터 등 미세 조정을 위한 다양한 데이터 세트 조합을 도입했습니다. 이러한 접근 방식의 성공은 모델 아키텍처 세부 사항, 잘 조정된 학습 파이프라인, 그리고 가장 중요한 것은 새로 수집된 데이터 세트의 품질에 대한 신중한 선택에 달려 있으며, 이 모든 것이 공개될 예정입니다. 몰모 제품군 내 최고 수준의 72B 모델은 오픈 가중치 및 데이터 모델 동급에서 다른 모델보다 성능이 뛰어날 뿐만 아니라 학술 벤치마크와 인적 평가 모두에서 GPT-4o, 클로드 3.5, 제미니 1.5와 같은 독점 시스템과 비교해도 우위에 있습니다. 가까운 시일 내에 모든 모델 가중치, 캡션 및 미세 조정 데이터, 소스 코드를 공개할 예정입니다. 일부 모델 가중치, 추론 코드, 데모는 https://molmo.allenai.org 에서 확인할 수 있습니다.

Today’s most advanced multimodal models remain proprietary. The strongest open weight models rely heavily on synthetic data from proprietary VLMs to achieve good performance, effectively distilling these closed models into open ones. As a result, the community is still missing foundational knowledge about how to build performant VLMs from scratch. We present Molmo, a new family of VLMs that are state-of-the-art in their class of openness. Our key innovation is a novel, highly detailed image caption dataset collected entirely from human annotators using speech-based descriptions. To enable a wide array of user interactions, we also introduce a diverse dataset mixture for fine-tuning that includes in-the-wild Q&A and innovative 2D pointing data. The success of our approach relies on careful choices for the model architecture details, a well-tuned training pipeline, and, most critically, the quality of our newly collected datasets, all of which will be released. The best-inclass 72B model within the Molmo family not only outperforms others in the class of open weight and data models but also compares favorably against proprietary systems like GPT-4o, Claude 3.5, and Gemini 1.5 on both academic benchmarks and human evaluation. We will be releasing all of our model weights, captioning and fine-tuning data, and source code in the near future. Select model weights, inference code, and demo are available at https://molmo.allenai.org .

논문 링크

더 읽어보기

https://x.com/allen_ai/status/1838956313902219595


Addendum: 빠른 칩 설계를 위한 그래프 배치 방법론 / Addendum: A graph placement methodology for fast chip design

논문 소개

칩의 물리적 레이아웃을 설계하기 위해 훈련된 강화 학습 기반 방법인 알파칩은 3세대에 걸친 구글의 TPU에 사용된 것으로 알려졌으며, 이번 릴리스에는 다양한 칩 블록에 대한 사전 학습을 통해 새로운 블록에 적용할 수 있는 방법의 오픈 소스 구현과 20개의 TPU 블록에서 사전 학습된 모델 체크포인트도 공개됩니다.

A reinforcement learning-based method trained to design the physical layout of chips; AlphaChip is reportedly used in three additional generations of Google’s TPU; this release includes an open-source implementation of the method to help pre-train on a variety of chip blocks to apply to new blocks; also releases a model checkpoint pre-trained on 20 TPU blocks.

논문 링크

https://www.nature.com/articles/s41586-024-08032-5

더 읽어보기

https://x.com/GoogleDeepMind/status/1839306984480231852


여전히 계획을 세우지 못하는 LLM - LRM은 가능할까? PlanBench에서 OpenAI의 o1에 대한 예비 평가 / LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench

논문 소개

O1과 같은 대규모 추론 모델이 계획할 수 있는지 평가하고, 도메인 독립적 플래너는 미스터리 블록세계의 모든 인스턴스를 해결할 수 있지만 LLM은 작은 인스턴스에서도 어려움을 겪는다는 사실을 발견하고, o1-프리뷰가 작업에는 효과적이지만 계획 길이가 길어질수록 성능이 저하되는 경향이 있다는 사실을 발견하고, o1이 더 어려운 계획 문제에서는 진전을 보이지만 정확도 향상은 일반적이거나 견고하다고 볼 수 없다는 결론을 내립니다.

Evaluates whether large reasoning models such as o1 can plan; finds that a domain-independent planner can solve all instances of Mystery Blocksworld but LLMs struggle, even on small instances; o1-preview is effective on the task but tend to degrade in performance as plan length increases, concludes that while o1 shows progress on more challenging planning problems, the accuracy gains cannot be considered general or robust.

논문 초록(Abstract)

원하는 상태를 달성하기 위한 행동 방침을 계획하는 능력은 오랫동안 지능형 에이전트의 핵심 역량으로 여겨져 왔으며, 초기부터 AI 연구의 필수적인 부분으로 여겨져 왔습니다. 대규모 언어 모델(LLM)이 등장하면서 이러한 계획 능력이 있는지 여부에 대한 관심이 높아졌습니다. GPT3 출시 직후인 2022년에 개발한 확장 가능한 벤치마크인 PlanBench는 LLM의 계획 능력을 평가하는 중요한 도구로 남아 있습니다. GPT3 이후 수많은 새로운 비공개 및 오픈 소스 LLM이 출시되었음에도 불구하고 이 벤치마크의 발전은 놀라울 정도로 더디게 진행되었습니다. OpenAI는 최근 개발한 o1(Strawberry) 모델이 자동 회귀 LLM의 일반적인 한계를 벗어나도록 특별히 구성되고 훈련되어 새로운 종류의 모델, 즉 대규모 추론 모델(LRM)이 되었다고 주장합니다. 이 백서에서는 이러한 발전을 촉매로 삼아 현재 LLM과 새로운 LRM이 PlanBench에서 얼마나 잘 작동하는지 종합적으로 살펴봅니다. 앞으로 살펴보겠지만, o1의 성능은 벤치마크에서 비약적으로 개선되어 경쟁사를 앞질렀지만 여전히 포화 상태와는 거리가 멀었습니다. 이러한 개선으로 인해 이러한 시스템을 배포하기 전에 반드시 고려해야 하는 정확성, 효율성 및 보증에 대한 질문도 대두되고 있습니다.

The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities. PlanBench, an extensible benchmark we developed in 2022, soon after the release of GPT3, has remained an important tool for evaluating the planning abilities of LLMs. Despite the slew of new private and open source LLMs since GPT3, progress on this benchmark has been surprisingly slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs--making it a new kind of model: a Large Reasoning Model (LRM). Using this development as a catalyst, this paper takes a comprehensive look at how well current LLMs and new LRMs do on PlanBench. As we shall see, while o1's performance is a quantum improvement on the benchmark, outpacing the competition, it is still far from saturating it. This improvement also brings to the fore questions about accuracy, efficiency, and guarantees which must be considered before deploying such systems.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1838353480672563581


더 크고 지시 가능한 언어 모델일수록 신뢰성이 떨어집니다 / Larger and more instructable language models become less reliable

논문 소개

더 크고 지시 가능한 LLM은 신뢰성이 떨어질 수 있음을 시사하고, 난이도 일치, 작업 회피, 프롬프트 안정성 등 세 가지 요소에 걸쳐 LLM을 조사하여 초기 모델은 종종 사용자 질문을 피하지만 확장된 형태화된 모델은 인간 감독자가 자주 간과하는 어려운 질문에 대한 오류를 포함하여 겉으로는 합리적이지만 훨씬 더 자주 잘못된 답변을 제공하는 경향이 있음을 발견합니다.

Suggests that larger and more instructable LLMs may become less reliable; investigates LLMs across three elements: difficulty concordance, task avoidance, and prompting stability; finds that early models often avoid user questions but scaled-up, shaped-up models tend to give an apparently sensible yet wrong answer much more often, including errors on difficult questions that human supervisors frequently overlook.

논문 링크

https://www.nature.com/articles/s41586-024-07930-y

더 읽어보기

https://x.com/lexin_zhou/status/1838961179936293098


사고 논리: 대규모 언어 모델에서 완전한 추론을 위해 컨텍스트에 논리 주입하기 / Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models

논문 소개

명제 논리를 사용해 입력 컨텍스트에서 확장된 논리 정보를 생성하고 주입하는 새로운 프롬프트 기법인 LoT(Logic-of-Thought)를 제안하고, ReClor 데이터 세트에서 CoT 성능을 +4.35% 향상시키고, LogiQA에서 CoT+SelfConsistency의 성능을 +5% 향상시키고, ProofWriter 데이터 세트에서 ToT의 성능을 +8% 향상시킵니다.

Proposes a new prompting technique called Logic-of-Thought (LoT) which employs propositional logic to generate and inject expanded logical information from the input context; it enhances CoT performance on the ReClor dataset by +4.35%; it improves CoT+SelfConsistency’s performance on LogiQA by +5%; it also boosts the performance of ToT on the ProofWriter dataset by +8%.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 다양한 작업에서 뛰어난 능력을 보여 왔지만 복잡한 논리적 추론 작업에서의 성능은 여전히 만족스럽지 못합니다. 생각의 사슬과 같은 일부 프롬프트 방식은 LLM의 추론 능력을 어느 정도 향상시킬 수 있지만, 도출된 결론이 생성된 추론 사슬과 일치하지 않을 수 있는 불충실성 문제를 안고 있습니다. 이 문제를 해결하기 위해 일부 연구에서는 명제 논리의 접근 방식을 사용하여 LLM의 논리적 추론 능력을 더욱 향상시키기도 합니다. 그러나 이러한 방법에서는 논리 표현을 추출할 때 잠재적인 누락으로 인해 논리적 추론 과정에서 정보 손실이 발생하여 잘못된 결과를 생성할 수 있습니다. 이를 위해 본 연구에서는 명제 논리를 활용하여 입력 문맥으로부터 확장된 논리 정보를 생성하고, 생성된 논리 정보를 입력 프롬프트에 추가적으로 보강하여 논리적 추론 능력을 향상시키는 사고 논리(Logic-of-Thought, LoT) 프롬프트를 제안합니다. LoT는 기존 프롬프트 방식과 직교하며, 기존 프롬프트 방식과 원활하게 통합할 수 있습니다. 다양한 실험을 통해 LoT는 5가지 논리적 추론 작업에서 다양한 프롬프트 방식의 성능을 현저하게 향상시키는 것으로 입증되었습니다. 특히, LoT는 ReClor 데이터 세트에서 Chain-of-Thought의 성능을 +4.35% 향상시키고, LogiQA에서 자기 일관성을 갖춘 Chain-of-Thought의 성능을 +5% 향상시키며, ProofWriter 데이터 세트에서 Tree-of-Thought의 성능을 +8% 향상시키는 것으로 나타났습니다.

Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks but their performance in complex logical reasoning tasks remains unsatisfactory. Although some prompting methods, such as Chain-of-Thought, can improve the reasoning ability of LLMs to some extent, they suffer from an unfaithful issue where derived conclusions may not align with the generated reasoning chain. To address this issue, some studies employ the approach of propositional logic to further enhance logical reasoning abilities of LLMs. However, the potential omissions in the extraction of logical expressions in these methods can cause information loss in the logical reasoning process, thereby generating incorrect results. To this end, we propose Logic-of-Thought (LoT) prompting which employs propositional logic to generate expanded logical information from input context, and utilizes the generated logical information as an additional augmentation to the input prompts, thereby enhancing the capability of logical reasoning. The LoT is orthogonal to existing prompting methods and can be seamlessly integrated with them. Extensive experiments demonstrate that LoT boosts the performance of various prompting methods with a striking margin across five logical reasoning tasks. In particular, the LoT enhances Chain-of-Thought's performance on the ReClor dataset by +4.35%; moreover, it improves Chain-of-Thought with Self-Consistency's performance on LogiQA by +5%; additionally, it boosts performance of Tree-of-Thoughts on ProofWriter dataset by +8%.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1839718658127605825


검색 증강 생성(RAG)과 그 너머: LLM이 외부 데이터를 더 현명하게 사용하는 방법에 대한 종합적인 설문조사 / Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely

논문 소개

필요한 외부 데이터의 유형과 작업의 초점에 따라 사용자 쿼리를 4단계로 분류하는 데 도움이 되는 RAG 작업 분류 방법을 소개하고, 강력한 데이터 증강 LLM 애플리케이션 구축의 주요 과제와 이를 해결하기 위한 가장 효과적인 기술을 요약한 설문조사를 발표합니다.

Presents a survey that introduces a RAG task categorization method that helps to classify user queries into four levels according to the type of external data required and the focus of the task; summarizes key challenges in building robust data-augmented LLM applications and the most effective techniques for addressing them.

논문 초록(Abstract)

외부 데이터로 증강된 대규모 언어 모델(LLM)은 실제 작업을 완료하는 데 있어 놀라운 능력을 보여 왔습니다. 검색 증강 생성(RAG) 및 미세 조정과 같이 외부 데이터를 LLM에 통합하는 기술은 점점 더 많은 관심을 받고 있으며 광범위하게 적용되고 있습니다. 그럼에도 불구하고 다양한 전문 분야에 걸쳐 데이터 증강 LLM을 효과적으로 배포하는 데는 상당한 어려움이 있습니다. 이러한 과제에는 관련 데이터를 검색하고 사용자의 의도를 정확하게 해석하는 것부터 복잡한 작업을 위해 LLM의 추론 기능을 완전히 활용하는 것까지 광범위한 문제가 포함됩니다. 데이터 증강 LLM 애플리케이션을 위한 만능 솔루션은 없다고 생각합니다. 실제로 성과 저하는 종종 작업의 핵심 초점을 정확하게 파악하지 못하거나 작업의 본질적으로 더 나은 해결을 위해 여러 기능을 혼합해야 하기 때문에 발생합니다. 이 설문조사에서는 필요한 외부 데이터의 유형과 업무의 주요 초점에 따라 사용자 쿼리를 명시적 사실 쿼리, 암묵적 사실 쿼리, 해석 가능한 근거 쿼리, 숨겨진 근거 쿼리의 네 가지 수준으로 분류하는 RAG 업무 분류 방법을 제안합니다. 이러한 수준의 쿼리를 정의하고, 관련 데이터 세트를 제공하며, 이러한 문제를 해결하기 위한 주요 과제와 가장 효과적인 기술을 요약합니다. 마지막으로 외부 데이터를 LLM에 통합하는 세 가지 주요 형태인 컨텍스트, 소규모 모델, 미세 조정에 대해 논의하며 각각의 장점과 한계, 해결하기에 적합한 문제 유형을 강조합니다. 이 작업은 독자들이 LLM 애플리케이션 구축 시 데이터 요구 사항과 주요 병목 현상을 철저히 이해하고 분석하여 다양한 문제에 대한 해결책을 제시하고 이러한 애플리케이션을 체계적으로 개발하는 데 도움이 되는 가이드 역할을 하는 것을 목표로 합니다.

Large language models (LLMs) augmented with external data have demonstrated remarkable capabilities in completing real-world tasks. Techniques for integrating external data into LLMs, such as Retrieval-Augmented Generation (RAG) and fine-tuning, are gaining increasing attention and widespread application. Nonetheless, the effective deployment of data-augmented LLMs across various specialized fields presents substantial challenges. These challenges encompass a wide range of issues, from retrieving relevant data and accurately interpreting user intent to fully harnessing the reasoning capabilities of LLMs for complex tasks. We believe that there is no one-size-fits-all solution for data-augmented LLM applications. In practice, underperformance often arises from a failure to correctly identify the core focus of a task or because the task inherently requires a blend of multiple capabilities that must be disentangled for better resolution. In this survey, we propose a RAG task categorization method, classifying user queries into four levels based on the type of external data required and primary focus of the task: explicit fact queries, implicit fact queries, interpretable rationale queries, and hidden rationale queries. We define these levels of queries, provide relevant datasets, and summarize the key challenges and most effective techniques for addressing these challenges. Finally, we discuss three main forms of integrating external data into LLMs: context, small model, and fine-tuning, highlighting their respective strengths, limitations, and the types of problems they are suited to solve. This work aims to help readers thoroughly understand and decompose the data requirements and key bottlenecks in building LLM applications, offering solutions to the different challenges and serving as a guide to systematically developing such applications.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1838423872309465224


의학 분야의 o1에 대한 예비 연구: 우리는 인공지능 의사에 가까워지고 있는가? / A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor?

논문 소개

의료 시나리오에서 o1-프리뷰 모델을 미리 살펴보고, 19개의 데이터 세트와 새로 생성된 2개의 복잡한 QA 시나리오에서 o1의 정확도가 평균 6.2%와 6.6%로 이전 GPT-4를 능가하며, 환각, 일관되지 않은 다국어 능력, 평가 지표의 불일치를 식별할 수 있음을 보여줍니다.

Provides a preliminary exploration of the o1-preview model in medical scenarios; shows that o1 surpasses the previous GPT-4 in accuracy by an average of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios; identifies hallucination, inconsistent multilingual ability, and discrepant metrics for evaluation.

논문 초록(Abstract)

대규모 언어 모델(LLM)은 다양한 영역과 작업에서 놀라운 역량을 발휘하며 학습과 인지에 대한 지식의 경계를 넓혀왔습니다. 최신 모델인 OpenAI의 o1은 강화 학습 전략을 사용하는 내재화된 연쇄 사고 기법을 갖춘 최초의 LLM으로 주목받고 있습니다. 다양한 일반 언어 작업에서 놀라울 정도로 강력한 성능을 보여줬지만, 의학 등 전문 분야에서의 성능은 아직 알려지지 않았습니다. 이를 위해 이 보고서에서는 이해력, 추론력, 다국어 능력의 세 가지 주요 측면을 살펴보고 다양한 의료 시나리오에서 o1을 종합적으로 탐색합니다. 특히, 뉴잉글랜드 저널 오브 메디슨(NEJM)과 란셋의 전문 의학 퀴즈를 기반으로 새롭게 구성된 보다 까다로운 두 가지 질문 답변(QA) 과제를 포함하여 37개 의료 데이터 세트의 데이터를 사용한 6가지 과제를 평가합니다. 이러한 데이터 세트는 MedQA와 같은 표준 의료 QA 벤치마크에 비해 임상적 관련성이 높아 실제 임상 유용성으로 더 효과적으로 변환됩니다. O1에 대한 분석에 따르면 LLM의 향상된 추론 능력은 다양한 의료 지침을 이해하고 복잡한 임상 시나리오를 통해 추론하는 능력에 상당한 도움이 될 수 있음을 시사합니다. 특히, o1은 19개의 데이터 세트와 새로 생성된 2개의 복잡한 QA 시나리오에서 정확도가 평균 6.2%와 6.6%로 이전 GPT-4를 능가했습니다. 하지만 한편으로는 모델 기능과 기존 평가 프로토콜 모두에서 환각, 일관되지 않은 다국어 능력, 평가 지표의 불일치 등 몇 가지 약점을 발견했습니다. 향후 연구를 위해 원시 데이터와 모델 결과를 A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? 에 공개합니다.

Large language models (LLMs) have exhibited remarkable capabilities across various domains and tasks, pushing the boundaries of our knowledge in learning and cognition. The latest model, OpenAI's o1, stands out as the first LLM with an internalized chain-of-thought technique using reinforcement learning strategies. While it has demonstrated surprisingly strong capabilities on various general language tasks, its performance in specialized fields such as medicine remains unknown. To this end, this report provides a comprehensive exploration of o1 on different medical scenarios, examining 3 key aspects: understanding, reasoning, and multilinguality. Specifically, our evaluation encompasses 6 tasks using data from 37 medical datasets, including two newly constructed and more challenging question-answering (QA) tasks based on professional medical quizzes from the New England Journal of Medicine (NEJM) and The Lancet. These datasets offer greater clinical relevance compared to standard medical QA benchmarks such as MedQA, translating more effectively into real-world clinical utility. Our analysis of o1 suggests that the enhanced reasoning ability of LLMs may (significantly) benefit their capability to understand various medical instructions and reason through complex clinical scenarios. Notably, o1 surpasses the previous GPT-4 in accuracy by an average of 6.2% and 6.6% across 19 datasets and two newly created complex QA scenarios. But meanwhile, we identify several weaknesses in both the model capability and the existing evaluation protocols, including hallucination, inconsistent multilingual ability, and discrepant metrics for evaluation. We release our raw data and model outputs at A Preliminary Study of o1 in Medicine: Are We Closer to an AI Doctor? for future research.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1838421859098071472


소규모 언어 모델: 설문 조사, 측정 및 인사이트 / Small Language Models: Survey, Measurements, and Insights

논문 소개

아키텍처, 학습 데이터세트, 학습 알고리즘 전반의 소규모 언어 모델(SLM)에 대한 포괄적인 조사, 추론, 상황에 맞는 학습, 수학, 코딩 등 59개의 최신 오픈 소스 SLM 및 기능 분석, 디바이스 런타임 비용, 지연 시간, 메모리 공간, 기타 유용한 인사이트 등 다양한 논의가 이루어집니다.

A comprehensive survey on small language models (SLMs) across architectures, training datasets, and training algorithms; analyzes 59 state-of-the-art open-source SLMs and capabilities such as reasoning, in-context learning, maths, and coding; other discussions include on-device runtime costs, latency, memory footprint, and valuable insights.

논문 초록(Abstract)

소규모 언어 모델(SLM)은 최신 스마트 기기에 널리 채택되고 있음에도 불구하고 데이터 센터와 클라우드 환경에 주로 배포되는 대규모 언어 모델(LLM)에 비해 학계의 주목을 크게 덜 받고 있습니다. 연구자들은 인공 일반 지능을 추구하기 위해 LLM의 기능을 지속적으로 개선하고 있지만, SLM 연구는 기계 지능을 일상 업무에 더 접근하기 쉽고 저렴하며 효율적으로 만드는 것을 목표로 합니다. 1억~5억 개의 파라미터를 가진 트랜스포머 기반의 디코더 전용 언어 모델에 초점을 맞춰 59개의 최신 오픈 소스 SLM을 조사하여 아키텍처, 학습 데이터세트, 학습 알고리즘의 세 가지 축에서 기술 혁신을 분석합니다. 또한 상식적 추론, 상황에 맞는 학습, 수학, 코딩 등 다양한 영역에서의 역량을 평가합니다. 디바이스 내 런타임 비용에 대한 추가 인사이트를 얻기 위해 추론 지연 시간과 메모리 사용량을 벤치마킹합니다. 벤치마킹 데이터에 대한 심층적인 분석을 통해 이 분야의 연구를 발전시킬 수 있는 귀중한 인사이트를 제공합니다.

Small language models (SLMs), despite their widespread adoption in modern smart devices, have received significantly less academic attention compared to their large language model (LLM) counterparts, which are predominantly deployed in data centers and cloud environments. While researchers continue to improve the capabilities of LLMs in the pursuit of artificial general intelligence, SLM research aims to make machine intelligence more accessible, affordable, and efficient for everyday tasks. Focusing on transformer-based, decoder-only language models with 100M-5B parameters, we survey 59 state-of-the-art open-source SLMs, analyzing their technical innovations across three axes: architectures, training datasets, and training algorithms. In addition, we evaluate their capabilities in various domains, including commonsense reasoning, in-context learning, mathematics, and coding. To gain further insight into their on-device runtime costs, we benchmark their inference latency and memory footprints. Through in-depth analysis of our benchmarking data, we offer valuable insights to advance research in this field.

논문 링크

더 읽어보기

https://ubiquitouslearning.github.io/TinyLLMLeaderBoard/#/slm

https://x.com/omarsar0/status/1838785252380348763


Minstrel: AI 비전문가를 위한 멀티 에이전트 조정을 통한 구조적 프롬프트 생성 / Minstrel: Structural Prompt Generation with Multi-Agents Coordination for Non-AI Experts

논문 소개

구조적 프롬프트 생성을 자동화하는 리플렉션 기능을 갖춘 다중 생성 에이전트 시스템으로, 프롬프트 설계를 위한 확장 가능한 프레임워크인 LangGPT를 제공하며, Minstrel은 LangGPT 위에 구축되었고 실험을 통해 구조적 프롬프트(Minstrel에서 생성하거나 수동으로 작성)가 LLM이 작업을 수행하도록 안내하는 데 더 효과적임을 입증했습니다.

A multi-generative agent system with reflection capabilities to automate structural prompt generation; it presents LangGPT, an extensible framework for designing prompts; Minstrel is built on top of LangGPT and experiments demonstrate that structural prompts (either generated by Minstrel or written manually) perform better in guiding LLMs to perform tasks.

논문 초록(Abstract)

LLM은 다양한 영역에서 뛰어난 성과를 보여 왔습니다. 그럼에도 불구하고 AI 전문가가 아닌 일반 사용자에게는 작업을 지원하는 고품질 프롬프트를 공식화하는 것이 어려운 과제입니다. 프롬프트 엔지니어링에 대한 기존 연구는 다소 분산된 최적화 원칙을 제시하고 경험에 의존하는 프롬프트 최적화기를 설계합니다. 안타깝게도 이러한 노력은 구조적인 설계가 부족하여 학습 비용이 많이 들며, 특히 AI 전문가가 아닌 경우 프롬프트의 반복적인 업데이트에 도움이 되지 않습니다. 재사용 가능한 구조적 프로그래밍 언어에서 영감을 받아 구조적 프롬프트 설계 프레임워크인 LangGPT를 제안합니다. 또한 구조적 프롬프트 생성을 자동화하기 위해 리플렉션 기능을 갖춘 다중 생성 에이전트 시스템인 Minstrel을 소개합니다. 실험과 사례 연구를 통해 Minstrel로 생성하거나 수동으로 작성한 구조적 프롬프트가 LLM의 성능을 크게 향상시키는 것을 확인할 수 있습니다. 또한 온라인 커뮤니티의 사용자 설문조사를 통해 구조적 프롬프트의 사용 편의성을 분석합니다.

LLMs have demonstrated commendable performance across diverse domains. Nevertheless, formulating high-quality prompts to assist them in their work poses a challenge for non-AI experts. Existing research in prompt engineering suggests somewhat scattered optimization principles and designs empirically dependent prompt optimizers. Unfortunately, these endeavors lack a structural design, incurring high learning costs and it is not conducive to the iterative updating of prompts, especially for non-AI experts. Inspired by structured reusable programming languages, we propose LangGPT, a structural prompt design framework. Furthermore, we introduce Minstrel, a multi-generative agent system with reflection to automate the generation of structural prompts. Experiments and the case study illustrate that structural prompts generated by Minstrel or written manually significantly enhance the performance of LLMs. Furthermore, we analyze the ease of use of structural prompts through a user survey in our online community.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1838260043973824738


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

4개의 좋아요