[2024/08/12 ~ 08/18] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/08/12 ~ 08/18] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문 목록을 보면, 특히 자연어 처리(NLP)와 관련된 연구가 두드러집니다. 또한, 많은 논문들이 복합적 접근법(multimodal)과 정보 검색(retrieval)에 중점을 두고 있는 것이 눈에 띕니다.

  • 첫 번째로, 대부분의 논문이 자연어 처리와 관련이 있습니다. 'LongWriter', 'EfficientRAG', 'RAGChecker', 'HybridRAG', 'MedGraphRAG', 'Survey of NL2QL' 등의 논문들은 자연어 처리를 다양한 방식으로 다루고 있으며, 그중에서도 복합적 검색 알고리즘을 통해 정보를 효율적으로 찾고 활용하는 문제를 중점적으로 다루고 있습니다. 이는 NLP가 여전히 인공지능 연구의 핫토픽임을 보여줍니다.

  • 두 번째로, 정보 검색과 관련된 논문들이 많아 보입니다. 'EfficientRAG', 'RAGChecker', 'HybridRAG' 등의 논문들은 정보 검색 알고리즘과 그 효율성에 대한 다양한 접근법을 제시하고 있습니다. 이는 대량의 데이터에서 유의미한 정보를 신속하고 정확하게 추출하는 것이 중요해지고 있음을 시사하며, 연구자들이 이에 대한 해결책을 연구하고 있다는 것을 보여줍니다.

  • 기술 연구의 이러한 추세는 대량의 데이터 처리와 자연어 이해가 점점 더 중요해지고 있다는 것을 반영합니다. 인공지능 시스템이 더욱 정교해지고 인간의 복잡한 언어와 데이터를 더 잘 이해할 수 있도록 만드는 것이 목표로 여겨지고 있습니다. 앞으로도 이와 같은 주제에 대한 연구는 지속적으로 이루어질 것이며, 더욱 발전된 기술과 응용이 기대됩니다.


AI 과학자: 완전 자동화된 개방형 과학적 발견을 향하여 / The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

논문 소개

15달러 미만의 비용으로 전체 학회 수준의 과학 논문을 개발하고 작성할 수 있는 새로운 AI 에이전트, 프론티어 LLM이 독립적인 연구를 수행하고 연구 결과를 요약할 수 있도록 함으로써 과학적 발견을 자동화, 자동화된 검토자를 사용하여 생성된 논문을 평가, 논문 점수 평가에서 인간에 가까운 성능을 달성, 자동화된 검토자가 판단한 최고 머신러닝 학회에서 허용 기준치를 초과하는 논문 생산 주장 등 다양한 기능을 제공합니다.

A novel AI agent that can develop and write a full conference-level scientific paper costing less than $15; it automates scientific discovery by enabling frontier LLMs to perform independent research and summarize findings; it also uses an automated reviewer to evaluate the generated papers; claims to achieve near-human performance in evaluating paper scores; claims to produce papers that exceed the acceptance threshold at a top machine learning conference as judged by their automated reviewer.

논문 초록(Abstract)

인공 일반 인공지능의 가장 큰 과제 중 하나는 과학 연구를 수행하고 새로운 지식을 발견할 수 있는 에이전트를 개발하는 것입니다. 프론티어 모델은 이미 아이디어 브레인스토밍, 코드 작성, 예측 작업 등 인간 과학자를 보조하는 용도로 사용되어 왔지만, 아직 과학 프로세스의 일부만 수행하고 있습니다. 이 논문은 완전 자동 과학적 발견을 위한 최초의 포괄적인 프레임워크를 제시하여, 프론티어 대규모 언어 모델이 독립적으로 연구를 수행하고 그 결과를 전달할 수 있도록 지원합니다. 새로운 연구 아이디어를 생성하고, 코드를 작성하고, 실험을 실행하고, 결과를 시각화하고, 전체 과학 논문을 작성하여 그 결과를 설명한 다음 평가를 위해 시뮬레이션된 검토 프로세스를 실행하는 AI 과학자를 소개합니다. 원칙적으로 이 과정을 반복하여 인간 과학 커뮤니티처럼 개방적인 방식으로 아이디어를 반복적으로 발전시킬 수 있습니다. 우리는 확산 모델링, 트랜스포머 기반 언어 모델링, 학습 역학이라는 세 가지 머신 러닝 하위 분야에 적용하여 그 다용성을 입증했습니다. 각 아이디어는 논문당 15달러 미만의 비용으로 전체 논문으로 구현 및 개발됩니다. 생성된 논문을 평가하기 위해 자동화된 리뷰어를 설계하고 검증하며, 이 리뷰어는 논문 점수를 평가하는 데 있어 인간에 가까운 성능을 보여줍니다. AI 과학자는 자동화된 검토자가 판단한 대로 최고 수준의 머신러닝 컨퍼런스에서 채택 기준치를 초과하는 논문을 생성할 수 있습니다. 이러한 접근 방식은 머신러닝의 과학적 발견에 있어 새로운 시대가 시작되었음을 의미하며, AI 에이전트의 혁신적 이점을 AI 자체의 전체 연구 프로세스에 가져와 세계에서 가장 어려운 문제에 대해 무한한 창의성과 혁신을 발휘할 수 있는 세상에 더 가까이 다가갈 수 있게 해줍니다. 유니티의 코드는 GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬 에서 오픈 소스입니다

One of the grand challenges of artificial general intelligence is developing agents capable of conducting scientific research and discovering new knowledge. While frontier models have already been used as aides to human scientists, e.g. for brainstorming ideas, writing code, or prediction tasks, they still conduct only a small part of the scientific process. This paper presents the first comprehensive framework for fully automatic scientific discovery, enabling frontier large language models to perform research independently and communicate their findings. We introduce The AI Scientist, which generates novel research ideas, writes code, executes experiments, visualizes results, describes its findings by writing a full scientific paper, and then runs a simulated review process for evaluation. In principle, this process can be repeated to iteratively develop ideas in an open-ended fashion, acting like the human scientific community. We demonstrate its versatility by applying it to three distinct subfields of machine learning: diffusion modeling, transformer-based language modeling, and learning dynamics. Each idea is implemented and developed into a full paper at a cost of less than $15 per paper. To evaluate the generated papers, we design and validate an automated reviewer, which we show achieves near-human performance in evaluating paper scores. The AI Scientist can produce papers that exceed the acceptance threshold at a top machine learning conference as judged by our automated reviewer. This approach signifies the beginning of a new era in scientific discovery in machine learning: bringing the transformative benefits of AI agents to the entire research process of AI itself, and taking us closer to a world where endless affordable creativity and innovation can be unleashed on the world's most challenging problems. Our code is open-sourced at GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑‍🔬

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1823189280883097788


Grok-2

논문 소개

크고 작은 모델을 포함하는 강력한 코드, 수학 및 추론 기능을 갖춘 새로운 프론티어 모델, LMSYS 챗봇 아레나에서 클로드 3.5 소네트 및 GPT-4-터보보다 뛰어난 성능, 명령 추종, 검색, 도구 사용, 사실성 향상 등의 기능 개선 주장, MMLU 및 HumanEval에서 클로드 3.5 소네트(6월 출시) 및 GPT-4o(5월 출시)와 경쟁합니다.

A new frontier model with strong code, math, and reasoning capabilities which includes a large and small model; outperforms both Claude 3.5 Sonnet and GPT-4-Turbo on the LMSYS Chatbot Arena; claims to improve capabilities including instruction following, retrieval, tool use, and enhancing factuality; competes with Claude 3.5 Sonnet (June release) and GPT-4o (May release) on MMLU and HumanEval.

논문 링크

더 읽어보기

https://x.com/xai/status/1823597788573098215


LongWriter: 긴 문맥 LLM에서 10,000개 이상의 단어 생성 활용하기 / LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

논문 소개

20,000단어 이상의 일관된 출력을 생성할 수 있도록 상용 LLM을 지원하는 AgentWrite 제안; 에이전트는 긴 생성 작업을 하위 작업으로 나누고 분할 및 정복 방식으로 생성; 에이전트는 작업을 여러 쓰기 하위 작업으로 나누고 출력을 연결하여 최종 출력(즉,, 계획 + 쓰기); 그런 다음 이 접근 방식은 일관된 긴 출력을 자동으로 생성하도록 LLM을 조정하는 데 사용되는 SFT 데이터 세트를 구축하는 데 사용되며, DPO를 통해 더욱 향상된 9B 파라미터 모델은 벤치마크에서 최첨단 성능을 달성하고 독점 모델을 능가합니다.

Proposes AgentWrite to enable off-the-shelf LLMs to generate coherent outputs beyond 20K words; AgentWrite breaks down the long generation task into subtasks and in a divide-and-conquer approach generates; the agent breaks the task into multiple writing subtasks and concatenates the outputs to get a final output (i.e., plan + write); the approach is then used to build SFT datasets that are used to tune LLMs to generate coherent longer outputs automatically; a 9B parameter model, further improved through DPO, achieves state-of-the-art performance on their benchmark, and surpasses proprietary models.

논문 초록(Abstract)

현재의 장문맥 대규모 언어 모델(LLM)은 최대 100,000개의 토큰까지 입력을 처리할 수 있지만, 2,000단어라는 적당한 길이를 초과하는 출력을 생성하는 데 어려움을 겪습니다. 통제된 실험을 통해 모델의 유효 생성 길이가 감독 미세 조정(SFT) 중에 본 샘플에 의해 본질적으로 제한된다는 사실을 발견했습니다. 즉, 기존 SFT 데이터 세트에 긴 출력 예시가 부족하기 때문에 출력 제한이 발생한다는 것입니다. 이 문제를 해결하기 위해 초장기 생성 작업을 하위 작업으로 분해하여 상용 LLM이 20,000단어 이상의 일관된 출력을 생성할 수 있도록 하는 에이전트 기반 파이프라인인 AgentWrite를 도입했습니다. 에이전트워쓰기를 활용하여 출력 길이가 2천 단어에서 32천 단어에 이르는 6천 개의 SFT 데이터를 포함하는 데이터 세트인 LongWriter-6k를 구축합니다. 이 데이터 세트를 모델 학습에 통합하여 출력 품질을 유지하면서 기존 모델의 출력 길이를 10,000단어 이상으로 확장하는 데 성공했습니다. 또한 초장문 생성 기능을 평가하기 위한 포괄적인 벤치마크인 LongBench-Write를 개발했습니다. DPO를 통해 더욱 개선된 9B 매개변수 모델은 이 벤치마크에서 훨씬 더 큰 독점 모델을 능가하는 최첨단 성능을 달성했습니다. 일반적으로 기존의 긴 컨텍스트 LLM은 이미 더 큰 출력 창을 위한 잠재력을 가지고 있으며, 이 기능을 활용하기 위해 모델 정렬 중에 확장된 출력을 가진 데이터만 있으면 된다는 것을 입증했습니다. 코드 및 모델은 GitHub - THUDM/LongWriter: LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs 에서 확인할 수 있습니다.

Current long context large language models (LLMs) can process inputs up to 100,000 tokens, yet struggle to generate outputs exceeding even a modest length of 2,000 words. Through controlled experiments, we find that the model's effective generation length is inherently bounded by the sample it has seen during supervised fine-tuning (SFT). In other words, their output limitation is due to the scarcity of long-output examples in existing SFT datasets. To address this, we introduce AgentWrite, an agent-based pipeline that decomposes ultra-long generation tasks into subtasks, enabling off-the-shelf LLMs to generate coherent outputs exceeding 20,000 words. Leveraging AgentWrite, we construct LongWriter-6k, a dataset containing 6,000 SFT data with output lengths ranging from 2k to 32k words. By incorporating this dataset into model training, we successfully scale the output length of existing models to over 10,000 words while maintaining output quality. We also develop LongBench-Write, a comprehensive benchmark for evaluating ultra-long generation capabilities. Our 9B parameter model, further improved through DPO, achieves state-of-the-art performance on this benchmark, surpassing even much larger proprietary models. In general, our work demonstrates that existing long context LLM already possesses the potential for a larger output window--all you need is data with extended output during model alignment to unlock this capability. Our code & models are at: GitHub - THUDM/LongWriter: LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1823551063946850712


EfficientRAG: 멀티홉 질문 답변을 위한 효율적인 리트리버 / EfficientRAG: Efficient Retriever for Multi-Hop Question Answering

논문 소개

청크에 라벨을 붙이고 태그를 지정하도록 자동 인코더 LM을 학습시키고, 관련 청크를 검색하여 <종료> 또는 <계속>으로 태그를 지정하고, 연속 처리를 위해 <계속> 청크에 주석을 달고, 원래 질문과 이전 주석을 기반으로 다음 홉 쿼리를 공식화하도록 필터 모델을 학습시킵니다; 이 과정은 모든 청크에 <종료> 태그가 지정되거나 최대 반복 횟수에 도달할 때까지 반복적으로 수행되며, 위의 과정을 통해 초기 질문에 답하기에 충분한 정보를 수집한 후 최종 생성기(LLM)가 최종 답변을 생성합니다.

Trains an auto-encoder LM to label and tag chunks; it retrieves relevant chunks, tags them as either or , and annotates chunks for continuous processing; then a filter model is trained to formulate the next-hop query based on the original question and previous annotations; this is done iteratively until all chunks are tagged as or the maximum # of iterations is reached; after the process above has gathered enough information to answer the initial question, the final generator (an LLM) generates the final answer.

논문 초록(Abstract)

검색 증강 생성(RAG) 방법은 멀티홉 쿼리와 같은 복잡한 질문을 처리할 때 어려움을 겪습니다. 반복 검색 방법은 추가 정보를 수집하여 성능을 향상시키지만, 현재의 접근 방식은 종종 대규모 언어 모델(LLM)의 여러 호출에 의존합니다. 이 백서에서는 멀티홉 질문 답변을 위한 효율적인 검색기인 EfficientRAG를 소개합니다. EfficientRAG는 각 반복마다 LLM 호출 없이 새로운 쿼리를 반복적으로 생성하고 관련 없는 정보를 걸러냅니다. 실험 결과, 3개의 오픈 도메인 멀티홉 질문-응답 데이터세트에서 EfficientRAG가 기존 RAG 방식을 능가하는 것으로 나타났습니다.

Retrieval-augmented generation (RAG) methods encounter difficulties when addressing complex questions like multi-hop queries. While iterative retrieval methods improve performance by gathering additional information, current approaches often rely on multiple calls of large language models (LLMs). In this paper, we introduce EfficientRAG, an efficient retriever for multi-hop question answering. EfficientRAG iteratively generates new queries without the need for LLM calls at each iteration and filters out irrelevant information. Experimental results demonstrate that EfficientRAG surpasses existing RAG methods on three open-domain multi-hop question-answering datasets.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1822744591810114044


RAGChecker: 검색 증강 생성(RAG)을 진단하기 위한 세분화된 프레임워크 / RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

논문 소개

RAG의 검색 및 생성 모듈을 진단하기 위한 세분화된 평가 프레임워크, RAGChecker가 사람의 판단과 더 나은 상관관계가 있음을 보여주는 것, RAG 아키텍처의 설계 선택에서 몇 가지 통찰력 있는 패턴과 절충점을 보고합니다.

A fine-grained evaluation framework for diagnosing retrieval and generation modules in RAG; shows that RAGChecker has better correlations with human judgment; reports several revealing insightful patterns and trade-offs in design choices of RAG architectures.

논문 초록(Abstract)

검색 증강 생성(RAG)은 외부 지식을 활용하는 데 있어 유망한 기능을 보여 왔지만, RAG의 모듈적 특성, 긴 형식의 응답 평가, 측정의 신뢰성으로 인해 RAG 시스템에 대한 종합적인 평가는 여전히 어려운 과제입니다. 이 백서에서는 검색 및 생성 모듈에 대한 일련의 진단 메트릭을 통합하는 세분화된 평가 프레임워크인 RAGChecker를 제안합니다. 메타 평가를 통해 RAGChecker가 다른 평가 지표보다 사람의 판단과 훨씬 더 나은 상관관계를 가지고 있음을 확인했습니다. RAGChecker를 사용해 8개의 RAG 시스템을 평가하고 성능에 대한 심층 분석을 수행하여 RAG 아키텍처의 설계 선택에서 통찰력 있는 패턴과 장단점을 밝혀냈습니다. RAGChecker의 메트릭은 연구자와 실무자가 보다 효과적인 RAG 시스템을 개발하는 데 도움을 줄 수 있습니다.

Despite Retrieval-Augmented Generation (RAG) has shown promising capability in leveraging external knowledge, a comprehensive evaluation of RAG systems is still challenging due to the modular nature of RAG, evaluation of long-form responses and reliability of measurements. In this paper, we propose a fine-grained evaluation framework, RAGChecker, that incorporates a suite of diagnostic metrics for both the retrieval and generation modules. Meta evaluation verifies that RAGChecker has significantly better correlations with human judgments than other evaluation metrics. Using RAGChecker, we evaluate 8 RAG systems and conduct an in-depth analysis of their performance, revealing insightful patterns and trade-offs in the design choices of RAG architectures. The metrics of RAGChecker can guide researchers and practitioners in developing more effective RAG systems.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1824460245051081216


HybridRAG: 효율적인 정보 추출을 위한 지식 그래프와 벡터 검색 증강 생성의 통합 / HybridRAG: Integrating Knowledge Graphs and Vector Retrieval Augmented Generation for Efficient Information Extraction

논문 소개

GraphRAG와 VectorRAG를 결합하여 개별적으로 더 뛰어난 성능을 발휘하는 HybridRAG 시스템으로, 금융 수익 통화 기록 세트에서 테스트되었습니다. 두 접근 방식의 장점을 결합하면 쿼리에 대한 보다 정확한 답변을 얻을 수 있습니다.

Combines GraphRAG and VectorRAG leading to a HybridRAG system that outperforms both individually; it was tested on a set of financial earning call transcripts. Combining the advantages of both approaches provides more accurate answers to queries.

논문 초록(Abstract)

어닝 콜 녹취록과 같은 금융 애플리케이션에서 발생하는 비정형 텍스트 데이터에서 복잡한 정보를 추출하고 해석하는 것은 도메인별 용어와 문서의 복잡한 형식 등의 문제로 인해 현재의 모범 사례인 검색 증강 생성(RAG)(정보 검색을 위해 벡터 데이터베이스를 활용하는 VectorRAG 기법)을 사용하더라도 대규모 언어 모델(LLM)에 상당한 어려움을 야기합니다. 저희는 금융 문서에서 정보 추출을 위한 질의응답(Q&A) 시스템을 개선하기 위해 지식 그래프(KG) 기반 RAG 기법(GraphRAG라고 함)과 VectorRAG 기법을 결합한 HybridRAG라는 새로운 접근법을 소개합니다. 이 접근법은 정확하고 맥락에 맞는 답변을 생성할 수 있는 것으로 나타났습니다. Q&A 형식의 금융 수익 통화 기록 문서 세트에 대한 실험을 통해, 따라서 자연스러운 실사 기반 Q&A 쌍을 제공하는 실험을 통해, 벡터 데이터베이스와 KG 모두에서 컨텍스트를 검색하는 HybridRAG가 검색 정확도와 답변 생성 측면에서 검색 및 생성 단계 모두에서 기존의 VectorRAG와 GraphRAG를 개별적으로 평가할 때 더 나은 성능을 보임을 보여 줍니다. 제안된 기법은 금융 분야 외에도 다양한 분야에 적용 가능합니다

Extraction and interpretation of intricate information from unstructured text data arising in financial applications, such as earnings call transcripts, present substantial challenges to large language models (LLMs) even using the current best practices to use Retrieval Augmented Generation (RAG) (referred to as VectorRAG techniques which utilize vector databases for information retrieval) due to challenges such as domain specific terminology and complex formats of the documents. We introduce a novel approach based on a combination, called HybridRAG, of the Knowledge Graphs (KGs) based RAG techniques (called GraphRAG) and VectorRAG techniques to enhance question-answer (Q&A) systems for information extraction from financial documents that is shown to be capable of generating accurate and contextually relevant answers. Using experiments on a set of financial earning call transcripts documents which come in the form of Q&A format, and hence provide a natural set of pairs of ground-truth Q&As, we show that HybridRAG which retrieves context from both vector database and KG outperforms both traditional VectorRAG and GraphRAG individually when evaluated at both the retrieval and generation stages in terms of retrieval accuracy and answer generation. The proposed technique has applications beyond the financial domain

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1822832843455648000


상호 추론으로 소규모 LLM을 더 강력한 문제 해결사로 만드는 방법 / Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

논문 소개

미세 조정이나 상위 모델 없이도 소규모 언어 모델의 추론 능력을 향상시키기 위해 셀프 플레이 상호 추론 도입, 보다 풍부한 추론 궤적을 구축하기 위해 SLM에서 얻은 인간과 유사한 추론 동작으로 MCTS를 증강, 별도의 SLM이 궤적에 대한 비지도 피드백을 제공하고 대상 SLM이 최종 추론 궤적을 답으로 선택, rStar는 LLaMA2-7B의 경우 GSM8K 정확도를 12.51%에서 63.91%로 높이고 다른 SLM의 정확도를 지속적으로 향상시킵니다.

Introduces self-play mutual reasoning to improve the reasoning capabilities of small language models without fine-tuning or superior models; MCTS is augmented with human-like reasoning actions, obtained from SLMs, to build richer reasoning trajectories; a separate SLM provides unsupervised feedback on the trajectories and the target SLM selects the final reasoning trajectory as the answer; rStar boosts GSM8K accuracy from 12.51% to 63.91% for LLaMA2-7B and consistently improves the accuracy of other SLMs.

논문 초록(Abstract)

이 백서에서는 미세 조정이나 상위 모델 없이도 소규모 언어 모델(SLM)의 추론 능력을 크게 향상시키는 셀프 플레이 상호 추론 접근 방식인 rStar를 소개합니다. rStar는 추론을 셀프 플레이 상호 생성-판별 프로세스로 분리합니다. 먼저, 대상 SLM이 인간과 유사한 풍부한 추론 작업으로 몬테카를로 트리 검색(MCTS)을 보강하여 고품질 추론 궤적을 구축합니다. 다음으로, 타겟 SLM과 유사한 기능을 갖춘 다른 SLM이 판별자 역할을 수행하여 타겟 SLM이 생성한 각 궤적을 검증합니다. 상호 합의된 추론 궤적은 상호 일관성이 있는 것으로 간주되므로 정확할 가능성이 더 높습니다. 5가지 SLM에 걸친 광범위한 실험을 통해 rStar가 GSM8K, GSM-Hard, MATH, SVAMP, StrategyQA 등 다양한 추론 문제를 효과적으로 해결할 수 있음을 입증했습니다. 놀랍게도, rStar는 LLaMA2-7B의 경우 GSM8K 정확도를 12.51%에서 63.91%로, Mistral-7B의 경우 36.46%에서 81.88%로, LLaMA3-8B-Instruct의 경우 74.53%에서 91.13%로 향상시켰습니다. 코드는 https://github.com/zhentingqi/rStar 에서 확인할 수 있습니다.

This paper introduces rStar, a self-play mutual reasoning approach that significantly improves reasoning capabilities of small language models (SLMs) without fine-tuning or superior models. rStar decouples reasoning into a self-play mutual generation-discrimination process. First, a target SLM augments the Monte Carlo Tree Search (MCTS) with a rich set of human-like reasoning actions to construct higher quality reasoning trajectories. Next, another SLM, with capabilities similar to the target SLM, acts as a discriminator to verify each trajectory generated by the target SLM. The mutually agreed reasoning trajectories are considered mutual consistent, thus are more likely to be correct. Extensive experiments across five SLMs demonstrate rStar can effectively solve diverse reasoning problems, including GSM8K, GSM-Hard, MATH, SVAMP, and StrategyQA. Remarkably, rStar boosts GSM8K accuracy from 12.51% to 63.91% for LLaMA2-7B, from 36.46% to 81.88% for Mistral-7B, from 74.53% to 91.13% for LLaMA3-8B-Instruct. Code will be available at https://github.com/zhentingqi/rStar.

논문 링크

더 읽어보기

https://github.com/zhentingqi/rStar

https://x.com/AtakanTekparmak/status/1823776878747877572


대규모 언어 모델을 사용한 NL2SQL에 대한 설문 조사: 우리는 어디까지 왔고 어디로 가고 있나요? / A Survey of NL2SQL with Large Language Models: Where are we, and where are we going?

논문 소개

LLM에서 추론 시간 계산의 스케일링 동작을 조사하고, 특히 고정된 양의 추론 시간 계산이 주어질 경우 LLM을 얼마나 개선할 수 있는지 분석하며, 프롬프트의 난이도에 따라 다양한 스케일링 접근법의 효과가 달라진다는 것을 발견하고, 베스트 오브 N 기준선에 비해 효율성을 4배 이상 향상시킬 수 있는 적응형 계산 최적화 전략을 제안하고, FLOPs 일치 평가에서 테스트 시간 계산을 최적으로 확장하면 14배 큰 모델보다 성능이 향상된다는 보고가 있습니다.

Investigates the scaling behaviors of inference-time computation in LLMs; in particular, it analyses how much an LLM can be improved provided a fixed amount of inference-time compute; finds that the effectiveness of different scaling approaches varies by difficulty of prompt; it then proposes an adaptive compute-optimal strategy that can improve efficiency by more than 4x compared to a best-of-N baseline; reports that in a FLOPs-matched evaluation, optimally scaling test-time compute can outperform a 14x larger model.

논문 초록(Abstract)

사용자의 자연어 쿼리(NL)를 SQL 쿼리(즉, NL2SQL)로 번역하면 관계형 데이터베이스에 대한 접근 장벽을 크게 낮추고 다양한 상용 애플리케이션을 지원할 수 있습니다. NL2SQL의 성능은 대규모 언어 모델(LLM)의 등장으로 크게 향상되었습니다. 이 설문조사에서는 다음 네 가지 측면에서 전체 수명 주기를 아우르는 LLM 기반 NL2SQL 기술에 대한 포괄적인 검토를 제공합니다: (1) 모델: NL 모호성 및 사양 미달 문제를 해결할 뿐만 아니라 NL을 데이터베이스 스키마 및 인스턴스와 적절하게 매핑하는 NL2SQL 번역 기술; (2) 데이터: 학습 데이터 수집, 학습 데이터 부족으로 인한 데이터 합성부터 NL2SQL 벤치마크까지, (3) 평가: 다양한 메트릭과 세분성을 사용하여 다각도로 NL2SQL 방법 평가, (4) 오류 분석: NL2SQL 오류를 분석하여 근본 원인을 찾고 NL2SQL 모델이 발전할 수 있도록 안내합니다. 또한, NL2SQL 솔루션 개발을 위한 경험 법칙을 제공합니다. 마지막으로 LLM 시대에 NL2SQL의 연구 과제와 미해결 문제에 대해 논의합니다.

Translating users' natural language queries (NL) into SQL queries (i.e., NL2SQL) can significantly reduce barriers to accessing relational databases and support various commercial applications. The performance of NL2SQL has been greatly enhanced with the emergence of Large Language Models (LLMs). In this survey, we provide a comprehensive review of NL2SQL techniques powered by LLMs, covering its entire lifecycle from the following four aspects: (1) Model: NL2SQL translation techniques that tackle not only NL ambiguity and under-specification, but also properly map NL with database schema and instances; (2) Data: From the collection of training data, data synthesis due to training data scarcity, to NL2SQL benchmarks; (3) Evaluation: Evaluating NL2SQL methods from multiple angles using different metrics and granularities; and (4) Error Analysis: analyzing NL2SQL errors to find the root cause and guiding NL2SQL models to evolve. Moreover, we provide a rule of thumb for developing NL2SQL solutions. Finally, we discuss the research challenges and open problems of NL2SQL in the LLMs era.

논문 링크

더 읽어보기

https://x.com/sea_snell/status/1821263798772363598


의료용 그래프 RAG: 그래프 검색 증강 생성을 통한 안전한 의료용 대규모 언어 모델을 향하여 / Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation

논문 소개

LLM을 개선하고 증거 기반 결과를 생성하는 데 중점을 둔 의료 영역용 그래프 기반 프레임워크, 청크 문서에 하이브리드 정적-의미론적 접근 방식을 활용하여 문맥 파악을 개선, 개체와 의료 지식이 그래프를 통해 표현되어 상호 연결된 글로벌 그래프로 연결, 이 접근 방식은 정확성을 개선하고 여러 의료 Q&A 벤치마크에서 최첨단 모델보다 뛰어난 성능을 발휘합니다.

A graph-based framework for the medical domain with a focus on enhancing LLMs and generating evidence-based results; leverages a hybrid static-semantic approach to chunk documents to improve context capture; entities and medical knowledge are represented through graphs which leads to an interconnected global graph; this approach improves precision and outperforms state-of-the-art models on multiple medical Q&A benchmarks.

논문 초록(Abstract)

대규모 언어 모델(LLM) 기능을 향상시키고 증거 기반 결과를 생성하여 개인 의료 데이터를 처리할 때 안전성과 신뢰성을 개선하기 위해 의료 분야를 위해 특별히 설계된 새로운 그래프 기반 검색 증강 생성(RAG) 프레임워크인 \textbf{MedGraphRAG}를 소개합니다. 당사의 포괄적인 파이프라인은 문서 청킹에 대한 하이브리드 정적-의미론적 접근 방식으로 시작하여 기존 방식보다 문맥 캡처를 크게 개선합니다. 추출된 엔티티는 3계층 계층 그래프 구조를 생성하는 데 사용되어 엔티티를 의학 논문과 사전에서 얻은 기초 의학 지식에 연결합니다. 그런 다음 이러한 엔티티를 상호 연결하여 메타 그래프를 형성하고, 의미적 유사성을 기반으로 병합하여 포괄적인 글로벌 그래프를 개발합니다. 이 구조는 정확한 정보 검색과 응답 생성을 지원합니다. 검색 프로세스는 LLM의 글로벌 인지도와 색인 효율성의 균형을 맞추기 위해 U-retrieve 방법을 사용합니다. 이러한 접근 방식은 문서 청킹, 그래프 구성, 정보 검색을 위한 다양한 방법을 비교하는 포괄적인 제거 연구를 통해 검증되었습니다. 그 결과, 당사의 계층적 그래프 구성 방법이 여러 의료 질의응답 벤치마크에서 최첨단 모델보다 일관되게 우수한 성능을 보여줄 뿐만 아니라, 생성된 응답에 소스 문서가 포함되어 있어 실제 애플리케이션에서 의료 LLM의 신뢰성을 크게 향상시킨다는 사실이 확인되었습니다. 코드는 GitHub - MedicineToken/Medical-Graph-RAG: Medical Graph RAG: Graph RAG for the Medical Data

We introduce a novel graph-based Retrieval-Augmented Generation (RAG) framework specifically designed for the medical domain, called \textbf{MedGraphRAG}, aimed at enhancing Large Language Model (LLM) capabilities and generating evidence-based results, thereby improving safety and reliability when handling private medical data. Our comprehensive pipeline begins with a hybrid static-semantic approach to document chunking, significantly improving context capture over traditional methods. Extracted entities are used to create a three-tier hierarchical graph structure, linking entities to foundational medical knowledge sourced from medical papers and dictionaries. These entities are then interconnected to form meta-graphs, which are merged based on semantic similarities to develop a comprehensive global graph. This structure supports precise information retrieval and response generation. The retrieval process employs a U-retrieve method to balance global awareness and indexing efficiency of the LLM. Our approach is validated through a comprehensive ablation study comparing various methods for document chunking, graph construction, and information retrieval. The results not only demonstrate that our hierarchical graph construction method consistently outperforms state-of-the-art models on multiple medical Q&A benchmarks, but also confirms that the responses generated include source documentation, significantly enhancing the reliability of medical LLMs in practical applications. Code will be at: GitHub - MedicineToken/Medical-Graph-RAG: Medical Graph RAG: Graph RAG for the Medical Data

논문 링크

더 읽어보기

https://x.com/Marktechpost/status/1823069406924288110


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs: