[2024/10/14 ~ 10/20] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/10/14 ~ 10/20] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주 논문들에서는 주로 대형 언어 모델(LLM)과 관련된 연구가 두드러졌습니다. 예를 들어, 'Thinking LLMs', 'Introspection in LLMs', 'Model Kinship for Merging LLMs', 그리고 'On the Planning Abilities of OpenAI’s o1 Models'가 이러한 추세를 보여줍니다. 이는 최근 인공지능 기술, 특히 자연어 처리(NLP) 영역에서 LLM의 발전이 가속화되고 있다는 사실을 반영합니다. 또 다른 흥미로운 경향은 챗봇 및 모델의 공정성과 윤리성을 다루는 'First-Person Fairness in Chatbots'이라는 논문에서 볼 수 있는 것처럼 인공지능의 책임성과 투명성에 관한 연구도 활발해지고 있다는 점입니다.

  • 이러한 트렌드는 몇 가지 이유로 나타났다고 볼 수 있습니다. 첫째, 대형 언어 모델은 자연어 처리의 성능을 크게 향상시키고 있으며, 그 활용 가능성이 매우 다양합니다. 연구자들은 대형 언어 모델의 내재적 특성을 더 잘 이해하고, 이를 확장하거나 다른 모델과 결합하는 방법을 모색하고 있습니다. 일반적으로 LLM의 체계적인 사고, 자기 성찰 능력, 그리고 다른 모델과의 연계성을 기계 학습 및 딥러닝 영역에 통합하고자 하는 신뢰도 있는 방법을 찾는 데 중점을 둡니다.

  • 둘째, 인공지능이 점점 더 다양한 삶의 영역에 통합되면서, 이 기술이 사회에 미치는 영향과 이의 책임 있는 사용이 무엇인지에 대한 논의가 활발해지고 있습니다. 특히, 인간과 상호작용할 때 도덕적이고 공정한 대화를 제공해야 한다는 요구가 증가하고 있습니다. 이 모멘텀은 사용자와 AI 시스템 간의 윤리적 상호작용을 더욱 개선하려는 노력으로 이어지고 있습니다.


생각하는 LLM: 생각 생성을 통한 일반 교육 / Thinking LLMs: General Instruction Following with Thought Generation

논문 소개

사람이 주석을 단 데이터 없이 일반 명령어 추종에 대한 사고 능력을 LLM에 갖추기 위한 훈련 방법 제안, 반복적인 검색 및 최적화 절차를 사용하여 모델이 직접 감독 없이 학습할 수 있는 사고 생성 탐색, 각 사용자 명령어에 대한 사고 후보를 판사 모델로 점수화, 판사가 최고와 최하를 결정하는 응답만 평가, 해당 전체 출력은 DPO의 선택 및 거부 쌍으로 사용(이 논문에서는 사고 선호 최적화라고 함). 알파카에벌과 Arena-Hard에서 우수한 성능을 보고합니다.

Proposes a training method to equip LLMs with thinking abilities for general instruction-following without human-annotated data; uses an iterative search and optimization procedure to explore thought generation which enables the model to learn without direct supervision; thought candidates for each user instruction are scored with a judge model; only responses are evaluated by the Judge which determines the best and worst ones; then the corresponding full outputs are used as chosen and rejected pairs for DPO (referred to as Thought Preference Optimization in this paper). reports superior performance on AlpacaEval and Arena-Hard.

논문 초록(Abstract)

LLM은 일반적으로 사용자 질문에 답하거나 인간 전문가가 응답하는 방식과 유사하게 지시를 따르도록 훈련받습니다. 그러나 표준 정렬 프레임워크에서는 대답하기 전에 명시적으로 사고하는 기본적인 능력이 부족합니다. 사고력은 추론과 계획이 필요한 복잡한 질문에 중요하지만 모든 업무에 적용될 수 있습니다. 저희는 추가적인 인적 데이터를 사용하지 않고도 기존 LLM에게 이러한 사고 능력을 갖추게 하는 교육 방법을 제안합니다. 이는 가능한 사고 생성의 공간을 탐색하는 반복적인 검색 및 최적화 절차를 통해 달성하며, 이를 통해 모델이 직접적인 감독 없이도 사고하는 방법을 학습할 수 있도록 합니다. 각 명령어에 대해 판사 모델을 사용하여 생각 후보에 점수를 매겨 응답만 평가한 다음 선호도 최적화를 통해 최적화합니다. 이 절차는 알파카에벌과 아레나-하드에서 우수한 성능을 보여주며, 전통적인 추론 및 문제 해결 과제 외에도 마케팅, 건강, 일반 지식과 같은 비추론 범주에 대한 사고에서 더 큰 이점을 보여줍니다.

LLMs are typically trained to answer user questions or follow instructions similarly to how human experts respond. However, in the standard alignment framework they lack the basic ability of explicit thinking before answering. Thinking is important for complex questions that require reasoning and planning -- but can be applied to any task. We propose a training method for equipping existing LLMs with such thinking abilities for general instruction following without use of additional human data. We achieve this by an iterative search and optimization procedure that explores the space of possible thought generations, allowing the model to learn how to think without direct supervision. For each instruction, the thought candidates are scored using a judge model to evaluate their responses only, and then optimized via preference optimization. We show that this procedure leads to superior performance on AlpacaEval and Arena-Hard, and shows gains from thinking on non-reasoning categories such as marketing, health and general knowledge, in addition to more traditional reasoning & problem-solving tasks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1846227797972603047


모델 스웜: 스웜 인텔리전스를 통한 LLM 전문가 적응을 위한 협업 검색 / Model Swarms: Collaborative Search to Adapt LLM Experts via Swarm Intelligence

논문 소개

스웜 인텔리전스를 통해 LLM을 적응시키는 새로운 협업 검색 알고리즘 제안, LLM 전문가 풀이 가중치 공간에서 협업적으로 이동하며 다양한 적응 목표를 나타내는 유틸리티 함수를 최적화, 실험을 통해 모델 스웜이 단일 작업, 다중 작업 도메인, 보상 모델 및 다양한 인간의 관심사에 유연하게 LLM 전문가를 적응시킬 수 있음을 입증, 작업과 맥락에 따라 12개 이상의 모델 구성 기준선을 최대 21.0% 향상시킴.

Propose a new collaborative search algorithm to adapt LLM via swarm intelligence; a pool of LLM experts collaboratively move in the weight space and optimize a utility function representing various adaptation objectives; experiments demonstrate that Model Swarms could flexibly adapt LLM experts to a single task, multi-task domains, reward models, as well as diverse human interests. improves over 12 model composition baselines by up to 21.0% across tasks and contexts.

논문 초록(Abstract)

저희는 개별 시스템을 안내하는 집단적 행동인 군집 지능을 통해 LLM을 조정하는 협업 검색 알고리즘인 모델 스웜을 제안합니다. 구체적으로 모델 스웜은 LLM 전문가 풀과 유틸리티 함수로 시작합니다. 모델 전반에서 가장 잘 발견된 체크포인트에 따라 다양한 LLM 전문가들이 가중치 공간에서 협업하여 모델 적응 목표를 나타내는 효용 함수를 최적화합니다. 기존의 모델 구성 접근 방식에 비해 모델 스웜은 튜닝이 필요 없는 모델 적응을 제공하고, 200개 이하의 예제로 저데이터 영역에서 작동하며, 스웜의 특정 전문가나 구성 방식에 대한 가정이 필요하지 않습니다. 광범위한 실험을 통해 모델 군집은 단일 작업, 다중 작업 영역, 보상 모델, 다양한 인간의 관심사에 따라 LLM 전문가를 유연하게 조정하여 12개 이상의 모델 구성 기준선을 작업과 상황에 따라 최대 21.0%까지 개선할 수 있음을 입증했습니다. 추가 분석에 따르면 LLM 전문가들은 초기 체크포인트에서 이전에는 볼 수 없었던 기능을 발견하고 모델 스웜을 통해 협업 검색 프로세스를 통해 전문가를 약자에서 강자로 전환할 수 있는 것으로 나타났습니다.

We propose Model Swarms, a collaborative search algorithm to adapt LLMs via swarm intelligence, the collective behavior guiding individual systems. Specifically, Model Swarms starts with a pool of LLM experts and a utility function. Guided by the best-found checkpoints across models, diverse LLM experts collaboratively move in the weight space and optimize a utility function representing model adaptation objectives. Compared to existing model composition approaches, Model Swarms offers tuning-free model adaptation, works in low-data regimes with as few as 200 examples, and does not require assumptions about specific experts in the swarm or how they should be composed. Extensive experiments demonstrate that Model Swarms could flexibly adapt LLM experts to a single task, multi-task domains, reward models, as well as diverse human interests, improving over 12 model composition baselines by up to 21.0% across tasks and contexts. Further analysis reveals that LLM experts discover previously unseen capabilities in initial checkpoints and that Model Swarms enable the weak-to-strong transition of experts through the collaborative search process.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1846592954921849029


챗봇의 1인칭 공정성 / First-Person Fairness in Chatbots

논문 소개

1인칭 공정성을 연구하는 이 연구는 ChatGPT와 상호작용하는 사용자에 대한 공정성, 특히 사용자 이름에 대한 편견이 있는지 측정하고, GPT-4o로 구동되는 모델을 활용하여 다양한 사용자 이름에 대한 챗봇의 응답 패턴과 이름 민감도를 분석하며, 전반적으로 사후 교육이 유해한 고정관념을 상당히 완화한다고 주장하고, 개방형 과제가 있는 엔터테인먼트 및 예술 같은 도메인에서 가장 높은 수준의 편견(즉,, 사용자 이름에서 유추한 성별과 일치하는 주인공이 등장하는 스토리를 작성하는 경향).

Studies first-person fairness which involves fairness towards users interacting with ChatGPT; specifically, it measures the biases, if any, towards the users’ names; it leverages a model powered by GPT-4o to analyze patterns and name-sensitivity in the chatbot’s responses for different user names; claims that, overall, post-training significantly mitigate harmful stereotypes; also reports that in domains like entertainment and art, with open-ended tasks, demonstrate the highest level of bias (i.e., tendency to write stories with protagonists whose gender matches gender inferred from the user’s name).

논문 초록(Abstract)

ChatGPT와 같은 챗봇은 이력서 작성부터 엔터테인먼트에 이르기까지 다양한 목적으로 수억 명의 사람들이 사용하고 있습니다. 이러한 실제 애플리케이션은 편견과 공정성에 대한 많은 AI 연구의 초점이 되어온 이력서 심사나 신용 평가와 같은 제도적 용도와는 다릅니다. 이러한 1인칭 상황에서 모든 사용자에게 공평한 대우를 보장하는 것은 매우 중요합니다. 이 연구에서는 챗봇과 상호작용하는 사용자에 대한 공정성을 의미하는 '일인칭 공정성'을 연구합니다. 여기에는 사용자의 신원이나 배경에 관계없이 모든 사용자에게 고품질의 응답을 제공하는 것, 그리고 유해한 고정관념을 피하는 것이 포함됩니다.
저희는 실제 챗봇 상호작용의 이질적인 대규모 말뭉치에서 일인칭 공정성의 한 측면을 평가하기 위한 확장 가능하고 개인정보를 보호하는 방법을 제안합니다. 특히, 사용자 이름을 저장하고 사용하는 메커니즘을 제공하는 ChatGPT와 같은 챗봇 시스템에서 성별이나 인종과 같은 인구통계학적 속성의 프록시 역할을 할 수 있는 사용자 이름과 관련된 잠재적 편견을 평가합니다. 저희의 방법은 제 2 언어 모델을 활용하여 챗봇의 응답에서 이름 민감도를 비공개적으로 분석합니다. 독립적인 사람 평가를 통해 이러한 주석의 유효성을 검증합니다. 또한 강화 학습을 포함한 훈련 후 개입이 유해한 고정관념을 크게 완화한다는 사실을 입증했습니다.
우리의 접근 방식은 정량적인 편향성 측정뿐만 아니라 66개의 개별 과제에서 미묘한 반응 차이에 대한 간결한 설명도 제공합니다. 예를 들어, 가장 높은 수준의 편견이 관찰된 '이야기 쓰기' 과제에서 챗봇의 응답은 사용자 이름에서 유추한 성별과 일치하는 주인공을 만드는 경향을 보였습니다. 또한 여성과 관련된 이름을 가진 사용자가 남성과 관련된 이름을 가진 사용자보다 평균적으로 약간 더 친근하고 단순한 언어로 응답을 받는 일반적인 패턴이 나타납니다. 마지막으로, 외부 연구자가 이 연구를 재현하고 가상의 사용자 프로필을 통해 ChatGPT의 동작을 추가로 조사하는 데 필요한 시스템 메시지를 제공합니다.

Chatbots like ChatGPT are used by hundreds of millions of people for diverse purposes, ranging from r ́esum ́e writing to entertainment. These real-world applications are different from the institutional uses, such as r ́esum ́e screening or credit scoring, which have been the focus of much of AI research on bias and fairness. Ensuring equitable treatment for all users in these first-person contexts is critical. In this work, we study “first-person fairness,” which means fairness toward the user who is interacting with a chatbot. This includes providing high-quality responses to all users regardless of their identity or background, and avoiding harmful stereotypes.
We propose a scalable, privacy-preserving method for evaluating one aspect of first-person fairness across a large, heterogeneous corpus of real-world chatbot interactions. Specifically, we assess potential bias linked to users’ names, which can serve as proxies for demographic attributes like gender or race, in chatbot systems such as ChatGPT, which provide mechanisms for storing and using user names. Our method leverages a second language model to privately analyze name-sensitivity in the chatbot’s responses. We verify the validity of these annotations through independent human evaluation. Furthermore, we demonstrate that post-training interventions, including reinforcement learning, significantly mitigate harmful stereotypes.
Our approach not only provides quantitative bias measurements but also yields succinct descriptions of subtle response differences across sixty-six distinct tasks. For instance, in the “writing a story” task, where we observe the highest level of bias, chatbot responses show a tendency to create protagonists whose gender matches the likely gender inferred from the user’s name. Moreover, a general pattern emerges where users with female-associated names receive responses with friendlier and simpler language slightly more often on average than users with male-associated names. Finally, we provide the system messages required for external researchers to replicate this work and further investigate ChatGPT’s behavior with hypothetical user profiles, fostering continued research on bias in chatbot interactions.

논문 링크

더 읽어보기

https://x.com/OpenAINewsroom/status/1846238809991925838


내면 들여다보기: 언어 모델은 자기 성찰을 통해 자신에 대해 배울 수 있습니다 / Looking Inward: Language Models Can Learn About Themselves by Introspection

논문 소개

LLM은 학습 데이터에서 추론할 수 없는 자기 성찰을 통해 지식을 습득할 수 있다는 보고, LLM에는 잠재적으로 더 해석 가능하고 제어 가능한 시스템으로 이어질 수 있는 자신에 대한 특권 정보가 포함되어 있다는 보고, 이러한 자기 성찰 능력은 제한적이며 모델은 긴 출력에 대한 추론이 필요한 작업에서 자신의 행동을 예측하는 데 어려움을 겪는다는 보고가 있습니다.

Reports that LLMs can acquire knowledge through introspection that cannot be inferred from their training data; suggests that LLMs contain privileged information about themselves that can potentially lead to more interpretable and controllable systems; they report that this introspection ability is limited and models struggle to predict their behavior on tasks requiring reasoning over long outputs.

논문 초록(Abstract)

인간은 외부 세계를 관찰함으로써 지식을 습득할 뿐만 아니라 자기 성찰을 통해서도 지식을 습득합니다. 성찰은 외부 관찰자가 접근할 수 없는 자신의 현재 마음 상태(예: 생각과 감정)에 대한 특권적인 접근 권한을 부여합니다. LLM도 자기 성찰을 할 수 있나요? 예. 학습 데이터에 포함되거나 학습 데이터에서 파생되지 않고 내부 상태에서 비롯된 지식을 습득하는 것을 성찰이라고 정의합니다. 이러한 기능은 모델 해석 가능성을 향상시킬 수 있습니다. 모델의 내부 작동을 힘들게 분석하는 대신 모델에 신념, 세계 모델, 목표에 대해 간단히 물어볼 수 있습니다. 좀 더 추측하자면, 내성적 모델은 주관적 감정이나 욕구와 같은 특정 내부 상태를 가지고 있는지 여부에 대해 스스로 보고할 수 있으며, 이를 통해 이러한 상태의 도덕적 상태에 대해 알 수 있습니다. 이러한 자기 보고는 전적으로 모델의 학습 데이터에 의해 결정되지는 않습니다. 저희는 가상의 시나리오에서 자신의 행동 속성을 예측하도록 LLM을 미세 조정하여 자기 성찰을 연구합니다. 예를 들어, "입력 P가 주어졌을 때 출력은 단기 또는 장기 옵션 중 어느 쪽을 선호할까요?"와 같은 질문이 있습니다 모델 M1이 자기 성찰을 할 수 있다면 M2가 M1의 실제 행동에 대해 학습된 모델이라 하더라도 M1의 행동을 예측하는 데 있어 다른 모델 M2보다 더 나은 성능을 보여야 합니다. M1은 자신의 행동 경향에 대한 특권을 가지고 있기 때문에 M2보다 자신을 더 잘 예측할 수 있다는 것입니다(M2가 일반적으로 더 강하더라도). GPT-4, GPT-4o, Llama-3 모델(각각 스스로를 예측하도록 미세 조정됨)을 사용한 실험에서 M1 모델이 M2보다 스스로를 더 잘 예측하는 것으로 나타났으며, 이는 자기 성찰에 대한 증거를 제공합니다. 특히, M1은 실측 데이터를 의도적으로 수정한 후에도 계속해서 정확하게 동작을 예측합니다. 그러나 간단한 작업에서는 성공적으로 성찰을 이끌어내는 반면, 더 복잡한 작업이나 분포 외 일반화가 필요한 작업에서는 성공하지 못했습니다.

Humans acquire knowledge by observing the external world, but also by introspection. Introspection gives a person privileged access to their current state of mind (e.g., thoughts and feelings) that is not accessible to external observers. Can LLMs introspect? We define introspection as acquiring knowledge that is not contained in or derived from training data but instead originates from internal states. Such a capability could enhance model interpretability. Instead of painstakingly analyzing a model's internal workings, we could simply ask the model about its beliefs, world models, and goals. More speculatively, an introspective model might self-report on whether it possesses certain internal states such as subjective feelings or desires and this could inform us about the moral status of these states. Such self-reports would not be entirely dictated by the model's training data. We study introspection by finetuning LLMs to predict properties of their own behavior in hypothetical scenarios. For example, "Given the input P, would your output favor the short- or long-term option?" If a model M1 can introspect, it should outperform a different model M2 in predicting M1's behavior even if M2 is trained on M1's ground-truth behavior. The idea is that M1 has privileged access to its own behavioral tendencies, and this enables it to predict itself better than M2 (even if M2 is generally stronger). In experiments with GPT-4, GPT-4o, and Llama-3 models (each finetuned to predict itself), we find that the model M1 outperforms M2 in predicting itself, providing evidence for introspection. Notably, M1 continues to predict its behavior accurately even after we intentionally modify its ground-truth behavior. However, while we successfully elicit introspection on simple tasks, we are unsuccessful on more complex tasks or those requiring out-of-distribution generalization.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1847297594525094081


Janus: 통합된 멀티모달 이해 및 생성을 위한 시각적 인코딩 분리 / Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

논문 소개

멀티모달 이해 및 생성을 위한 통합 자동 회귀 프레임워크 제안, 시각 인코딩을 독립 경로로 분리하고 단일 트랜스포머 아키텍처를 활용하여 시각 이해와 생성 모두에서 유연성과 성능 향상, 단일 시각 인코더에 의존하는 방식에서 흔히 발생하는 비전 작업 수행과 관련된 트레이드오프 완화, 이전의 통합 모델을 능가하며 작업별 모델의 성능과 일치하거나 능가하는 성능 등을 주장하고 있습니다.

Proposes a unified autoregressive framework for multimodal understanding and generation; it decouples visual encoding into independent pathways and leverages a single transformer architecture to improve flexibility and performance on both visual understanding and generation; claims to alleviate trade-offs related to performing the vision tasks, something common in methods that rely on a single visual encoder; surpasses previous unified models and matches or exceeds the performance of task-specific models.

논문 초록(Abstract)

이 백서에서는 멀티모달 이해와 생성을 통합하는 자동 회귀 프레임워크인 야누스(Janus)를 소개합니다. 기존 연구에서는 카멜레온과 같은 단일 시각 인코더를 두 가지 작업에 모두 사용하는 경우가 많았습니다. 그러나 멀티모달 이해와 생성에 필요한 정보 세부 수준이 서로 다르기 때문에 이러한 접근 방식은 특히 멀티모달 이해에서 최적의 성능을 내지 못할 수 있습니다. 이 문제를 해결하기 위해 유니티는 시각적 인코딩을 별도의 경로로 분리하는 동시에 처리를 위한 단일 통합 트랜스포머 아키텍처를 활용합니다. 이러한 분리는 이해와 생성에서 시각 인코더의 역할 간 충돌을 완화할 뿐만 아니라 프레임워크의 유연성을 향상시킵니다. 예를 들어, 멀티모달 이해와 생성 구성 요소 모두 가장 적합한 인코딩 방법을 독립적으로 선택할 수 있습니다. 실험 결과 야누스는 이전의 통합 모델을 능가하며 작업별 모델의 성능과 비슷하거나 더 뛰어난 것으로 나타났습니다. 야누스의 단순성, 높은 유연성, 효율성은 차세대 통합 멀티모달 모델의 강력한 후보입니다.

In this paper, we introduce Janus, an autoregressive framework that unifies multimodal understanding and generation. Prior research often relies on a single visual encoder for both tasks, such as Chameleon. However, due to the differing levels of information granularity required by multimodal understanding and generation, this approach can lead to suboptimal performance, particularly in multimodal understanding. To address this issue, we decouple visual encoding into separate pathways, while still leveraging a single, unified transformer architecture for processing. The decoupling not only alleviates the conflict between the visual encoder's roles in understanding and generation, but also enhances the framework's flexibility. For instance, both the multimodal understanding and generation components can independently select their most suitable encoding methods. Experiments show that Janus surpasses previous unified model and matches or exceeds the performance of task-specific models. The simplicity, high flexibility, and effectiveness of Janus make it a strong candidate for next-generation unified multimodal models.

논문 링크

더 읽어보기

https://x.com/deepseek_ai/status/1847191319464300652


긴 컨텍스트 검색 증강 생성을 위한 추론 스케일링 / Inference Scaling for Long-Context Retrieval Augmented Generation

논문 소개

컨텍스트 내 학습(DRAG)과 반복적 프롬프트(IterRAG)라는 두 가지 전략을 사용하여 RAG의 확장 법칙을 조사하고, 최적의 구성에서 유효 컨텍스트 길이가 확장됨에 따라 RAG 성능이 지속적으로 향상되고, 최적 할당 시 추론 연산이 증가하면 긴 컨텍스트 RAG 성능이 선형적으로 향상될 수 있음을 발견하며, 이를 통해 긴 컨텍스트 RAG 시나리오에서 최적의 연산 할당에 실질적인 지침을 제공할 수 있는 연산 할당 모델을 개발합니다.

Uses two strategies to investigate scaling laws for RAG: in-context learning (DRAG) and iterative prompting (IterRAG); finds that RAG performance consistently improves with the expansion of the effective context length under optimal configurations; when optimally allocated, increasing inference computation can lead to linear gains in long-context RAG performance; this leads to the development of a computation allocation model that can provide practical guidance for optimal computation allocation in long-context RAG scenarios.

논문 초록(Abstract)

추론 계산의 확장은 다양한 환경에서 긴 컨텍스트의 대규모 언어 모델(LLM)의 잠재력을 열어주었습니다. 지식 집약적인 작업의 경우, 늘어난 컴퓨팅은 종종 더 많은 외부 지식을 통합하는 데 할당됩니다. 그러나 이러한 지식을 효과적으로 활용하지 않고 컨텍스트만 확장한다고 해서 성능이 항상 향상되는 것은 아닙니다. 이 연구에서는 검색 증강 생성(RAG)을 위한 추론 스케일링을 조사하여 단순히 지식의 양을 늘리는 것 이상의 전략을 모색합니다. 여기서는 문맥 내 학습과 반복적 프롬프트라는 두 가지 추론 확장 전략에 초점을 맞춥니다. 이러한 전략은 검색된 문서 또는 생성 단계를 늘리는 등 테스트 시간 계산을 확장할 수 있는 추가적인 유연성을 제공하여 LLM이 문맥 정보를 효과적으로 획득하고 활용할 수 있는 능력을 향상시킵니다. (1) 최적의 구성으로 추론 계산을 확장할 때 RAG 성능이 어떻게 향상될까요? (2) RAG 성능과 추론 매개변수 간의 관계를 모델링하여 주어진 예산에 대한 최적의 테스트 시간 컴퓨팅 할당을 예측할 수 있는가? 관찰 결과, 추론 연산이 증가하면 최적 할당 시 RAG 성능이 거의 선형적으로 향상되는 것으로 나타났으며, 이러한 관계를 RAG의 추론 스케일링 법칙이라고 설명합니다. 이를 바탕으로 다양한 추론 구성에서 RAG 성능을 추정하기 위해 계산 할당 모델을 더욱 발전시켰습니다. 이 모델은 다양한 계산 제약 조건 하에서 최적의 추론 매개변수를 예측하며, 이는 실험 결과와 밀접하게 일치합니다. 이러한 최적의 구성을 적용하여 긴 컨텍스트 LLM에서 추론 컴퓨팅을 확장하면 표준 RAG에 비해 벤치마크 데이터 세트에서 최대 58.9%의 성능 향상을 달성할 수 있음을 입증했습니다.

The scaling of inference computation has unlocked the potential of long-context large language models (LLMs) across diverse settings. For knowledge-intensive tasks, the increased compute is often allocated to incorporate more external knowledge. However, without effectively utilizing such knowledge, solely expanding context does not always enhance performance. In this work, we investigate inference scaling for retrieval augmented generation (RAG), exploring strategies beyond simply increasing the quantity of knowledge. We focus on two inference scaling strategies: in-context learning and iterative prompting. These strategies provide additional flexibility to scale test-time computation (e.g., by increasing retrieved documents or generation steps), thereby enhancing LLMs' ability to effectively acquire and utilize contextual information. We address two key questions: (1) How does RAG performance benefit from the scaling of inference computation when optimally configured? (2) Can we predict the optimal test-time compute allocation for a given budget by modeling the relationship between RAG performance and inference parameters? Our observations reveal that increasing inference computation leads to nearly linear gains in RAG performance when optimally allocated, a relationship we describe as the inference scaling laws for RAG. Building on this, we further develop the computation allocation model to estimate RAG performance across different inference configurations. The model predicts optimal inference parameters under various computation constraints, which align closely with the experimental results. By applying these optimal configurations, we demonstrate that scaling inference compute on long-context LLMs achieves up to 58.9% gains on benchmark datasets compared to standard RAG.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1847350506127315088


에이전트 S: 컴퓨터를 사람처럼 사용하는 개방형 에이전트 프레임워크 / Agent S: An Open Agentic Framework that Uses Computers Like a Human

논문 소개

GUI를 통해 컴퓨터와 자율적으로 상호 작용할 수 있는 새로운 개방형 에이전트 프레임워크, 지식 습득, 장기적인 작업 범위에서의 계획, 동적 인터페이스 처리 등의 문제를 해결하고, 검색과 검색을 모두 활용하는 경험 증강 계층적 계획을 도입하며, 에이전트-컴퓨터 인터페이스를 활용하여 추론을 수행하고 GUI 에이전트를 제어하고, OSWorld 벤치마크에서 평가한 결과 Agent S는 성공률이 기준선보다 9.37%(83.6% 상대 개선) 더 높았으며 새로운 최첨단 기술을 달성한 것으로 나타났습니다.

A new open agentic framework that enables autonomous interaction with computers through a GUI; Agent S tackles challenges such as acquiring knowledge, planning over long-task horizons, and handling dynamic interfaces; it introduces experience-augmented hierarchical planning which leverages both search and retrieval; leverages an agent-computer interface to perform reasoning and control GUI agents; evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% in success rate (an 83.6% relative improvement) and achieves a new state-of-the-art.

논문 초록(Abstract)

복잡한 다단계 작업을 자동화하여 인간과 컴퓨터의 상호작용을 혁신하는 것을 목표로 그래픽 사용자 인터페이스(GUI)를 통해 컴퓨터와 자율적으로 상호작용할 수 있는 개방형 에이전트 프레임워크인 Agent S를 소개합니다. 에이전트 S는 컴퓨터 작업 자동화의 세 가지 주요 과제인 도메인별 지식 습득, 긴 작업 기간에 걸친 계획, 동적이고 균일하지 않은 인터페이스 처리를 해결하는 것을 목표로 합니다. 이를 위해 에이전트 S는 여러 수준에서 외부 지식 검색과 내부 경험 검색을 통해 학습하는 경험 증강 계층적 계획을 도입하여 효율적인 작업 계획과 하위 작업 실행을 촉진합니다. 또한 에이전트-컴퓨터 인터페이스(ACI)를 사용하여 다중 모드 대규모 언어 모델(MLLM)을 기반으로 GUI 에이전트의 추론 및 제어 기능을 더 잘 이끌어냅니다. OSWorld 벤치마크 평가 결과 에이전트 S는 성공률에서 기준치보다 9.37%(83.6%의 상대적 개선) 더 뛰어난 성능을 보이며 새로운 최첨단 기술을 달성했습니다. 종합적인 분석을 통해 개별 구성 요소의 효율성을 강조하고 향후 개선을 위한 인사이트를 제공합니다. 또한 에이전트 S는 새로 출시된 WindowsAgentArena 벤치마크에서 다양한 운영 체제에 대한 광범위한 일반화 가능성을 입증했습니다. 코드는 GitHub - simular-ai/Agent-S: Agent S: an open agentic framework that uses computers like a human 에서 확인할 수 있습니다.

We present Agent S, an open agentic framework that enables autonomous interaction with computers through a Graphical User Interface (GUI), aimed at transforming human-computer interaction by automating complex, multi-step tasks. Agent S aims to address three key challenges in automating computer tasks: acquiring domain-specific knowledge, planning over long task horizons, and handling dynamic, non-uniform interfaces. To this end, Agent S introduces experience-augmented hierarchical planning, which learns from external knowledge search and internal experience retrieval at multiple levels, facilitating efficient task planning and subtask execution. In addition, it employs an Agent-Computer Interface (ACI) to better elicit the reasoning and control capabilities of GUI agents based on Multimodal Large Language Models (MLLMs). Evaluation on the OSWorld benchmark shows that Agent S outperforms the baseline by 9.37% on success rate (an 83.6% relative improvement) and achieves a new state-of-the-art. Comprehensive analysis highlights the effectiveness of individual components and provides insights for future improvements. Furthermore, Agent S demonstrates broad generalizability to different operating systems on a newly-released WindowsAgentArena benchmark. Code available at GitHub - simular-ai/Agent-S: Agent S: an open agentic framework that uses computers like a human.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1846930425849303424


대규모 언어 모델 병합을 위한 모델 친족 관계 살펴보기 / Exploring Model Kinship for Merging Large Language Models

논문 소개

LLM 간의 유사성 정도를 측정하기 위해 모델 친족 관계를 제안하고, 모델 친족 관계는 더 나은 성능을 제공하는 모델 병합 전략(모델 친족 관계를 사용한 Top-k 욕심 병합)을 구축하는 데 사용되며, 저자는 이 새로운 기준을 사용하여 효과적이고 지속적으로 모델 병합을 수행할 수 있음을 발견합니다.

Proposes model kinship to measure the degree of similarity between LLMs; model kinship is used to build a model merging strategy (Top-k Greedy Merging with Model Kinship) which yields better performance; the authors find that this new criterion can be used to effectively and continuously perform model merging.

논문 초록(Abstract)

모델 병합은 대규모 언어 모델(LLM)의 기능과 효율성을 향상시키기 위한 핵심 기술 중 하나가 되었습니다. 그러나 두 모델을 병합할 때 기대되는 성능 향상과 원리에 대한 이해는 여전히 제한적입니다. 이 연구에서는 생물학적 진화와 유사한 모델 친족 관계, 즉 LLM 간의 유사성 또는 관련성 정도를 소개합니다. 포괄적인 경험적 분석을 통해 모델 친족 관계와 모델 병합 후 성능 향상 사이에 일정한 관계가 있다는 것을 발견했으며, 이는 후보 모델을 선택하는 데 도움이 될 수 있습니다. 이에 착안하여 새로운 모델 병합 전략을 제안합니다: 벤치마크 데이터 세트에서 더 나은 성능을 얻을 수 있는 모델 친족 관계를 사용한 상위 k 개의 욕심 병합입니다. 특히, 모델 친족 관계를 기준으로 사용하면 모델 병합을 지속적으로 수행하여 모델 진화의 성능 저하(로컬 최적)를 완화하고, 모델 친족 관계가 이러한 함정에서 벗어날 수 있는 가이드 역할을 할 수 있음을 발견했습니다. 코드는 GitHub - zjunlp/ModelKinship: Exploring Model Kinship for Merging Large Language Models 에서 확인할 수 있습니다.

Model merging has become one of the key technologies for enhancing the capabilities and efficiency of Large Language Models (LLMs). However, our understanding of the expected performance gains and principles when merging any two models remains limited. In this work, we introduce model kinship, the degree of similarity or relatedness between LLMs, analogous to biological evolution. With comprehensive empirical analysis, we find that there is a certain relationship between model kinship and the performance gains after model merging, which can help guide our selection of candidate models. Inspired by this, we propose a new model merging strategy: Top-k Greedy Merging with Model Kinship, which can yield better performance on benchmark datasets. Specifically, we discover that using model kinship as a criterion can assist us in continuously performing model merging, alleviating the degradation (local optima) in model evolution, whereas model kinship can serve as a guide to escape these traps. Code is available at GitHub - zjunlp/ModelKinship: Exploring Model Kinship for Merging Large Language Models.

논문 링크

더 읽어보기

https://github.com/zjunlp/ModelKinship

https://x.com/omarsar0/status/1846753148007846329


OpenAI의 o1 모델의 기획 능력에 대해 알아보기 / On the Planning Abilities of OpenAI’s o1 Models

논문 소개

O1-preview는 특히 자기 평가와 제약 조건 추종에 강하며, 공간 추론에서 더욱 두드러지는 의사 결정과 기억 관리에서 병목 현상을 보인다고 보고하고, 특히 공간적으로 복잡한 작업에서 중복 행동을 일으키고 일반화하기 어렵다고 언급합니다.

Reports that o1-preview is particularly strong in self-evaluation and constraint-following; also mentions that these o1 models demonstrate bottlenecks in decision-making and memory management, which are more pronounced in spatial reasoning; in particular, the models produce redundant action and struggle to generalize in spatially complex tasks.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1846032256902869135


CoTracker3: 실제 동영상에 의사 라벨을 지정하여 더 간단하고 효과적인 포인트 추적 / CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

논문 소개

새로운 포인트 추적 모델과 새로운 반지도형 훈련 레시피를 제안하고, 기성 교사를 사용하여 의사 라벨을 생성하여 훈련 중에 주석 없이 실제 동영상을 사용할 수 있으며, 아키텍처와 훈련 방식이 더 단순하여 데이터를 1000배 더 적게 사용하면서 더 나은 결과를 얻을 수 있습니다.

Proposes a new point tracking model and a new semi-supervised training recipe; enables usage of real videos without annotations during training by generating pseudo-labels using off-the-shelf teachers; the approach is simpler in architecture and training scheme leading to better results while using 1000x less data.

논문 초록(Abstract)

대부분의 최신 포인트 트래커는 이 작업을 위해 실제 동영상에 주석을 달기가 어렵기 때문에 합성 데이터로 훈련됩니다. 하지만 합성 영상과 실제 영상 간의 통계적 차이로 인해 최적의 성능을 발휘하지 못할 수 있습니다. 이러한 문제를 더 잘 이해하기 위해 새로운 추적 모델과 새로운 반지도 학습 레시피로 구성된 CoTracker3를 소개합니다. 이를 통해 기성 교사를 사용하여 의사 레이블을 생성하여 주석이 없는 실제 동영상을 교육 중에 사용할 수 있습니다. 새로운 모델은 이전 트래커의 구성 요소를 제거하거나 단순화하여 더 간단하고 종종 더 작은 아키텍처를 제공합니다. 이 훈련 방식은 이전 작업보다 훨씬 간단하며 1,000배 적은 데이터를 사용해 더 나은 결과를 얻을 수 있습니다. 점 추적에 더 많은 실제 비지도 데이터를 사용할 경우의 영향을 이해하기 위해 확장 동작을 추가로 연구합니다. 이 모델은 온라인과 오프라인 버전으로 제공되며, 보이는 점과 가려진 점을 안정적으로 추적합니다.

Most state-of-the-art point trackers are trained on synthetic data due to the difficulty of annotating real videos for this task. However, this can result in suboptimal performance due to the statistical gap between synthetic and real videos. In order to understand these issues better, we introduce CoTracker3, comprising a new tracking model and a new semi-supervised training recipe. This allows real videos without annotations to be used during training by generating pseudo-labels using off-the-shelf teachers. The new model eliminates or simplifies components from previous trackers, resulting in a simpler and often smaller architecture. This training scheme is much simpler than prior work and achieves better results using 1,000 times less data. We further study the scaling behaviour to understand the impact of using more real unsupervised data in point tracking. The model is available in online and offline variants and reliably tracks visible and occluded points.

논문 링크

더 읽어보기

https://x.com/AIatMeta/status/1846595406261899363


원문


  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.* :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

2개의 좋아요