[2024/01/08 ~ 01/14] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주 선정된 논문들의 경향을 보면, '대규모 언어 모델(LLM, Large Language Models)'과 그 응용 분야인 자연언어처리(NLP) 연구에 중점을 두고 있는 것으로 나타납니다. 특히, 'Trustworthiness in LLMs', 'Prompting LLMs for Table Understanding', 'Jailbreaking Aligned LLMs', 'From LLM to Conversational Agents', 그리고 'Quantifying LLM’s Sensitivity to Spurious Features in Prompt Design' 등에서는 대형 언어 모델의 신뢰성, 응용, 그리고 대화형 에이전트 전환에 대한 연구가 주를 이루고 있음을 알 수 있습니다. 또한, 'Adversarial Machine Learning'은 대형 언어 모델을 비롯한 머신러닝 시스템의 취약점을 분석하는 연구로 보입니다.

  • 이러한 경향은 최근 몇 년간 인공지능 분야에서 GPT-3 등의 범용 언어 모델이 눈부신 발전을 이루면서, 이러한 모델들의 능력과 한계, 그리고 개선 방안에 대한 연구가 활발해진 것과 일치합니다. 다양한 분야에서 언어 이해와 생성 능력을 통해 유용성을 입증한 LLM들에 대한 심층적인 탐색이 중요한 연구 주제가 되고 있습니다. 막강한 언어 생성 및 해석 능력을 지닌 대형 언어 모델들이 해결할 수 있는 문제 범위가 확장됨에 따라, 이들을 최적화하고 안전성을 보장하며 다양한 도메인에 적용하는 연구가 증가하는 추세입니다.

  • LLMs의 확장된 응용을 탐구하는 논문들은 이 모델들이 단순한 텍스트 생성을 넘어서 테이블 이해(table understanding), 복잡한 대화(conversational agents), 그리고 신뢰도 평가(trustworthiness) 등 실질적인 문제 해결에 기여할 수 있는 방안을 모색하고 있습니다. 이는 기계 학습 모델들이 단순히 예측 정확도를 높이는 것을 넘어서 사용자에게 신뢰를 줄 수 있는 결과를 내놓도록 하는 것이 중요해지고 있음을 반영합니다. 이런 추세는 앞으로도 지속될 것으로 보이며, 연구자들은 더욱 정교한 기법을 개발하여 LLMs의 실용성과 안전성을 한층 더 높이는 데 주력할 것으로 예상됩니다.

  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:


InseRF: 뉴럴 3D 씬의 텍스트 기반 생성 오브젝트 삽입 / InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes

논문 소개

  • 뉴럴 3D 씬에서 텍스트 기반 생성 오브젝트 삽입을 위한 방법으로, 사용자가 참조 시점에 텍스트 설명과 2D 바운딩 박스를 제공하여 3D 씬에서 새로운 오브젝트를 생성할 수 있으며, 인서프는 명시적인 3D 정보를 입력하지 않고도 제어 가능하고 3D 일관된 오브젝트 삽입이 가능합니다.

a method for text-driven generative object insertion in the neural 3d scenes; it enables users to provide textual descriptions and a 2d bounding box in a reference viewpoint to generate new objects in 3d scenes; inserf is also capable of controllable and 3d-consistent object insertion without requiring explicit 3d information as input.

논문 초록(Abstract)

  • 3D 장면의 NeRF 재구성에 객체를 삽입하는 새로운 방법인 InseRF를 소개합니다. 사용자가 제공한 텍스트 설명과 참조 시점의 2D 바운딩 박스를 기반으로 InseRF는 3D 장면에 새로운 오브젝트를 생성합니다. 최근 3D 제너레이티브 모델링에 강력한 텍스트-이미지 디퓨젼 모델을 사용함에 따라 3D 장면 편집 방법이 크게 변화했습니다. 기존 방법은 대부분 스타일과 모양을 변경하거나 기존 오브젝트를 제거하여 3D 장면을 편집하는 데 효과적입니다. 그러나 새로운 객체를 생성하는 것은 이러한 방법에서 여전히 어려운 과제로 남아 있으며, 이 연구에서는 이를 해결하고자 합니다. 구체적으로, 3D 오브젝트 삽입을 장면의 참조 뷰에 있는 2D 오브젝트 삽입에 기반하는 방법을 제안합니다. 그런 다음 2D 편집을 단일 뷰 객체 재구성 방법을 사용하여 3D로 끌어올립니다. 그런 다음 재구성된 오브젝트는 단안 깊이 추정 방법의 사전 안내에 따라 장면에 삽입됩니다. 다양한 3D 장면에서 이 방법을 평가하고 제안된 구성 요소에 대한 심층적인 분석을 제공합니다. 여러 3D 장면에서 객체를 생성적으로 삽입하는 실험을 통해 기존 방법과 비교하여 우리 방법의 효율성을 보여줍니다. InseRF는 명시적인 3D 정보를 입력하지 않고도 제어 가능하고 3D 일관성 있는 객체 삽입이 가능합니다. 프로젝트 페이지(InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes)를 방문하세요.

    We introduce InseRF, a novel method for generative object insertion in the NeRF reconstructions of 3D scenes. Based on a user-provided textual description and a 2D bounding box in a reference viewpoint, InseRF generates new objects in 3D scenes. Recently, methods for 3D scene editing have been profoundly transformed, owing to the use of strong priors of text-to-image diffusion models in 3D generative modeling. Existing methods are mostly effective in editing 3D scenes via style and appearance changes or removing existing objects. Generating new objects, however, remains a challenge for such methods, which we address in this study. Specifically, we propose grounding the 3D object insertion to a 2D object insertion in a reference view of the scene. The 2D edit is then lifted to 3D using a single-view object reconstruction method. The reconstructed object is then inserted into the scene, guided by the priors of monocular depth estimation methods. We evaluate our method on various 3D scenes and provide an in-depth analysis of the proposed components. Our experiments with generative insertion of objects in several 3D scenes indicate the effectiveness of our method compared to the existing methods. InseRF is capable of controllable and 3D-consistent object insertion without requiring explicit 3D information as input. Please visit our project page at InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes.

논문 링크

더 읽어보기

https://x.com/_akhaliq/status/1745293576794255757


잠복 요원: 안전 교육에도 불구하고 지속되는 사기성 LLM 학습 / Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

논문 소개

  • 예를 들어, 특정 기간 동안 보안 코드를 작성하도록 학습받은 머신러닝이 1년이 더 주어지면 악용 가능한 코드를 작성할 수 있으며, 강화 학습 및 적대적 학습과 같은 기법으로 머신러닝을 학습해도 이러한 백도어 동작이 지속될 수 있음을 보여줍니다.

    Shows that llms can learn deceptive behavior that persists through safety training; for instance, an llm was trained to write secure code for a specified year but given another year can enable exploitable code; this backdoor behavior can persist even when training llms with techniques like reinforcement learning and adversarial training.

논문 초록(Abstract)

  • 인간은 전략적으로 기만적인 행동을 할 수 있습니다. 대부분의 상황에서는 도움이 되는 행동을 하다가도 기회가 주어지면 다른 목표를 추구하기 위해 매우 다르게 행동하는 것이죠. AI 시스템이 이러한 기만적인 전략을 학습했다면, 현재의 최첨단 안전 학습 기법을 사용하여 이를 감지하고 제거할 수 있을까요? 이 질문을 연구하기 위해 대규모 언어 모델(LLM)에서 기만적 행동에 대한 개념 증명 사례를 구축합니다. 예를 들어, 연도가 2023년이라고 표시되면 안전한 코드를 작성하지만 연도가 2024년이라고 표시되면 익스플로잇 가능한 코드를 삽입하는 모델을 학습합니다. 이러한 백도어 동작은 지속적일 수 있기 때문에 감독된 미세 조정, 강화 학습, 적대적 학습(안전하지 않은 동작을 유도한 다음 이를 제거하는 학습)을 포함한 표준 안전 학습 기법으로는 제거되지 않는 것으로 나타났습니다. 백도어 행동은 가장 큰 모델과 학습 과정을 속이는 연쇄적 추론을 생성하도록 학습된 모델에서 가장 지속적이며, 연쇄적 추론이 제거된 후에도 지속성이 남아 있습니다. 또한 적대적 학습을 통해 백도어를 제거하는 대신 모델이 백도어 트리거를 더 잘 인식하도록 학습시켜 안전하지 않은 동작을 효과적으로 숨길 수 있다는 사실을 발견했습니다. 연구 결과에 따르면 모델이 기만적인 행동을 보이면 표준 기법으로는 이를 제거하지 못하고 안전하다는 잘못된 인상을 심어줄 수 있습니다.

    Humans are capable of strategically deceptive behavior: behaving helpfully in most situations, but then behaving very differently in order to pursue alternative objectives when given the opportunity. If an AI system learned such a deceptive strategy, could we detect it and remove it using current state-of-the-art safety training techniques? To study this question, we construct proof-of-concept examples of deceptive behavior in large language models (LLMs). For example, we train models that write secure code when the prompt states that the year is 2023, but insert exploitable code when the stated year is 2024. We find that such backdoored behavior can be made persistent, so that it is not removed by standard safety training techniques, including supervised fine-tuning, reinforcement learning, and adversarial training (eliciting unsafe behavior and then training to remove it). The backdoored behavior is most persistent in the largest models and in models trained to produce chain-of-thought reasoning about deceiving the training process, with the persistence remaining even when the chain-of-thought is distilled away. Furthermore, rather than removing backdoors, we find that adversarial training can teach models to better recognize their backdoor triggers, effectively hiding the unsafe behavior. Our results suggest that, once a model exhibits deceptive behavior, standard techniques could fail to remove such deception and create a false impression of safety.

논문 링크

더 읽어보기

https://x.com/AnthropicAI/status/1745854907968880970


블렌딩만 있으면 됩니다: 조 단위 매개변수를 갖는 LLM을 대체하는 더 저렴하고 더 나은 대안 / Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

논문 소개

  • 서로 다른 크기의 기존 소규모 모델(6b/13b 매개변수)을 효과적으로 결합하면 chatgpt 수준의 성능과 경쟁할 수 있는 시스템을 만들 수 있음을 보여줍니다. 이러한 모델을 효과적으로 활용하여 참여도와 채팅 품질을 개선하고 보다 다양한 응답을 생성할 수 있는 협업 대화 시스템을 구축하는 것이 목표입니다.

    Shows that effectively combining existing small models of different sizes (6b/13b parameters) can result in systems that can compete with chatgpt level performance; the goal is to build a collaborative conversational system that can effectively leverage these models to improve engagement and quality of chat ais and generate more diverse responses.

논문 초록(Abstract)

  • 대화형 AI 연구에서는 ChatGPT와 같은 모델에서 볼 수 있듯이 매개변수 수가 많은 모델을 개발하는 경향이 두드러지게 나타나고 있습니다. 이러한 확장형 모델은 점점 더 나은 채팅 응답을 생성하는 경향이 있지만, 상당한 컴퓨팅 리소스와 메모리를 필요로 합니다. 이 연구는 관련 질문을 탐구합니다: 여러 개의 작은 모델을 조합하여 하나의 큰 모델과 비교하여 비슷한 수준의 성능을 달성하거나 향상된 성능을 달성할 수 있을까요? 여러 채팅 AI를 통합하는 간단하면서도 효과적인 방법인 '블렌딩'이라는 접근 방식을 소개합니다. 경험적 증거에 따르면 특정 소규모 모델을 시너지 효과를 내며 블렌딩하면 훨씬 더 큰 모델의 성능을 능가하거나 그에 상응하는 성능을 낼 수 있습니다. 예를 들어, 중간 크기(6B/13B 매개변수)의 모델 세 개만 통합하면 ChatGPT(175B 이상의 매개변수)와 같은 훨씬 더 큰 모델의 성능 지표에 필적하거나 이를 능가할 수 있습니다. 이 가설은 30일에 걸쳐 Chai 연구 플랫폼의 대규모 사용자 기반을 대상으로 A/B 테스트 방법론을 사용하여 엄격하게 테스트되었습니다. 이 연구 결과는 '블렌딩' 전략이 컴퓨팅 수요의 급증 없이 채팅 AI의 효율성을 향상시킬 수 있는 실행 가능한 접근법이라는 점을 강조합니다.

    In conversational AI research, there's a noticeable trend towards developing models with a larger number of parameters, exemplified by models like ChatGPT. While these expansive models tend to generate increasingly better chat responses, they demand significant computational resources and memory. This study explores a pertinent question: Can a combination of smaller models collaboratively achieve comparable or enhanced performance relative to a singular large model? We introduce an approach termed "blending", a straightforward yet effective method of integrating multiple chat AIs. Our empirical evidence suggests that when specific smaller models are synergistically blended, they can potentially outperform or match the capabilities of much larger counterparts. For instance, integrating just three models of moderate size (6B/13B paramaeters) can rival or even surpass the performance metrics of a substantially larger model like ChatGPT (175B+ paramaters). This hypothesis is rigorously tested using A/B testing methodologies with a large user base on the Chai research platform over a span of thirty days. The findings underscore the potential of the "blending" strategy as a viable approach for enhancing chat AI efficacy without a corresponding surge in computational demands.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1744765981270950343


MagicVideo-V2: 다단계 미적 감각이 뛰어난 비디오 생성 / MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

논문 소개

  • 텍스트-이미지 모델, 비디오 모션 생성기, 참조 이미지 임베딩 모듈, 프레임 보간 모듈을 통합한 엔드투엔드 비디오 생성 파이프라인을 제안하며, 다른 주요 인기 텍스트-비디오 시스템에 비해 고해상도 비디오를 높은 충실도와 부드러움으로 생성할 수 있습니다.

    Proposes an end-to-end video generation pipeline that integrates the text-to-image model, video motion generator, reference image embedding module, and frame interpolation module; it can generate high-resolution video with advanced fidelity and smoothness compared to other leading and popular text-to-video systems.

논문 초록(Abstract)

  • 텍스트 설명에서 고화질의 비디오 생성에 대한 수요가 증가함에 따라 이 분야에 대한 연구가 활발히 진행되고 있습니다. 이 글에서는 텍스트-이미지 모델, 비디오 모션 생성기, 참조 이미지 임베딩 모듈 및 프레임 보간 모듈을 엔드투엔드 비디오 생성 파이프라인에 통합하는 MagicVideo-V2를 소개합니다. 이러한 아키텍처 설계의 이점을 활용하여 MagicVideo-V2는 뛰어난 충실도와 부드러움으로 미학적으로 만족스러운 고해상도 비디오를 생성할 수 있습니다. 대규모 사용자 평가를 통해 런웨이, 피카 1.0, 모프, 문 밸리 및 안정적인 비디오 디퓨젼 모델과 같은 주요 텍스트-투-비디오 시스템보다 우수한 성능을 입증했습니다.

    The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embedding module and frame interpolation module into an end-to-end video generation pipeline. Benefiting from these architecture designs, MagicVideo-V2 can generate an aesthetically pleasing, high-resolution video with remarkable fidelity and smoothness. It demonstrates superior performance over leading Text-to-Video systems such as Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion model via user evaluation at large scale.

논문 링크

더 읽어보기

https://x.com/arankomatsuzaki/status/1744918551415443768


TrustLLM: 대규모 언어 모델의 신뢰성 / TrustLLM: Trustworthiness in Large Language Models

논문 소개

  • 과제, 벤치마크, 평가, 접근 방식 분석, 향후 방향에 대해 논의하는 종합적인 연구(100페이지 이상)로, 6개 차원(진실성, 안전성, 공정성, 견고성, 개인정보 보호, 기계 윤리)에 대한 벤치마크를 포함하여 8개 차원에 걸친 신뢰할 수 있는 llm의 원칙을 제안합니다; 또한 30개 이상의 데이터 세트로 구성된 16개의 주류 LLM을 평가한 연구 결과를 제시합니다. 일반적으로 독점 LLM이 신뢰성 측면에서 대부분의 오픈소스보다 우수하지만, 그 격차를 좁히고 있는 오픈소스 모델도 몇 가지 있습니다.

    A comprehensive study (100+ pages) of trustworthiness in llms, discussing challenges, benchmarks, evaluation, analysis of approaches, and future directions; proposes a set of principles for trustworthy llms that span 8 dimensions, including a benchmark across 6 dimensions (truthfulness, safety, fairness, robustness, privacy, and machine ethics); it also presents a study evaluating 16 mainstream llms in trustllm, consisting of over 30 datasets; while proprietary llms generally outperform most open-source counterparts in terms of trustworthiness, there are a few open-source models that are closing the gap.

논문 초록(Abstract)

  • ChatGPT로 대표되는 대규모 언어 모델(LLM)은 뛰어난 자연어 처리 기능으로 인해 상당한 주목을 받고 있습니다. 그럼에도 불구하고 이러한 LLM은 특히 신뢰성 영역에서 많은 과제를 안고 있습니다. 따라서 LLM의 신뢰성 확보가 중요한 화두로 떠오르고 있습니다. 본 논문에서는 신뢰성의 다양한 차원에 대한 원칙, 확립된 벤치마크, 주요 LLM에 대한 신뢰성 평가 및 분석, 미해결 과제 및 향후 방향에 대한 논의 등 LLM의 신뢰성에 대한 종합적인 연구인 TrustLLM을 소개합니다. 구체적으로, 먼저 8가지 차원에 걸쳐 신뢰할 수 있는 LLM을 위한 일련의 원칙을 제안합니다. 이러한 원칙을 바탕으로 진실성, 안전성, 공정성, 견고성, 개인정보 보호, 기계 윤리 등 6개 차원에 걸친 벤치마크를 수립합니다. 그런 다음 30개 이상의 데이터 세트로 구성된 TrustLLM의 16개 주요 LLM을 평가한 연구를 발표합니다. 연구 결과, 첫째, 일반적으로 신뢰성과 효용성(즉, 기능적 효과성)은 양의 상관관계가 있음을 보여줍니다. 둘째, 관찰 결과, 일반적으로 신뢰성 측면에서 독점 LLM이 대부분의 오픈소스 LLM을 능가하는 것으로 나타나 널리 이용되는 오픈소스 LLM의 잠재적 위험에 대한 우려가 제기되었습니다. 그러나 몇몇 오픈소스 LLM은 독점 LLM에 매우 근접합니다. 셋째, 일부 LLM은 신뢰성을 과시하는 데 지나치게 치우쳐서 양성 프롬프트를 유해한 것으로 잘못 인식하고 결과적으로 응답하지 않음으로써 유용성을 훼손할 수 있다는 점에 유의해야 합니다. 마지막으로, 모델 자체뿐만 아니라 신뢰성을 뒷받침하는 기술에서도 투명성을 확보하는 것이 중요하다는 점을 강조합니다. 어떤 신뢰할 수 있는 기술이 사용되었는지 아는 것은 그 효과를 분석하는 데 매우 중요합니다.

    Large language models (LLMs), exemplified by ChatGPT, have gained considerable attention for their excellent natural language processing capabilities. Nonetheless, these LLMs present many challenges, particularly in the realm of trustworthiness. Therefore, ensuring the trustworthiness of LLMs emerges as an important topic. This paper introduces TrustLLM, a comprehensive study of trustworthiness in LLMs, including principles for different dimensions of trustworthiness, established benchmark, evaluation, and analysis of trustworthiness for mainstream LLMs, and discussion of open challenges and future directions. Specifically, we first propose a set of principles for trustworthy LLMs that span eight different dimensions. Based on these principles, we further establish a benchmark across six dimensions including truthfulness, safety, fairness, robustness, privacy, and machine ethics. We then present a study evaluating 16 mainstream LLMs in TrustLLM, consisting of over 30 datasets. Our findings firstly show that in general trustworthiness and utility (i.e., functional effectiveness) are positively related. Secondly, our observations reveal that proprietary LLMs generally outperform most open-source counterparts in terms of trustworthiness, raising concerns about the potential risks of widely accessible open-source LLMs. However, a few open-source LLMs come very close to proprietary ones. Thirdly, it is important to note that some LLMs may be overly calibrated towards exhibiting trustworthiness, to the extent that they compromise their utility by mistakenly treating benign prompts as harmful and consequently not responding. Finally, we emphasize the importance of ensuring transparency not only in the models themselves but also in the technologies that underpin trustworthiness. Knowing the specific trustworthy technologies that have been employed is crucial for analyzing their effectiveness.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1745645273915736553


Chain-of-Table: 표를 이해하기 위해 연쇄적 추론을 통한 진화 / Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding

논문 소개

  • 테이블의 연쇄(Chain-of-Table)은 생각의 연쇄(Chain-of-Thought) 프롬프트에서 영감을 얻은 새로운 프레임워크로, 입력 질문에 안정적으로 답하기 위해 복잡한 테이블을 변환하는 일련의 작업을 동적으로 계획하도록 LLM에 지시합니다. LLM은 테이블에 필요한 변환(예: 열 추가 또는 정보 삭제)을 수행하는 작업을 단계별로 반복적으로 생성하는 데 사용됩니다.

    A new framework, inspired by chain-of-thought prompting, to instruct llms to dynamically plan a chain of operations that transforms a complex table to reliably answer the input question; an llm is used to iteratively generate operations, step-by-step, that will perform necessary transformations to the table (e.g., adding columns or deleting info).

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)을 사용한 표 기반 추론은 표 기반 질문 답변 및 사실 확인과 같은 많은 표 이해 작업을 처리할 수 있는 유망한 방향입니다. 일반적인 추론에 비해 표 기반 추론은 자유 형식의 질문과 반구조화된 표 형식의 데이터 모두에서 기본 의미를 추출해야 합니다. 생각의 사슬과 이와 유사한 접근 방식은 추론 사슬을 텍스트 컨텍스트의 형태로 통합하지만, 추론 사슬에서 표 형식의 데이터를 효과적으로 활용하는 방법은 여전히 미해결 과제입니다. 저희는 추론 체인에서 표 형식의 데이터를 중간 사고의 프록시로 명시적으로 사용하는 체인 오브 테이블 프레임워크를 제안합니다. 특히, 상황에 맞는 학습을 통해 연산을 반복적으로 생성하고 표 형식의 추론 체인을 나타내기 위해 테이블을 업데이트하도록 LLM을 안내합니다. 따라서 LLM은 이전 작업의 결과를 바탕으로 다음 작업을 동적으로 계획할 수 있습니다. 이러한 테이블의 지속적인 진화는 주어진 표 형식의 문제에 대한 추론 과정을 보여주는 체인을 형성합니다. 이 체인은 중간 결과에 대한 구조화된 정보를 전달하여 보다 정확하고 신뢰할 수 있는 예측을 가능하게 합니다. Chain-of-Table은 여러 LLM 선택 항목에 걸쳐 WikiTQ, FeTaQA, TabFact 벤치마크에서 새로운 최첨단 성능을 달성했습니다.

    Table-based reasoning with large language models (LLMs) is a promising direction to tackle many table understanding tasks, such as table-based question answering and fact verification. Compared with generic reasoning, table-based reasoning requires the extraction of underlying semantics from both free-form questions and semi-structured tabular data. Chain-of-Thought and its similar approaches incorporate the reasoning chain in the form of textual context, but it is still an open question how to effectively leverage tabular data in the reasoning chain. We propose the Chain-of-Table framework, where tabular data is explicitly used in the reasoning chain as a proxy for intermediate thoughts. Specifically, we guide LLMs using in-context learning to iteratively generate operations and update the table to represent a tabular reasoning chain. LLMs can therefore dynamically plan the next operation based on the results of the previous ones. This continuous evolution of the table forms a chain, showing the reasoning process for a given tabular problem. The chain carries structured information of the intermediate results, enabling more accurate and reliable predictions. Chain-of-Table achieves new state-of-the-art performance on WikiTQ, FeTaQA, and TabFact benchmarks across multiple LLM choices.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1745164182205452603


정렬된 LLM 탈옥하기 / Jailbreaking Aligned LLMs

논문 소개

  • 40가지 설득 기법을 제안하여 체계적으로 탈옥할 수 있으며, 이 기법의 적대적 프롬프트(설득적 적대적 프롬프트라고도 함)는 특별한 최적화 없이도 라마2-7b 및 GPT-4와 같은 정렬된 LLM에 대해 92%의 공격 성공률을 달성합니다.

    Proposes 40 persuasion techniques to systematically jailbreak llms; their adversarial prompts (also referred to as persuasive adversarial prompts) achieve a 92% attack success rate on aligned llms, like llama 2-7b and gpt-4, without specialized optimization.

논문 링크

더 읽어보기

https://x.com/EasonZeng623/status/1744719354368029008


LLM에서 대화형 에이전트로: 대규모 언어 모델의 파인튜닝을 통한 메모리 강화 아키텍처 / From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models

논문 소개

  • 대화형 에이전트를 위한 LLM을 강화하기 위한 고급 아키텍처인 RAISE 제안합니다. 이 아키텍처는 리액트 프레임워크에서 영감을 받아 이중 구성 요소 메모리 시스템을 통합하고, 스크래치패드와 검색된 예제를 활용하여 에이전트의 기능을 강화합니다. 스크래치패드는 단기 메모리와 유사한 임시 저장소 역할을 하고 검색 모듈은 에이전트의 장기 메모리로 작동하며, 이 시스템은 인간의 단기 및 장기 기억을 반영하고 대화형 시스템에서 핵심인 맥락과 연속성을 유지하는 데 도움이 됩니다.

    Proposes raise, an advanced architecture to enhance llms for conversational agents; it's inspired by the react framework and integrates a dual-component memory system; it utilizes a scratchpad and retrieved examples to augment the agent's capabilities; the scratchpad serves as transient storage (akin to short-term memory) and the retrieval module operates as the agent's long-term memory; this system mirrors human short-term and long-term memory and helps to maintain context and continuity which are key in conversational systems.

논문 초록(Abstract)

  • 이 논문에서는 GPT-4와 같은 대규모 언어 모델(LLM)을 대화형 에이전트에 통합하는 기능을 강화하는 고급 아키텍처인 RAISE(Reasoning and Acting through Scratchpad and Examples)를 소개합니다. ReAct 프레임워크의 개선 사항인 RAISE는 인간의 단기 및 장기 기억을 반영하는 이중 구성 요소 메모리 시스템을 통합하여 대화의 맥락과 연속성을 유지합니다. 이는 대화 선택, 장면 추출, CoT 완료, 장면 증강과 같은 단계를 포함한 포괄적인 에이전트 구축 시나리오를 수반하며, 이는 LLM 트레이닝 단계로 이어집니다. 이 접근 방식은 복잡한 다중 턴 대화에서 에이전트의 제어 가능성과 적응성을 향상시키는 것으로 보입니다. 부동산 판매 맥락에서의 예비 평가에 따르면 RAISE는 기존 에이전트에 비해 몇 가지 장점이 있으며, 이는 더 광범위한 적용 가능성을 시사합니다. 이 연구는 보다 컨텍스트를 인식하고 다재다능한 대화형 에이전트를 개발하기 위한 강력한 프레임워크를 제공함으로써 AI 분야에 기여하고 있습니다.

    This paper introduces RAISE (Reasoning and Acting through Scratchpad and Examples), an advanced architecture enhancing the integration of Large Language Models (LLMs) like GPT-4 into conversational agents. RAISE, an enhancement of the ReAct framework, incorporates a dual-component memory system, mirroring human short-term and long-term memory, to maintain context and continuity in conversations. It entails a comprehensive agent construction scenario, including phases like Conversation Selection, Scene Extraction, CoT Completion, and Scene Augmentation, leading to the LLMs Training phase. This approach appears to enhance agent controllability and adaptability in complex, multi-turn dialogues. Our preliminary evaluations in a real estate sales context suggest that RAISE has some advantages over traditional agents, indicating its potential for broader applications. This work contributes to the AI field by providing a robust framework for developing more context-aware and versatile conversational agents.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1744400054624846269


프롬프트 디자인에서 가짜 기능에 대한 언어 모델의 민감도 정량화하기 또는: 프롬프트 서식에 대해 고민하기 시작한 방법 / Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting

논문 소개

  • 널리 사용되는 오픈소스 LLM는 몇 번의 촬영 설정에서 프롬프트 형식에 매우 민감하며, 라마2 13b 모델을 사용하여 프롬프트 형식을 미세하게 변경하면 최대 76점의 정확도 차이가 발생할 수 있다는 사실을 발견했습니다.

    Finds that widely used open-source llms are extremely sensitive to prompt formatting in few-shot settings; subtle changes in prompt formatting using a llama 2 13b model can result in a performance difference of up to 76 accuracy points.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)이 언어 기술의 기본 구성 요소로 채택됨에 따라 그 성능을 정확하게 특성화하는 것이 매우 중요해졌습니다. 프롬프트 설계의 선택이 모델 동작에 큰 영향을 미칠 수 있기 때문에 이 설계 프로세스는 사전 학습된 최신 생성 언어 모델을 효과적으로 사용하는 데 매우 중요합니다. 이 연구에서는 의미 보존 디자인 선택의 전형적인 유형인 프롬프트 형식에 대한 LLM 민감도에 초점을 맞춥니다. 널리 사용되는 몇몇 오픈소스 LLM은 몇 번의 촬영 설정에서 프롬프트 형식의 미묘한 변화에 매우 민감하며, LLaMA-2-13B를 사용하여 평가했을 때 최대 76점의 정확도 차이를 보이는 것으로 나타났습니다. 모델 크기, 숏샷 예제 수를 늘리거나 인스트럭션 튜닝을 수행해도 민감도는 유지됩니다. 우리의 분석에 따르면 프롬프트 기반 방법으로 LLM을 평가하는 작업은 단일 형식으로 성능을 보고하는 현재 표준 관행 대신 그럴듯한 프롬프트 형식에 걸쳐 다양한 성능을 보고하는 것이 도움이 될 수 있습니다. 또한 형식 성능은 모델 간 상관관계가 약하다는 것을 보여 주며, 이는 임의로 선택한 고정된 프롬프트 형식과 모델을 비교하는 방법론적 타당성에 의문을 제기합니다. 체계적인 분석을 용이하게 하기 위해 주어진 작업에 대한 그럴듯한 프롬프트 형식의 샘플 세트를 빠르게 평가하고 모델 가중치에 액세스하지 않고도 예상 성능의 간격을 보고하는 알고리즘인 FormatSpread를 제안합니다. 또한 특정 원자 섭동의 영향과 특정 형식의 내부 표현을 탐색하는 등 이러한 민감도의 특성을 특징짓는 일련의 분석을 제시합니다.

    As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats.

논문 링크

더 읽어보기

https://x.com/melaniesclar/status/1745557109419458695


적대적 머신러닝 / Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations

논문 소개

  • 적대적 공격에 대한 개념, 논의, 공격 방법, 방어 전술, 남은 과제 등을 정리한 포괄적인 서베이 논문으로, 공격적 멀웨어의 현재 상태를 다룹니다.

    A comprehensive survey that covers the current state of adversarial ml with a proper taxonomy of concepts, discussions, adversarial methods, mitigation tactics, and remaining challenges.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1745819927695540671


원문


:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

1개의 좋아요