[2024/02/12 ~ 02/18] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)

[2024/02/12 ~ 02/18] 이번 주의 주요 ML 논문 (Top ML Papers of the Week)


PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 이번 주에 선정된 논문들은 자연어 처리, 심층신경망, 강화학습 분야의 최신 연구 동향을 반영하고 있습니다. 또한, 자연어 처리(NLP) 관련 기술에 대한 논문들이 이번 주에 주목받았습니다. 그 외에도 "World Model", "neural network trainability"라는 용어는 강화학습이나 심층신경망의 이론적 측면과 관련이 있어보입니다.

  • 최근 인공지능 분야는 대규모 언어 모델의 발전에 큰 관심을 보이고 있습니다. 이는 GPT-3와 같은 모델이 다양한 언어 기반 작업에서 놀라운 성능을 보여준 후로, 자연어 처리 기술이 이론적 연구와 실용적 응용 모두에서 중요한 주제로 떠올랐기 때문입니다. 대규모 언어 모델은 번역, 요약, 질의응답, 생성적 작문 등 다양한 NLP 작업에 사용될 수 있으며, 이러한 모델의 이해와 개선에 관한 연구가 활발합니다.

  • 또한, "neural network trainability" 및 "World Model"과 같은 개념은 심층신경망을 더 효과적으로 학습하고, 더 복잡한 환경을 모델링할 수 있는 신기술에 대한 연구를 시사합니다. 강화학습 분야에서는 더 정교한 환경 모델을 통해 에이전트가 보다 복잡한 문제를 해결할 수 있는 능력을 개발하는 데 초점을 맞추며 이 또한 현대 AI 연구에 있어 중요한 추세입니다.

  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:


OpenAI의 Sora

논문 소개

  • 텍스트 지시가 주어지면 최대 1분 분량의 사실적이고 상상력이 풍부한 장면을 동영상으로 만들 수 있는 텍스트-비디오 AI 모델로, 여러 캐릭터, 다양한 동작 유형 및 배경이 포함된 복잡한 장면을 생성하고 서로의 관계를 이해할 수 있으며, 캐릭터와 비주얼 스타일을 일관되게 유지하면서 단일 동영상 내에서 여러 장면을 생성하는 등의 기능을 갖추고 있습니다.

    A text-to-video ai model that can create videos of up to a minute of realistic and imaginative scenes given text instructions; it can generate complex scenes with multiple characters, different motion types, and backgrounds, and understand how they relate to each other; other capabilities include creating multiple shots within a single video with persistence across characters and visual style.

논문 링크

더 읽어보기

https://x.com/OpenAI/status/1758192957386342435


제미나이 1.5 / Gemini 1.5

논문 소개

  • 긴 형식의 콘텐츠를 리콜하고 추론하는 등의 기능에 초점을 맞춘 컴퓨팅 효율적인 다중 모드 혼합 전문가 모델로, 몇 시간의 비디오와 오디오를 포함해 수백만 개의 토큰이 포함된 긴 문서를 추론할 수 있으며 긴 문서 QA, 긴 비디오 QA 및 긴 컨텍스트 ASR에서 최첨단 성능을 향상시킵니다. Gemini 1.5 pro는 표준 벤치마크에서 Gemini 1.0 ultra와 일치하거나 더 나은 성능을 보이며, 다른 긴 컨텍스트 llms에 비해 크게 발전한 최소 1000만 개의 토큰까지 거의 완벽한 검색(>99%)을 달성합니다.

    A compute-efficient multimodal mixture-of-experts model that focuses on capabilities such as recalling and reasoning over long-form content; it can reason over long documents potentially containing millions of tokens, including hours of video and audio; improves the state-of-the-art performance in long-document qa, long-video qa, and long-context asr. gemini 1.5 pro matches or outperforms gemini 1.0 ultra across standard benchmarks and achieves near-perfect retrieval (>99%) up to at least 10 million tokens, a significant advancement compared to other long-context llms.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1758151923612483839


V-JEPA

논문 소개

  • 2백만 개의 동영상을 사용하여 특징 예측 목표에 대해 학습된 비전 모델 모음, 자체 감독 학습에 의존하며 사전 학습된 이미지 인코더, 텍스트, 부정적인 예제, 재구성 또는 기타 감독 소스를 사용하지 않음, 모델의 파라미터를 조정하지 않고도 동작 및 외모 기반 작업 모두에서 잘 수행되는 다목적 시각적 표현을 달성한다고 주장합니다.

    A collection of vision models trained on a feature prediction objective using 2 million videos; relies on self-supervised learning and doesn’t use pretrained image encoders, text, negative examples, reconstruction, or other supervision sources; claims to achieve versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters.

논문 초록(Abstract)

이 논문에서는 비디오에서 비지도 학습을 위한 독립적인 목표로서 특징 예측을 살펴보고 사전 학습된 이미지 인코더, 텍스트, 부정 예제, 재구성 또는 기타 감독 소스를 사용하지 않고 특징 예측 목표만을 사용해 학습된 비전 모델 모음인 V-JEPA를 소개합니다. 이 모델은 공개 데이터세트에서 수집한 2백만 개의 비디오로 학습되었으며, 다운스트림 이미지 및 비디오 작업에서 평가되었습니다. 그 결과, 비디오 특징을 예측하여 학습하면 모델의 매개변수를 조정하지 않고도 모션 및 외관 기반 작업 모두에서 우수한 성능을 발휘하는 다목적 시각적 표현을 얻을 수 있습니다. 예를 들어, 비디오에만 훈련된 가장 큰 모델인 ViT-H/16은 프로즌 백본을 사용하여 Kinetics-400에서 81.9%, Something-Something-v2에서 72.2%, ImageNet1K에서 77.9%의 정확도를 기록했습니다.

This paper explores feature prediction as a stand-alone objective for unsupervised learning from video and introduces V-JEPA, a collection of vision models trained solely using a feature prediction objective, without the use of pretrained image encoders, text, negative examples, reconstruction, or other sources of supervision. The models are trained on 2 million videos collected from public datasets and are evaluated on downstream image and video tasks. Our results show that learning by predicting video features leads to versatile visual representations that perform well on both motion and appearance-based tasks, without adaption of the model’s parameters; e.g., using a frozen backbone, our largest model, a ViT-H/16 trained only on videos, obtains 81.9% on Kinetics-400, 72.2% on Something-Something-v2, and 77.9% on ImageNet1K.

논문 링크

더 읽어보기

https://x.com/AIatMeta/status/1758176023588577326


LWM(Large World Model): 링어텐션으로 백만 길이의 동영상과 언어를 사용하는 모델 / World Model on Million-Length Video And Language With RingAttention

논문 소개

  • 링어텐션을 사용해 긴 동영상과 책에 대해 학습된 범용 1M 컨텍스트 멀티모달 모델, 어려운 검색 작업과 긴 동영상 이해에서 새로운 벤치마크 설정, 다양한 시퀀스 길이, 손실 가중치, 모델 생성 qa 데이터셋을 혼합해 긴 시퀀스 채팅에 마스크된 시퀀스 패킹 사용, 1M 이상의 긴 텍스트와 동영상을 처리할 수 있는 7B 파라미터 모델군 오픈소스화.

    A general-purpose 1m context multimodal model trained on long videos and books using ringattention; sets new benchmarks in difficult retrieval tasks and long video understanding; uses masked sequence packing for mixing different sequence lengths, loss weighting, and model-generated qa dataset for long sequence chat; open-sources a family of 7b parameter models that can process long text and videos of over 1m tokens.

논문 초록(Abstract)

  • 현재의 언어 모델은 말로 쉽게 설명할 수 없는 세계의 측면을 이해하는 데 부족함이 있으며, 복잡하고 긴 형식의 작업에는 어려움을 겪습니다. 비디오 시퀀스는 언어와 정적 이미지에는 없는 귀중한 시간적 정보를 제공하므로 언어와의 공동 모델링에 매력적입니다. 이러한 모델은 인간의 텍스트 지식과 물리적 세계에 대한 이해를 모두 발전시켜 인간을 보조하는 더 광범위한 AI 기능을 구현할 수 있습니다. 그러나 수백만 개의 비디오 및 언어 시퀀스로부터 학습하는 것은 메모리 제약, 계산 복잡성, 제한된 데이터 세트로 인해 어려움을 겪습니다. 이러한 문제를 해결하기 위해 다양한 동영상과 책으로 구성된 대규모 데이터셋을 큐레이션하고, 긴 시퀀스를 확장 가능하게 학습하기 위해 링어텐션 기술을 활용하며, 컨텍스트 크기를 4K에서 1백만 토큰으로 점진적으로 늘립니다. 이 논문은 다음과 같은 기여를 합니다. (a) 가장 큰 컨텍스트 크기 신경망: 긴 비디오 및 언어 시퀀스에 대해 가장 큰 컨텍스트 크기 변환기 중 하나를 학습하여 어려운 검색 작업과 긴 비디오 이해에서 새로운 벤치마크를 설정합니다. (b) 다양한 시퀀스 길이를 혼합하기 위한 마스크된 시퀀스 패킹 사용, 언어와 시각의 균형을 맞추기 위한 손실 가중치, 긴 시퀀스 채팅을 위한 모델 생성 QA 데이터 세트 등 비전-언어 학습 문제를 극복하기 위한 솔루션. (c) 수백만 개의 길이를 가진 멀티모달 시퀀스 학습을 위해 링어텐션, 마스크된 시퀀스 패킹 및 기타 주요 기능을 사용하여 고도로 최적화된 구현. (d) 100만 개 이상의 토큰으로 구성된 긴 텍스트 문서(LWM-Text, LWM-Text-Chat)와 동영상(LWM, LWM-Chat)을 처리할 수 있는 7B 파라미터 모델 제품군을 완전히 오픈소스화했습니다. 이 작업은 긴 동영상과 언어의 방대한 데이터셋에 대한 학습을 통해 인간의 지식과 멀티모달 세계에 대한 이해와 더 넓은 역량을 개발할 수 있는 길을 열어줍니다.

    Current language models fall short in understanding aspects of the world not easily described in words, and struggle with complex, long-form tasks. Video sequences offer valuable temporal information absent in language and static images, making them attractive for joint modeling with language. Such models could develop a understanding of both human textual knowledge and the physical world, enabling broader AI capabilities for assisting humans. However, learning from millions of tokens of video and language sequences poses challenges due to memory constraints, computational complexity, and limited datasets. To address these challenges, we curate a large dataset of diverse videos and books, utilize the RingAttention technique to scalably train on long sequences, and gradually increase context size from 4K to 1M tokens. This paper makes the following contributions: (a) Largest context size neural network: We train one of the largest context size transformers on long video and language sequences, setting new benchmarks in difficult retrieval tasks and long video understanding. (b) Solutions for overcoming vision-language training challenges, including using masked sequence packing for mixing different sequence lengths, loss weighting to balance language and vision, and model-generated QA dataset for long sequence chat. (c) A highly-optimized implementation with RingAttention, masked sequence packing, and other key features for training on millions-length multimodal sequences. (d) Fully open-sourced a family of 7B parameter models capable of processing long text documents (LWM-Text, LWM-Text-Chat) and videos (LWM, LWM-Chat) of over 1M tokens. This work paves the way for training on massive datasets of long video and language to develop understanding of both human knowledge and the multimodal world, and broader capabilities.

논문 링크

더 읽어보기

https://largeworldmodel.github.io/

https://x.com/haoliuhl/status/1757828392362389999


신경망 학습 가능성의 경계는 프랙탈입니다 / The boundary of neural network trainability is fractal

논문 소개

  • 학습 가능한 신경망 하이퍼파라미터 구성과 학습 불가능한 신경망 하이퍼파라미터 구성 사이의 경계가 프랙탈임을 발견하고, 모든 신경망 구성과 심층 선형 네트워크의 프랙탈 하이퍼파라미터 풍경을 관찰하고, 가장 성능이 좋은 하이퍼파라미터가 안정성의 끝에 있다는 것을 관찰합니다.

    Finds that the boundary between trainable and untrainable neural network hyperparameter configurations is fractal; observes fractal hyperparameter landscapes for every neural network configuration and deep linear networks; also observes that the best-performing hyperparameters are at the end of stability.

논문 초록(Abstract)

  • 예를 들어 만델브로트 및 이차 줄리아 집합과 관련된 일부 프랙탈은 함수를 반복하고 결과 수열이 발산하거나 경계를 유지하는 하이퍼파라미터 사이의 경계를 식별하여 계산됩니다. 신경망 학습도 마찬가지로 업데이트 함수를 반복적으로 적용하고(예: 경사 하강 단계 반복), 수렴 또는 발산 동작이 발생할 수 있으며, 하이퍼파라미터의 작은 변화에 매우 민감하게 반응할 수 있습니다. 이러한 유사성에 착안하여 안정적 학습과 발산적 학습으로 이어지는 신경망 하이퍼파라미터 사이의 경계를 실험적으로 조사했습니다. 테스트한 모든 구성에서 이 경계가 수십 배 이상의 규모에 걸쳐 프랙탈 형태로 존재한다는 사실을 발견했습니다.

    Some fractals -- for instance those associated with the Mandelbrot and quadratic Julia sets -- are computed by iterating a function, and identifying the boundary between hyperparameters for which the resulting series diverges or remains bounded. Neural network training similarly involves iterating an update function (e.g. repeated steps of gradient descent), can result in convergent or divergent behavior, and can be extremely sensitive to small changes in hyperparameters. Motivated by these similarities, we experimentally examine the boundary between neural network hyperparameters that lead to stable and divergent training. We find that this boundary is fractal over more than ten decades of scale in all tested configurations.

논문 링크

더 읽어보기

https://x.com/jaschasd/status/1756930242965606582


OS-Copilot: 자기 개발을 통한 제너럴리스트 컴퓨터 에이전트를 향하여 / OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

논문 소개

  • 리눅스나 맥OS와 같은 운영체제의 핵심 요소와 인터페이스하는 범용 컴퓨터 에이전트를 구축하는 프레임워크로, 일반 컴퓨터 작업을 자동화하기 위해 스스로 개선되는 구현 에이전트를 제안하며, 이 에이전트는 일반 AI 비서(GAIA) 벤치마크에서 이전 방법보다 35% 더 뛰어난 성능을 발휘합니다.

a framework to build generalist computer agents that interface with key elements of an operating system like linux or macos; it also proposes a self-improving embodied agent for automating general computer tasks; this agent outperforms the previous methods by 35% on the general ai assistants (gaia) benchmark.

논문 초록(Abstract)

  • 컴퓨터와의 자율적인 상호 작용은 큰 잠재력을 지닌 오랜 과제였으며, 최근 대규모 언어 모델(LLM)의 확산으로 디지털 에이전트 구축의 진전이 눈에 띄게 빨라졌습니다. 그러나 이러한 에이전트의 대부분은 특정 소프트웨어나 웹사이트와 같은 좁은 도메인과 상호 작용하도록 설계되었습니다. 이러한 좁은 초점은 일반적인 컴퓨터 작업에 대한 적용 가능성을 제한합니다. 이를 위해 웹, 코드 터미널, 파일, 멀티미디어, 다양한 타사 애플리케이션 등 운영 체제(OS)의 포괄적인 요소와 상호 작용할 수 있는 제너럴리스트 에이전트를 구축할 수 있는 프레임워크인 OS-Copilot을 소개합니다. 저희는 OS-Copilot을 사용하여 일반적인 컴퓨터 작업을 자동화하기 위해 스스로 개선되는 구체화된 에이전트인 FRIDAY를 만들었습니다. 일반적인 AI 어시스턴트 벤치마크인 GAIA에서 FRIDAY는 이전 방식보다 35% 더 뛰어난 성능을 보이며, 이전 작업에서 축적된 기술을 통해 보이지 않는 애플리케이션에 대한 강력한 일반화 능력을 보여줍니다. 또한 최소한의 감독 없이도 FRIDAY가 Excel과 파워포인트를 제어하고 스스로 개선하는 방법을 학습한다는 수치적, 정량적 증거를 제시합니다. OS-Copilot 프레임워크와 경험적 연구 결과는 더 유능하고 범용적인 컴퓨터 에이전트를 향한 향후 연구를 위한 인프라와 통찰력을 제공합니다.

    Autonomous interaction with the computer has been a longstanding challenge with great potential, and the recent proliferation of large language models (LLMs) has markedly accelerated progress in building digital agents. However, most of these agents are designed to interact with a narrow domain, such as a specific software or website. This narrow focus constrains their applicability for general computer tasks. To this end, we introduce OS-Copilot, a framework to build generalist agents capable of interfacing with comprehensive elements in an operating system (OS), including the web, code terminals, files, multimedia, and various third-party applications. We use OS-Copilot to create FRIDAY, a self-improving embodied agent for automating general computer tasks. On GAIA, a general AI assistants benchmark, FRIDAY outperforms previous methods by 35%, showcasing strong generalization to unseen applications via accumulated skills from previous tasks. We also present numerical and quantitative evidence that FRIDAY learns to control and self-improve on Excel and Powerpoint with minimal supervision. Our OS-Copilot framework and empirical findings provide infrastructure and insights for future research toward more capable and general-purpose computer agents.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1757443594976206885


TestGen-LLM: 메타에서 대규모 언어 모델을 사용하여 자동화된 단위 테스트 개선 / Automated Unit Test Improvement using Large Language Models at Meta

논문 소개

  • 인스타그램의 릴스 및 스토리들에 대한 평가 후 TestGen-LLM의 테스트 케이스 중 75%가 올바르게 구축되었고 57%가 안정적으로 통과했으며 25%의 커버리지가 증가했다고 보고합니다.

    Uses llms to automatically improve existing human-written tests; reports that after an evaluation on reels and stories products for instagram, 75% of testgen-llm's test cases were built correctly, 57% passed reliably, and 25% increased coverage.

논문 초록(Abstract)

  • 이 논문에서는 LLM을 사용하여 기존 사람이 작성한 테스트를 자동으로 개선하는 Meta의 TestGen-LLM 도구에 대해 설명합니다. TestGen-LLM은 생성된 테스트 클래스가 원래 테스트 스위트보다 측정 가능한 개선을 보장하는 일련의 필터를 성공적으로 통과하는지 확인하여 LLM 환각으로 인한 문제를 제거합니다. Instagram 및 Facebook 플랫폼에 대한 메타 테스트에서 TestGen-LLM을 배포하는 방법을 설명합니다. Instagram용 릴 및 스토리 제품에 대한 평가에서 TestGen-LLM의 테스트 케이스 중 75%가 올바르게 빌드되었고, 57%가 안정적으로 통과했으며, 25%는 커버리지가 증가했습니다. Meta의 Instagram 및 Facebook 테스트톤에서 이 솔루션은 적용된 모든 클래스의 11.5%를 개선했으며, 메타 소프트웨어 엔지니어가 권장한 사항 중 73%가 프로덕션 배포를 위해 수용되었습니다. 이 보고서는 이러한 코드 개선에 대한 확신이 뒷받침된 LLM 생성 코드의 산업 규모 배포에 대한 최초의 보고서라고 생각합니다.

    This paper describes Meta's TestGen-LLM tool, which uses LLMs to automatically improve existing human-written tests. TestGen-LLM verifies that its generated test classes successfully clear a set of filters that assure measurable improvement over the original test suite, thereby eliminating problems due to LLM hallucination. We describe the deployment of TestGen-LLM at Meta test-a-thons for the Instagram and Facebook platforms. In an evaluation on Reels and Stories products for Instagram, 75% of TestGen-LLM's test cases built correctly, 57% passed reliably, and 25% increased coverage. During Meta's Instagram and Facebook test-a-thons, it improved 11.5% of all classes to which it was applied, with 73% of its recommendations being accepted for production deployment by Meta software engineers. We believe this is the first report on industrial scale deployment of LLM-generated code backed by such assurances of code improvement.

논문 링크

더 읽어보기

https://x.com/nathanbenaich/status/1758036247115608317


ChemLLM: 화학 분야의 대규모 언어 모델 / ChemLLM: A Chemical Large Language Model

논문 소개

  • 이름 변환, 분자 캡션, 반응 예측과 같은 주요 작업에서 GPT-3.5보다 성능이 뛰어나며, 이 중 두 가지 작업에서는 GPT-4를 능가한다고 주장하며 화학 관련 작업을 위해 학습된 전용 LLM입니다.

    A dedicated llm trained for chemistry-related tasks; claims to outperform gpt-3.5 on principal tasks such as name conversion, molecular caption, and reaction prediction; it also surpasses gpt-4 on two of these tasks.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)은 분자 특성 예측, 분자 생성, 실험 프로토콜 설계 등 화학 분야에서 괄목할 만한 발전을 이루었습니다. 그러나 커뮤니티에는 화학을 위해 특별히 설계된 대화 기반 모델이 부족합니다. 이 문제는 대부분의 화학 데이터와 과학 지식이 주로 구조화된 데이터베이스에 저장되어 있고, 이러한 구조화된 데이터를 직접 사용하면 일관된 대화를 유지하는 모델의 기능이 저하된다는 사실에서 비롯됩니다. 이 문제를 해결하기 위해 구조화된 지식을 일반 대화로 변환하여 언어 모델 학습에 적합한 새로운 템플릿 기반 명령어 구성 방법을 개발했습니다. 이러한 접근 방식을 활용하여 화학 분야 전반에 걸쳐 다양한 작업을 원활한 대화 상호작용으로 수행할 수 있는 최초의 화학 전용 대규모 언어 모델인 ChemLLM을 개발했습니다. ChemLLM은 이름 변환, 분자 캡션, 반응 예측 등 화학의 세 가지 주요 작업 모두에서 GPT-3.5를 능가하고, 그 중 두 가지 작업에서는 GPT-4를 능가합니다. 놀랍게도 ChemLLM은 화학 중심의 말뭉치를 중심으로 학습되었음에도 불구하고 관련 수학적 및 물리적 작업에 대한 뛰어난 적응력을 보여줍니다. 또한 ChemLLM은 문헌 번역 및 화학 포매틱 프로그래밍과 같은 화학 분야의 전문 NLP 작업에도 능숙함을 보여줍니다. ChemLLM은 화학 연구에서 새로운 탐색의 길을 열어주며, 구조화된 화학 지식을 대화 시스템에 통합하는 방식은 다양한 과학 분야에서 LLM을 개발하는 새로운 지평을 열어줍니다. 코드, 데이터 세트 및 모델 가중치는 hf.co/AI4Chem/ChemLLM-7B-Chat에서 공개적으로 액세스할 수 있습니다.

    Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at AI4Chem/ChemLLM-7B-Chat · Hugging Face.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1757246740539773165


대규모 언어 모델: 서베이 논문 / Large Language Models: A Survey

논문 소개

  • 세 가지 인기 있는 LLM 제품군(GPT, Llama, PaLM)과 그 특징, 기여도, 한계를 검토하고, LLM 구축 및 보강을 위해 개발된 기능과 기술을 요약하며, LLM 학습, 미세 조정 및 평가를 위해 널리 사용되는 데이터 세트와 LLM 평가 메트릭에 대해서도 논의하고, 미해결 과제와 향후 연구 방향으로 마무리합니다.

    Reviews three popular families of llms (gpt, llama, palm), their characteristics, contributions, and limitations; includes a summary of capabilities and techniques developed to build and augment llm; it also discusses popular datasets for llm training, fine-tuning, and evaluation, and llm evaluation metrics; concludes with open challenges and future research directions.

논문 초록(Abstract)

  • 대규모 언어 모델(LLM)은 2022년 11월 ChatGPT 출시 이후 다양한 자연어 작업에 대한 강력한 성능으로 인해 많은 관심을 받고 있습니다. LLM의 범용 언어 이해 및 생성 능력은 대규모 텍스트 데이터에 대한 수십억 개의 모델 파라미터를 학습함으로써 획득되며, 이는 스케일링 법칙 \cite{kaplan2020scaling,hoffmann2022training}에 따라 예측됩니다. LLM의 연구 분야는 매우 최근에 시작되었지만 다양한 방식으로 빠르게 발전하고 있습니다. 이 논문에서는 널리 사용되는 세 가지 LLM 제품군(GPT, LLaMA, PaLM)을 포함해 가장 눈에 띄는 LLM을 검토하고 그 특징, 기여도 및 한계에 대해 논의합니다. 또한 LLM을 구축하고 보강하기 위해 개발된 기술에 대한 개요도 제공합니다. 그런 다음 LLM 학습, 미세 조정 및 평가를 위해 준비된 인기 있는 데이터셋을 조사하고, 널리 사용되는 LLM 평가 지표를 검토하며, 대표적인 벤치마크 세트에서 몇 가지 인기 있는 LLM의 성능을 비교합니다. 마지막으로 미해결 과제와 향후 연구 방향에 대해 논의하며 논문을 마무리합니다.

    Large Language Models (LLMs) have drawn a lot of attention due to their strong performance on a wide range of natural language tasks, since the release of ChatGPT in November 2022. LLMs' ability of general-purpose language understanding and generation is acquired by training billions of model's parameters on massive amounts of text data, as predicted by scaling laws \cite{kaplan2020scaling,hoffmann2022training}. The research area of LLMs, while very recent, is evolving rapidly in many different ways. In this paper, we review some of the most prominent LLMs, including three popular LLM families (GPT, LLaMA, PaLM), and discuss their characteristics, contributions and limitations. We also give an overview of techniques developed to build, and augment LLMs. We then survey popular datasets prepared for LLM training, fine-tuning, and evaluation, review widely used LLM evaluation metrics, and compare the performance of several popular LLMs on a set of representative benchmarks. Finally, we conclude the paper by discussing open challenges and future research directions.

논문 링크

더 읽어보기

https://x.com/omarsar0/status/1757049645119799804


LLM 에이전트가 자율적으로 웹사이트를 해킹할 수 있습니다 / LLM Agents can Autonomously Hack Websites

논문 소개

  • 사람의 피드백이나 취약점에 대한 명시적인 사전 지식 없이도 자동으로 웹사이트를 해킹하고 SQL 인젝션과 같은 작업을 수행할 수 있음을 보여줍니다. 이는 LLM의 도구 사용과 긴 컨텍스트 기능을 통해 가능하며, gpt-4는 야생에서 웹사이트의 취약점을 찾는 등 이러한 해킹이 가능하지만 오픈소스 모델에서는 동일한 기능을 보여주지 못했습니다.

    Shows that llm agents can automatically hack websites and perform tasks like sql injections without human feedback or explicit knowledge about the vulnerability beforehand; this is enabled by an llm’s tool usage and long context capabilities; shows that gpt-4 is capable of such hacks, including finding vulnerabilities in websites in the wild; open-source models did not show the same capabilities.

논문 초록(Abstract)

  • 최근 몇 년 동안 대규모 언어 모델(LLM)의 기능이 점점 향상되어 이제 도구와 상호 작용하고(즉, 함수 호출), 문서를 읽고, 재귀적으로 스스로를 호출할 수 있게 되었습니다. 그 결과 이러한 LLM은 이제 에이전트로서 자율적으로 작동할 수 있습니다. 이러한 에이전트의 기능이 향상됨에 따라 최근의 연구는 LLM 에이전트가 사이버 보안에 어떤 영향을 미칠지에 대해 추측하고 있습니다. 그러나 LLM 에이전트의 공격 능력에 대해서는 알려진 바가 많지 않습니다. 이 연구에서는 LLM 에이전트가 사람의 피드백 없이도 웹사이트를 자율적으로 해킹하여 블라인드 데이터베이스 스키마 추출 및 SQL 삽입과 같은 복잡한 작업을 수행할 수 있음을 보여줍니다. 중요한 점은 에이전트가 취약점을 미리 알 필요가 없다는 것입니다. 이 기능은 도구 사용 능력이 뛰어나고 확장된 컨텍스트를 활용하는 프론티어 모델에 의해 고유하게 구현됩니다. 즉, GPT-4는 이러한 해킹이 가능하지만 기존 오픈소스 모델은 그렇지 않다는 것을 보여줍니다. 마지막으로, GPT-4가 야생에서 웹사이트의 취약점을 자율적으로 찾아낼 수 있음을 보여줍니다. 이러한 연구 결과는 LLM의 광범위한 배포에 대한 의문을 제기합니다.

    In recent years, large language models (LLMs) have become increasingly capable and can now interact with tools (i.e., call functions), read documents, and recursively call themselves. As a result, these LLMs can now function autonomously as agents. With the rise in capabilities of these agents, recent work has speculated on how LLM agents would affect cybersecurity. However, not much is known about the offensive capabilities of LLM agents. In this work, we show that LLM agents can autonomously hack websites, performing tasks as complex as blind database schema extraction and SQL injections without human feedback. Importantly, the agent does not need to know the vulnerability beforehand. This capability is uniquely enabled by frontier models that are highly capable of tool use and leveraging extended context. Namely, we show that GPT-4 is capable of such hacks, but existing open-source models are not. Finally, we show that GPT-4 is capable of autonomously finding vulnerabilities in websites in the wild. Our findings raise questions about the widespread deployment of LLMs.

논문 링크

더 읽어보기

https://x.com/emollick/status/1757937829340967240


원문


:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :hugs:

5개의 좋아요