파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다.
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요!
주요 뉴스 & 신규 출시 소식 / Headlines & Launches
Meta, 상용 AI 모델 무료 제공 계획 / Meta Plans To Offer Free Commercial AI Models (2 minute read)
상업용 AI 모델을 무료 제공하려는 Meta의 계획은 경쟁사인 Google과 OpenAI에 압박을 가할 수 있는 전략적 움직임입니다. Meta는 개발자의 접근성을 높여 AI를 상품화하고자 하며, 이로 인해 Google과 OpenAI가 경쟁 우위를 유지하기가 더 어려워질 수 있습니다.
Meta's plan to offer free commercial AI models is a strategic move that could put pressure on its competitors, Google and OpenAI. Meta is hoping to commoditize AI by making it more accessible to developers, which could make it more difficult for Google and OpenAI to maintain their competitive advantage.
ByteDance, 10억 달러 규모의 GPU 주문 / ByteDance ordered $1B of GPUs (5 minute read)
이 중국 거대 기업은 다양한 AI 프로젝트에 사용하기 위해 엔비디아로부터 약 10만 개의 GPU를 구매했습니다. 이러한 주문은 규제 당국이 GPU 수출을 차단하기 전에 이루어졌습니다. 컴퓨팅을 통해 AI 노력을 강화하는 기업 목록에 하나 더 추가되었습니다.
The Chinese behemoth has purchased around 100k GPUs from NVIDIA to use for different AI projects. These orders were placed before the regulatory blockage of GPU exports. Add one more to the list of companies bolstering their AI efforts with compute.
자유롭게 사용 가능한 라마 모델의 복제 시도 / Permissively licensed Llama reproduction (3 minute read)
메타의 오리지널 라마 모델은 지난 몇 달 동안 큰 인기를 끌었습니다. 안타깝게도 상업적 용도로는 사용할 수 없습니다. 이 프로젝트는 레드파자마 1T 데이터셋을 사용해 라마 모델을 재현하려고 시도합니다. 이 프로젝트는 적어도 3B, 7B, 13B 모델에 대해 OpenLlama 모델이 원래 모델과 비슷한 성능을 보인다는 평가 결과를 제시합니다.
The original Llama model from Meta made a splash these past months. It is unfortunately unavailable for commercial use. This project attempts to use the RedPajama 1T dataset to reproduce the Llama models. They present evaluations which show the OpenLlama models to be similarly performant to their original counterparts, at least for the 3B, 7B, and 13B models.
연구 & 혁신 관련 소식 / Research & Innovation
Seal: 차량의 향상된 시각 인식을 위한 프레임워크 / Seal: A Framework for Enhanced Visual Perception in Vehicles (GitHub Repo)
Seal은 고급 시각 인식 모델을 사용하여 다양한 유형의 차량 센서 데이터를 더 잘 해석하고 더 효율적이고 적응력 있게 만드는 새로운 시스템입니다. 테스트 결과, 표준 방식에 비해 센서 데이터 해석을 37% 가까이 개선하여 미래의 자동차 안전 및 내비게이션 시스템을 개선할 수 있는 상당한 잠재력을 보여주었습니다.
Seal is a new system that uses advanced visual recognition models to better interpret various types of vehicle sensor data, making it more efficient and adaptable. In tests, it improved interpretation of sensor data by nearly 37% compared to standard methods, showing significant potential for improving future car safety and navigation systems.
(광고) 올해 가장 핫한 AI 트렌드는 무엇인가요? / What is the hottest AI trend this year? (Sponsor)
개발자 국가 설문조사에 참여하여 의견을 공유하고, 상품도 받고, AI 생태계를 형성하는 최첨단 발전상을 알아보세요. AI가 너무 멀리 나아갔나요, 아니면 이제 시작일까요? 여기에서 설문조사 시작할 수 있습니다.
Take the Developer Nation survey, share your opinion, win prizes and uncover the cutting edge advancements shaping the AI ecosystem. Has AI gone too far or this is just the beginning? Start survey here
LLM이 좋은 선생님이 될 수 있을까요? / Can Large Language Models Be Effective Teachers? (GitHub Repo)
이 연구는 강력한 LLM이 덜 발전된 AI 시스템을 가르치고 성능을 향상시킬 수 있는지 여부를 조사합니다. 이 연구는 두 인공지능 간의 '학생-교사' 관계를 제안하고, 커뮤니케이션 예산 내에서 '교사' 인공지능이 '학생' 인공지능의 능력을 향상시키기 위해 언제, 어떻게, 무엇을 설명해야 하는지에 대해 탐구합니다. 이 연구는 '교사' AI의 개인 맞춤형 교육이 '학생' AI의 성능을 크게 향상시킬 수 있음을 보여줍니다.
This study investigates whether powerful LLMs can teach less advanced AI systems and improve their performance. The study proposes a 'student-teacher' relationship between two AIs and explores how, when, and what the 'teacher' AI should explain to the 'student' AI to boost its abilities, while staying within a communication budget. It shows that personalized teaching from the 'teacher' AI can lead to significant improvements in the 'student' AI's performance.
Language Models (GitHub Repo)
512MB RAM이 있는 모든 컴퓨터에서 대규모 언어 모델을 탐색할 수 있는 Python 빌딩 블록입니다.
Python building blocks to explore large language models on any computer with 512MB of RAM.
엔지니어링 및 리소스 관련 소식 / Engineering & Resources
텍스트 음성 변환이 업그레이드됩니다 / Text to speech gets an upgrade (14 minute read)
텍스트 음성 변환은 주어진 텍스트로부터 음성 단어를 합성적으로 생성하는 프로세스입니다. 대부분의 생성된 음성이 정확하지 않기 때문에 항상 어려운 문제였습니다. 메타는 최근 오픈소스 AI를 추진하면서 음성 생성을 위한 최신 모델인 보이스박스를 출시했습니다. 기사에서 예시를 확인할 수 있습니다.
Text to speech is the process of synthetically generating spoken words from some given text. It has always been a hard problem given the inauthentic nature of most generated speech. Meta, in their recent push for open source AI, has released Voicebox, the current state of the art model for generating speech. Examples are available in the article.
Just scale RL (30 minute read)
강화 학습은 확장하기가 까다롭기로 악명이 높습니다. 즉, 모델 크기를 늘리거나 에피소드 수를 늘리면 문제가 발생하기 시작합니다. 그러나 다른 AI 분야에서는 확장을 통해 충분한 성능을 얻을 수 있기 때문에 이러한 문제를 극복할 가치가 있습니다. 이 연구에서 저자들은 여러 가지 영리한 설계 트릭을 사용하여 가치 기반 RL 시스템을 확장하여 Atari 100K에서 초인적인 수준의 성능을 달성할 수 있었습니다.
Reinforcement learning is notoriously tricky to scale. Meaning that when you increase the model size or increase the number of episodes, things start to break down. However, in other AI disciplines, scaling brings sufficient performance to make that challenge worth overcoming. In this study, by using a number of clever design tricks, the authors were able to scale their value-based RL system to achieve superhuman level performance on Atari 100K.
A100 저렴하게 사용하기 / Running an A100 for cheap (12 minute read)
엔비디아 A100은 시중에서 가장 강력한 GPU 중 하나입니다. 현재까지 가장 인기 있는 모델을 학습하는 데 사용되었습니다. 데이터 센터용 GPU이므로 일반적으로 자체 하드웨어에서 실행할 수 없습니다. 이 게시물에서는 단 몇 천 달러로 로컬에서 실행되는 자체 A100 슈퍼컴퓨터를 해킹하는 방법을 살펴봅니다.
Nvidia A100s are one of the most powerful GPUs on the market. They have been used to train some of the most popular models to date. They are data center GPUs, which typically means you cannot run them on your own hardware. This post explores how you can hack together your own A100 supercomputer that runs locally for just a few thousand dollars.
그 외 소식 / Miscellaneous
100K 컨텍스트 윈도우의 비밀스러운 비법 / The Secret Sauce Behind 100K Context Windows (20 minute read)
이 문서에서는 최대 100,000개의 입력 토큰으로 구성된 대규모 컨텍스트 창을 사용하기 위해 대규모 언어 모델(LLM)의 학습 및 추론 속도를 높이는 몇 가지 기술에 대해 설명합니다. 이러한 기법에는 다음이 포함됩니다: ALiBi 위치 임베딩, 스파스 어텐션, 플래시 어텐션, 다중 쿼리 어텐션, 조건부 계산, 80GB A100 GPU 사용 등이 있습니다.
The article discusses several techniques to speed up the training and inference of large language models (LLMs) to use a large context window of up to 100K input tokens. These techniques include: ALiBi positional embedding, Sparse Attention, FlashAttention, Multi-Query attention, Conditional computation, and using 80GB A100 GPUs.
GPT-4는 이제 도구를 사용할 수 있습니다 - 이는 큰 변화입니다! / GPT-4 Can Use Tools Now. That’s A Big Deal (6 minute read)
OpenAI의 GPT-4 언어 모델은 이제 외부 도구를 사용하여 날씨 확인, 주가 조회 또는 회사 데이터베이스의 데이터 조회와 같은 작업을 완료할 수 있습니다. 이는 학습된 정보에 따라 수행할 수 있는 작업이 제한적이었던 이전 버전의 GPT에 비해 크게 개선된 것입니다.
OpenAI's GPT-4 language model can now use external tools to complete tasks, such as checking the weather, getting a stock price, or looking up data in a company's database. This is a significant improvement over previous versions of GPT, which were limited in what they could do by the information they were trained on.
스탠포드의 파운데이션 모델 프레임워크 / Stanford's foundation model framework (7 minute read)
파운데이션 모델을 처음부터 훈련하는 것은 어려운 일입니다. 스탠포드의 언어 모델 그룹은 이 과정을 더 쉽게 만들어주는 프레임워크를 Jax로 출시했습니다. 이 프레임워크는 프로그래밍 프로세스를 간소화하기 위한 다양한 데이터 및 모델 병렬 처리 전략을 제공합니다.
Training foundation models from scratch is challenging. The language model group at Stanford has released a framework in Jax that makes this process easier. It provides a number of data and model parallelism strategies to simplify the programming process.
더 읽어보기 / Quick Links
미국, 중국 AI의 잠재적 위협과 씨름하다 / US Grapples With Potential Threats From Chinese AI (3 minute read)
바이든 행정부는 미국이 중국의 첨단 기술 기업에 대한 투자를 억제하려는 움직임에 따라 국가 안보에 위협이되는 인공 지능을 식별하는 방법에 대해 고심하고 있습니다.
The Biden administration is grappling with how to identify artificial intelligence that poses a threat to national security, a central challenge as the U.S. moves to curb investment in advanced technology companies in China.
GPT-Engineer (GitHub Repo)
GPT-Engineer는 프롬프트에 따라 전체 코드베이스를 생성합니다.
GPT-Engineer generates entire codebases based on a prompts.
AI 생성 QR코드 만들기 / Make AI generated QR codes (Product)
최근 인터넷에 재미있는 QR 코드가 많이 등장했습니다. 이들은 사용자 정의 버전의 ControlNet을 사용하여 코드의 실제 유용성을 변경하지 않고 배경을 변경합니다. 이 데모에서는 웹사이트와 안정적인 확산 프롬프트를 입력하여 나만의 QR 코드를 만들 수 있습니다.
A number of fun looking QR codes have recently popped up on the internet. They use a custom version of ControlNet to change the background without changing the actual usefulness of the code. This demo allows you to make your own QR codes by inputting a website and a stable diffusion prompt.
Prompt Flat (Product)
트위터, 미드저니 등의 플랫폼에서 콘텐츠 제작을 향상시킬 수 있도록 설계된 다양하고 뛰어난 프롬프트를 무료로 이용할 수 있습니다.
Access to a wide range of exceptional prompts for free, designed to enhance your content creation on platforms like Twitter, Midjourney, and beyond.