파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다.
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으시면 파이토치 한국 사용자 모임에 방문해주세요!
주요 뉴스 & 신규 출시 소식 / Headlines & Launches
투게더 컴퓨트(Together compute), 2천만 달러 시드 라운드 투자 / Together compute $20m seed round (2 minute read)
(RedPajama를 만든) 투게더 컴퓨트는 무엇보다도 효율적인 머신 러닝을 위한 클라우드 플랫폼을 구축하고 있습니다. 강력한 학계 인맥과 뛰어난 재능을 갖춘 기술자들을 보유하고 있어 생태계에 매우 유용한 도구를 구축할 가능성이 높습니다. 현재까지 주목할 만한 작업 중 하나는 Llama를 학습시키는 데 사용된 폐쇄형 데이터 세트의 개방형 복제본인 빨간 파자마 데이터 세트의 출시입니다.
Together compute is, among other things, building a cloud platform for efficient machine learning. With strong academic connections, and highly talented technologists, they have a good shot of building really useful tools for the ecosystem. One of their notable works to date is the release of the red pajama data set, which is an open replication of the closed data set used to train Llama.
OpenAI의 해자는 생각보다 강력할 것 / OpenAI’s moat is stronger than you think (5 minute read)
최근 구글 내부 메모에 따르면 구글이나 OpenAI 모두 대규모 AI 모델을 중심으로 지속 가능한 비즈니스 모델을 구축할 수 없을 것이라고 하지만, 그 반대의 주장도 있습니다. GPT-4와 같은 고품질 AI 모델은 만들기는 쉬워 보이지만 복잡하고 구축하기 어렵고, 사람의 피드백을 통한 강화 학습과 데이터 필터링을 포함한 OpenAI의 고유한 접근 방식은 상당한 이점을 제공합니다. 또한 ChatGPT와 OpenAI API를 통한 '라스트 마일' 제공은 강력한 브랜드와 함께 이 회사의 제품을 타의 추종을 불허합니다. 이러한 요소와 함께 B2B 및 B2C 부문 모두에서 제품 시장 적합성을 빠르게 달성한 OpenAI는 메모가 암시하는 것보다 AI 시장에서 회사의 입지가 더 방어적임을 시사합니다.
Despite a recent internal Google memo suggesting neither Google nor OpenAI will be able to build a sustainable business model around large AI models, there's an argument to the contrary. Quality AI models like GPT-4, while seemingly easy to create, are complex and difficult to build, and OpenAI's unique approach, including reinforcement learning from human feedback and data filtering, offers a significant advantage. Additionally, OpenAI's 'last-mile' delivery through ChatGPT and the OpenAI API, along with its strong brand, make the company's offerings tough to beat. These factors, together with OpenAI's quick achievement of product-market fit in both B2B and B2C sectors, suggest the company's position in the AI market is more defensible than the memo implies.
연구 & 혁신 관련 소식 / Research & Innovation
Microsoft Guidance (GitHub Repo)
프로그램은 우리가 컴퓨터와 대화하는 방식이고, 프롬프트는 우리가 AI와 대화하는 방식이며, 이제 AI가 컴퓨터와 대화하고 있습니다. 이는 AI와 대화하는 더 나은 방법이 필요하다는 것을 의미합니다. 마크로소프트의 가이던스는 기본적으로 재현 가능하고 강력한 프롬프트를 장려하는 방식으로 지침과 지침을 설정할 수 있도록 Microsoft에서 개발한 프롬프트 언어 및 도구 키트입니다.
Programs are how we talk to computers, prompts are how we talk to AI, and AI is now talking to computers. This means that we need a better way to talk with AI. Guidance is essentially a prompting language and toolkit developed by Microsoft that allows you to set guidelines and instructions in a way that encourages reproducible and robust prompts.
EfficientViT: 캐스케이드 그룹 어텐션을 사용한 메모리 효율적인 비전 트랜스포머 / EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention (GitHub Repo)
연구원자들은 빠른 처리와 향상된 정확도를 결합한 새로운 유형의 고속 비전 트랜스포머인 EfficientViT를 개발했습니다. 연구진은 트랜스포머 모델의 특정 부분을 재설계함으로써 데이터 재구성 및 요소별 기능 수행과 관련된 계산 비용을 크게 절감할 수 있었습니다. 실험 결과, EfficientViT는 다른 효율적인 모델보다 더 높은 정확도를 달성하는 동시에 인상적인 처리 속도를 유지하며 심지어 MobileNetV3를 능가하는 성능을 보였습니다.
Researchers have created a new type of high-speed vision transformer called EfficientViT, which combines fast processing with improved accuracy. By redesigning certain parts of the transformer model, they were able to significantly reduce the computational costs associated with reshaping data and performing element-wise functions. The experiments showed that EfficientViT outperformed other efficient models, achieving higher accuracy while maintaining impressive processing speeds, even surpassing MobileNetV3.
레이저 데이터를 활용한 3D 장면 재구성 및 사실감 향상 / Enhancing 3D Scene Reconstruction and Realism from Laser Data (5 minute read)
NFL은 레이저를 사용하여 거리를 측정하는 방법인 라이다 데이터를 가져와 새로운 관점에서 사실적인 3D 장면을 생성하는 새로운 방법입니다. 이 기술은 다른 기술보다 더 잘 작동하며 우리 주변 환경을 매핑하고 이해하는 것과 같은 작업을 개선하는 데 도움이 될 수 있습니다.
NFL is a new method that takes LiDAR data (a way of measuring distances using lasers) and creates realistic 3D scenes from new viewpoints. This technique works better than others and can help improve tasks like mapping and understanding the environment around us.
엔지니어링 및 리소스 관련 소식 / Engineering & Resources
활성화를 사용하여 언어 모델 다루기 / Steering language models with activations (32 minute read)
AI 안전의 목표 중 하나는 확장 가능한 감독으로, 사람의 값비싼 개입 없이 언어 모델 세대를 조정할 수 있는 방법을 찾고자 합니다. 이 논문의 아이디어들은 새로운 것은 아니지만, 소프트 프롬프트를 떠올리게 하는 흥미로운 확장입니다. 연구진은 간단한 아이디어에 활성화 벡터를 추가함으로써 언어 모델 생성을 해당 아이디어로 유도할 수 있다는 사실을 발견했습니다. 예를 들어 텍스트를 더 행복하게 만들거나 음모론 생성에 더 취약하게 만드는 것입니다.
One of the goals of AI safety is called scalable oversight, where we hope to discover ways to steer language model generations without expensive human intervention. All the ideas in this paper aren't new, harkening back to soft prompts, it is an interesting extension. They find that by adding activation vectors for simple ideas, they can steer the generation towards those ideas. For example making text happier or more prone to conspiracy theory generation.
메가바이트 - 백만 바이트 시퀀스 / Megabyte - million byte sequences (28 minute read)
트랜스포머는 실제로 엔드 투 엔드가 아닙니다. 토큰나이저를 위한 별도의 학습 과정이 존재하며, 이 때문에 일반적으로 이상한 성능을 보이는 경우가 많습니다. 그러나 순진하게 바이트 단위로 훈련하려고 하면 시퀀스 길이가 증가함에 따라 컨텍스트 길이가 금방 부족해집니다. 또한 진정한 멀티모달 문제의 경우 바이트에 직접 훈련하면 복잡한 패치 및 토큰화 체계를 제거할 수 있습니다. 이 작업을 통해 모델은 시퀀스 길이가 최대 백만 바이트인 바이트에 대해 직접 학습할 수 있습니다. 희귀 단어에 대한 nucleus 샘플링에도 도움이 될 것입니다!
Transformers are not actually end to end. There is a separate training process for the tokenizer which is strange and often leads to odd performance in general. However, if we try to naively train on bytes we quickly run out of context length given the increased length of sequences. Additionally for truly multimodal problems training directly on bytes removes complex patching and tokenization schemes. This work allows models to train directly on bytes with sequence lengths up to a million bytes. Maybe this will even help nucleus sampling for rare words too!
동영상 질의응답 / Video Question Answering (45 minute read)
시각적 질문 답변(VQA)은 지난 몇 달 동안 대대적으로 채택되어 급속도로 발전하고 있습니다. 주로 BLIP 및 CLIP과 같은 사전 학습된 모델을 통해 가능합니다. 이러한 모델을 비디오에 적용하는 것은 계산 요구 사항이 크게 증가하기 때문에 어려운 작업입니다. 이 연구에서는 서로 다른 시간 범위에서 작동하여 이러한 시스템의 견고성을 크게 향상시키는 다양한 모델의 캐스케이드를 도입합니다. BLIP-2를 사용하여 강력한 성능을 발견했습니다.
Visual question answering has seen massive adoption over the past several months, and rapid progress. Largely enabled by pre-trained models such as Blip and clip. Applying these models to video is challenging due to the dramatically increased computational requirements. This work introduces a cascade of different models that dramatically improves the robustness of these systems by operating at different timescales. They use Blip2 and find strong performance.
그 외 소식 / Miscellaneous
Meta의 ImageBind 분석 글 / Unveiling ImageBind (7 minute read)
이 미디엄 게시물은 Meta의 AI 모델인 ImageBind에 대한 심층 분석을 제공합니다. 멀티모달 AI 모델인 ImageBind는 텍스트 설명에서 이미지를 생성하거나 그 반대로 이미지를 생성할 수 있습니다. 다양한 인터넷 텍스트와 이미지에 대한 학습을 거쳤습니다. 이 게시물은 ImageBind의 정확성과 다재다능함을 높이 평가하지만, 이 모델이 때때로 관련성이 없거나 부정확한 결과를 생성할 수 있다는 점도 인정하고 있습니다.
This Medium post provides an in-depth analysis of Meta's AI model, ImageBind. ImageBind, a multi-modal AI model, can generate images from a text description and vice versa. It is trained on a diverse range of internet text and images. While ImageBind's accuracy and versatility are praised, the post also acknowledges that the model can occasionally produce irrelevant or inaccurate results.
Google, 딥페이크에 맞서 싸우려고 합니다 / Google Plans To Fight Back Against DeepFakes (3 minute read)
Arstechnica에서는 구글이 AI로 생성된 가짜 데이터의 확산에 대응하기 위해 준비하고 있다고 보도했습니다. 딥페이크 및 기타 형태의 조작된 콘텐츠가 더욱 정교해짐에 따라 이 거대 기술 기업은 이러한 콘텐츠를 식별하고 표시할 수 있는 새로운 도구를 개발하고 있습니다. 이러한 조치를 다양한 플랫폼에 적용하여 콘텐츠의 진위를 확인하고 잘못된 정보로부터 사용자를 보호할 계획입니다. Google의 접근 방식에는 AI 알고리즘과 같은 기술과 사용자 교육이 모두 포함될 것입니다.
Arstechnica reports that Google is preparing to combat the increasing prevalence of AI-generated fakes. As deep fakes and other forms of manipulated content become more sophisticated, the tech giant is developing new tools to identify and flag this content. It plans to implement these measures across its various platforms to ensure the authenticity of content and protect users from misinformation. Google's approach will involve both technology, such as AI algorithms, and user education.
무검열 모델 / Uncensored Models (10 minute read)
Eric Hartford의 블로그 게시물은 검열되지 않은 AI 모델의 함의를 탐구하며 AI 검열이 우리를 위험한 길로 이끌 수 있음을 시사합니다. 그는 AI를 억압하기보다는 그 결과물을 더 잘 관리할 수 있는 시스템을 개발해야 한다고 주장합니다. 그는 AI 사용의 윤리에 대해 더 많은 연구와 대화가 필요하다고 언급하며, AI 시스템에 대한 다중 이해관계자 거버넌스 모델에 대한 아이디어를 제안합니다.
Eric Hartford's blog post explores the implications of uncensored AI models, suggesting that AI censorship might be leading us down a risky path. He argues for the development of systems to better manage the outputs rather than suppressing them. He mentions that more research and dialogue are needed around the ethics of AI use, and proposes the idea of a multi-stakeholder governance model for AI systems.
더 읽어보기 / Quick Links
Amazon, ChatGPT 검색 추가 계획 / Amazon Plans To Add ChatGPT Search (2 minute read)
아마존은 온라인 스토어에 ChatGPT 스타일의 제품 검색을 도입할 예정입니다. 이를 통해 검색 엔진에 생성형 인공 지능을 접목하려는 마이크로소프트와 구글의 노력에 경쟁하려고 합니다.
Amazon.com Inc. plans to bring ChatGPT-style product search to its web store, rivaling efforts by Microsoft Corp. and Google to weave generative artificial intelligence into their search engines.
GPT4Tools (GitHub Repo)
GPT4Tools는 여러 시각적 기초 모델을 제어할 수 있는 중앙 집중식 시스템입니다.
GPT4Tools is a centralized system that can control multiple visual foundation models.
OpenAI의 '레드팀' 만나보기 / Meet The OpenAI ‘Red Team’ (4 minute read)
OpenAI는 '레드팀'으로 알려진 다양한 사람들을 통해 GPT-4를 '적대적으로 테스트'했습니다.
OpenAI used an eclectic mix of people, known as the ‘Red Team’, to ‘adversarially test’ GPT-4.
Databerry.ai (Product Launch)
Databerry.ai는 사용자 지정 데이터를 ChatGPT에 연결하기 위한 ChatGPT 플러그인을 구축할 수 있도록 지원합니다. 데이터와 대화하고, 플러그인 스토어를 활용하여 사용자를 사로잡고 브랜드 인지도를 높이고, 사용자가 플러그인과 상호 작용하는 방식에 대한 인사이트와 통계를 얻을 수 있습니다
Databerry.ai helps you build ChatGPT Plugins to connect custom data to ChatGPT. Talk to your data, leverage the Plugin Store to captivate users and skyrocket your brand awareness, and get insights and statistics on how users are interacting with your Plugin.