[TLDR] 오늘의 AI 뉴스, 2023-10-03: AI 디바이스, Humane Ai Pin 🧷, 리와인드 펜던트 📿, 효율적인 비디오 모델 학습 📹

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터 의 승인을 받아 AI 소식을 DeepL로 번역 하여 전합니다. :star_struck:
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:
TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

Workers AI: Cloudflare의 글로벌 네트워크에서 서버리스 GPU 기반 추론 / Workers AI: serverless GPU-powered inference on Cloudflare’s global network (12 minute read)

Cloudflare는 글로벌 GPU 네트워크에서 서버리스 AI 추론 플랫폼인 "Workers AI"를 공개합니다. Workers AI는 인기 있는 오픈 소스 모델을 특징으로 하며 Hugging Face와 협력합니다. cloudflare

Cloudflare unveils "Workers AI," a serverless AI inference platform on its global GPU network. Workers AI features popular open-source models and collaborates with Hugging Face.

(더 읽어보기 :point_right: Cloudflare, GPU 기반의 서버리스 추론 서비스 Workers AI 출시)

휴메인, 최초의 AI 디바이스인 Ai Pin 공개 / Humane reveals first AI device - the Ai Pin (2 minute read)

휴매닉은 파리 패션위크에서 코페르니와 협업하여 AI 통합을 위해 설계된 스크린리스 웨어러블인 '휴매인 Ai 핀'을 공개했습니다. 이 디바이스는 AI 기반 광학 인식, 레이저 프로젝션 디스플레이를 제공하며 스마트폰 페어링 없이도 사용자의 프라이버시를 우선시합니다.

Humane Inc unveiled the "Humane Ai Pin", a screenless wearable designed for AI integration, at Paris Fashion Week in collaboration with Coperni. The device offers AI-powered optical recognition, laser-projected displays, and prioritizes user privacy without requiring smartphone pairing.

되감기 펜던트 / Rewind Pendant (2 minute read)

리와인드 펜던트는 현실 세계에서 말하고 듣는 내용을 캡처한 다음 이를 전사, 암호화하여 휴대폰에 로컬로 저장하는 웨어러블 기기입니다.

Rewind Pendant is a wearable that captures what you say and hear in the real world and then transcribes, encrypts, and stores it entirely locally on your phone.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

StreamingLLM (Github Repo)

언어 모델은 컨텍스트 길이에 따라 제한됩니다. 컨텍스트 길이는 일반적으로 컴퓨팅 하드웨어와 영리한 알고리즘 업데이트에 의해 제한됩니다. 주의 메커니즘을 통해 토큰을 스트리밍하는 알고리즘 업데이트는 이론적으로 무한한 컨텍스트 창 크기를 허용합니다. 일반적으로 이러한 주장은 규모에 따라 실패하지만, 이 주장은 미세 조정 없이 기존의 사전 학습된 모델에서 작동할 수 있기 때문에 강력해 보입니다. 하지만 잊혀진 중간 문제를 더 악화시킬까요? long-context-scaling llm

Language models are limited by their context length. The context length is usually limited by compute hardware and clever algorithmic updates. This is an algorithmic update that streams the tokens through the attention mechanism to allow theoretically infinite context window size. Usually, these claims fall over at scale, but this one seems robust as it can work on existing pre-trained models without fine-tuning. Will it make the forgotten middle issue worse though?

GAFlow: 가우시안 어텐션으로 광학 흐름 개선하기 / Improving Optical Flow with Gaussian Attention (GitHub Repo)

광학 흐름은 이미지에서 사물이 어떻게 움직이는지 파악하는 데 도움이 됩니다. 이 연구에서는 가우시안 어텐션(Gaussian Attention)을 사용하여 더 세밀한 디테일에 집중하고 이를 더 잘 일치시키는 새로운 기법을 도입하여 GAFlow라는 모델을 개발했습니다.

Optical flow helps figure out how things move in images. This study introduces new techniques using Gaussian Attention to focus on finer details and match them better, resulting in a model named GAFlow.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

AVION: 효율적인 비디오 모델 학습 / Efficient Video Model Training (16 minute read)

최고 수준의 비디오 모델을 훈련하려면 일반적으로 학계에서 접근할 수 있는 범위를 넘어서는 엄청난 리소스가 필요합니다. 연구원들은 하루에 8개의 표준 GPU가 장착된 단 한 대의 컴퓨터로 이러한 모델을 훈련할 수 있는 방법을 찾아냈습니다.

Training top-notch video models usually need huge resources, often beyond what academia can access. Researchers have found a way to train these models using just one machine with eight standard GPUs in a day.

코스모스 2.5 / Kosmos-2.5 (25 minute read)

Microsoft의 UniLM 그룹은 지난 몇 년 동안 자연어와 관련하여 훌륭한 작업을 수행해 왔습니다. 최근에는 코스모스 모델 제품군을 통해 이미지로 그 영역을 확장했습니다. 이 특정 인스턴스화는 이미지에서 텍스트 집약적인 문서를 읽고 해당 문서의 텍스트 또는 마크다운을 생성하기 위한 것입니다. 이는 최근 학술 OCR을 위한 메타 작업과 유사합니다. unilm kosmos-2

The UniLM group at Microsoft has done some great work in the past few years around natural language. With the suite of Kosmos models, they’ve recently moved into images. This specific instantiation is for reading text-intensive documents from an image and generating the text or markdown for that document. It is similar to the recent Meta work for academic OCR.

대화를 통한 이미지 인식 모델 학습하기 / Teaching Image-Recognizing Model Through Conversation (21 minute read)

연구원들은 자연어 프롬프트만으로 텍스트와 이미지를 모두 이해하는 모델인 시각 언어 모델을 개선할 수 있는 새로운 방법을 개발했습니다. vision-language prompt

Researchers have developed a new way to improve vision-language models, which are models that understand both text and images, using just natural language prompts.

:gift: 그 외 소식 / Miscellaneous

SaaS 기업이 AI를 활용하여 앞서나가는 8가지 방법 / 8 Ways SaaS Companies Can Use AI To Get Ahead (12 minute read)

이 블로그 게시물에서는 다양한 부서의 여러 AI SaaS 사용 사례를 통해 이 기술을 사용하여 경쟁 우위를 확보할 수 있는 방법을 강조합니다. enterprise-saas

This blog post features several AI SaaS use cases for various departments, highlighting ways the technology can be used to gain a competitive edge.

OpenCompass: 대형 모델을 위한 오픈소스 평가 스위트 / Open-Source Evaluation Suite for Large Models (3 minute read)

OpenCompass는 대형 모델을 빠르고 효율적으로 테스트할 수 있도록 설계된 무료 도구입니다.

OpenCompass is a free tool designed to test large models quickly and efficiently.

AI, 하드웨어 및 가상 현실 / AI, Hardware, and Virtual Reality (11 minute read)

하드웨어와 결합된 AI는 획기적인 형태의 가상 현실과 증강 현실을 가능하게 할 것입니다. 각 영역의 최신 뉴스를 분석해 보았습니다.

AI, combined with hardware, is going to enable groundbreaking forms of virtual and augmented reality. Here’s a breakdown of the latest news in each of those domains.

:zap: 더 읽어보기 / Quick Links

아티스트는 제너레이티브 AI로 얼마나 많은 수익을 올릴 수 있을까요? / How Much Can Artists Make From Generative AI? (5 minute read)

일부 기업이 '크리에이터 펀드'를 제안하고 있지만, 아티스트에게 지급할 금액과 방법에 대한 구체적인 내용은 아직 불분명하며, 많은 세부 사항이 아직 개발 중이거나 공개되지 않았습니다. genai ai-copyright

Despite some companies proposing "creators' funds," the specifics of how and how much artists will be paid remain unclear, with many details still under development or undisclosed.

베스피오 / Vespio (Product)

베스피오는 AI 기반 감성 분석을 제공하여 영업팀이 리드를 낭비하지 않도록 도와줍니다.

Vespio provides AI-powered sentiment analysis so your sales teams never waste leads.

베스트에버 / Bestever (Product)

AI를 사용하여 몇 분 만에 멋진 마케팅 비주얼을 제작하세요.

Create brilliant marketing visuals in minutes using AI.