[TLDR] 오늘의 AI 뉴스, 2023-06-28: ElevenLabs 음성 라이브러리 🔊, 바이두 - Ernie가 ChatGPT보다 낫다고 주장 🤖, 코스모스-2 멀티모달 AI 🧑‍💻

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. :star_struck:

더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:

TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

Baidu, 자사의 Ernie가 ChatGPT보다 우월하다고 주장 / Baidu Claims Ernie Is Superior To ChatGPT (1 minute read)

바이두의 Ernie 봇은 일반적인 능력에서 OpenAI의 ChatGPT를 능가했으며, 몇 가지 중국어 기능에서 고급 GPT-4보다 뛰어난 성능을 보였습니다.

Baidu's Ernie Bot has surpassed OpenAI's ChatGPT in general abilities and outperformed the more advanced GPT-4 on several Chinese-language capabilities.

일레븐랩스 보이스 라이브러리 / ElevenLabs Voice Library (5 minute read)

일레븐은 합성 음성을 생성, 공유, 탐색할 수 있는 커뮤니티 플랫폼인 보이스 라이브러리를 출시했습니다. 이 플랫폼은 일레븐의 독점적인 보이스 디자인 툴을 활용하여 연령, 성별, 억양 등의 매개변수를 기반으로 고유한 다국어 목소리를 생성합니다. 사용자는 자신이 만든 목소리를 공유하거나 다른 사람이 공유한 목소리를 다양한 애플리케이션에 사용할 수 있으며, 참여에 대한 인센티브도 제공됩니다. Eleven은 향후 브라우징, 검색, 분류 기능을 확장하고 개선할 계획입니다.

Eleven has launched Voice Library, a community platform for creating, sharing, and exploring synthetic voices. The platform utilizes Eleven's proprietary Voice Design tool to generate unique, multilingual voices based on parameters such as age, gender, and accent. Users can share their created voices and use voices shared by others for a variety of applications, with incentives for participation. Eleven has plans for future expansion and improvements to browsing, search, and categorization.

인기있는 FlanT5 모델의 제작자, 5800만 달러 라운드 모금Creator of popular FlanT5 models raises $58m round (3 minute read)

또 다른 크랙 팀은 엔터프라이즈용 유비쿼터스 언어 및 멀티모달 모델 구축에 도전하고 있습니다. 이들은 재현 가능한 연구의 오랜 역사와 함께 탄탄한 기술적 배경을 가지고 있습니다. 많은 재단 모델 스타트업과 달리 이들은 원격 우선 조직입니다.

Another crack team is taking a shot at building ubiquitous language and multimodal models for enterprise. They have a solid technical background with a long history of reproducible research. Counter to many foundation model startups, they are a remote-first organization.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

FiftyOne (GitHub Repo)

피프티원은 데이터셋을 시각화하고 모델을 더 빠르고 효과적으로 해석할 수 있도록 지원하여 머신러닝 워크플로우를 강화합니다.

FiftyOne supercharges your machine learning workflows by enabling you to visualize datasets and interpret models faster and more effectively.

MotionGPT: 모션과 언어의 결합을 위한 접근 방식 / MotionGPT: An Approach to Combining Motion and Language (GitHub Repo)

이 저장소는 인간의 움직임과 언어를 하나의 모델로 통합하는 새로운 기술인 MotionGPT를 소개합니다. 이 도구는 동작을 고유한 언어처럼 취급함으로써 텍스트 입력을 기반으로 동작을 예측하거나 설명하는 등 동작과 관련된 작업을 개선하는 데 도움을 줄 수 있습니다.

This repo introduces MotionGPT, a novel technology that merges human movement and language into one model. By treating motion like its own kind of language, this tool can help improve tasks related to movement, such as predicting or describing actions, based on text input.

LLM 기반 자율 에이전트 / LLM Powered Autonomous Agents (29 minute read)

LLM을 사용하여 자율 에이전트를 구동하는 방법에 대한 심층적인 개요입니다.

An in-depth overview of how to use LLMs to power autonomous agents.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

코스모스-2 멀티모달 AI / Kosmos-2 multimodal AI (24 minute read)

Microsoft의 UniLM 팀은 매우 생산적이고 다작을 하는 연구자 그룹입니다. 이 최신 작업은 유용하고 강력한 언어+ 모델에 대한 그들의 탐구 라인을 이어갑니다. Kosmos-2는 경계 상자를 그리고 텍스트를 읽을 수 있습니다.

The UniLM team at Microsoft is an extremely productive and prolific group of researchers. This latest work continues their line of inquiry around useful and powerful language+ models. Kosmos-2 can draw bounding boxes and read text.

자체 데이터로 LLM 성능 평가하기 / Evaluate LLM performance on your own data (26 minute read)

언어 모델 성능은 종종 아주 작은 선별된 데이터로 평가됩니다. 이러한 데이터의 배포는 프로덕션 환경에서 대폭 간소화되는 경우가 많습니다. 자체 감독 평가를 사용하면 자체 데이터셋을 사용하여 이러한 모델을 평가할 수 있습니다. 프로덕션 환경에서 스트리밍되는 데이터를 사용할 수도 있습니다.

Language model performance is often evaluated on a very small curated selection of data. The distribution of this data is often massively simplified from production environments. Using self-supervised evaluation, you can use your own data sets to evaluate these models. You can even use data that's streaming in from production.

대규모 멀티모달 모델에서 시각적 인스트럭션 튜닝 향상 / Enhancing Visual Instruction Tuning in Large Multi-modal Models (5 minute read)

이 논문에서는 이미지와 인스트럭션에 대한 잘못된 설명을 생성하는 멀티모달 모델의 문제를 해결하는 데 도움이 되는 대규모 로보틱 비주얼(LRV; Large-scale Robust Visual)-인스트럭션이라는 새롭고 방대한 데이터셋을 소개합니다. 긍정 및 부정 시각적 인스트럭션이 모두 포함된 이 데이터 세트는 모델을 개선하고, 환각을 줄이며, 다양한 인스트럭션 형식을 기반으로 시각적 단서를 해석하는 전반적인 성능을 개선하는 데 도움이 됩니다.

The paper presents a new, expansive dataset called Large-scale Robust Visual (LRV)-Instruction, which helps in addressing the issue of multi-modal models creating incorrect descriptions of images and instructions. This dataset, enriched with both positive and negative visual instructions, helps to refine models, reduce hallucinations, and improve overall performance in interpreting visual cues based on diverse instruction formats.

:gift: 그 외 소식 / Miscellaneous

깜놀 콘텐츠에 초점을 맞춘 비디오 질의응답 데이터세트 / A Video Question Answering Dataset Focused on Surprising Content (4 minute read)

FunQA는 유머러스하거나 창의적인 클립과 같은 놀라운 동영상에 대한 모델의 이해를 테스트하고 향상시키기 위해 설계된 혁신적인 데이터세트로, 타임스탬프 로컬라이제이션, 동영상 설명 및 추론과 같은 영역에서 모델의 역량을 강화합니다.

FunQA is an innovative dataset designed to test and enhance models’ understanding of surprising videos like humorous or creative clips, pushing their capabilities in areas like timestamp localization, video description, and reasoning.

AI 도구 쇼핑: 모자이크ML 인수 / Shopping for AI Shovels: The MosaicML Acquisition (4 minute read)

데이터브릭스가 2년 된 회사 MosaicML에 13억 달러를 투자한 이유에 대한 분석 기사입니다.

A breakdown on why Databricks spent $1.3B on the 2 year old company MosaicML.

AI 기반 개발자 라이프사이클의 경제적 영향 / The Economic Impact Of The AI-Powered Developer Lifecycle (6 minute read)

이 글에서는 GitHub Copilot과 같은 AI 기반 개발자 도구의 잠재적인 경제적 영향에 대해 설명합니다. 이러한 도구가 개발자의 시간을 최대 30%까지 절약할 수 있으며, 이로 인해 미국에서만 1조 3,000억 달러의 경제적 효과가 발생할 수 있다고 추정합니다.

The article discusses the potential economic impact of AI-powered developer tools, such as GitHub Copilot. It estimates that these tools could save developers up to 30% of their time, which could lead to an economic impact of $1.3 trillion in the United States alone.

:zap: 더 읽어보기 / Quick Links

H100 클러스터는 매우 빠릅니다 / H100 clusters are very fast (4 minute read)

3k+ H100으로 구성된 이 엔비디아, 코어웨이브, 인플렉션 클러스터는 방금 GPT3 스타일 모델을 11분 만에 2.69 C4 퍼플렉서티(중간 퍼펙)로 학습했습니다. 이전 최고 결과는 23일이었습니다. 이 속도라면 2일 만에 GPT3를 학습할 수 있을 것으로 추정하기도 합니다. 세부적인 내용은 가볍지만 명시된 대로 인상적인 결과입니다.

This Nvidia, CoreWeave, and Inflection cluster of 3k+ H100s just trained a GPT3 style model to 2.69 C4 perplexity (medium perf) in 11 minutes. The previous best result was 23 days. At this speed, some estimates suggest they could train GPT-3 in 2 days. Details are light, but it is an impressive result as stated.

AI로 만든 약, 임상 실험 시작 / AI-Made Drug Starts Human Trials (1 minute read)

인공지능으로 만든 의약품이 60명을 대상으로 임상시험을 실시합니다. 만성 폐 질환을 치료할 이 약은 인실리코 메디슨(Insilico Medicine)이 개발 중이며 이미 1상 임상시험을 성공적으로 마쳤다고 합니다.

A pharmaceutical drug conceptualized by artificial intelligence will be tested on 60 people. The drug, which will treat chronic lung disease, is under development by Insilico Medicine and has already completed successful phase 1 trials.

유럽, 인공지능 "충돌 테스트" 센터 개소 / Europe To Open AI “Crash Test” Centers (1 minute read)

유럽 연합은 새로운 혁신이 시장에 출시되기 전에 안전성을 보장하기 위해 인공지능에 대한 "충돌 테스트"시스템을 도입하고 있습니다.

The European Union is introducing "crash test" systems for artificial intelligence to ensure new innovations are safe before they hit the market.

AI 열풍이 민간 시장으로 몰려들다 / AI Frenzy Draws Hordes To Private Markets (3 minute read)

인공지능에 대한 관심이 높아지면서 투자자들은 스타트업이 상장되기 전에 차세대 기술 대기업을 찾기 위해 대체 시장에서 스타트업 주식을 사들이고 있습니다.

The buzz around artificial intelligence has investors snapping up shares of startups on alternative venues, looking to find the next wave of technology giants before they even go public.