[TLDR] 오늘의 AI 뉴스, 2023-08-14: 앤드류 응의 LLM 월드 모델 🌎, 스타트업 서브 로보틱스 상장 🔔, 모자이크ML 보안 코드 평가 🔐

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. :star_struck:

더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:

TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

Supabase Studio 3.0 (8 minute read)

SQL 편집기, 스키마 다이어그램, 새로운 래퍼에 바로 통합된 새로운 Supabase AI를 비롯한 몇 가지 새로운 기능을 갖춘 Supabase Studio 3.0이 출시되었습니다.

Supabase Studio 3.0 is here, with some huge new features, including a brand new Supabase AI integrated right into the SQL Editor, Schema Diagrams, and new Wrappers.

앤드류 응의 LLM 월드 모델 / Andrew Ng on LLM world models (3 minute read)

최근 연구에 따르면 오델로-GPT(Othello-GPT)와 같은 LLM은 월드 모델을 구축하며, 이는 세계를 어느 정도 이해하고 있음을 의미합니다. 이 네트워크는 명시적인 게임 규칙 없이 게임 수를 학습하여 기본 8x8 보드 구조와 게임 규칙을 식별했습니다. 이는 기계의 이해력에 대한 존 설의 중국 방 논증과 같은 전통적인 관념에 도전합니다.

Recent studies suggest LLMs like Othello-GPT build world models, implying that they understand the world to an extent. The network discerned the underlying 8x8 board structure and game rules by training on game moves without explicit game rules. This challenges traditional notions, like John Searle's Chinese Room Argument, about machine understanding.

Uber, 엔비디아가 지원하는 배달 로봇 스타트업 서브 로보틱스 상장 / Uber, Nvidia-backed delivery robot startup Serve Robotics to go public (3 minute read)

Uber가 Postmates를 인수하면서 분사한 자율 보도 배달 로봇 스타트업인 Serve Robotics가 SPAC(기업인수목적회사, Special Purpose Acquisition Company)와의 역합병을 통해 상장됩니다.

Serve Robotics, the autonomous sidewalk delivery robot startup that spun out of Uber’s acquisition of Postmates, is going public via a reverse merger with a blank-check company.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

ChainML, Council 출시 / ChainML Releases Council (GitHub Repo)

ChainML은 최근 협업 AI 에이전트를 사용하여 맞춤형 생성형 AI 애플리케이션을 빠르게 개발하고 배포할 수 있는 오픈소스 AI 에이전트 플랫폼인 Council을 출시했습니다. Council은 GPT-4, 라마 2, 클로드 2 등 다양한 LLM과 통합되어 비즈니스 애플리케이션을 위한 생성형 AI를 구현하며, 정교한 제어 흐름을 갖춘 AI 에이전트를 통해 이전에는 불가능했던 사용 사례를 가능하게 합니다.

ChainML recently launched Council — an open-source AI agent platform that makes it easy to rapidly develop and deploy customized generative AI applications using collaborative AI agents. Council integrates with a wide variety of LLMs, such as GPT-4, Llama 2, and Claude 2, to unlock generative AI for business applications, enabling use cases that were previously impossible through AI agents with sophisticated control flows.

:hugs: HF 텍스트 생성 인터페이스의 오픈소스 포크 / Open Source fork of HF text-generation-interface (GitHub Repo)

:hugs:허깅페이스는 최근 이전에 공개했던 패키지 중 하나에서 상업적 라이선스 기능을 제거했습니다. 이 패키지는 현재 프리모(Preemo)에 의해 포크되었으며 오픈소스 패키지로 계속 개발될 예정입니다.

Hugging Face recently removed commercial license-ability from one of its previously open packages. The package has now been forked by Preemo and will continue to be developed as an open source package.

세계적 수준의 텍스트-3D 변환 플랫폼 Mirage3D, 오픈소스화 / World class text-to-3D now open sourced (GitHub Repo)

Mirage는 3D 장면을 생성하기 위한 플랫폼입니다. 게임 개발자가 프로세스 속도를 높이기 위해 사용합니다. 유니티 팀은 내부적으로 다양한 3D 생성 방법을 개선하기 위해 노력해 왔습니다. 이번 오픈소스 푸시는 커뮤니티를 활용하여 모델을 개선하기 위해 고안되었습니다.

Mirage is a platform for generating 3D scenes. It is used by game developers to speed up the process. The team has been working internally on improving a variety of 3D generation methods. This open source push is designed to leverage the community to improve its models.

text-to-image

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

SDXL 컨트롤넷 / SDXL ControlNet (7 minute read)

이미지 생성을 제어하는 가장 좋은 방법 중 하나는 에지를 사용하여 최종 출력을 조절하는 것입니다. 최고의 오픈소스 모델인 SDXL에는 학습되어 바로 사용할 수 있는 컨트롤넷 변형이 있습니다.

One of the best ways to control image generation is to use edges to condition the final output. The best open source model, SDXL, has a controlnet variation trained and ready to use.

sdxl controlnet

코드 모델 평가를 위한 보안 시스템 / Secure system for evaluating code models (12 minute read)

코드를 작성하는 언어 모델로 작업할 때 어려운 과제 중 하나는 생성된 코드의 품질을 평가하는 것입니다. 임의의 코드를 실행하는 것은 시스템에 위험하기 때문에 이 작업이 어렵습니다. 코드가 모든 것을 삭제하는 등 무엇이든 할 수 있기 때문입니다. MosaicML은 생성된 코드를 평가할 수 있는 안전한 환경을 제공합니다.

One hard challenge when working with language models that write code is evaluating the quality of the generated code. This is difficult because running arbitrary code is dangerous for a system. The code could do anything, including deleting everything. MosaicML offers a secure environment for evaluating generated code.

Follow Anything: 무엇이든 추적하고 따라갈 수 있는 로봇 / Follow Anything: A Robot That Can Track and Follow Anything (12 minute read)

'팔로우 애니씽'이라는 로봇 시스템은 한 번도 본 적이 없는 물체라도 실시간으로 발견하고 추적하며 따라갈 수 있습니다. 이 스마트 로봇은 일반 노트북으로 구동되며 텍스트 설명, 사진 또는 간단한 클릭만으로 물체를 인식할 수 있습니다!

A robotic system called "Follow Anything" can spot, trace, and follow any object in real time, even if it has never seen it before. This smart robot can recognize objects from just a text description, a picture, or even a simple click - all powered by a regular laptop!

:gift: 그 외 소식 / Miscellaneous

WizardMath: 오픈소스 수학 모델 / Wizard Math (6 minute read)

Microsoft의 WizardLM 그룹이 세계 최고의 오픈소스 수학 모델을 출시했습니다. 다단계 문제를 통해 추론하는 데 정말 능숙합니다. 이 모델은 수학에 정말 재미있는 환각을 일으키고 설명을 제공합니다. 수학 학습에 관심이 있는 분들에게 최고의 교육용 모델 중 하나가 될 수 있을 것 같아요.

The WizardLM group from Microsoft has released the world’s best open source math model. It’s really good at reasoning through multi-step problems. The model hallucinates a bit, which is really fun for math, and offers explanations. I think this may be one of the best models for education for those interested in learning mathematics.

기계 학습 모델은 암기할까요, 일반화할까요? / Do Machine Learning Models Memorize Or Generalize? (17 minute read)

이 글에서는 작은 모델의 학습 역학을 살펴보고 이 모델이 찾은 솔루션을 리버스 엔지니어링합니다. 이 글은 기계론적 해석 가능성이라는 흥미진진한 신흥 분야를 보여줍니다.

This article examines the training dynamics of a tiny model and reverse engineers the solution it finds. It provides an illustration of the exciting emerging field of mechanistic interpretability.

분류 전 이미지 확대로 성능 개선 / Zooming in on images before classifying (8 minute read)

분류를 실행하기 전에 이미지의 두드러진 부분을 확대하면 ImageNet에서 98%의 정확도를 얻을 수 있습니다. 실제 컴퓨터 비전 시스템에서 매우 쉽게 구현할 수 있습니다.

If you zoom in on salient pieces of an image before running classification, you can get 98% on ImageNet. Fascinating and fairly easy implementation for real world computer vision systems.

:zap: 더 읽어보기 / Quick Links

Recast (Product)

리캐스트는 읽고 싶은 기사를 풍부한 오디오 요약으로 바꿔줍니다.

Recast turns your want-to-read articles into rich audio summaries.

Orca와 Platypus LLM의 결합 / Orca and Platypus LLM combined (4 minute read)

라마 2를 기반으로 하고 GPT-4 출력으로 학습된 많은 모델이 있습니다. 이것들은 어느 정도 그 진영에 속하지만 비상업적 라이선스 모델로서는 상당히 강력합니다.

There are lots of models based on Llama 2 and trained on GPT-4 outputs. These are somewhat in that camp, but as non-commercial license models go, they are quite powerful.

NeVA: 엔비디아의 언어, 비전 어시스턴트 / Nvidia language, vision assistant (3 minute read)

엔비디아는 니모(NeMo) 모델을 기반으로 자신만의 비전-언어 도우미를 쉽게 학습할 수 있도록 지원합니다.

Nvidia makes it easy to train your own vision-language assistant based on its Nemo model.

nvidia