[TLDR] 오늘의 AI 뉴스, 2023-08-16: 구글, 생성형 검색 개선 🔍, 오픈 소스 AI 의사 🏥, 베이지안 흐름 네트워크(flow network) 🌐

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. :star_struck:

더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:

TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

AI와 메모리 장벽 / AI and the memory wall (9 minute read)

LLaMA.cpp의 등장은 많은 사람들에게 놀라움을 안겨주었습니다. 어떻게 일반 MacBook에서 최첨단 모델이 강력한 A100보다 약간 느리게 실행할 수 있을까요? 그 답은 한 번에 하나의 토큰씩 단일 배치만 수행할 때 메모리 대역폭이 병목 현상이며 M2의 메모리 대역폭과 A100의 메모리 대역폭 사이의 격차가 그리 크지 않기 때문입니다.

The rise of LLaMA.cpp was surprising to many. Why can an ordinary MacBook run state-of-the-art models only a bit slower than a mighty A100? The answer is that when you're only doing a single batch, one token at a time, memory bandwidth is the bottleneck and the gap between the M2's memory bandwidth and the A100's is not that large.

Google, 생성형 검색 환경 업그레이드 / Google Upgrades Search Generation Experience (3 minute read)

Google은 AI 기반 검색인 생성형 검색 경험에 몇 가지 새로운 업데이트를 적용하고 있습니다. 이러한 업데이트에는 자동 용어 정의, 프로그래밍 지원, AI가 생성한 요약이 포함됩니다.

Google is rolling out a few new updates to its Search Generative Experience, the company’s AI-powered Search. These updates include automatic term definitions, programming assistance, and AI-generated summaries.

IBM과 NASA, 허깅 페이스에 최대 규모의 지리공간 AI 기반 모델 오픈소스 공개 / IBM and NASA Open Source Largest Geospatial AI Foundation Model on Hugging Face (4 minute read)

IBM과 허깅 페이스는 NASA 위성 데이터를 사용하여 만든 IBM의 지리공간 기반 모델을 대중에게 공개합니다. NASA와의 협업을 통해 구축된 이 모델은 기후 과학 및 지구 연구에서 AI의 역할을 대중화하여 대규모 환경 데이터셋을 처리하는 데 따르는 문제를 해결하는 것을 목표로 합니다. 이 모델은 이미 위성 데이터 분석에서 15%의 개선을 보였으며, 삼림 벌채 추적 및 온실가스 모니터링과 같은 다양한 작업에 적용할 수 있습니다.

IBM and Hugging Face are releasing IBM's geospatial foundation model, crafted using NASA satellite data, to the public. Built through a collaboration with NASA, this model aims to democratize AI's role in climate science and Earth studies, addressing the challenges of handling large environmental datasets. The model has already shown a 15% improvement in satellite data analysis and can be adapted for various tasks like tracking deforestation and monitoring greenhouse gasses.

:point_right: :fire: :kr: [GN] IBM과 NASA가 최대의 Geospatial AI 파운데이션 모델을 오픈소스로 공개

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

FoodSAM: 향상된 식품 이미지 세분화 / Advanced Food Image Segmentation (GitHub Repo)

세그먼트 애니씽 모델(SAM)은 다양한 데이터셋에 대한 세분화 작업에는 탁월하지만, 마스크에 대한 특정 클래스 세부 정보를 놓칩니다. FoodSAM은 이를 극복합니다. SAM의 장점과 새로운 기능을 결합하여 음식 이미지를 보다 효과적으로 분할하고 장면에서 개별 음식과 기타 물체까지 식별할 수 있습니다.

While the Segment Anything Model (SAM) excels in segmentation tasks across various datasets, it misses specific class details for masks. FoodSAM overcomes this. It combines SAM's strengths with new features to segment food images more effectively, even identifying individual food items and other objects in scenes.

DoctorGPT: 오픈소스 AI 의사 / Introducing DoctorGPT, an open source AI doctor (38 minute video)

DoctorGPT는 미국 의사 면허 시험에 합격할 수 있는 LLM입니다. 오프라인에서 작동하고 크로스 플랫폼이며 건강 데이터를 비공개로 유지합니다.

DoctorGPT is an LLM that can pass the US Medical Licensing Exam. It works offline, it's cross-platform, and keeps health data private.

OpenDream (GitHub Repo)

OpenDream은 안정적인 디퓨전 워크플로우에 레이어링, 비파괴 편집, 이식성 및 작성하기 쉬운 확장 기능을 제공합니다.

OpenDream brings layering, non-destructive editing, portability, and easy-to-write extensions to your Stable Diffusion workflow.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

베이지안 흐름 네트워크 / Bayesian Flow Networks (32 minute read)

불연속형 또는 연속형 데이터의 모델링을 통합하는 것은 어려운 과제입니다. 출력에 대한 확률적 가능성 해석을 유지하려고 할 때는 더욱 그렇습니다. 이 새로운 논문에서는 포워드 패스 없음, 불연속 데이터에 대한 기울기 기반 샘플 안내, 경쟁 언어 모델링 가능성 등 흥미로운 속성을 갖춘 새로운 클래스의 생성 모델을 소개합니다.

Unifying the modeling of discrete or continuous data is a challenge. More so when attempting to maintain a probabilistic likelihood interpretation of the output. This new paper showcases a new class of generative models with a pile of interesting properties such as no forward pass, gradient-based sample guidance for discrete data, and competitive language modeling likelihood.

OctoPack: 대규모 코드 모델의 명령어 튜닝 / Instruction tuning large code models (3 minute read)

대부분의 코드 모델은 GPT-4 증류 데이터에 대해 인스트럭션이 튜닝됩니다. 이 새로운 작업은 이를 피하는 방법을 보여주고, 확장된 인간 평가 데이터셋을 도입하여 원래 인간 평가에서 46.7을 얻었습니다. 이는 인상적인 결과이지만, 폐쇄형 코드 모델과 개방형 코드 모델 간의 극심한 격차를 보여줍니다.

Most code models are instruction tuned on GPT-4 distillation data. This new work shows how to avoid that, introduces an extended human eval dataset, and gets 46.7 on the original human eval. While this is impressive, it showcases the extreme gap between closed and open code models.

DCI-VTON: 디퓨젼 모델을 사용한 향상된 가상의 옷 입기 / Enhanced Virtual Try-On with Diffusion Models (14 minute read)

한 이미지의 옷을 다른 이미지로 옮기는 가상 시착 작업은 특히 고해상도에서는 까다로운 작업입니다. 많은 방법이 생성적 적대 신경망을 사용합니다. 이 논문에서 소개하는 솔루션인 DCI-VTON은 예시 기반 인페인팅 및 워핑 모듈과 결합된 디퓨젼 모델을 사용합니다. 이 조합은 의류 디테일을 보존하고 사실적인 가상 시착 이미지를 생성합니다.

Virtual try-on tasks, where clothes from one image are transferred to another, are challenging, especially at higher resolutions. Many methods use Generative Adversarial Networks. The solution presented in this paper, DCI-VTON, uses a diffusion model combined with an exemplar-based inpainting and a warping module. This combination ensures that clothing details are preserved and produces realistic virtual try-on images.

:gift: 그 외 소식 / Miscellaneous

GitHub, AI 개발자 도구 설계 및 출시를 위한 가이드 공개 / A guide to designing and shipping AI developer tools (15 minute read)

이 글에서는 효과적인 AI 개발자 도구를 위한 10가지 핵심 설계 원칙을 설명하며, Copilot을 설계, 출시 및 확장한 GitHub의 경험을 바탕으로 설명합니다. 여기에는 자연어 활용, 개발자의 고충 해결, 의미 있는 피드백 수집, 편향성 인정, 사용자 지정, 접근성, 성능 및 AI 모델의 지속적인 개선 우선순위 지정 등이 포함됩니다.

This article outlines ten key design principles for effective AI developer tools, drawing from GitHub’s experience designing, launching, and extending Copilot. They encompass leveraging natural language, addressing developer pain points, gathering meaningful feedback, acknowledging biases, and prioritizing customization, accessibility, performance, and continuous improvement in AI models.

ChatGPT가 콘텐츠 중재자가 될 수 있을까? / Can ChatGPT Become A Content Moderator? (6 minute read)

ChatGPT 제작사인 OpenAI는 가장 진보된 대규모 언어 모델을 사용하여 회사의 콘텐츠 정책을 시행하고 있습니다.

ChatGPT creator OpenAI has been using its most advanced large language model to enforce the company’s content policies.

AI의 우위 속 인간의 창의성 / Human creativity amongst AI dominance (3 minute read)

더 많은 마케터와 콘텐츠 제작자가 효율성을 위해 AI에 의존하고 있습니다. 시간이 지남에 따라 이는 시장에서 어느 정도 일반화될 것입니다. 이에 대한 해독제는 진정한 인간 제작이 될 것입니다.

More marketers and content producers are turning to AI for efficiency. Over time, this will lead to a level of genericism in the market. The antidote will be authentic human production.

:zap: 더 읽어보기 / Quick Links

ChartPixel (Product)

차트 픽셀은 데이터를 AI 지원 인사이트를 갖춘 차트로 변환합니다.

ChartPixel turns your data into charts fully equipped with AI-assisted insights.

크네론, 올해 내 AI 칩 출시 / Kneron To Release AI Chip This Year (2 minute read)

AI 엣지 기업인 Kneron은 새로운 신경 처리 장치 칩을 연말까지 출시할 예정이라고 발표했습니다. KL730 칩은 머신러닝 및 AI 애플리케이션을 위해 특별히 설계되었으며 이전 칩보다 에너지 효율이 3 ~ 4 배 더 높다고합니다.

Kneron, an AI edge company, announced that it will ship its new neural processing unit chips by the end of the year. The KL730 chips are specifically designed for machine learning and AI applications and they are said to be 3 to 4 times more energy efficient than previous chips.

컴퓨터에게 고티를 가르치다 / Teach a Computer to Ghoti (2 minute read)

AI가 왜 혁신의 길을 걷고 있는지에 대한 간략한 설명입니다. 약간 건방진 내용도 있습니다.

Quick read on why AI is on track to disrupt. A little cheeky too.