[TLDR] 오늘의 AI 뉴스, 2023-10-20: DALLE-3 연구 논문 📃, Adept의 Fuyu-8B 오픈 소스 💻, Waymo 시뮬레이터 🚗

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터 의 승인을 받아 AI 소식을 DeepL로 번역 하여 전합니다. :star_struck:
더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:
TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

DALLE-3 연구 논문 / DALLE-3 research paper (24 minute read)

이 백서에서는 DALLE-3의 놀라운 성능의 주요 요소에 대해 간략하게 설명합니다. 여기에는 합성 캡션 생성기, 잠재 확산을 통한 향상된 모델링, 충실도, 스타일 및 일관성에 대한 향상된 메트릭이 포함됩니다. dall-e

This paper outlines the main ingredients to DALLE-3's amazing performance. They include a synthetic caption generator, improved modeling with latent diffusion, and improved metrics for faithfulness, style, and coherence.

Fuyu-8B: AI 에이전트를 위한 멀티모달 아키텍처 / Fuyu-8B: A Multimodal Architecture for AI Agents (12 minute read)

디지털 에이전트를 위해 설계된 멀티모달 모델인 Fuyu-8B가 이제 허깅페이스에서 사용할 수 있습니다. 다른 멀티모달 모델과 달리 간소화된 아키텍처를 갖추고 있으며 임의의 이미지 해상도를 지원하여 100밀리초 이내에 대형 이미지에 응답합니다. 특정 애플리케이션에 맞게 조정되었지만 Fuyu-8B는 여전히 표준 이미지 이해 벤치마크에서 뛰어난 성능을 발휘합니다. fuyu fuyu-8b adept-ai

Fuyu-8B, a multimodal model designed for digital agents, is now available on HuggingFace. Unlike other multimodal models, it has a simplified architecture and supports arbitrary image resolutions, responding to large images in under 100ms. Though tailored for specific applications, Fuyu-8B still excels at standard image understanding benchmarks.

(더 읽어보기 :point_right: Fuyu-8B: AI 에이전트를 위한 멀티모달 아키텍처 (Fuyu-8B: A Multimodal Architecture for AI Agents))

Objective, 멀티모달 검색을 위한 1,300만 달러 시드 / $13M seed for multimodal search (2 minute read)

Objective는 엔터프라이즈용 로우코드 멀티모달 검색 툴킷을 구축하기 위해 시드 라운드를 모금했습니다.

Objective raised a seed round to build a low-code multimodal search toolkit for enterprise.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

Waymo 시뮬레이터 / Waymo simulator (4 minute read)

Waymo는 자율 주행 작업에서 에이전트의 성능을 평가하기 위한 Waymax 시뮬레이터를 도입했습니다. 이 시뮬레이터는 전적으로 Jax로 작성되었습니다.

Waymo has introduced its Waymax simulator for evaluating the performance of agents on self-driving tasks. It is written entirely in Jax.

XAgent (GitHub Repo)

XAgent는 다양한 작업을 자동으로 해결할 수 있는 오픈소스 실험용 LLM 기반 자율 에이전트입니다.

XAgent is an open-source experimental LLM-driven autonomous agent that can automatically solve various tasks.

Mojo​:fire: 애플 실리콘에서 사용 가능 / Mojo​:fire: available on Apple Silicon (3 minute read)

이제 Mac에서도 흥미로운 AI용 시스템 언어를 사용할 수 있습니다. 파이썬처럼 쉽게 작성할 수 있으면서도 C++와 같은 강력한 언어보다 성능이 뛰어납니다.

The exciting systems language for AI is now available on Mac. It outperforms many powerful languages like C++ while being easier to write like Python.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

NLP의 세계: 포괄적인 분류법 / The World of NLP: A Comprehensive Taxonomy (22 minute read)

이 연구에서는 자연어 처리의 일반화에 관한 연구를 이해하기 위한 세부 분류 체계를 소개합니다. nlp

This study introduces a detailed classification system to understand research on generalization in natural language processing.

DGUA-FAS: 얼굴 스푸핑 문제 방지 / Tackling Real-world Face Anti-Spoofing Challenges (4 minute read)

연구원들은 특히 도메인의 변화와 익숙하지 않은 공격 유형에 직면했을 때 스푸핑 방지 문제를 해결하기 위해 고안된 방법인 DGUA-FAS를 소개합니다. 이 방법은 트랜스포머 기반 특징 추출기와 특수 네트워크를 사용하여 알려지지 않은 공격을 시뮬레이션합니다. 이 접근 방식은 알려진 위협과 알려지지 않은 위협을 모두 처리하는 데 더 효과적인 것으로 입증되었습니다.

Researchers present DGUA-FAS, a method designed to address anti-spoofing challenges, especially when faced with changes in domain and unfamiliar attack types. It uses a Transformer-based feature extractor and a special network to simulate unknown attacks. This approach proves more effective in handling both known and unknown threats.

FACTCHD: LLM의 사실 파악 벤치마킹 / Benchmarking LLM’s Grasp of Factuality (GitHub Repo)

연구원들은 특히 복잡한 시나리오에서 ChatGPT와 같은 대규모 언어 모델이 사실과 다른 정보를 생성할 때 이를 감지하도록 설계된 벤치마크인 FACTCHD를 소개합니다.

Researchers introduce FACTCHD, a benchmark designed to detect when large language models, like ChatGPT, produce factually incorrect information, especially in complex scenarios.

:gift: 그 외 소식 / Miscellaneous

Dataexplorer: 진실의 기하학 / The Geometry Of Truth (8 minute read)

LLM이 진실을 표현하는 방법을 살펴볼 수 있는 대화형 차트입니다.

Interactive charts for exploring how LLMs represent truth.

할로윈 LoRA 포토 부스(허깅 페이스 스페이스) / Halloween LoRA photo booth (Hugging Face Space)

안정된 확산으로 재미있는 편집을 통해 사진을 으스스한 할로윈 테마 캐릭터로 바꿀 수 있습니다.

Fun edits with Stable Diffusion to change your picture into a spooky Halloween-themed character.

소규모 LLM의 이점 / Benefits Of Small LLMs (2 minute read)

더 빠른 교육, 특수 하드웨어 없이 로컬에서 실행할 수 있는 기능, 비용 효율성, 낮은 지연 시간, 배포 용이성, 해석 가능성 및 재현성 향상 가능성 등의 장점으로 인해 소규모 LLM이 대규모 LLM을 능가할 수 있습니다.

Smaller LLMs might surpass larger ones due to advantages like quicker training, ability to run locally without specialized hardware, cost-effectiveness, lower latency, ease of deployment, and potential for better interpretability and reproducibility.

:zap: 더 읽어보기 / Quick Links

impaction.ai (Product Launch)

대화형 AI 제품을 위한 분석.

Analytics for conversational AI products.

애플, iOS 18이 탑재된 기기에 AI 기능을 제공한다는 소문 / Apple Rumored To Bring AI Features To Devices With iOS 18 (1 minute read)

애플은 2024년 말까지 아이폰과 아이패드에 생성형 AI 기술을 도입할 계획인 것으로 알려졌습니다.

Apple is reportedly planning to introduce generative AI technology to iPhones and iPads by late 2024.

ProductAI (Product)

AI로 제품 사진을 생성하세요.

Generate product photos with AI.