[TLDR] 오늘의 AI 뉴스, 2023-08-24: 구글 브레인 출신들이 시작한 스타트업 🚀, 미드저니가 이미지 인페인팅 추가 🖌️, CLIP을 이용한 이미지 검색 개선 🖼️

파이토치 한국 사용자 모임에서는 TLDR 뉴스레터의 승인을 받아 AI 소식을 DeepL로 번역하여 전합니다. :star_struck:

더 많은 AI 소식 및 정보를 공유하고 함께 성장하고 싶으신가요? 지금 파이토치 한국어 커뮤니티에 방문해주세요! :robot:

TLDR-AI 뉴스 레터 썸네일


:rocket: 주요 뉴스 & 신규 출시 소식 / Headlines & Launches

Ideogram, 구글 브레인 제너레이티브 이미지 팀 출신들이 세운 스타트업/ Former Google Brain generative image team launches new startup (2 minute read)

구글의 최고급 텍스트-이미지 연구원들이 새로운 예술용 인공지능 회사를 설립했습니다. 이들은 자신들의 연구(이미지 생성)에서 얻은 아이디어와 몇 가지 참신한 아이디어를 결합한 것으로 보입니다.

Several top text-to-image researchers from Google have created a new AI-for-art company. They are likely using ideas from their research (Imagen) combined with some novelties.

Microsoft, 베드락 윈도우에 AI를 적용하는 방법을 실험 중 / Microsoft Is Experimenting With Ways To Work AI Into Bedrock Windows (4 minute read)

Microsoft는 사진, 캡처 도구, 심지어 그림판과 같은 기본 제공 Windows 앱에 새로운 AI 기능을 실험하는 초기 단계에 있습니다.

Microsoft is in the early stages of experimenting with new AI features for built-in Windows apps like Photos, Snipping Tool, and even Paint.

Midjourney, 이미지 인페인팅 추가 / Midjourney Adds Image Inpainting (3 minute read)

MidJourney가 최신 기능의 출시를 발표했습니다. "Vary (Region)"라고 불리는 이 새로운 기능을 통해 사용자는 이미지 캔버스 내에서 요소를 편집하는 프로세스인 인페인팅에 참여할 수 있습니다.

MidJourney has announced the release of its latest feature. Called "Vary (Region)," this new feature allows users to engage in inpainting - a process that edits elements within an image's canvas.

:brain: 연구 & 혁신 관련 소식 / Research & Innovation

(광고) 딥그램의 스타트업 지원 프로그램으로 음성 기반 앱을 만들어보세요 / Create, launch, and scale voice-enabled apps through Deepgram's Startup Program (Sponsor)

가장 강력한 음성-텍스트 변환 API를 위한 10만 달러의 크레딧으로 스타트업을 확장하세요. 일기 작성, 스마트 서식 지정, 다국어 등 다양한 기능을 지원합니다. 오늘 신청하세요!

Scale your startup with $100,000 in credit for the most powerful speech-to-text API. Diarization, smart formatting, multiple languages, and more. Apply today!

OneDiffusion (GitHub Repo)

프로덕션 환경에서 디퓨젼 모델을 배포하는 것은 어려운 일입니다. 다루기 어렵고 계산 비용이 높기 때문입니다. 원디퓨전은 배포와 미세 조정을 관리하기 쉽고, 확장 가능하며, 안정적으로 만드는 것을 목표로 합니다.

Deploying diffusion models in production is a challenge. They are unwieldy and have high computational costs. OneDiffusion aims to make deployment and fine-tuning easier to manage, scalable, and reliable.

IT3D: 더 나은 텍스트-3D 모델 / Better Text-to 3D Models (GitHub Repo)

연구자들이 특수 기술을 사용하여 텍스트를 3D로 변환하는 새로운 방법을 찾았지만 때로는 결과가 완벽하지 않을 수 있습니다. IT3D는 여러 시점과 특수 학습 시스템을 사용하여 3D 창작물을 더욱 사실적으로 보이게 하는 스마트한 전략을 소개합니다.

Scientists have found a new way to turn text into 3D using special techniques, but sometimes the results aren't perfect. IT3D introduces a smart strategy that uses multiple viewpoints and a special training system to make 3D creations look more realistic.

TOPICTrack: 동영상에서 더 나은 트래킹 / Better Tracking in Videos (GitHub Repo)

연구원들은 모션과 외형 단서를 모두 사용하여 동영상에서 여러 개체를 효과적으로 추적할 수 있는 새로운 시스템인 TOPIC을 만들었습니다. 또한 복잡한 동작에 초점을 맞춘 BEE23이라는 새로운 데이터 세트도 만들었습니다.

Researchers have made a new system called TOPIC that can track multiple objects in videos effectively using both motion and appearance cues. They also created a new dataset named BEE23 that focuses on complicated motions.

:man_technologist: 엔지니어링 및 리소스 관련 소식 / Engineering & Resources

자가 학습에 대한 서베이 논문 / Self training survey (31 minute read)

반지도 및 자가지도 학습은 머신러닝 모델이 학습 신호를 생성하는 방식입니다. 이는 표준 지도, 비지도, 강화 학습과는 다릅니다. 목적 함수는 일반적으로 데이터에 따라 다릅니다(예: 마스킹 단어 또는 이미지 회전). 이 분야에서는 일반적으로 사용되는 기법과 미해결 문제에 대한 좋은 연구입니다.

Semi supervised and self supervised learning is where machine learning models generate the training signal. This is different from standard supervised, unsupervised, and reinforcement learning. The objective function is usually data specific (e.g. masking words or rotating images). This is a good study on common techniques used and open problems in the space.

CLIP4Cir: CLIP과 캡션을 이용한 이미지 검색 개선 / Improved Image Search Using CLIP and Captions (GitHub Repo)

이 프로젝트는 주어진 사진처럼 보이지만 캡션에 설명된 변경 사항이 있는 이미지를 검색하는 방법을 소개합니다. 특수 기법이 추가된 CLIP 모델을 사용했습니다. 이 방법은 FashionIQ나 CIRR과 같이 널리 사용되는 이미지 검색 데이터셋에서 더 잘 작동합니다.

This project introduces a method to search for images that look like a given picture but with changes described in a caption. It used a CLIP model with added special techniques. The method works better on popular image search datasets like FashionIQ and CIRR.

:gift: 그 외 소식 / Miscellaneous

창의력 자동화하기 / Automating Creativity (6 minute read)

와튼 대학은 아이디어 창출 경진대회를 개최하여 AI와 학생 그룹을 대결시켜보고, 결과를 (인간) 심사위원들이 아이디어의 품질을 평가했습니다. 40개의 최고 아이디어 중 35개가 ChatGPT-4에 의해 생성되었습니다. 놀랍군요. 이 기사에서 다룬 두 개의 다른 논문에서는 인간이 AI 도구를 사용하면 훨씬 더 강력한 결과를 만들어낼 수 있다고 언급합니다.

Wharton staged an idea-generation contest, pitting AI against a group of students. Human judges assessed idea quality. Of the 40 best ideas, 35 were created by ChatGPT-4. Oh boy. Two other papers covered in this article mention that humans using AI tools can create even more powerful outcomes.

ChatGPT가 생성형 AI를 '무엇이든 할 수 있는 도구'로 만든 방법 / How ChatGPT Turned Generative AI Into An “Anything Tool” (10 minute read)

GPT-3.5 및 GPT-4와 같은 AI 모델은 특수 도구에서 다목적 범용 프로세서로 전환되었습니다. 이제 텍스트 분석, 로봇 공학, 반도체 설계와 같은 작업을 수행하고 있습니다.

AI models like GPT-3.5 and GPT-4 have transitioned from specialized tools to versatile general-purpose processors. They are now doing tasks such as text analysis, robotics, and semiconductor design.

:zap: 더 읽어보기 / Quick Links

LLaMA.CPP, 더 많은 모델을 지원하는 새로운 GGML 형식 / New GGML format to support more models (GitHub PR)

Llama.cpp는 로컬 언어 모델을 쉽게 실행할 수 있는 방법입니다. 현재 기본 GGML 형식에 의해 제한되어 있습니다. 이 PR은 새로운 형식을 제안하고 통합을 시작합니다.

Llama.cpp is an easy way to run local language models. It is currently limited by the underlying GGML format. This PR proposes a new format and begins integration.

llama llamacpp ggml

AI 수요가 줄어들고 있는가? / Is AI Demand Shrinking? (5 minute read)

AI는 극도로 과장되어 있지만, 빙이 구글로부터 시장 점유율을 빼앗기지 못하고 ChatGPT의 사용량이 감소하는 등 수요가 줄어들고 있다는 우려스러운 수치도 있습니다.

AI is extremely hyped, but there are some concerning numbers that point to demand shrinking - mainly Bing’s inability to take market share from Google and declining usage for ChatGPT.

Kypso (Product)

AI 부조종사를 사용하여 일상적인 도구 전반에서 팀의 운영을 관리하고 확장하여 더 나은 제품을 출시하세요.

Ship better products using an AI copilot to manage and scale your team’s operations across everyday tools.