안녕하세요
국내 최대 오프라인 인공지능 커뮤니티 모두의연구소입니다!
오늘은 구글에서 나온 Imagen Editor와 Tracking Everything Everywhere All at Once 논문 그리고 MusicGen에 대한 내용입니다!
- 흥미진진한 Imagen Editor
작년부터 Imagen, Parti. DALL-E2, Stable Diffusion과 같은 텍스트 TO 이미지 생성 모델이 주류를 이루고 있는데요, 이제는 단순히 텍스트 TO 이미지 생성이 아닌 텍스트 자체를 기반으로 구동되는 이미지 편집 시스템도 점차 구축되어가고 있습니다.
이번에 소개해드릴 Imagen Editor는 사용자가 수정을 원하는 이미지 영역을 나타내는 마스크를 그 기반으로 수정하는 에디터입니다.
해당 논문은 CVPR 2023에 공개되었으며 Editor의 성능을 측정하기 위한 방법인 EditBench도 함께
소개되었습니다.
Diffusion model이 사그라든 것처럼 보이면서도 논문이 지속적으로 나오고 있는 요즘,
점점 더 AI의 세계는 흥미진진해지네요~
Imagen Editor and EditBench: Advancing and evaluating text-guided image inpainting
- Everything Everywhere All at Once
올해 아카데미 작품상인 Everything Everywhere All at Once의 이름을 빗댄 논문이 나왔습니다.
해당 논문은 비디오 시퀀스에서 긴 모션을 추정하기 위해 만든 테스트타임 최적화에 대한 이야기를 다루고 있습니다. 해당 방법론은 단순히 tracking하는 것을 넘어서 비디오의 모든 픽셀에 대한 정확한 전체 길이 모션까지 추정된다고 하네요~
데모 페이지에 들어가 살펴보면 실제 움직이는 물체를 제대로 잘 따라가고 있다는 부분까지 확인할 수 있습니다. 이번 데모 페이지의 경우 실패 사례에 대한 데모도 함께 포함되어 있다는 부분이 매우 흥미로운 부분인 것 같습니다!
Tracking Everything Everywhere All at Once
- MusicGen, 어디까지 생성가능하니?
AI가 이미지도 생성하고, 문장도 생성한다면 이제는 음악 영역에서도 조건부 음악 생성이 가능해졌습니다.
메타에서 발표한 MusicGen은 여러 모델을 사용하지 않은 transformer 단일 모델로 이루어져 있는 모델입니다. 단일 모델이다보니 텍스트 설명이나 멜로드 특징에 따라 고품질 샘플을 생성 가능하며 실제 성능 또한 매우 우수한데요, 현재 Hugging Face Space에서 데모 사용이 가능합니다! 데모를 확인해보세요~
Simple and Controllable Music Generation
모두의연구소와 지식을 나누고 함께 성장할 개발자를 기다립니다.
ChatGPT를 활용한 AI 논문에 도전해보고 싶다면
⇒ 아이펠 캠퍼스 - 모두의연구소가 만든 AI학교 아이펠