[GN⁺] OpenAI Sora: 텍스트에서 비디오를 생성하는 AI 모델 공개

9bow · 2월 16, 2024, 2:30오전

GeekNews의 xguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다.

소개

Sora는 텍스트 지시에 따라 현실적이고 상상력이 풍부한 장면을 만들어내는 AI 모델
사용자의 프롬프트에 충실하면서 시각적 품질을 유지하고 최대 1분 길이의 비디오 생성 가능
상세한 시나리오를 제공하는 다양한 프롬프트에 따라 생성된 비디오 예시들 소개
- 이 페이지의 모든 비디오는 Sora가 직접 제작한 것으로 전혀 수정되지 않은 것
현재 Sora는 위험성 평가를 위해 '레드 팀'에게 제공되고 있으며, 시각 예술가, 디자이너, 영화 제작자들로부터 피드백을 받고 있음
OpenAI는 연구 진행 상황을 공유하여 외부인들로부터 피드백을 받고 AI 기능의 미래를 대중에게 보여주고자 함

데모 영상

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

(프롬프트: 한 세련된 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 선글라스와 빨간 립스틱을 착용하고 있습니다. 그녀는 자신감 있고 자연스럽게 걷습니다. 길은 축축하고 반사되어 화려한 조명이 거울 효과를 만들어 냅니다. 많은 보행자가 걸어갑니다.)

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

(프롬프트: 여러 마리의 거대한 털매머드가 눈 덮인 초원을 밟으며 다가오고, 걸을 때 긴 털은 바람에 가볍게 날리고, 멀리 눈 덮인 나무와 드라마틱한 눈 덮인 산, 한낮의 햇살과 뭉게구름과 멀리 높은 태양이 따뜻한 빛을 만들어내고, 낮은 카메라 뷰는 아름다운 사진, 심도로 커다란 털매머드를 포착하는 멋진 장면입니다.)

Prompt: Tour of an art gallery with many beautiful works of art in different styles.

(프롬프트: 다양한 스타일의 아름다운 예술 작품이 가득한 미술관을 둘러보세요.)

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

(프롬프트: 빨간 양모 니트 오토바이 헬멧을 쓴 30세 우주인의 모험, 푸른 하늘, 소금 사막, 영화 같은 스타일, 35mm 필름으로 촬영한 선명한 색감의 영화 예고편입니다.)

Sora의 능력

복잡한 장면과 다수의 캐릭터, 특정한 움직임, 주제와 배경의 정확한 디테일을 생성할 수 있음
사용자의 프롬프트뿐만 아니라 물리적 세계에서의 존재 방식도 이해함

Sora의 안전성

OpenAI 제품에 Sora를 통합하기 전에 여러 안전 조치를 취할 예정임
오해의 소지가 있는 콘텐츠를 탐지하는 도구 개발, 비디오가 Sora에 의해 생성되었는지 판별할 수 있는 분류기 개발 등이 포함됨

연구 기술

Sora는 노이즈가 가득한 비디오에서 시작하여 점차 노이즈를 제거해가며 비디오를 생성하는 확산 모델임
GPT 모델과 유사한 트랜스포머 아키텍처를 사용하여 뛰어난 확장 성능을 제공함

GN⁺의 의견

Sora는 텍스트 기반의 지시를 통해 비디오를 생성하는 혁신적인 AI 기술로, 창의적인 전문가들에게 새로운 가능성을 제공함
안전 조치와 피드백을 통해 실제 세계에서의 사용을 학습하고, AI 시스템을 점진적으로 안전하게 만드는 데 중요한 역할을 함
이 기술은 미래의 AGI(인공 일반 지능) 달성을 위한 중요한 이정표가 될 것으로 보임

Hacker News 의견

한 사용자는 기술적 성과에도 불구하고 미래에 대한 우려를 표현함. 사회 안전망이 부족하고, 보편적 기본소득(UBI)에 가까워지지 않고 있다고 생각함. 또한 한 회사가 너무 많은 권력을 가지는 것에 대한 두려움을 나타냄.
다른 사용자는 컴퓨터 생성 모션의 질에 깊은 인상을 받음. 특히 모션 캡처와 달리, 컴퓨터 애니메이션에서 실제와 같은 움직임을 구현하는 것이 어렵지만, 이번에는 매우 현실적으로 느껴진다고 함.
또 다른 사용자는 이미지/비디오 측면을 넘어서 물리학과 객체 간의 관계에 대한 이해를 보여주는 모델의 중요성을 강조함. 실패한 사례로 언급된 예시들이 실제로는 모델의 세계에 대한 강력한 이해를 보여주는 중요한 사례라고 평가함.
할리우드 리포터에 따르면, 업계 많은 사람들이 AI 도구의 발전으로 인해 직업에 대한 두려움을 느끼고 있음. 일부는 업계를 떠날 것을 고려하고 있으며, AI 도구가 특히 광고 제작 분야에서 일자리에 영향을 미칠 것으로 예상됨.
한 사용자는 현재 공개된 모델들을 훨씬 뛰어넘는 성과에 대해 언급함.
또 다른 사용자는 도쿄 비디오에서 발견된 작은 오류에 주목하며, 생성된 콘텐츠에 항상 이런 오류가 존재할지, 그리고 어린 시절부터 생성된 콘텐츠에 노출된 아이들이 이러한 오류에 무감각해질지에 대한 의문을 제기함.
한 사용자는 Gemini 1.5 모델이 구식이 되었으며, Google이 블로그를 통해 발표한 것에 놀라움을 표현함.
한 프로그래머는 AI의 발전으로 인한 불길한 예감을 표현하며, 이는 단순히 일자리를 잃을 수 있다는 두려움을 넘어서는 것이라고 함. 비디오의 품질에 대해서는 믿을 수 없을 정도로 인상적이라고 평가함.
한 사용자는 비디오 생성 방식에 대한 기술적인 질문을 던지며, 모델이 장면의 기하학적 구조와 카메라를 분리하는 방식에 대해 궁금해함.
마지막 사용자는 기술의 발전이 문화적 변화를 가져올 것이라고 생각하며, 극장에서 인간의 연극, 강연, 콘서트를 더 많이 보고 싶어질 것이라고 함. Vinyl의 인기가 다시 높아진 것처럼, 극장이 다시 인기를 끌 수 있다고 예상함.

원문

Sora 프로젝트 페이지

https://openai.com/sora

Sora 기술 문서

https://openai.com/research/video-generation-models-as-world-simulators

출처 / GeekNews

9bow · 2월 20, 2024, 1:45오전

HuggingFace의 fffiloni라는 사용자가 OpenAI Sora의 참고 논문들을 정리하였습니다.

전체 목록은 아래 링크에서 확인하실 수 있습니다.

아래 목록은 위 목록을 arXiv 링크로 변경해둔 것입니다.

Unsupervised Learning of Video Representations using LSTMs / Paper•1502.04681•Published Feb 17, 2015
Recurrent Environment Simulators / Paper•1704.02254•Published Apr 7, 2017
World Models / Paper•1803.10122•Published Mar 28, 2018
Generating Videos with Scene Dynamics / Paper•1609.02612•Published Sep 9, 2016
MoCoGAN: Decomposing Motion and Content for Video Generation / Paper•1707.04993•Published Jul 17, 2017
Adversarial Video Generation on Complex Datasets / Paper•1907.06571•Published Jul 16, 2019
Generating Long Videos of Dynamic Scenes / Paper•2206.03429•Published Jun 8, 2022
VideoGPT: Video Generation using VQ-VAE and Transformers / Paper•2104.10157•Published Apr 21, 2021•2
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion / Paper•2111.12417•Published Nov 24, 2021
Imagen Video: High Definition Video Generation with Diffusion Models / Paper•2210.02303•Published Oct 5, 2022
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models / Paper•2304.08818•Published Apr 18, 2023•4
Photorealistic Video Generation with Diffusion Models / Paper•2312.06662•Published Dec 12, 2023•20
Language Models are Few-Shot Learners / Paper•2005.14165•Published May 29, 2020•7
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale / Paper•2010.11929•Published Oct 23, 2020•2
ViViT: A Video Vision Transformer / Paper•2103.15691•Published Mar 30, 2021
Masked Autoencoders Are Scalable Vision Learners / Paper•2111.06377•Published Nov 12, 2021•1
Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution / Paper•2307.06304•Published Jul 13, 2023•22
High-Resolution Image Synthesis with Latent Diffusion Models / Paper•2112.10752•Published Dec 21, 2021•5
Auto-Encoding Variational Bayes / Paper•1312.6114•Published Dec 21, 2013
Deep Unsupervised Learning using Nonequilibrium Thermodynamics / Paper•1503.03585•Published Mar 12, 2015
Denoising Diffusion Probabilistic Models / Paper•2006.11239•Published Jun 20, 2020•1
Improved Denoising Diffusion Probabilistic Models / Paper•2102.09672•Published Feb 19, 2021•1
Diffusion Models Beat GANs on Image Synthesis / Paper•2105.05233•Published May 12, 2021
Elucidating the Design Space of Diffusion-Based Generative Models / Paper•2206.00364•Published Jun 1, 2022•1
Scalable Diffusion Models with Transformers / Paper•2212.09748•Published Dec 20, 2022•2
Zero-Shot Text-to-Image Generation / Paper•2102.12092•Published Feb 24, 2021
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation / Paper•2206.10789•Published Jun 22, 2022•1
Hierarchical Text-Conditional Image Generation with CLIP Latents / Paper•2204.06125•Published Apr 13, 2022•1
SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations / Paper•2108.01073•Published Aug 3, 2021•4
Attention Is All You Need / Paper•1706.03762•Published Jun 13, 2017•23