Veo: Google Deepmind가 공개한 text-to-video 생성 모델
프롬프트: 고독한 카우보이가 아름다운 석양, 부드러운 빛, 따뜻한 색채를 배경으로 말을 타고 탁 트인 평원을 가로지릅니다.
Prompt: A lone cowboy rides his horse across an open plain at beautiful sunset, soft light, warm colors
소개
Veo는 Google DeepMind가 이번 Google I/O 2024에서 공개한 비디오 생성 모델로, 1분 이상의 고해상도(1080p) 영상을 다양한 시네마틱 및 시각 스타일로 생성할 수 있습니다. 이 모델은 프롬프트의 뉘앙스와 톤을 정확하게 인지하고 시네마틱 효과를 이해하여 창의적인 제어를 제공합니다. Veo는 비디오 제작을 누구나 접근할 수 있게 도와주며, 영화 제작자, 창작자, 교육자 등 다양한 사용자에게 새로운 가능성을 열어줍니다. 곧 일부 기능은 VideoFX 실험 도구를 통해 선택된 창작자들에게 제공될 예정입니다. 또한, 향후에는 YouTube Shorts와 다른 제품에도 Veo의 기능이 도입될 예정입니다.
주요 특징 및 응용 분야: 영화 제작을 위한 제어 기능
Veo는 입력 비디오와 편집 명령을 받아들여 새로운 편집 비디오를 생성할 수 있습니다. 마스크 영역을 추가하여 비디오의 특정 영역을 변경하거나, 텍스트 프롬프트와 참조 이미지를 결합하여 비디오를 생성할 수 있습니다. 또한, 단일 프롬프트 또는 일련의 프롬프트를 통해 60초 이상 비디오 클립을 만들고 확장할 수 있습니다.
-
입력 비디오와 편집 명령: Veo는 입력 비디오와 편집 명령을 받아들여 새로운 편집 비디오를 생성할 수 있습니다. 예를 들어, 해안선의 항공 촬영에 카약을 추가하는 명령을 수행할 수 있습니다.
-
마스크 영역 추가: Veo는 영상 내에 마스크 영역을 추가하여 특정 부분을 변경할 수 있습니다. 사용자가 비디오의 특정 부분에 마스크를 적용하고 텍스트 프롬프트를 제공하면 Veo는 해당 부분을 변경합니다.
-
참조 이미지와 텍스트 프롬프트: 참조 이미지를 제공하여 해당 이미지의 스타일을 따르면서 텍스트 프롬프트의 지시에 따른 비디오를 생성할 수 있습니다.
-
비디오 클립 생성 및 확장: 단일 프롬프트나 일련의 프롬프트를 통해 60초 이상의 비디오 클립을 생성하고 확장할 수 있습니다. 이는 일관된 이야기나 시퀀스를 전달하는 데 유용합니다.
-
비디오 프레임 간 일관성 유지: Veo의 최첨단 잠재 확산 트랜스포머는 캐릭터, 객체 및 스타일의 일관성을 유지하여 프레임 간 깜박임, 점프 또는 변형을 최소화합니다.
생성 영상 예시
프롬프트: 나무가 늘어선 교외 주택가를 빠르게 추적하는 장면입니다. 맑고 푸른 하늘이 있는 낮. 채도가 높은 색상, 높은 명암의 대비
Prompt: A fast-tracking shot down an suburban residential street lined with trees. Daytime with a clear blue sky. Saturated colors, high contrast
프롬프트: 불이 붙은 바베큐 그릴에서 구워지는 닭고기와 피망 케밥을 극단적으로 클로즈업합니다. 얕은 초점과 옅은 연기. 선명한 색상
Prompt: Extreme close-up of chicken and green pepper kebabs grilling on a barbeque with flames. Shallow focus and light smoke. vivid colours
프롬프트: 북극 하늘을 가로지르는 오로라, 반짝이는 별, 눈 덮인 풍경의 타임랩스
Prompt: Timelapse of the northern lights dancing across the Arctic sky, stars twinkling, snow-covered landscape
프롬프트: 바위 절벽 위에 우뚝 서 있는 등대의 항공 촬영, 이른 새벽을 비추는 등대의 등대, 파도가 아래 바위에 부딪히는 장면.
Prompt: An aerial shot of a lighthouse standing tall on a rocky cliff, its beacon cutting through the early dawn, waves crash against the rocks below
Veo의 기술적 세부 사항
Veo는 Generative Query Network, DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, Lumiere 등의 연구를 기반으로 구축되었습니다. 또한, Transformer 및 Gemini 아키텍처를 사용하여 프롬프트를 더 정확하게 이해하고 비디오 캡션을 상세히 추가하여 성능을 향상시켰습니다.
이전에 공개한 OpenAI의 Sora는 GAN과 Transformer 아키텍처를 사용하여 공간 및 시간적으로 데이터를 압축하여 고해상도의 이미지를 생성한 뒤, 이를 영상으로 변환하는 방식을 채택하고 있습니다. 이에 반해, Veo는 Latent Diffusion Transformer 아키텍처를 사용하여 영상 내 프레임들간의 일관성을 유지하면서 고품질의 영상을 생성할 수 있는 특징이 있습니다.
Veo 프로젝트 페이지에 소개된 주요 기술적 세부 사항은 다음과 같습니다:
-
잠재 확산 트랜스포머(Latent Diffusion Transformers): 잠재 확산 트랜스포머는 프레임 간 일관성을 유지하며, 캐릭터, 객체 및 스타일이 일관되게 나타나도록 합니다. 이를 통해 비디오 생성 과정에서 발생할 수 있는 깜박임이나 점프 현상을 최소화합니다.
-
고급 자연어 이해와 시각 의미론: Veo는 고급 자연어 이해(Natural Language Understanding, NLU)와 시각 의미론(Visual Semantics)을 통해 텍스트 프롬프트를 정확히 해석하고, 이를 기반으로 일관된 장면을 생성합니다. 프롬프트의 뉘앙스와 톤을 정확히 반영하여 복잡한 장면 내의 세부 사항을 세밀하게 렌더링합니다.
-
고품질 비디오 표현: Veo는 고품질, 압축된 비디오 표현(고품질 잠재 공간 표현, Latent Space Representations)을 사용하여 효율성을 높이고, 비디오 생성 시간을 단축합니다. 이는 비디오의 세부 사항을 유지하면서도 더 빠르게 생성할 수 있게 합니다.
-
다양한 시네마틱 효과 지원: Veo는 타임랩스, 항공 촬영 등 다양한 시네마틱 효과를 지원하여 창의적인 비디오 제작을 가능하게 합니다. 사용자는 다양한 스타일과 효과를 적용하여 자신만의 독특한 비디오를 만들 수 있습니다.
-
마스크 편집과 참조 이미지: Veo는 마스크 편집을 통해 특정 영역을 변경할 수 있으며, 참조 이미지를 기반으로 비디오를 생성할 수 있습니다. 이를 통해 사용자는 더욱 정교한 편집과 스타일을 적용할 수 있습니다.
-
학습 데이터와 비디오 캡션: Veo는 학습 데이터의 비디오 캡션을 상세히 추가하여 프롬프트를 더 정확하게 이해하고, 비디오 생성 성능을 향상시켰습니다. 이는 모델이 다양한 상황과 프롬프트를 더 잘 이해하게 하여, 사용자 요구에 맞는 비디오를 생성할 수 있게 합니다.
책임 있는 디자인
Veo는 SynthID를 사용하여 AI 생성 콘텐츠를 식별하고 워터마크를 추가하며, 프라이버시, 저작권 및 편향 위험을 완화하기 위한 안전 필터와 메모리 검사 과정을 거칩니다. Veo의 미래는 창작자와 영화 제작자들의 피드백을 통해 발전할 것입니다.
Veo 프로젝트 홈페이지
관련 주제 더 읽어보기
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~