Google DeepMind, 자연어 대화로 영상을 편집하고 생성하는 모델 Gemini Omni 출시

Gemini Omni 소개

Google DeepMind가 영상 생성과 편집을 자연어 대화로 다루는 새로운 모델 Gemini Omni를 공개했습니다. Gemini Omni는 텍스트, 이미지, 비디오, 오디오를 모두 입력으로 받아 하나의 일관된 영상으로 만드는 모델로, 단순한 텍스트 투 비디오(text-to-video)를 넘어 사용자가 가지고 있는 영상을 단계적으로 편집(multi-turn editing)하는 데 초점을 맞추고 있습니다. 회사는 이를 두고 "Gemini의 추론 능력이 창작 능력과 만나는 지점"이라고 표현하며, 세계 이해(world understanding), 멀티모달성(multimodality), 편집(editing) 세 축에서의 도약을 강조하고 있습니다.

지난해부터 영상 생성 모델 시장은 OpenAI의 Sora, Runway의 Gen-3, 그리고 Google 자체의 Veo 3로 빠르게 확장되어 왔습니다. 다만 이들 모델은 대부분 "한 번의 프롬프트로 한 편의 영상을 생성"하는 방식에 머물러, 만들어진 결과물을 미세 조정하거나 같은 장면을 일관되게 유지하면서 다음 컷을 잇는 작업이 쉽지 않았습니다. Gemini Omni는 이 지점을 정조준해, 자연어 대화만으로 한 영상을 여러 차례 이어 편집(multi-turn, consistent editing) 할 수 있다는 점을 핵심 차별점으로 내세웁니다. Google은 이를 "이미지 편집의 Nano Banana가 비디오로 확장된 형태"라고 비유합니다.

Gemini Omni는 별도의 독립 제품이 아니라 Gemini 앱, Google Flow, YouTube Shorts에 순차적으로 탑재되는 형태로 제공됩니다. 안전 섹션에서는 실제 추론을 담당하는 모델명을 Gemini Omni Flash로 명시하고 있어, Veo 계열과는 별개의 라인업으로 개발된 것으로 보입니다.

Gemini Omni의 주요 특징

  • 자연어 다중 편집(Multi-turn conversational editing): 처음 만든 영상을 기준으로, 여러 번의 자연어 명령을 이어가며 장면을 점진적으로 다듬을 수 있습니다. 각 편집은 이전 편집을 기반으로 누적되어 장면의 일관성이 유지됩니다.

  • 세계 지식 기반 생성(World knowledge grounding): 단순 패턴 학습이 아니라 Gemini의 추론 능력을 활용해 물리, 역사, 과학, 문화적 맥락을 함께 반영합니다. 예컨대 "단백질 폴딩을 점토 애니메이션으로 설명"같은 프롬프트를 정확하게 시각화합니다.

  • 모든 입력을 참조 자료로 활용(Reference anything): 이미지, 텍스트, 비디오, 오디오 어떤 모달리티든 참조 자료로 넣을 수 있고, 이를 하나의 응집된 출력으로 결합합니다.

  • 온스크린 텍스트와 액션 동기화: 화면에 등장하는 문구를 단순 렌더링하는 데 그치지 않고, 영상 속 행동·리듬·음악과 박자에 맞춰 자연스럽게 연출합니다.

  • 콘텐츠 출처 표시(Provenance): 생성 결과물에는 SynthID 워터마크와 C2PA Content Credentials가 자동으로 삽입됩니다.

대화형 편집: 한 장면을 점점 더 다듬어가기

Gemini Omni의 가장 두드러진 특징은 대화처럼 영상을 편집할 수 있다는 점입니다. Google이 공개한 데모에서는 거울 앞에 선 인물을 입력 영상으로 받은 뒤, "사람이 거울에 손을 대면 거울이 액체처럼 출렁이고 팔이 거울 재질로 변한다", "거울에 닿으면 사람이 모노크롬 라인 아트 드로잉으로 바뀐다", "장면 전체가 3D 복셀 아트로 전환된다" 같이 동일한 입력 영상에 서로 다른 변형을 한 줄 프롬프트로 적용합니다.

Prompt: When the person touches the mirror, make the mirror ripple beautifully like liquid, and the person's arm turns into reflective mirror material

Prompt: When the person touches the mirror, the person instantly transform into a vintage monochrome transparent 3d line art hologram, inside of a monochrome 3d holodeck maintaining the structure and details of the room and environment

Prompt: When the person touches the mirror, the entire environment turns into 3d voxel art

기존 영상 생성 모델에서는 이러한 변형을 시도할 때마다 새 프롬프트를 한 번에 모든 요소가 들어가도록 길게 작성해야 했습니다. Gemini Omni는 "바이올린을 안 보이게 해줘", "카메라 각도를 어깨 너머로 바꿔줘" 처럼 짧고 직관적인 후속 명령을 누적적으로 받아들이며, 직전 편집의 결과를 그대로 유지한 채 다음 변경만 적용합니다.

Prompt: Make it look like the weird shape of my hand hole super zooms and magnifies the ground it's looking at in sharper quality.

이 능력은 영상 편집을 "한 번에 맞춰야 하는 한 줄 프롬프트"에서 "장면과 함께 호흡하는 협업"으로 바꾸는 변화입니다. 광고, 숏폼 콘텐츠, 프로토타이핑 단계에서 빠르게 여러 시안을 돌려보는 작업에 특히 유용해 보입니다.

세계 지식을 반영한 영상 생성

또 다른 축은 세계 지식(world knowledge) 입니다. Google은 "Veo에서는 의도한 결과를 얻기 위해 매우 구체적인 지시(precise instructions)가 필요했다면, Gemini Omni는 그렇게까지 처방적일 필요가 없다"고 설명합니다. 모델 자체가 무엇을 만들어야 하는지에 대한 추론과 배경 지식을 갖고 있어, 추상적인 프롬프트도 디테일을 알아서 채워준다는 의미입니다.

예컨대 "단백질 폴딩을 모두 점토로 만든 스톱모션 애니메이션으로 설명해줘. 손은 보이지 않게, 정확하게" 라는 프롬프트만으로 과학적으로 큰 무리가 없는 단백질 접힘 영상을 만들거나, 해마(hippocampus)의 동작을 스큐어모피즘(skeuomorphism) 스타일 스톱모션으로 설명하는 영상을 생성합니다.

Prompt: claymation explainer of protein folding, everything is made out of clay, no hands, stop motion, accurate

물리 법칙과 관련해서는, 중력·운동에너지·유체 역학에 대한 직관적 이해를 바탕으로 "체인 리액션 트랙 위를 빠르게 굴러가는 구슬, 매끄러운 연속 샷" 같이 단순한 묘사만 줘도 자연스러운 움직임을 재현합니다.

Prompt: A marble rolling fast on a chain reaction style track, continuous smooth shot

텍스트, 모션, 스타일을 정확히 동기화

Gemini Omni는 영상 내에 등장하는 텍스트도 단순한 워터마크가 아니라 연출 요소로 다룹니다. 데모 중 하나는 알파벳 A부터 Z까지 각 글자에 어울리는 사물(C는 카피바라, D는 디스코볼, L은 라바램프 등)을 한 프레임씩 24fps 기준 약 9프레임 간격으로 보여주고, 각 사물 아래에 손으로 쓴 듯한 라벨을 차분한 음악과 함께 띄웁니다.

Prompt: The video shows items of the alphabet. An unusual item starting with each letter is shown sitting on a table (like a Capybara for C, disco globe for D and Lava Lamp for L). All 26 letters must be represented by 26 items with matching lower thirds displaying the letter. Only one item and lower third at a time. Each lower third must look like a black marker written on a slip of paper in the bottom left. Rapid fire, roughly 9 frames per item at 24FPS. Last frame is a slip of paper "THE END". The whole video is accompanied by calm smooth music.

또 다른 데모에서는 "did, you, know, that, this, model, can, do, pretty, good, text!?" 라는 문장이 단어 단위로 화면에 등장하면서, 각 단어가 음악 비트에 맞춰 서로 다른 애니메이션 스타일로 표시됩니다. 텍스트 렌더링 자체의 정확도뿐 아니라 시간 축 위에서의 동기화 정확도가 크게 개선되었음을 보여주는 사례입니다.

Prompt: word by word, one word on a the screen at a time: did, you, know, that, this, model, can, do, pretty, good, text!? each word appears with a different animated style, perfect pacing to a rhythm, sizzle reel

이외에도 영상의 카메라 움직임이나 왜곡을 다른 정지 이미지의 캐릭터에 그대로 전이시키는 모션 전이(motion transfer), 일러스트의 스타일을 영상 전반에 적용하는 스타일 전이(style transfer), 사용자의 손그림(스케치)을 가이드로 삼아 사실적인 영상을 만드는 sketch-to-video 같은 기능도 함께 시연되었습니다.

안전성과 콘텐츠 출처 표시

Gemini Omni의 베이스 모델인 Gemini Omni FlashGoogle의 AI 원칙생성 AI 사용 금지 정책에 따라 다음과 같은 평가와 레드티밍을 거쳤다고 합니다.

  • 모델 학습 도중과 학습 후에 지속적으로 진행되는 자동·휴먼 평가
  • 모델 개발팀 외부의 전담 전문가에 의한 휴먼 레드티밍
  • 안전·보안 관점에서 대규모로 수행되는 자동 레드티밍
  • 모델 출시 전에 진행되는 윤리 및 안전 리뷰

Gemini 앱, Google Flow, YouTube에서 Omni로 생성하거나 편집한 콘텐츠에는 사람이 인지하기 어려운 SynthID 디지털 워터마크와 C2PA Content Credentials가 자동 삽입됩니다. Google은 이러한 출처 표시를 Gemini 앱뿐 아니라 향후 Chrome과 Google 검색까지 확장해, 사용자가 콘텐츠가 어떻게 만들어졌는지를 쉽게 확인할 수 있도록 하겠다고 밝혔습니다.

사용 가능 플랫폼과 접근성

Gemini Omni는 단일 제품이 아니라 다음 플랫폼들에 순차적으로 통합됩니다.

  • Gemini 앱: 일반 사용자가 자연어 대화로 영상을 만들고 편집하는 진입점.
  • Google Flow: 영상 창작자를 위한 AI 크리에이티브 스튜디오. 다단계 편집과 참조 기반 합성에 최적화.
  • YouTube Shorts: 숏폼 콘텐츠 제작자가 Omni의 편집·생성 기능을 직접 활용.

이용에는 Google AI 구독이 필요하며, 구체적인 기능과 한도는 구독 등급(Pro, Ultra 등)과 지역에 따라 다릅니다. 프롬프트 작성 팁은 Google이 별도로 제공하는 Gemini Omni 프롬프트 가이드에서 카메라 프레이밍, 스타일, 조명, 장소, 액션 다섯 가지 축으로 정리해두었습니다.

의미와 향후 전망

Gemini Omni의 가장 큰 의미는 영상 생성 모델의 인터페이스가 "한 줄 프롬프트로 끝나는 일회성 생성"에서 "대화로 이어지는 점진적 편집" 으로 이동하고 있다는 점입니다. 이는 Nano Banana가 이미지 편집에서 보여준 흐름을 영상으로 확장한 것으로 볼 수 있으며, 영상 분야에서도 모델이 "창작 도구"보다는 "창작 파트너"에 가까워지고 있음을 시사합니다.

기존 Veo 3가 한 편의 완성도 높은 클립을 만드는 데 강했다면, Omni는 한 장면을 다듬어가며 시리즈로 만드는 데 강점을 가지는 형태로 라인업이 분화되고 있는 셈입니다. 광고·마케팅, 교육 콘텐츠, 숏폼 영상처럼 같은 장면을 여러 변형으로 빠르게 돌려야 하는 영역에서 워크플로우 변화가 가장 먼저 나타날 가능성이 큽니다.

기술적으로는 다음 두 가지가 후속 질문으로 남습니다. 첫째, 다중 편집 시 일관성을 어떻게 유지하는가 — 현재는 결과 영상만 공개되어 있어, 누적 편집이 길어질 때의 품질 저하 패턴이나 토큰화 방식은 확인하기 어렵습니다. 둘째, API 공개 여부입니다. 현재로서는 Gemini 앱, Google Flow, YouTube Shorts에 묶여 있어 외부 개발자가 직접 호출할 수 있는 Gemini APIVertex AI 경로는 명시되어 있지 않습니다.

:scroll: Gemini Omni 소개 페이지

:books: Gemini Omni 프롬프트 가이드

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

1개의 좋아요