소개
- Google DeepMind가 Veo 3와 Imagen 4, Flow를 공개하며 영상·이미지·영화 제작 도구를 혁신적으로 확장함
- Veo 3는 오디오 포함 동영상 생성, 실제 물리 반영, 입술 동기화 등의 성능을 제공함
- Imagen 4는 정교한 디테일 묘사와 타이포그래피 처리 능력 향상으로 출력물 제작에 유리함
- Flow는 다양한 모델을 통합해 자연어 기반 영화 제작을 가능케 하는 새로운 창작 도구임
- 모든 생성 콘텐츠에는 SynthID 워터마크가 삽입되며, 감지 도구도 함께 출시되어 투명성을 강화함
새로운 생성형 미디어 모델 및 도구로 창작력을 발휘하세요
- Google은 최신 생성형 미디어 모델인 Veo 3, Imagen 4, 그리고 새로운 영화 제작 도구 Flow를 발표함
- 이들 모델은 이미지, 동영상, 음악을 생성하며, 창작자가 상상한 세계를 실현하는 데 도움을 줌
- Google DeepMind는 영상 제작자, 음악가, 예술가들과 협력하여 도구를 공동 설계했으며 책임감 있는 AI 사용을 강조함
Veo 3: 오디오를 포함한 고급 비디오 생성
- Veo 3는 Veo 2보다 향상된 품질의 동영상을 생성하며, 처음으로 배경음, 대사 등 오디오를 포함한 영상 생성이 가능함
- 텍스트나 이미지 기반 프롬프트를 통해 실제같은 물리 기반 영상 제작이 가능하고 입술 동기화도 정확함
- Gemini 앱과 Flow, Vertex AI를 통해 미국에서 Ultra 요금제 사용자에게 제공 중임
Veo 2: 창작자 피드백 기반 기능 추가
- Veo 2에는 창작자들의 피드백을 바탕으로 다음과 같은 기능이 추가됨:
- 레퍼런스 기반 영상 생성: 캐릭터, 스타일, 오브젝트 등을 이미지로 입력해 일관성 있는 영상 생성 가능
- 카메라 컨트롤: 회전, 줌, 돌리 등 카메라 움직임 설정 가능
- Outpainting: 프레임 확장으로 세로에서 가로 전환 및 장면 자연 확장 가능
- 오브젝트 추가 및 제거: 객체의 크기·그림자·상호작용까지 반영하여 자연스럽게 편집 가능
- 이 기능들은 Flow에서 사용 가능하며, Vertex AI API에 순차 적용될 예정임
Flow: Veo에 최적화된 AI 영화 제작 도구
- Flow는 Veo, Imagen, Gemini를 통합하여 자연어 기반으로 장면, 캐릭터, 스타일 등을 설정하고 영상으로 구현 가능
- 미국의 AI Pro 및 Ultra 요금제 사용자에게 제공되며, 점차 다른 국가로 확대 예정임
Imagen 4: 해상도, 디테일, 타이포그래피 향상
- Imagen 4는 세밀한 텍스처 묘사, 포토리얼리스틱 및 추상적 스타일 지원, 2K 해상도 출력을 제공함
- 타이포그래피 기능도 향상되어 카드, 포스터, 만화 제작에 유리함
- Gemini 앱, Vertex AI, Slides, Docs, Whisk 등에서 사용 가능하며, 최대 10배 빠른 버전도 곧 출시 예정임
Lyria 2: 인터랙티브 음악 생성
- 음악가를 위한 Music AI Sandbox에 포함된 모델로, 창작 실험을 지원하고 새로운 음악 탐색을 가능하게 함
- YouTube Shorts, Vertex AI, MusicFX DJ 등에서 사용 가능하며, API 및 AI Studio를 통한 실시간 인터랙션도 제공함
SynthID로 AI 생성 콘텐츠 식별 가능
- 2023년부터 시작된 SynthID는 이미지, 영상, 오디오, 텍스트 등 100억 건 이상의 AI 생성 콘텐츠에 워터마크 삽입
- 새롭게 출시된 SynthID Detector를 통해 사용자도 생성 여부를 판별 가능
- Google은 생성형 AI가 창작을 돕는 방향으로 활용되도록 책임 있는 도구 설계와 공개 협력을 지속하고 있음
Hacker News 의견
- 직접 테스트를 해보니 Imagen 4의 성능이 Imagen 3와 비교해서 크게 향상된 점이 없고, 프롬프트 정확도가 대략 60% 정도인 점
- 왜 성공했을 때는 한 번만 시도하고, 실패한 모델은 여러 번 반복하는지 궁금증을 느낌 나는 이 테스트가 “모델이 맞출 수 있는지”와 “자주 맞추는지” 중 어느 것을 평가하는 건지 궁금증
성공률 혹은 성공률 임계값을 정하고 시도 횟수를 고정해서 측정하는 것이 더 적절하다고 생각함 - "The Yarrctic Circle"에서 OpenAI 4o가 우승을 했지만, 컷라스를 들고 있지 않은 점, 아름다움은 있지만 시점이 말이 안 되고 해부학적으로 다리가 실제로 150% 더 길어져 있는 부분 등 기본적인 측면에서 완전히 잘못됨 이런 결과를 통해 현재 모델의 한계를 알 수 있는 흥미로운 리소스라고 생각함
- "Not the Bees" 우승작의 손이 운전자와는 전혀 다르게 나와서 제대로 통과한 걸로 보긴 어렵다는 판단
- 실제로 Imagen 4를 사용하는지, Imagen 3을 사용하는지 어떻게 확인하는지 궁금증 Gemini에서는 사용하는 모델을 알려주지 않고, Vertex AI를 사용하는지 의문
- 더 어려운 예시를 들며 테스트 기준의 어려움을 제안
- 가득 채워진 와인잔
- 시계 바늘이 10시와 2시(즉, V를 나타내지 않는 시계)
- 9단계 IKEA 선반 조립도
- 모든 종류의 체조나 아크로바틱 등
- 왜 성공했을 때는 한 번만 시도하고, 실패한 모델은 여러 번 반복하는지 궁금증을 느낌 나는 이 테스트가 “모델이 맞출 수 있는지”와 “자주 맞추는지” 중 어느 것을 평가하는 건지 궁금증
- 이제 전문가용 도구들이 오픈소스 버전들을 크게 앞지르는 느낌
wan이나 hunyuan 같은 무료 모델도 훌륭하지만 Google이나 Runway의 최신 결과물이 한 단계 위라고 느낌
특히, 편집 도구—모션, 방향, 컷, 오디오 삽입 같은 기능들—이 순수 생성력 이상으로 큰 차별점
대형 기업들이 명확하게 광고 에이전시/할리우드 분야를 공략 중인 분위기
이 툴들이 조만간 업계 표준이 될 날이 생각보다 더 빨리 올 것으로 기대
아직 한두 세대 정도 더 발전이 필요하지만, 결과물이 매우 훌륭하다는 평가- 오픈소스가 비록 편의성에선 떨어지지만, 전문가 환경에서는 커스텀 lora, control net 등의 기능을 통해 생성 과정 중간에 원하는 요소를 추가할 수 있다는 점이 중요한 강점이라고 생각함
로컬 생성에서는 과도하게 엄격할 수 있는 플랫폼의 콘텐츠 심의를 피할 수 있음
comfy UI가 초보에겐 어렵지만, 커다란 통제가 없는 폐쇄형 툴을 쓸 바엔 아직 작은 YouTube 채널, 소규모 프로덕션에서는 오픈소스 도구가 많이 선택될 것 같음 - GAI의 진짜 존재 확인은 품질의 차이가 사라질 때 가능
그때가 오면 무엇이든 어떤 품질로든 코딩이 가능하다는 의미 - agency/hollywood 타겟팅의 진짜 목적은 광고 분야라는 견해
- Tencent Hunyuan 팀의 발전 상황을 분석
Hunyuan Image 2.0이 발표되어 텍스트-이미지/이미지-이미지의 품질과 속도가 매우 인상적임
실시간 2D 드로잉 캔버스 앱을 만들어 Krea가 제공하던 기능을 전부 구현한 수준
이전과 달리 이번엔 클로즈드 소스라 아쉬움
Hunyuan 3D 2.0도 좋았지만, 3D 2.5는 아직 공개되지 않음
Hunyuan Video는 Wan과 비교해 진전이 없지만 Wan이 최근에 VACE라는 멀티모달/에디팅 레이어를 통해 주목받고 있음
Comfy 커뮤니티도 VACE와 Wan으로 멋진 결과를 만들어 내고 있다는 분석
- 오픈소스가 비록 편의성에선 떨어지지만, 전문가 환경에서는 커스텀 lora, control net 등의 기능을 통해 생성 과정 중간에 원하는 요소를 추가할 수 있다는 점이 중요한 강점이라고 생각함
- 저예산 인디 영화가 연출, 연기 모두 부족해도 관객의 몰입, 웃음, 감동을 줄 수 있는 이유는 전체적으로 일정한 품질의 일관성을 지니는 점
반면 AI 영상 콘텐츠는 각각의 클립 자체로는 완성도가 높지만, 여러 클립을 하나의 작품으로 연결할 때 몰입을 유지하는 것에는 아직 한계가 있다는 의견
서두나 소리로 스토리의 '레드 스레드(일관된 매력)'를 유지하는 콘텐츠에는 AI 영상도 가능하겠지만, 아직은 할리우드가 걱정할 단계가 아니라는 평가
필름의 입자감 같은 요소, 그리고 24p 포맷이 여전히 예술적 선택이 되는 이유도 같이 언급- NeuralViz 유튜브 채널을 추천
18만 구독자가 있는 AI 영상 기반의 시네마틱 유니버스를 만들고 있으며 굉장히 재미있는 쇼
“여러 개의 AI 영상 클립을 엮어 몰입하게 만드는 건 먼 미래”라는 주장은 이미 현실에서 깨지고 있다 주장 - AI 영상 콘텐츠가 할리우드에 미치는 영향은 사진이 회화에 미친 영향과 유사
AI 네이티브 영상은 기존의 할리우드 3막 구조와는 매우 다를 수 있지만, 만약 시청자들이 옮겨간다면 할리우드도 결국 같은 길을 걷게 될 것이라는 관점 - 볼 수 있는 좋은 콘텐츠는 이미 넘쳐나는 시대
진짜 문제는 콘텐츠의 질이 아니라 유통력, 배포력인데, Google 같이 세계 최대의 문화 유통업체가 예술계가 고통받는 핵심을 외면하고 엉뚱한 쪽에 힘을 쏟고 있다는 비판
- NeuralViz 유튜브 채널을 추천
- 이젠 모두가 AI 생성 영상을 한 번쯤은 보고도 진짜라고 생각하게 되었을 시점
너무 눈에 띄는 예시는 알기 쉽지만, 계속 경험할수록 점점 더 자연스럽게 AI 영상이 우리 곁으로 들어오는 현상 - Google이 Darren Aronofsky의 AI 스튜디오 Primordial Soup와 협업을 진행하는 상황
SAG-AFTRA 파업으로 할리우드에서 AI 사용 금지가 논의됐지만, 이 새 스튜디오는 왜 영향을 받지 않았는지 궁금함- Primordial Soup가 조합과 관련 없는 회사라서 파업협정에 구속받지 않기 때문
따라서 조합 배우는 고용할 수 없지만, 회사 성격상 큰 문제는 아닌 듯
- Primordial Soup가 조합과 관련 없는 회사라서 파업협정에 구속받지 않기 때문
- 이번 작업의 기술적 수준이 놀라울 정도며, 오디오와 비디오의 싱크가 정말 뛰어나고, 대화도 별도의 보이스 모델 못지않게 훌륭한 점에서 감탄
- 올빼미 영상과 노인 영상에서 약간의 언캐니 밸리(이질감)를 느꼈고, 종이접기 영상에서는 약간 위협적이고 공격적인 느낌을 받음
- 지난 20년간 엄청난 발전을 체감
전엔 이질감을 주는 영상을 위해 거대한 개발팀, 아티스트, 슈퍼컴퓨터 클러스터와 오랜 렌더링 시간이 필요했는데, 이제는 거대 클러스터와 추론 시간만 있으면 됨 - 페이지 아래쪽에 뜨개질 캐릭터 버전에서는 훨씬 더 좋게 느껴졌으며, 현실에서 조금 벗어날수록 언캐니 밸리를 피하기 쉽다는 인사이트
- 올빼미 영상은 전형적인 AI 이미지 특유의 ‘광택’이 있었고, 노인 영상은 매우 인상적이었다는 평가
- 종이접기(오리가미)는 영상보다 오디오가 더 현실적이라는 인상, 각자에게 반영되는 자기 자신을 보는 느낌
- 지난 20년간 엄청난 발전을 체감
- 놀라운 기술 덕분에 개발팀에 진심으로 감탄
동시에 아쉬움도 큼
AI가 비창의적인 일은 더 자동화하고, 창작자들이 AI 콘텐츠 홍수에 묻히지 않았으면 하는 바람- 비창의적 작업의 자동화도 곧 오겠지만, 더 높은 정확성이 필요해 더 어렵고 오랜 시간이 걸린다는 설명
아직 AI 정확도가 80% 수준이지만, 나머지 20%를 채우는 게 정말 고된 여정
빠른 비행기(기술)로 도착해도, 마지막 걸음(완성도)은 교통체증 같은 난관 비유 - 이런 얘기 나오면 엄청나게 많은 게이트키핑을 보지만, AI로 더 많은 사람들이 창작에 접근할 수 있게 되는 점을 긍정적으로 보는 의견
앞으로 AI가 열어줄 창작의 새로운 가능성이 기다려진다고 기대 - 비창의적 업무를 위한 데이터는 타인의 동의 없이 수집하기가 더 어렵기 때문이라는 의견
- 예전에는 예술 작품(특히 디지털)이 이렇게 쉽게 유통된 게 아니었음
음악도 마찬가지로, 레코딩 기술 이전에는 오직 라이브 연주만이 진짜
지금은 디지털 시대가 오히려 예술사에선 이상한 시기일 수 있다는 시각 - “AI가 창작자를 AI로 만든 작업물 더미에 묻어버린다”고 하지만, AI에 프롬프트를 정교하게 넣는 것도 창작이며
실제로는 수십시간에 걸쳐 수작업으로 모델을 만들고 리깅하는 것이 오히려 비창의적 노동이라는 시각
- 비창의적 작업의 자동화도 곧 오겠지만, 더 높은 정확성이 필요해 더 어렵고 오랜 시간이 걸린다는 설명
- AI 모델이 창의성을 만들어 예술가가 창의적인 비전을 실현하게 해준다는 논리를 흥미롭게 봄
새 시대에서 ‘무엇을 만든다’가 아니라, ‘이끌어낸다’로 역할이 바뀌면서
텍스트 프롬프트 기반 창작이 진짜 ‘비전’인지, ‘과정’이 없어도 예술의 길이 남는지 등 창작의 본질에 대한 고민
창작이란 개념 자체가 미묘하게 재정의되어가는 현상- 이렇게 재정의되는 과정 속에서 2-3개의 대형 플랫폼이 제작수단을 독점하게 된다는 비판
이들에겐 아주 편리한 재정의임 - 창작적 비전이 프롬프트 하나에 응축될 수 있다고 믿으려면, 상상력 자체에 한계가 있다고 생각
예술의 본질, 산출물, 과정과 그 사이 관계는 끝없이 논의해도 부족
자료구조의 포인터와 데이터 자체를 혼동하는 것과 본질적으로 비슷하다는 재미있는 비유 - 텍스트 프롬프트는 매우 짧지만 프롬프트 추종 능력이 좋아지면 변화가 클 수밖에 없음
소프트웨어 엔지니어가 소스코드를 통해 비전을 실현하는 것처럼, 창작 분야도 변할 것이라는 예측 - LLM 기업들은 사람들을 서비스에 의존하게 만들어, 모든 경제 활동에서 자신들이 중간 이익을 취하려는 전략이 있다는 의견
- 오페라/연극/수작업 예술도 비슷한 과정을 거쳤고, 결국 사람들은 점점 더 쉽고 소비하기 편한 것으로 옮겨갔음
(디지털 음악/TV/디지털 아트)
이전 방식을 고급 예술로 여기는 소수만 남았다는 분석
- 이렇게 재정의되는 과정 속에서 2-3개의 대형 플랫폼이 제작수단을 독점하게 된다는 비판
- Veo3를 실제로 사용해본 사람이 있는지 궁금증
데모 영상은 인상적이지만, Sora를 쓸 때는 실제 사용 경험이 많이 좌절스럽고 히트/미스가 컸다는 개인 경험 공유
원문
출처 / GeekNews
알려드립니다
이 글은 국내외 IT 소식들을 공유하는 GeekNews의 운영자이신 xguru님께 허락을 받아 GeekNews에 게제된 AI 관련된 소식을 공유한 것입니다.
출처의 GeekNews 링크를 방문하시면 이 글과 관련한 추가적인 의견들을 보시거나 공유하실 수 있습니다!
아래
쪽에 좋아요
를 눌러주시면 새로운 소식을 정리하고 공유하는데 힘이 됩니다~