Project Genie 및 Genie 3 심층 소개
2026년 1월 29일, Google DeepMind는 단순한 영상 생성을 넘어 사용자가 직접 상호작용하고 탐험할 수 있는 가상 세계를 만드는 Project Genie를 공개했습니다. 이는 연구 단계의 실험적 프로토타입으로, 미국의 Google AI Ultra 구독자들을 대상으로 우선 제공되기 시작했습니다. 이 프로젝트의 핵심은 Genie 3라는 범용 월드 모델(General-purpose World Model)에 있습니다. 기존의 생성형 AI가 텍스트나 이미지를 입력받아 정적인 결과물을 내놓는 데 그쳤다면, Genie 3는 물리 법칙과 인과 관계를 시뮬레이션하여 살아있는 환경을 구축합니다.
Google DeepMind는 오랫동안 체스(AlphaZero & MuZero)나 바둑(AlphaGo)과 같은 특정 규칙 기반의 환경에서 작동하는 에이전트를 개발해 왔습니다. 하지만 진정한 의미의 인공지능 일반(AGI)을 달성하기 위해서는 AI가 현실 세계의 복잡성과 다양성을 이해하고 그 안에서 적응할 수 있어야 합니다.
지난 8월 미리보개로 공개했던 Genie 3는 이러한 목표를 달성하기 위해 개발되었으며, 정해진 3D 스냅샷을 보여주는 것이 아니라 사용자의 행동(Action)에 따라 실시간으로 변화하는 경로와 환경을 생성해 냅니다. 이는 로보틱스 시뮬레이션, 애니메이션 모델링, 소설 속 가상 세계 구현, 역사적 장소의 재구성 등 광범위한 시나리오에 적용될 수 있는 잠재력을 가지고 있습니다.
Project Genie는 이 강력한 모델을 일반 사용자가 웹 브라우저 상에서 직접 체험할 수 있도록 만든 인터페이스입니다. 사용자는 복잡한 코딩 없이 자연어 프롬프트나 이미지만으로 자신만의 세계를 창조하고, 그 안을 걸어 다니거나 날아다니며 탐험할 수 있습니다. 이는 AI가 단순히 데이터를 학습하는 것을 넘어, 데이터 내부의 '세계관'을 이해하고 시뮬레이션하는 단계로 진입했음을 시사합니다.
Project Genie의 주요 특징
Project Genie는 단일 모델이 아닌, 여러 첨단 AI 모델들의 유기적인 결합으로 작동합니다. 전체 시스템은 환경의 역학을 시뮬레이션하는 Genie 3, 이미지의 정밀한 제어와 스타일링을 담당하는 Nano Banana Pro, 그리고 사용자의 의도를 파악하고 전체적인 논리를 조율하는 Gemini 모델이 통합되어 구동됩니다.
월드 스케칭 (World Sketching)과 Nano Banana Pro의 역할
사용자가 세계를 창조하는 첫 단계는 월드 스케칭(World Sketching)입니다. 사용자는 텍스트 프롬프트를 입력하거나 초기 이미지를 업로드하여 생성하고자 하는 환경의 기초를 다집니다. 이때 Nano Banana Pro가 핵심적인 역할을 수행합니다. 사용자가 텍스트로 묘사한 세계를 시각화하기 전, Nano Banana Pro는 "World Sketching" 기능을 통해 생성될 세계의 미리보기를 제공하고 이미지를 미세 조정(fine-tuning)할 수 있게 해 줍니다.
단순히 배경만 만드는 것이 아니라, 사용자가 이 세계를 어떻게 경험할지 시점(Perspective)까지 설정할 수 있습니다. 예를 들어, 1인칭 시점으로 몰입감 있게 탐험할 것인지, 아니면 3인칭 시점으로 캐릭터의 움직임을 관찰할 것인지를 사전에 정의할 수 있습니다. 사용자는 캐릭터를 생성하고, 걷기, 비행, 운전 등 이동 방식을 지정하여 앞으로 펼쳐질 상호작용의 방식을 결정하게 됩니다.
Genie 3 기반의 실시간 월드 탐험 (Real-time Exploration)
세계가 생성되면, 사용자는 정적인 비디오를 시청하는 관찰자가 아니라 능동적인 탐험가가 됩니다. Genie 3는 사용자가 입력하는 컨트롤(키보드나 게임패드 입력 등)을 실시간으로 받아들이고, 그 행동에 따른 다음 프레임을 즉석에서 생성(Inference)합니다.
이 과정에서 모델은 단순한 이미지 변환을 수행하는 것이 아니라, 환경의 물리적 상호작용을 시뮬레이션합니다. 사용자가 앞으로 이동하면 모델은 새로운 풍경을 그려내고, 점프하거나 물체와 부딪히면 그에 합당한 물리적 반응을 시각적으로 구현합니다. 사용자가 이동함에 따라 Genie 3는 실시간으로 경로를 생성해 나가며, 탐험 도중 카메라 앵글을 자유롭게 조정할 수도 있습니다. 이는 기존의 영상 생성 AI가 미리 렌더링 된 영상을 재생하는 것과는 근본적으로 다른, 게임 엔진에 가까운 경험을 제공합니다.
확장성을 위한 월드 리믹싱 (World Remixing)
Project Genie는 개별적인 창작 활동을 넘어 커뮤니티 기반의 확장을 지향합니다. '월드 리믹싱' 기능을 통해 사용자는 갤러리에 공개된 다른 사용자의 세계나 자신이 만든 기존 세계를 기반으로 새로운 창작을 이어갈 수 있습니다. 기존 세계의 프롬프트 위에 새로운 아이디어를 덧붙여 전혀 다른 해석의 세계로 발전시키거나, <랜더마이저 아이콘>을 사용하여 무작위적인 영감을 얻을 수도 있습니다. 탐험이 끝난 후에는 생성된 세계와 그 안에서의 여정을 비디오 파일로 다운로드하여 공유할 수 있어, 창작물의 2차 활용이 가능합니다.
현재 기술의 한계 및 고려사항 (Limitations)
Project Genie와 Genie 3는 혁신적인 기술이지만, 현재로서는 명확한 한계점을 가진 초기 연구 프로토타입입니다. 엔지니어와 연구자들은 다음의 제약 사항들을 인지해야 합니다.
먼저, 생성 길이의 제한입니다. 현재 프로토타입은 한 번의 세션에서 최대 60초 분량의 생성만을 지원합니다. 이는 장시간의 연속적인 게임 플레이나 시뮬레이션을 대체하기에는 아직 부족한 시간입니다. 또한, 실시간 생성 과정에서 지연(Latency)이 발생할 수 있어, 빠른 반응 속도가 필요한 액션 게임 수준의 조작감을 기대하기는 어렵습니다.
둘째, 물리적 정확성과 환각(Hallucination) 문제입니다. Genie 3는 물리 법칙을 학습하여 모사하지만, 완벽한 물리 엔진은 아닙니다. 따라서 생성된 세계가 현실 세계의 물리 법칙과 완벽하게 일치하지 않거나, 캐릭터가 의도한 대로 제어되지 않는 경우가 발생할 수 있습니다. 프롬프트나 입력 이미지를 완벽하게 반영하지 못하고 엉뚱한 결과물을 내놓는 경우도 존재하며, 이는 생성형 AI 모델이 공통적으로 겪는 과제이기도 합니다.
마지막으로, Google은 이 기술을 "책임감 있는 AI(Responsible AI)" 원칙 하에 개발하고 있음을 강조합니다. 이는 생성된 콘텐츠가 유해하거나 부적절한 내용을 포함하지 않도록 하는 안전장치가 적용되어 있음을 의미하며, 이로 인해 일부 자유로운 생성에 제약이 있을 수 있습니다.
Project Genie
Project Genie는 미국 거주 만 18세 이상의 Google AI Ultra 구독자들이 먼저 사용해볼 수 있습니다. Google Labs 실험실 정책을 따르며, 생성된 결과물의 상업적 이용 가능 여부는 별도의 약관 확인이 필요합니다.
Google DeepMind의 Project Genie 공식 블로그
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. ![]()
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ ![]()
