Oasis: AI 기반의 플레이 가능한 실시간 오픈월드 게임

Oasis 소개

Oasis는 Etched와 Decart가 공동 개발한 최초의 실시간 상호작용형 오픈 월드 AI 모델입니다. 기존의 비디오 생성 모델은 텍스트를 입력으로 받아 정적인 비디오를 생성하는 데 반해, Oasis는 키보드와 마우스 입력에 반응하여 실시간으로 게임 환경을 생성합니다. 이 모델은 기존의 게임 엔진을 사용하지 않으며, 단순한 트랜스포머(Transformer) 기반의 기초 모델을 통해 상호작용형 게임플레이를 제공합니다.

이 모델의 목표는 텍스트-비디오 생성이 아닌 실시간 비디오를 통한 상호작용을 구현하는 데 있습니다. 이를 위해 Decart의 추론 엔진과 Etched의 맞춤형 ASIC(특화 칩셋)인 Sohu가 지원되며, 4K 해상도에서도 원활히 실행될 수 있도록 최적화되었습니다. Oasis는 대규모 파라미터 모델(500M)로 설계되어 있으며, 현재의 GPU에서도 사용자가 직접 실행해볼 수 있도록 코드와 가중치가 공개되었습니다.

게임플레이 결과: AI가 생성하는 상호작용형 게임

Oasis는 복잡한 게임 메커니즘을 이해하고 상호작용할 수 있는 게임 환경을 제공합니다. 예를 들어, 사용자들은 Oasis 내에서 자유롭게 이동하고, 블록을 쌓거나 파괴하고, 다양한 물건을 조작하는 등 다양한 행동을 할 수 있습니다. 게임의 법칙과 물리적인 규칙이 모두 AI에 의해 생성되며, 이는 기존의 게임 엔진을 사용하는 방식과는 근본적으로 다른 접근법입니다.

Oasis는 조명 물리학, 인벤토리(Inventory) 관리, 개체 인식 등 다양한 환경에서의 상호작용을 지원합니다. 이러한 특징 덕분에 Oasis는 추가적인 훈련 없이도 다양한 맵, 게임 모드, 기능을 생성하는 데 뛰어난 적응력을 가지고 있습니다. 이는 Oasis가 단순히 기술적 데모를 넘어서, 다가오는 AI 기반 상호작용형 비디오 게임의 가능성을 시사하며, 음성이나 텍스트 등 다양한 입력 방식으로 조작될 수 있는 게임으로 발전할 잠재력을 지닙니다.

Oasis의 아키텍처

Oasis의 아키텍처는 크게 공간 자동 인코더(Spatial Autoencoder)와 잠재 디퓨전(Latent Diffusion) 백본으로 구성됩니다. 두 부분 모두 트랜스포머 기반으로 설계되어 있으며, 각각 ViT(Visual Transformer)와 DiT(Diffusion Transformer) 모델에 기반합니다.

Oasis는 자가 회귀적 방식으로 프레임을 생성하며, 사용자가 입력한 행동을 프레임마다 반영할 수 있어 실시간 상호작용이 가능합니다. 이 모델은 비디오 생성 시 각 프레임을 독립적으로 생성하는 대신, 사용자의 입력에 따라 프레임을 생성하는 독특한 방식으로 동작합니다.

모델은 Diffusion Forcing 기법을 적용하여 토큰별로 독립적인 노이즈를 처리하고, 새로운 디코딩 방식을 사용하여 긴 시간 동안 일관성을 유지합니다. 또한, OpenAI의 오픈 소스 데이터셋인 Minecraft 비디오 데이터를 활용하여 모델을 학습시켰습니다. 이 모델은 추론 시 동적 노이즈(dynamic noising)를 통해 오류 누적 문제를 해결하고, 긴 시퀀스에서도 안정적인 출력을 유지할 수 있도록 설계되었습니다.

동적 노이즈(Dynamic Noising)

동적 노이즈는 모델이 추론 중에 노이즈를 점진적으로 줄이는 방식으로, 모델이 고주파 세부사항을 유지하면서도 이전 프레임과의 일관성을 높입니다. 초기 디퓨전 포워드 패스에서는 노이즈를 주입하여 오류 누적을 방지하고, 이후 패스에서는 점차 노이즈를 줄여 모델이 세부 사항을 안정적으로 표현할 수 있도록 합니다. 이 기법은 Oasis가 실시간 상호작용 환경에서 긴 시퀀스를 처리하는 데 있어 중요한 역할을 합니다.

Oasis의 성능: 실시간 처리의 혁신

Oasis는 초당 20프레임을 생성하여 실시간 출력을 제공합니다. 기존의 텍스트-비디오 모델인 Sora, Mochi-1, Runway 등은 1초 분량의 비디오를 생성하는 데 10-20초가 걸리기 때문에, 실시간 상호작용이 가능한 Oasis와 비교해 매우 느린 속도를 보입니다. Decart의 추론 스택 덕분에 Oasis는 플레이 가능한 프레임 속도로 동작하며, 최초로 실시간 상호작용을 구현할 수 있었습니다.

그러나 이러한 속도를 유지하고 비용 효율성을 높이기 위해서는 새로운 하드웨어가 필수적입니다. Etched의 Sohu ASIC 칩은 Oasis와 같은 대규모 모델이 4K 해상도로 동작할 수 있도록 지원하며, Sohu의 고효율 추론 성능 덕분에 최대 10배 더 많은 사용자를 지원할 수 있습니다. Sohu는 Oasis가 실시간 상호작용을 넘어 대규모 사용자에게 안정적으로 서비스를 제공할 수 있도록 합니다.

미래 발전 가능성 및 연구 과제

Oasis는 다양한 혁신적인 연구 결과를 보여주었지만, 여전히 해결해야 할 과제가 존재합니다. 예를 들어, 원거리의 영상 표현이 흐릿하게 나타나거나, 불확실한 객체의 시간적 일관성을 유지하는 문제가 발생할 수 있습니다. 또한, 인벤토리 제어와 같은 세부 기능에서 더 높은 수준의 제어를 제공해야 하며, 긴 시퀀스에서도 안정적인 일관성을 유지하기 위한 추가적인 연구가 필요합니다.

이러한 문제는 모델과 데이터셋의 확장을 통해 해결될 수 있을 것으로 예상되며, 이를 위한 대규모 학습과 최적화 기술 개발이 진행 중입니다. 더욱이, 이러한 대규모 모델에 적합한 새로운 추론 기술이 필요하며, Oasis는 향후 대규모 상호작용형 비디오 생성 모델의 발전 가능성을 크게 열어주고 있습니다.

:scroll: Decart의 Oasis 소개 글

https://www.decart.ai/articles/oasis-interactive-ai-video-game-model

:scroll: Etched의 Oasis 소개 글

:house: Oasis 프로젝트 홈페이지

:joystick: Oasis 데모 플레이

https://oasis.decart.ai/welcome

:github: Oasis 코드 저장소

https://github.com/etched-ai/open-oasis

:hugs: Oasis 모델 가중치

:scroll: 관련 글 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: