GameNGen: Diffusion 모델로 구동되는 실시간 게임 엔진(feat. Google Research)

9bow · 9월 1, 2024, 1:41오전

GameNGen 논문 소개

GameNGen은 뉴럴 모델로 구동되는 최초의 게임 엔진으로, 기존의 물리 기반 엔진과 달리 딥러닝을 활용하여 게임 환경을 실시간으로 시뮬레이션합니다. 이 모델은 고전적인 DOOM 게임을 대상으로 한 시뮬레이션에서 높은 성능을 보이며, 단일 TPU에서 초당 20프레임 이상을 구현합니다. 중요한 점은 GameNGen의 시뮬레이션이 실제 게임과 거의 구별되지 않는다는 것입니다. 인간 평가자들은 짧은 영상 클립을 통해 실제 게임과 시뮬레이션을 구별하려 했지만, 무작위 추측 수준에 머물렀습니다. 이는 GameNGen이 시각적 품질과 일관성을 잘 유지하고 있음을 시사합니다.

이러한 결과를 달성하기 위해 GameNGen은 두 가지 주요 학습 단계를 거칩니다. 첫 번째 단계는 강화 학습(RL) 에이전트를 통해 게임 플레이 데이터를 수집하는 것입니다. 이 단계에서 RL 에이전트는 DOOM을 플레이하며 행동과 관찰 데이터를 생성합니다. 두 번째 단계는 생성적 확산 모델을 사용하여 수집된 데이터를 기반으로 다음 프레임을 예측하는 것입니다. 이 방법은 시계열 데이터를 사용하여 환경의 변화와 동작을 학습하게 함으로써 장시간 동안 안정적인 시뮬레이션을 가능하게 합니다.

GameNGen의 또 다른 중요한 특징은 인간 게임플레이를 대규모로 수집하는 대신 RL 에이전트를 사용함으로써, 데이터를 효율적으로 확보할 수 있다는 점입니다. 이를 통해 복잡하고 다양한 환경에서 고품질의 시뮬레이션을 구현할 수 있습니다. 또한, 게임 엔진의 뉴럴 모델화를 통해 기존 게임 개발 방식에 혁신적인 변화를 불러올 수 있습니다. 이를 통해 향후 게임 엔진의 발전 방향을 제시하고 있으며, 딥러닝과 게임 기술의 융합을 통한 새로운 가능성을 열어가고 있습니다.

GameNGen 모델 개요

GameNGen의 핵심은 높은 시뮬레이션 품질과 빠른 처리 속도입니다. DOOM 게임의 시뮬레이션에서 GameNGen은 초당 20프레임 이상을 처리하며, 이는 실시간 상호작용을 가능하게 합니다. 게임 프레임의 품질을 측정하는 PSNR(신호 대 잡음비)은 29.4로, 이는 손실 압축 방식인 JPEG와 유사한 수준입니다. 이는 게임의 시각적 요소가 유지되면서도 연산 효율성을 확보하고 있음을 보여줍니다. PSNR 수치는 시뮬레이션의 품질을 평가하는 중요한 지표로, 높은 값일수록 원본과 시뮬레이션 간의 차이가 적음을 의미합니다.

GameNGen의 시뮬레이션은 인간 평가자가 실제 게임과 혼동할 정도로 정교합니다. 이를 확인하기 위해 인간 평가자들을 대상으로 시뮬레이션된 게임 클립과 실제 게임 플레이 클립을 비교하는 실험이 진행되었습니다. 그 결과, 인간 평가자들은 시뮬레이션과 실제 게임을 구별하는 데 있어 무작위 추측과 유사한 성과를 보였으며, 이는 GameNGen이 실제 게임과 거의 차이가 없음을 시사합니다. 이는 게임 엔진이 실시간으로 복잡한 환경을 정확하게 재현할 수 있는 능력을 갖추고 있음을 나타냅니다.

이러한 성능을 가능하게 하는 기술적 요소는 두 가지 학습 단계에서 비롯됩니다. 첫 번째는 RL 에이전트를 통한 데이터 수집으로, 다양한 게임 시나리오와 행동 데이터를 제공합니다. 두 번째는 생성적 확산 모델을 사용하여 이 데이터를 기반으로 다음 프레임을 생성하는 것입니다. 이 과정에서 이전의 행동과 관찰 데이터를 조건으로 설정하여, 게임 환경의 동적 변화를 효과적으로 모델링할 수 있습니다. 이로 인해 GameNGen은 장시간 시뮬레이션에서도 일관된 품질을 유지하며, 복잡한 게임 환경을 정확하게 예측할 수 있습니다.

GameNGen 모델 구조

GameNGen은 확산 모델을 사용하여 강력하고 적응적인 게임 시뮬레이션 엔진을 구축하기 위해 설계된 두 단계의 학습 과정을 기반으로 합니다:

1단계: RL 에이전트 학습: 첫 번째 단계에서 RL 에이전트는 Proximal Policy Optimization (PPO) 알고리즘을 사용하여 DOOM을 학습합니다. 이 에이전트의 목표는 가능한 높은 점수를 얻는 것이 아니라 인간과 유사한 상호작용 데이터를 생성하는 것입니다. 학습 과정에서 생성된 행동 시퀀스와 이에 따른 게임 상태 데이터는 현실적인 플레이어 행동을 반영하며, 생성 확산 모델 학습을 위한 필수적인 데이터셋을 만듭니다.RL 에이전트의 학습은 인간 플레이를 모방하는 다양한 게임 시나리오를 생성하도록 설계되었습니다. 이 접근 방식은 학습 데이터가 전투 상황부터 자원 관리에 이르는 다양한 상호작용을 포함하게 하여, 생성 모델이 다양한 게임플레이 맥락에서 잘 일반화될 수 있도록 합니다. RL을 통해, GameNGen은 게임 환경을 효율적으로 탐색하고 현실적인 데이터셋을 생성하여, 뉴럴 모델이 게임의 시각적 요소뿐만 아니라 플레이어 행동에 따른 게임 상태의 진화까지 학습할 수 있게 합니다.

2단계: 확산 모델 학습: 두 번째 단계에서 RL 에이전트로부터 기록된 게임플레이 데이터는 생성 확산 모델 학습에 사용됩니다. 이 모델은 Stable Diffusion의 수정된 버전으로, 시퀀스 의존성과 자동회귀적 생성을 처리할 수 있도록 변경되었습니다. 확산 모델은 과거의 프레임과 행동 시퀀스에 조건을 두어, 현재 상태를 기반으로 다음 프레임을 생성하도록 학습됩니다. 학습 과정은 프레임의 정확성을 측정하는 손실 함수 최소화를 포함하며, 게임의 속도와 동작을 포착하기 위해 특정한 조정이 이루어집니다.모델은 안정성과 시각적 품질을 개선하기 위해 노이즈 증강 및 행동 조건 부여와 같은 여러 가지 향상 기능을 통합합니다. 노이즈 증강은 학습 중 입력 프레임에 제어된 수준의 노이즈를 추가하여, 모델이 오류를 동적으로 수정하는 방법을 학습하도록 돕고, 장시간의 시뮬레이션에서도 일관성을 유지할 수 있도록 합니다. 행동 조건 부여는 플레이어의 행동을 잠재 공간에 임베딩하여, 모델이 프레임 생성 과정에서 이 행동의 영향을 정확하게 반영하도록 합니다.

조건 강화 및 안정성 개선: GameNGen은 생성된 시뮬레이션의 안정성과 품질을 향상시키기 위해 다양한 조건 강화 전략을 사용합니다. 자동회귀적 생성에서 주요한 과제는 긴 시퀀스 동안 일관성을 유지하는 것입니다. GameNGen은 학습 중에 노이즈 증강 기법을 사용하여 데이터에 변동성을 도입하고, 모델이 견고한 수정 메커니즘을 학습할 수 있도록 합니다. 이 접근 방식은 특히 상호작용 시뮬레이션에서 매우 중요한데, 긴 게임플레이 시퀀스에서 품질 저하 없이 안정적으로 시뮬레이션을 유지할 수 있게 합니다.또한, 모델의 아키텍처는 게임 시뮬레이션의 특정 상황에 맞춰 최적화되어 있습니다. 예를 들어, 과거의 관찰을 처리하는 데 사용되는 오토 인코더는 메인 확산 모델과 별도로 학습되어 시각적 충실도를 높이기 위해 특정 부분에서 개선을 합니다. 이러한 학습 작업의 분리는 전체 시뮬레이션의 안정성과 성능을 저해하지 않고 시각적 세부 사항을 향상시킬 수 있도록 합니다.

GameNGen 동작 방식 개요

GameNGen은 신경 기반 게임 엔진으로 작동할 수 있도록 설계된 학습 및 실시간 추론 과정을 통해 운영됩니다:

학습 단계: 첫 번째 단계에서는 RL 에이전트가 게임을 플레이하고 그 상호작용을 기록합니다. 이 학습은 PPO를 사용하여 다양한 게임플레이 시나리오를 탐색하도록 장려됩니다. 생성된 데이터셋은 플레이어 행동과 이에 따른 게임 상태를 포함하며, 생성 확산 모델의 학습을 위한 현실적인 기초를 제공합니다.
이후 확산 모델은 이 데이터셋을 사용해 학습되며, 과거 프레임과 행동에 조건을 두고 다음 프레임을 생성하도록 합니다. 학습 과정에는 자동회귀적 생성 동안 안정성을 높이기 위해 노이즈 증강이 포함됩니다. 이 접근은 모델이 오류를 동적으로 수정하는 방법을 학습하도록 하여, 장시간의 게임플레이에서도 품질이 떨어지지 않고 유지되도록 합니다.
실시간 추론: 게임플레이 중 GameNGen은 최신 플레이어 입력과 현재 게임 상태에 반응하여 프레임을 실시간으로 생성합니다. 시스템은 DDIM 샘플링을 사용하여 프레임을 빠르게 생성하며, 샘플링 단계 수는 속도와 시각적 품질 간의 균형을 맞추기 위해 최적화되어 있습니다. 모델의 조건화 메커니즘은 각 프레임이 플레이어의 행동을 반영하도록 하여, 반응적이고 상호작용적인 경험을 만듭니다.
오류 수정 및 적응: 모델의 실시간 오류 수정 능력은 행동과 관찰에 대한 조건 부여로 촉진됩니다. 이러한 이중 조건화는 GameNGen이 다양한 게임플레이 시나리오에 적응할 수 있도록 하여 시뮬레이션의 일관성과 몰입감을 유지합니다. 오토 인코더의 파인 튜닝은 특히 몰입을 유지하기 위해 높은 세부 사항이 중요한 영역의 시각적 품질을 더욱 향상시킵니다.

성능 분석

GameNGen은 실시간 뉴럴 기반 게임 시뮬레이션의 가능성을 입증하는 뛰어난 성능을 보여줍니다. 시스템은 단일 TPU에서 초당 20프레임 이상의 속도로 DOOM을 실시간으로 시뮬레이션할 수 있으며, 시각적 출력은 실제 게임플레이와 매우 유사합니다. 인간 평가자들은 실제 게임 영상과 뉴럴 생성 시뮬레이션을 구별하기 어려워하며, 이는 모델이 달성한 시각적 충실도의 높은 수준을 나타냅니다.

노이즈 증강의 사용은 특히 이 품질 유지를 가능하게 하는 주요 요소입니다. 자동회귀적 생성 모델에서 흔히 발생하는 샘플링 드리프트 문제를 방지하여, GameNGen은 긴 시퀀스에서도 고품질의 출력을 유지할 수 있습니다. 모델의 복잡한 게임 동작 처리 능력, 예를 들어 체력, 탄약 및 플레이어 상호작용의 업데이트 등은 GameNGen이 전통적인 게임 엔진에 대한 실행 가능한 대안으로서의 잠재력을 입증합니다.

전반적으로, GameNGen은 뉴럴 기반 시뮬레이션 분야에서 큰 발전을 이루었으며, 뉴럴 모델을 사용하여 게임과 다른 인터랙티브 소프트웨어를 개발하고 경험할 수 있는 방법을 보여줍니다. 확산 모델의 혁신적인 사용과 고급 조건화 및 노이즈 증강 기법을 결합하여 실시간 상호작용 시뮬레이션의 새로운 기준을 설정하며, AI 기반 게임 엔진이 인터랙티브 미디어의 경계를 재정의할 가능성을 강조하고 있습니다.

GameNGen 프로젝트 홈페이지

GameNGen 논문

더 읽어보기

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~