SceneScript: Meta의 Reality Lab에서 공개한 현실 세계를 3D로 재구축하는 방법

:pytorch:PyTorchKR:kr::

Meta의 Reality Labs Research 팀이 새롭게 발표한 SceneScript는 실제 환경을 3D로 재구성하는 혁신적인 방법입니다. AR(증강 현실) 안경과 같이 실제와 디지털 세계가 융합된 제품이 우리의 일상에서 더욱 유용하게 활용되기 위해서는, 주변의 물리적 공간을 정확하게 이해하고 3D로 표현할 수 있는 기술이 필수적입니다.

SceneScript 데모

SceneScript 소개

SceneScript는 시각 데이터로부터 직접적으로 공간의 기하학적 구조를 추론하여 이를 언어로 표현하는 새로운 방법을 사용합니다. 이는 메모리 요구 사항을 줄이고, 더욱 선명한 기하학적 정보를 제공하며, 사람이 이해하고 편집하기 쉬운 형태로 정보를 재구성합니다. 이 기술은 특히 고유하거나 규칙적이지 않은 공간 구조를 가진 환경에서 더 정확한 3D 재구성을 가능하게 합니다.

SceneScript는 장면을 구조화된 언어로 표현하는 새로운 방식을 소개하며, 이 방식을 통해 컴팩트하고 해석 가능하며 쉽게 편집 가능한 장면 모델을 가능하게 합니다. 시각 데이터로부터 구조화된 언어 명령의 시퀀스를 자동회귀적으로 예측하는 새로운 접근 방식은 NLP와 3D 장면 재구성 분야를 혁신적으로 결합합니다.

주요 특징

SceneScript는 인코딩된 시각 데이터를 처리하고 구조화된 언어 명령의 시퀀스를 생성하기 위해 장면 언어 인코더-디코더 구조를 사용합니다. 또한, SceneScript의 학습과 검증을 위해 Aria Synthetic Environments라는 합성 데이터셋이 개발되었으며, 이는 실제와 합성 장면 모두에서 일반화할 수 있는 방법의 능력을 강조합니다.

  • 효율적인 메모리 사용: SceneScript는 필요한 메모리를 몇 바이트로 줄임으로써 효율적으로 공간 데이터를 처리합니다.

  • 완전한 재구성: 기존의 접근 방식과 달리, SceneScript는 SVG(Scalable Vector Graphics)와 유사한 방식으로 선명한 기하학적 형태를 제공합니다.

  • 해석 가능성: 생성된 공간 표현은 사람이 쉽게 읽고 편집할 수 있는 형태로 제공됩니다.

  • 확장성: SceneScript는 객체의 상태나 복잡한 기하학적 형태까지도 설명할 수 있어, AR 콘텐츠 제작에 있어서의 다양성을 크게 향상시킵니다.

SceneScript의 구조

SceneScript는 대규모 언어 모델(Large Language Models, LLMs)의 다음 토큰 예측 기법을 기반으로 합니다. 하지만 일반적인 언어 토큰을 예측하는 대신, 건축적 요소(예: 벽이나 문)를 예측합니다. 이를 위해 대량의 학습 데이터를 활용하여, 시각 데이터를 공간의 기본적인 표현으로 인코딩하고, 이를 다시 공간 레이아웃을 설명하는 언어로 디코딩합니다. 이 과정을 통해 SceneScript는 복잡한 환경을 해석하고 재구성할 수 있습니다.

SceneScript는 기존 MR(Mixed Reality) 헤드셋이나 3D 센서 데이터를 기반으로 한 가상 공간 표현과 다릅니다. 기존 방법들은 사전 정의된 규칙에 의존하여 원시 데이터를 형태로 변환했지만, SceneScript는 기계 학습을 통해 직접 공간의 기하학적 구조를 추론합니다. 이로 인해 더욱 정확하고 효율적인 3D 공간 재구성이 가능해졌습니다.

더 읽어보기

소개 글

프로젝트 홈페이지

SceneScript 논문