SpatialLM, 공간 인식(Spatial Understanding)을 위한 대규모 언어 모델

9bow · 3월 24, 2025, 9:30오후

SpatialLM 소개

SpatialLM은 3D 포인트 클라우드를 입력받아 구조화된 3D 장면 정보를 출력할 수 있는 대규모 언어 모델(LLM) 기반 시스템입니다. 벽, 문, 창문, 가구 등 다양한 구조 요소를 인식하고, 이들의 공간 위치와 방향까지 파악할 수 있도록 설계되었습니다.

기존의 3D 데이터 처리 모델은 고가의 센서나 특정 포맷의 입력 데이터를 요구하는 경우가 많았지만, SpatialLM은 RGB 비디오, RGBD 이미지, LiDAR 등 다양한 입력 소스를 지원합니다. 이러한 멀티모달 아키텍처는 복잡하고 비정형적인 3D 데이터를 고수준의 의미 기반 구조로 변환해주는 강력한 프레임워크를 제공합니다.

SpatialLM의 주요 특징

다양한 입력 포맷 지원: 단일 RGB 비디오, RGBD 이미지, LiDAR 등
구조화된 3D 출력: 3D 오리엔티드 바운딩 박스, 2D 평면도, IFC 포맷 등
포인트 클라우드 인코딩 + LLM 디코딩 구조
현실적인 학습 데이터 기반: 실제와 유사한 대규모 포토리얼리즘 데이터셋 활용
확장 가능성: 향후 인간과의 상호작용, 복잡한 환경 내 embodied agent 지원 등으로 확장 예정

SpatialLM 동작 파이프라인

SpatialLM의 파이프라인은 다음과 같습니다:

입력 영상 처리: RGB 영상 → MASt3R-SLAM을 통해 포인트 클라우드 복원
포인트 클라우드 인코딩: 3D 포인트를 compact한 특징 벡터로 압축
LLM 디코딩: 장면을 설명하는 “scene code”를 생성
구조 정보로 변환: 생성된 scene code → 3D 레이아웃 및 구조 요소로 변환

이를 통해 단일 RGB 영상만으로도 고정밀의 3D 공간 구조를 이해할 수 있게 됩니다.

SpatialLM 프로젝트 홈페이지

https://manycore-research.github.io/SpatialLM/

SpatialLM GitHub 저장소

SpatialLM 모델 다운로드

SpatialLM-Llama-1B

SpatialLM-Qwen-0.5B

SpatialLM 학습 데이터셋

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~