BitRobot, 실제 가정의 500시간 휴머노이드 로봇 데이터셋 HIW-500 공개 (feat. Unitree)

HIW-500 소개

로봇이 사람처럼 집안일을 해내려면, 깨끗하게 정돈된 실험실이 아니라 매번 배치가 다르고 조명이 제각각이며 물건이 어질러진 실제 가정에서의 경험을 학습해야 합니다. HIW-500(Humanoids In-the-Wild Dataset) 은 바로 이 격차를 메우기 위해 등장한 대규모 휴머노이드 로봇 학습 데이터셋입니다. BitRobotUnitreeHugging Face와 함께 공개한 이 데이터셋은, 동남아시아의 실제 가정 12곳에서 휴머노이드 로봇 Unitree G1을 사람이 전신 원격조작(teleoperation)하여 모은 500시간 이상의 시연 기록을 담고 있습니다.

HIW-500의 핵심은 이름 그대로 In-the-Wild, 즉 통제되지 않은 자연스러운 환경에 있습니다. 로봇 학습 분야에서 오랫동안 발목을 잡아 온 문제는 실험실에서 잘 동작하던 정책(policy)이 실제 가정의 어수선함 앞에서 무너지는 것이었습니다. HIW-500은 가구 배치, 물건의 상태, 조명, 잡동사니, 그리고 조작하는 사람의 작업 스타일까지 에피소드마다 달라지도록 설계되어, 이런 분포 변화(distribution shift)에 강건한 모델을 학습시키기 위한 데이터를 제공합니다.

수집된 작업은 식탁 차리기, 냉장고 채우기, 빨래하기, 바닥 쓸기처럼 우리가 매일 마주하는 가정 내 활동입니다. 데이터셋은 이동 조작(mobile manipulation), 양팔 상호작용(bimanual interaction), 그리고 여러 단계를 거쳐야 완성되는 장기 시계열 가사 작업(long-horizon household skills)을 대상으로 하며, 모방 학습(imitation learning)을 비롯한 범용 로봇 학습 연구에 그대로 활용할 수 있습니다. 이 글에서는 HIW-500이 어떤 배경에서 나왔고, 무엇을 어떻게 수집했으며, 연구자가 이를 어떻게 활용할 수 있는지를 차근차근 살펴보겠습니다.

실험실을 벗어나 실제 가정으로: 왜 In-the-Wild 데이터인가

최근 로봇 학습은 대규모 시연 데이터로 정책을 학습하는 방향으로 빠르게 수렴하고 있습니다. Hugging Face의 LeRobot처럼 데이터셋과 학습 파이프라인을 표준화하려는 움직임, SmolVLAGoogle DeepMind의 Gemini Robotics처럼 시각-언어-행동(Vision-Language-Action, VLA) 모델을 만들려는 흐름은 모두 얼마나 다양하고 현실적인 데이터를 확보하느냐에 성패가 달려 있습니다.

그동안 공개된 많은 로봇 데이터는 잘 정돈된 연구실 책상 위에서, 고정된 조명과 단순한 배경 아래 수집되었습니다. 이런 데이터로 학습한 모델은 같은 조건에서는 잘 동작하지만, 소파 위에 빨래가 쌓여 있고 부엌 조리대가 어수선한 실제 집에 들어서는 순간 일반화에 실패하곤 합니다. 로봇 분야에서는 이를 sim-to-real 격차에 빗대어 lab-to-home 격차라고 부를 수 있을 만큼, 환경의 다양성은 곧 모델의 강건성과 직결됩니다.

HIW-500은 이 문제를 데이터 수집 단계에서부터 정면으로 다룹니다. 단일 실험실이 아니라 동남아시아의 실제 가정 12곳을 무대로 삼았고, 같은 작업이라도 집마다 가구와 동선, 물건의 위치가 다릅니다. 또한 한 명의 전문가가 아니라 여러 작업자가 각자의 스타일로 로봇을 조작했기 때문에, 같은 식탁 차리기라도 손이 움직이는 궤적과 순서가 에피소드마다 자연스럽게 달라집니다. 이렇게 의도적으로 주입된 다양성은 NVIDIA Isaac GR00TFigure 03처럼 가정용 휴머노이드를 지향하는 연구들이 공통적으로 필요로 하는 핵심 자산입니다.

아래는 실제 가정에서 Unitree G1이 사람의 원격조작으로 집안일을 수행하는 모습을 보여주는 시연 영상입니다. 정돈된 데모 무대가 아니라 생활감이 묻어나는 공간이라는 점에 주목해 주세요.

데이터셋 한눈에 보기: 500시간, 23,000개 에피소드, 12개의 집

HIW-500의 규모는 가정 환경 로봇 데이터셋으로는 상당한 수준입니다. 핵심 통계를 정리하면 다음과 같습니다.

항목 규모
시연 시간 500시간 이상
에피소드 수 23,000개 이상
데이터 용량 약 10 TB
가사 작업 종류 10종 이상
수집 가정 실제 가정 12곳
서브태스크 라벨 161종
서브태스크 주석 148,000개 이상

여기서 눈여겨볼 점은 단순한 시간이나 에피소드의 양뿐 아니라, 서브태스크 주석(subtask annotation) 의 밀도입니다. 161종의 세분화된 행동 라벨이 14만 8천 건 이상 부착되어 있어, 하나의 긴 가사 작업을 어떤 동작들의 연쇄로 분해해 학습할 수 있습니다. 이는 장기 시계열 작업을 단계별로 계획하고 실행하는 정책을 만들 때 특히 유용합니다.

위 차트는 작업별로 전체 데이터에서 차지하는 시간 비중을, 아래 차트는 작업별 에피소드 수를 보여줍니다. 특정 작업에 데이터가 쏠리지 않도록 여러 가사 작업에 시연이 고르게 분포되어 있다는 점을 확인할 수 있습니다.

무엇을 어떻게 수집했나: 하드웨어와 전신 원격조작

HIW-500의 모든 데이터는 사람이 Unitree G1을 전신 원격조작(whole-body teleoperation) 하는 방식으로 수집되었습니다. 즉, 사람이 로봇의 몸 전체를 직접 제어하며 집안일을 수행하고, 그 과정에서 발생하는 카메라 영상과 로봇의 상태, 행동 명령이 모두 동기화되어 기록됩니다. 자동으로 생성한 합성 데이터가 아니라 사람의 의도와 손놀림이 그대로 담긴 시연이라는 점이 핵심입니다.

하드웨어 구성은 가정 내 조작에 초점을 맞추고 있습니다. 로봇의 양손에는 집기, 놓기, 물건 다루기에 쓰이는 그리퍼(gripper) 가 장착되어 있고, 시각 관측을 위해 머리와 양 손목에 카메라가 배치됩니다. 머리 카메라는 장면 전체를 넓게 담아 작업 맥락과 이동을 파악하는 데 쓰이고, 손목 카메라는 로봇 손 주변의 근접 영상을 포착해 정밀한 조작을 돕습니다.

머리 카메라는 RGB 스테레오 방식으로 480p 해상도, 30 FPS로 기록되어 작업 공간 전체의 넓은 시야를 제공합니다. 손목에 장착된 카메라는 RGB와 함께 스테레오 적외선(stereo IR) 영상을 함께 캡처하는데, 적외선 스테레오는 가까운 거리에서 깊이 정보를 안정적으로 얻는 데 유리하여 그리퍼가 물체에 접근하고 파지하는 순간의 미세한 관측을 보강합니다.

에피소드에 담긴 데이터: 카메라, 로봇 상태, 행동, 언어 주석

각 에피소드는 단순한 영상 한 편이 아니라, 로봇 학습에 필요한 여러 모달리티(modality)가 시간축에 맞춰 함께 기록된 멀티모달 데이터입니다. 크게 카메라 스트림, 로봇 상태와 행동, 그리고 메타데이터의 세 갈래로 나뉩니다.

카메라 스트림(Camera Streams): 머리 카메라(RGB 스테레오, 480p, 30 FPS)와 손목 카메라(RGB 및 스테레오 IR, 480p, 30 FPS)가 동기화되어 기록됩니다. 넓은 시야와 근접 시야를 동시에 확보함으로써, 작업의 전체 맥락과 손끝의 정밀한 동작을 모두 학습에 활용할 수 있습니다.


로봇 상태와 행동(Robot State and Actions): 29자유도(29-DoF) 관절 상태, 엔드 이펙터(end-effector) 상태, 관성측정장치(IMU) 신호, 주행 거리 측정(odometry), 그리고 사람의 전신 원격조작에서 나온 행동 궤적(action traces)이 함께 저장됩니다. 관측(영상)과 행동(명령)이 짝지어져 있어, 관측을 입력받아 행동을 출력하는 정책을 모방 학습으로 곧장 학습할 수 있는 형태입니다.


메타데이터(Metadata): 각 에피소드에는 자연어로 된 언어 주석(language annotation), 에피소드 정보, 그리고 카메라 내부/외부 파라미터(camera intrinsics and extrinsics)가 포함됩니다. 언어 주석은 식탁을 차린다처럼 작업을 자연어로 연결해 주어, VLA 모델처럼 언어를 행동의 인터페이스로 삼는 연구에 바로 쓸 수 있습니다.

아래는 머리 카메라의 컬러 스테레오 스트림과 손목 카메라의 RGB 스트림 미리보기입니다. 같은 순간을 서로 다른 시점에서 어떻게 관측하는지 비교해 볼 수 있습니다.

다음 영상은 에피소드에 부착되는 메타데이터와 주석이 실제로 어떻게 구성되는지를 화면으로 보여줍니다.

집안일의 해부: 161개 서브태스크로 분해된 가사 작업

HIW-500이 다루는 작업은 우리에게 익숙한 가정 내 활동들입니다. 대표적으로 어린이용 테이블 조립(Building children table), 옷걸이 걸기, 방 정리, 식탁 차리기, 냉장고 채우기, 부엌 정리, 벽 고리에 열쇠 걸기, 소파에 베개 옮기기, 바닥 쓸기, 쓰레기 줍기, 빨래하기 등이 포함됩니다. 이들은 단순한 단일 동작이 아니라 여러 단계를 거쳐야 완성되는 장기 시계열 작업이라는 공통점이 있습니다.

이 지점에서 HIW-500의 차별점이 드러납니다. 모든 로봇 서브태스크에는 세분화된 행동 라벨이 부착되어 있어, 긴 작업 하나가 집기, 옮기기, 놓기, 펴기처럼 의미 단위의 동작 연쇄로 분해됩니다. 총 161종의 서브태스크 라벨 과 14만 8천 건 이상의 주석은, 로봇이 지금 무엇을 하고 있는지를 단계별로 이해하고 계획하도록 돕는 풍부한 지도 신호(supervision signal)가 됩니다. 이는 RUM(Robot Utility Models)이나 Helix처럼 다양한 작업을 하나의 정책으로 다루려는 연구에서 특히 가치가 큽니다.

위 차트는 작업별 평균 시연 길이를 보여줍니다. 작업의 복잡도에 따라 한 에피소드의 길이가 크게 달라지며, 여러 단계를 거치는 작업일수록 더 긴 시계열을 형성한다는 점을 알 수 있습니다.

아래 영상은 빨래하기 작업의 한 에피소드입니다. 옷을 다루는 일련의 동작이 어떻게 이어지는지, 그리고 그 안에서 서브태스크들이 어떻게 연쇄되는지를 가늠해 볼 수 있습니다.

로봇 학습 워크플로우를 위한 두 가지 포맷

HIW-500은 연구자의 워크플로우를 고려해 두 가지 형태로 Hugging Face에 호스팅됩니다. 하나는 원본에 가까운 ROS bag / MCAP 기록(raw recordings) 이고, 다른 하나는 로봇 학습에 바로 쓰기 좋은 LeRobot 포맷 입니다.

ROS는 로보틱스 분야에서 사실상 표준으로 쓰이는 미들웨어이며, MCAP은 다양한 센서 메시지를 효율적으로 저장하기 위한 컨테이너 포맷입니다. 원본 기록은 센서 데이터를 가공 없이 그대로 담고 있어, 자신만의 전처리 파이프라인을 설계하려는 연구자에게 적합합니다. 반면 LeRobot 포맷은 Hugging Face가 표준화한 로봇 학습용 데이터 형식으로, LeRobot 라이브러리의 데이터 로더와 학습 파이프라인에 그대로 연결되어 모방 학습 실험을 빠르게 시작할 수 있습니다.

이 가운데 어린이용 테이블 조립(Building children table) 작업의 원본 데이터에 관심이 있다면, 별도로 공개된 챌린지 데이터셋도 함께 살펴볼 만합니다.

로드맵과 의의: 가정용 휴머노이드를 향한 데이터 토대

HIW-500은 한 번에 끝나는 공개가 아니라 단계적으로 확장되는 로드맵을 가지고 있습니다. 2026년 6월의 V1 공개에서 500시간 이상의 데이터를 선보이고, 이후 V2에서는 더 많은 작업과 환경을 추가할 계획입니다. 데이터의 다양성과 규모가 모델의 일반화 능력을 좌우한다는 점을 생각하면, 가정과 작업의 폭을 넓혀 가는 이런 확장 전략은 자연스러운 선택입니다.

이 데이터셋의 의의는 단순히 양이 많다는 데 그치지 않습니다. 실험실이 아닌 실제 가정, 합성이 아닌 사람의 시연, 단일 동작이 아닌 장기 시계열 작업, 그리고 세분화된 서브태스크 주석이라는 네 가지 특성이 결합되어, 가정용 휴머노이드 로봇이 실제 생활 공간에서 부딪히는 복잡성을 정면으로 담아냅니다. World Action Model처럼 영상 기반으로 로봇 정책을 학습하려는 최신 흐름이나, 모방 학습으로 범용 가사 로봇을 만들려는 연구 모두에게 HIW-500은 실전에 가까운 학습 토대를 제공합니다.

물론 동남아시아 가정이라는 지역적 특성, 그리퍼 기반 조작의 한계, 원격조작 데이터 특유의 사람 의존성 등은 모델을 학습하고 평가할 때 함께 고려해야 할 부분입니다. 그럼에도 불구하고, 통제된 무대를 벗어나 실제 생활의 어수선함을 그대로 끌어안았다는 점에서 HIW-500은 가정용 로봇 학습 연구에 의미 있는 한 걸음을 더한 데이터셋이라 할 수 있습니다.

라이선스

공개된 HIW-500 데이터셋은 CC BY 4.0 라이선스로 배포되어, 출처를 표시하면 상업적 용도를 포함한 자유로운 이용이 가능합니다. 다만 HIW-500과 유사한 추가 데이터셋이나 맞춤형 데이터 수집은 별도의 상업 라이선스를 통해 제공되며, 이에 관심이 있다면 BitRobot 측에 문의할 수 있습니다.

:scroll: HIW-500 소개 블로그

:hugs: HIW-500 데이터셋

:robot: HIW-500 LeRobot 포맷 데이터셋

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:south_korea:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! 텔레그램(Telegram)이나 Slack/Discord/Teams/Dooray/GoogleChat 등으로도 새 글 알림을 받으실 수 있습니다. :smiley:

:wrapped_gift: 아래:down_right_arrow:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: