Gemini Robotics 1.5: Google DeepMind가 새로 공개한 사고하고 배우며 안전하게 진화하는 로봇 AI

9bow · 9월 29, 2025, 9:30오전

Gemini Robotics 1.5 소개

Google DeepMind가 공개한 Gemini Robotics 1.5는 기존 로봇이 단순히 명령을 따라 움직이는 수준을 넘어, 스스로 사고하고, 계획하며, 도구를 활용해 복잡한 다단계 작업을 수행할 수 있도록 설계된 차세대 로봇 AI 모델입니다. 이는 단순한 성능 개선을 넘어, 물리적 세계에서 범용 인공지능(AGI) 실현에 한 발짝 다가선 의미 있는 진보로 평가됩니다.

올해 3월 공개된 초기 Gemini Robotics가 Gemini 2.0 기반 멀티모달 AI를 물리적 로봇에 처음 적용했다면, 이번 Gemini Robotics 1.5는 한 단계 더 나아가 “행동 전에 생각(Thinking before Acting)” 하는 능력과 체화된 추론(Embodied Reasoning) 의 고도화를 통해 로봇의 일반화 능력과 신뢰성을 크게 강화했습니다.

이번에 공개한 Gemini Robotics 1.5는 두 가지 핵심 모델이 협력하는 에이전트 프레임워크(agentic framework) 로 작동합니다.

Gemini Robotics-ER 1.5: 로봇의 ‘두뇌’에 해당하는 모델로, 공간 이해와 고차원 추론을 담당합니다. 단순히 물체를 인식하는 데 그치지 않고, 상황에 따라 “세척 후 분리해야 한다”와 같은 맥락적 결정을 내리며, 필요하면 Google Search나 외부 함수 호출을 통해 정보를 스스로 확보할 수도 있습니다.
Gemini Robotics 1.5 (VLA): ER 모델이 설계한 계획을 실제 물리적 동작으로 수행하는 역할을 맡습니다. 물체 인식, 손동작 제어 등 실행 단계에서 강점을 보이며, 행동 전에 내부적으로 사고 과정을 거쳐 최적의 움직임을 계획합니다. 이 과정은 자연어로 설명 가능해, 로봇의 판단 과정을 사람이 이해하고 신뢰할 수 있도록 돕습니다.

즉, Robotics-ER 1.5 모델은 고수준의 계획과 추론을, Robotics 1.5 모델은 저수준의 실행과 적응을 맡아 두뇌와 손발처럼 협력합니다.

Gemini Robotics 1.5 주요 특징

환경 이해와 추론 능력 (Understands its Environment)

Gemini Robotics-ER 1.5는 체화된 추론(embodied reasoning) 을 최적화한 모델로, 로봇이 단순히 ‘보는 것’을 넘어 “이 상황에서 무엇을 해야 하는가” 를 판단할 수 있도록 합니다. 체화된 추론이란 환경 속에서 물체와 공간의 관계 해석 및 특정 작업 달성을 위한 논리적 계획을 세우는 능력으로, 이는 물류창고에서 “상품을 올바른 위치에 정리하라”는 지시를 따르거나, 가정 내에서 “컵을 싱크대 위에 올려놔” 같은 맥락적 명령을 수행하는데 직접 응용할 수 있습니다.

Google DeepMind는 ER 1.5를 ERQA(Embodied Reasoning Question Answering), Point-Bench를 포함한 15개 학술 벤치마크에서 평가했으며, 공간 이해·시각 질의응답·비디오 질의응답 등에서 최신 최고 성능(state-of-the-art)을 기록했습니다. ERQA는 로봇이 “이 물체를 어디에 두어야 하는가?” 같은 질문에 답하는 능력을 평가하며, Point-Bench는 로봇이 특정 위치를 가리키거나 물체의 공간 좌표를 정확히 인식하는 능력을 평가하는 벤치마크입니다.

https://deepmind.google/api/blob/website/media/er_capabilities_sept24_NeAsztE.mp4

즉, 이러한 결과는 Robotics-ER 1.5 모델이 주변 환경을 인식하고, 주변 상황에 맞는 결정을 내릴 수 있는 능력을 입증한 것입니다. 이는 로봇이 실제 환경에서 주어진 지침을 논리적으로 해석하고 계획할 수 있음을 보주는 한 편, 단순 연구 수준을 넘어 실제 파트너 기업과의 테스트 프로그램에서 검증된 결과라는 점에서 의의가 큽니다.

행동하기 전에 생각하기 (Thinks before Acting)

두 번째 특징은 행동 전에 생각하는 능력입니다. 기존의 로봇 제어 모델(VLA 모델)은 명령을 그대로 동작으로 옮기는 방식이었지만, Gemini Robotics 1.5는 내부적으로 사고 과정을 거쳐 행동을 계획한 뒤 실행에 옮깁니다. 예를 들어, “빨래를 색상별로 분류해줘”라는 요청을 받으면 다음과 같이 동작합니다:

“흰옷은 흰색 바구니에, 색깔 옷은 검정 바구니에 넣는다”라는 규칙을 먼저 이해
“빨간 스웨터를 들어 검정 바구니에 넣는다”와 같은 식의 단계별 계획을 수립
스웨터를 잡기 쉽도록 가까이 끌어오는 것과 같은 세밀한 동작까지 사고 후 실행

이처럼 복잡한 작업을 작은 단위로 나눠 처리하기 때문에 긴 작업도 안정적으로 수행할 수 있고, 환경이 바뀌더라도 새로운 상황에 유연하게 대처할 수 있습니다.

로봇 간 지식 전이(Learns across Embodiments)

지금까지는 로봇마다 구조가 다르기 때문에 같은 작업을 시키려면 각 로봇에 맞춰 다시 학습시켜야 했습니다. 이는 단순히 형태 뿐만 아니라 탑재된 센서 및 관절의 자유도(DoF) 등과 같은 세부 사양들이 다르기 때문입니다. 하지만 Gemini Robotics 1.5는 체화된 지식 전이(embodiment transfer) 기능을 통해 하나의 로봇에서 학습한 행동을 다른 로봇들에서도 재학습 없이 곧바로 수행할 수 있습니다.

실제로 ALOHA 2라는 양팔 로봇에서 학습한 작업이 Apptronik의 휴머노이드 로봇 Apollo나 Franka 로봇 팔에서도 별도의 학습 없이 그대로 실행되는 것을 확인하였습니다. 이러한 체화된 지식 전이 기능은 새로운 로봇을 도입할 때마다 막대한 비용과 시간을 들여 다시 학습하여 적응하는 시간을 단축하여 실제 로봇 활용성을 크게 높이는 돌파구가 될 수 있습니다.

안전성과 책임 있는 AI (Safety and Responsibility)

DeepMind는 Gemini Robotics 1.5를 개발하면서 단순히 성능만 높이는 것이 아니라, 사람 중심 환경에서 안전하게 활용될 수 있는가를 중요한 목표로 삼고 있습니다. 이를 위해 내부적으로 Responsibility & Safety Council(RSC) 및 Responsible Development & Innovation(ReDI) 라는 전담 팀이 로봇 연구팀과 협력하며, 개발 과정 전반이 Google의 AI 원칙에 맞게 진행되도록 관리하고 있습니다.

Gemini Robotics 1.5의 안전 접근 방식은 다층적이고 전체론적(holistic) 입니다. 고수준에서는 로봇이 행동하기 전에 “이 행동이 안전한가?” 를 사고 과정에서 고려하도록 하고, 사람과의 대화에서도 무례하거나 위험한 답변을 피하기 위해 기존 Gemini 안전 정책(Gemini Safety Policies)에 맞춰 설계되었습니다. 저수준에서는 로봇 하드웨어에 충돌 회피 같은 안전 서브시스템을 내장해, 실제 움직임에서 발생할 수 있는 물리적 사고를 방지합니다.

안전 연구를 뒷받침하기 위해 딥마인드는 ASIMOV 벤치마크도 강화하여 공개했습니다. ASIMOV는 로봇의 의미론적 안전성(semantic safety)을 측정하는 데이터셋 모음으로, 이번 업그레이드 버전에는 더 다양한 상황(“tail coverage”), 개선된 주석, 새로운 안전 관련 질문 유형, 그리고 비디오 기반 평가 방식까지 포함되었습니다. 이 데이터셋은 학계와 산업계 모두가 로봇의 안전성을 평가하고 개선하는 데 활용할 수 있도록 개방되었습니다.

실제 안전성 평가에서 Gemini Robotics-ER 1.5는 ASIMOV 벤치마크에서 최신 최고 성능을 달성했으며, 특히 사고 과정을 활용해 의미론적 안전성을 더 잘 이해하고 물리적 제약을 더 엄격히 준수하는 결과를 보였습니다. 이는 단순히 규칙 기반 안전 기능을 추가한 것이 아니라, 로봇이 스스로 사고하는 과정에서 안전성 자체를 고려하도록 학습되었음을 보여줍니다.

물리적 세계에서 AGI로 나아가는 이정표

Gemini Robotics 1.5는 단순히 로봇의 제어 성능을 끌어올린 수준이 아니라, 물리적 세계에서 AGI(범용 인공지능)에 한 걸음 더 다가선 중요한 이정표로 평가됩니다. 기존 로봇 모델이 “주어진 명령에 반응하는 시스템”이었다면, Gemini Robotics 1.5는 그 한계를 넘어 스스로 추론하고, 계획하며, 필요한 경우 도구를 활용하고, 새로운 상황에도 일반화할 수 있는 에이전트형 AI로 진화했습니다.

이러한 변화는 단순히 기술적 성과를 넘어, 앞으로 로봇이 지능과 기민함을 동시에 갖춘 존재로 성장할 수 있는 토대를 마련합니다. 예를 들어, 가정에서는 집안일을 돕고, 물류 현장에서는 예기치 못한 장애물을 피해가며 재계획을 세우고, 병원에서는 환자와 상호작용하며 상황에 맞는 도움을 줄 수 있는 로봇으로 발전할 가능성이 열렸습니다.

DeepMind는 이를 “기초적 단계”라고 표현하며, 연구 공동체와 함께 이 분야를 발전시키겠다는 의지를 드러냈습니다. 특히 Gemini Robotics-ER 모델은 연구자들이 새로운 실험과 응용을 시도할 수 있는 기반이 되어, 로봇공학 커뮤니티가 만들어낼 다양한 확장과 활용이 기대됩니다.

Gemini Robotics 공식 홈페이지

Gemini Robotics 1.5 공개 블로그

Gemini Robotics 1.5 기술 문서(Tech Report)

Gemini Robotics 사용을 위한 신뢰할 수 있는 테스터 프로그램 신청 (waitlist)

신뢰할 수 있는 파트너 및 연구 기관으로 등록 신청, 만 18세 이상, Google의 데이터 처리 정책 동의 등 필요

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~