Google DeepMind, Gemini 기반 VLA(Vision-Language-Action) 모델 Gemini Robotics 출시

Gemini Robotics 소개

Figure의 Helix를 비롯하여, 다양한 Robot 모델들이 출시되는 가운데, Google DeepMind도 Gemini Robotics를 출시했습니다. Gemini Robotics는 Gemini 2.0을 기반으로 만들어진 모델로, 단순히 텍스트, 이미지, 음성, 영상 등의 데이터를 처리하는 것을 넘어, 현실 세계에서 직접 행동(Action)하는 인공지능 모델입니다.

이번에 공개된 모델은 두 가지입니다.

  1. Gemini Robotics: Vision-Language-Action (VLA) 모델로, 기존 Gemini 2.0을 기반으로 하여 로봇을 직접 제어할 수 있도록 설계되었습니다.

  2. Gemini Robotics-ER(Embodied Reasoning): 공간적 이해(Spatial Reasoning) 능력이 강화된 모델로, 연구자들이 직접 로봇을 훈련하고 활용할 수 있도록 만들어졌습니다.

DeepMind는 이번 Gemini Robotics 모델을 오픈소스로 공개하지 않았습니다. Gemini Robotics 모델은 Apptronik와 같은 특정 파트너와 인간형 로봇(휴머노이드) 개발 협력을 위해 사용하거나, Boston Dynamics, Agile Robots 같은 신뢰할 수 있는 일부 기업들에게 테스트 목적으로 제공되고 있습니다.

Gemini Robotics의 주요 기능

  • 범용성 (Generality): 사전에 학습하지 않은 새로운 환경과 사물을 즉석에서 이해할 수 있습니다. 학습되지 않은 새로운 작업도 수행 가능하며, 다양한 명령을 해석할 수 있습니다. 또한, 기존 VLA 모델 대비 2배 이상의 성능 향상을 보였습니다.
  • 상호작용 능력 (Interactivity): 자연어 명령어를 이해하며, 여러 언어를 처리할 수 있습니다. 또한, 주변 환경을 실시간으로 분석하고 변화에 즉시 적응할 수 있습니다. 예를 들어 물건을 떨어뜨리는 실수를 했을 경우, 이를 감지하고 즉각적으로 다시 계획을 세울 수 있습니다.
  • 손재주 (Dexterity): Gemini Robotics는 정밀한 손동작을 수행할 수 있습니다. 종이접기(Origami)나 지퍼백에 간식 넣기, 세밀한 물체 조작 등과 같은 기존 로봇이 어려워했던 작업들도 가능합니다.
  • 다양한 로봇 지원 (Multiple Embodiments): Gemini Robotics는 다양한 로봇 플랫폼에서 작동할 수 있도록 설계되었습니다. 예를 들어, ALOHA 2, Franka Arms, Apptronik의 Apollo 등 다양한 로봇에서 테스트되었습니다.

Gemini Robotics-ER의 주요 기능

Gemini Robotics-ER은 기존 Gemini 2.0보다 3D 감지 및 공간 추론 능력이 대폭 향상되었습니다. 예를 들어 컵을 보면서 자동으로 적절한 손가락 위치와 이동 경로를 계산할 수 있습니다. 또한, 코드 생성 기능이 추가되어, 기존 AI 모델보다 더 유연하게 사용 가능합니다. 사람의 간단한 시연만으로도 새로운 동작을 학습할 수 있습니다.

안전성과 사회적 고려

DeepMind는 AI 로봇의 안전성을 고려하여 다양한 연구를 병행하고 있습니다. 이를 위해 로봇 헌법 개념을 개발하였으며, 로봇 안전 가이드라인 연구를 진행 중입니다. 또한, ASIMOV 데이터셋을 공개하여 AI 로봇의 안전성을 평가하고 개선할 수 있도록 지원하고 있습니다.

DeepMind는 Apptronik뿐만 아니라 Boston Dynamics, Agile Robots 등 다양한 기업들과 협력하여 Gemini Robotics-ER을 실험하고 있습니다. 이를 통해 더 안전하고 유용한 AI 로봇을 개발하는 것이 목표입니다.

:house: Gemini Robotics 공식 페이지

:scroll: Google DeepMind의 Gemini Robotics 모델 출시 블로그

:scroll: Google DeepMind의 Gemini Robotics 모델 기술 문서

:spiral_notepad: Gemini Robotics 사용을 위한 신뢰할 수 있는 테스터 프로그램 신청 (waitlist)

신뢰할 수 있는 파트너 및 연구 기관으로 등록 신청, 만 18세 이상, Google의 데이터 처리 정책 동의 등 필요

더 읽어보기




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck:

3개의 좋아요