[GN⁺] Google SIMA - 3D 가상 환경을 위한 생성형 AI 에이전트

GeekNewsxguru님께 허락을 받고 GN에 올라온 글들 중에 AI 관련된 소식들을 공유하고 있습니다. :smiley_cat:

[GN⁺] Google SIMA - 3D 가상 환경을 위한 생성형 AI 에이전트

소개

  • DeepMind가 Scalable Instructable Multiworld Agent(SIMA)를 공개
      • Google DeepMind는 이전의 아타리 게임부터 인간 그랜드마스터 수준에서 StarCraft II를 플레이하는 AlphaStar 시스템에 이르기까지 AI와 게임 분야에서 오랜 역사를 가짐
  • SIMA는 3D 가상 환경을 위한 범용 AI 에이전트로 다양한 비디오 게임 환경에서 자연어 지시를 따라 수행 가능
  • 이번 연구는 개별 게임에 초점을 맞추는 대신 일반적이고 지시 가능한 게임 플레이 AI 에이전트로의 전환을 목표로 함
  • 다양한 게임 개발자들과 협력하여 여러 비디오 게임에서 훈련됨
  • AI 에이전트가 광범위한 게임 세계를 이해하고, 그 안에서 자연어 지시에 따라 작업을 수행할 수 있음을 처음으로 보여줌

비디오 게임에서 배우기

  • SIMA는 Hello Games의 No Man’s Sky 와 Tuxedo Labs의 Teardown 을 포함한 9개의 다양한 비디오 게임에서 훈련 및 테스트됨
  • 다양한 환경에 노출시키기 위해 게임 개발자들과 협력하여 8개 게임 스튜디오와 파트너십을 맺음
  • SIMA는 간단한 탐색, 메뉴 사용부터 자원 채굴, 우주선 조종, 헬멧 제작에 이르기까지 다양한 기술을 배움
  • Unity로 구축한 새로운 환경인 Construction Lab을 포함한 4개의 연구 환경에서도 사용됨

SIMA: 다재다능한 AI 에이전트

  • SIMA는 다양한 환경을 인식하고 이해한 후 지시된 목표를 달성하기 위한 행동을 취할 수 있는 AI 에이전트임
  • 정밀한 이미지-언어 매핑을 위한 모델과 화면에서 다음에 일어날 일을 예측하는 비디오 모델을 포함
  • 게임 소스 코드나 특정 API에 접근할 필요 없이 화면 이미지와 사용자가 제공하는 간단한 자연어 지시만 필요
  • SIMA는 키보드와 마우스 출력을 사용하여 게임의 중심 캐릭터를 제어하고 이러한 지시를 수행함

게임 및 기타 환경에서의 일반화

  • 여러 게임에서 훈련된 에이전트가 단일 게임에서만 훈련된 에이전트보다 더 나은 성능을 보임
  • 훈련된 환경에서 뿐만 아니라 보지 못한 환경에서도 인간 수준의 성능을 발휘하기 위해 더 많은 연구가 필요.
  • SIMA의 성능은 언어에 의존하며, 언어 훈련이나 지시 없이는 적절하지만 목적 없이 행동함

AI 에이전트 연구 발전

SIMA의 성능 평가 결과

  • SIMA의 결과는 일반적인 언어 기반 AI 에이전트 개발의 잠재력을 보여줌
  • 초기 단계 연구로, 더 많은 훈련 환경과 더 능력 있는 모델을 통합하여 SIMA를 더욱 발전시킬 것을 기대함
  • 최종적으로는 사람들에게 온라인과 실제 세계에서 유용하게 다양한 작업을 이해하고 안전하게 수행할 수 있는 일반 AI 시스템과 에이전트를 구축하는 것을 목표로 함

GN⁺의 의견

  • SIMA는 AI가 다양한 환경에서 인간처럼 지시를 이해하고 행동할 수 있는 능력을 보여주는 중요한 연구임
  • 이러한 연구는 AI가 단순한 작업 수행을 넘어 복잡한 전략적 계획과 다중 작업을 수행할 수 있는 미래를 열어줄 수 있음
  • 그러나 AI가 인간 수준의 성능을 발휘하기 위해서는 아직 많은 연구와 발전이 필요함
  • 이 기술이 실제 세계의 문제를 해결하는 데 어떻게 적용될 수 있는지, 그리고 AI의 일반화 능력이 어떤 잠재적 한계를 가질 수 있는지에 대한 논의가 필요함
  • 비슷한 기능을 가진 다른 AI 프로젝트로는 다양한 비디오 게임에서 학습할 수 있는 AI 플랫폼인 OpenAI Gym이 있음

Hacker News 의견

  • TI7에서 프로 도타 플레이어들과 대결할 수 있는 OpenAI가 공개된 것을 잊을 수 없음. 도타는 매우 복잡하고 어려운 게임임. 이 경험은 내 커리어에 큰 변화를 가져왔음.
  • 개발자들이 이 기술을 사용하여 NPC에게 더 많은 생명을 불어넣을 수 있기를 바람. 여러 RPG에서 독립적인 삶을 사는 NPC에 대한 약속이 실제로 눈에 띄는 결과로 이어진 적은 없지만, AI를 통해 이제 가까워지고 있을지도 모름.
  • MMORPG에서 이미 심각한 문제인 봇 사용이 플레이어 경제를 왜곡시키고 모두의 게임 경험을 저하시키고 있음. 이러한 골드파머들을 막기 위한 고양이와 쥐의 게임이 훨씬 더 어려워질 것임
  • 로봇 종말이 현실이 될 것이라는 공상과학은 더 이상 공상과학이 아님. "흥미로운" 폭력적 게임이 지루한 현실 시뮬레이터보다 훨씬 저렴하고 풍부하기 때문임.
  • 게임 개발 CI 도구로서의 사용이 흥미로울 것임. UI뿐만 아니라 글쓰기와 게임 흐름을 검증하는 종단간 플레이스루 테스트. "첫 나무를 자르는 데 걸린 시간: +20%"와 같은 보고서를 받는 상상을 해봄.
  • 이 기술 + Vtuber 기술 + 관객과 상호작용하는 챗봇 + 음성 변환 기술 == 게임 인플루언서 자동화
  • StarCraft II에서 DeepMind의 AlphaStar와 비교하여 SIMA가 얼마나 잘 수행할 수 있을지, 내가 고수준 지시를 내리고 SIMA가 실행한다면 어떨지 생각해봄. 그러다가 이런 종류의 전쟁 게임이 이미 테스트되고 있을지도 모른다는 불길한 느낌을 받음. AI가 일부 요청을 실행하기 전에 우려를 제기하고 확인을 요구하는 역방향 안전장치도 필요할 것임.
  • Ender’s Game을 생각나게 함, 그들은 아이에게 컴퓨터 게임을 하고 있다고 속여서 외계인 종족을 멸종시키게 만듦.
  • 2017년 4월 Nvidia의 "GeForce GTX G-Assist" 농담이 곧 실현될 수 있을 것임.
  • Transformer-XL을 2019년부터 사용하고 있음에 놀람 - XLNet과 같은 구조를 여전히 사용하는 사람들이 있다는 것을 몰랐음

DeepMind의 공지 블로그

SIMA 기술 문서

출처 / GeekNews