Google Gemini 2.0: 에이전트 시대를 위한 새로운 AI 모델 (및 주요 프로젝트 소개)

9bow · 12월 12, 2024, 3:30오전

Gemini 2.0 소개

Google이 차세대 AI 모델인 Gemini 2.0을 공개했습니다. 지난 12월 Gemini 10 발표에 이어 약 1년만에 공개된 이번 발표의 핵심은 에이전트 기반 AI(Agentic AI)로의 전환으로, 모델이 사용자를 대신해 더 복잡한 작업을 수행할 수 있게 되었습니다. 특히 주목할 만한 점은 네이티브 멀티모달 기능과 도구 활용 능력의 향상입니다.

이번 발표에서는 Gemini 2.0 Flash 모델 및 몇가지 프로젝트(Astra, Mariner) 등이 공개되었습니다. 자세한 내용은 아래 영상 및 글을 참고해주세요:

Gemini 2.0 Flash

Gemini 2.0의 첫 번째 모델인 Flash는 이전 버전인 1.5 Flash의 성공을 기반으로 개발되었습니다. 주목할 만한 특징은 다음과 같습니다:

1.5 Pro보다 2배 빠른 속도로 더 우수한 성능 발휘
네이티브 멀티모달 입출력(Native Multimodal I/O) 지원
- 이미지, 비디오, 오디오 입력 처리
- 텍스트와 이미지의 통합 생성
- 다국어 음성 합성(Text-to-Speech) 지원
도구 통합 기능
- Google Search 네이티브 연동
- 코드 실행(Code Execution) 지원
- 사용자 정의 함수(User-Defined Functions) 활용 가능

Gemini 2.0 Flash는 현재 Google AI Studio와 Vertex AI를 통해 실험적 모델로 제공되고 있습니다. 이 중, 멀티모달 입력 및 텍스트 출력은 모든 개발자들이 바로 사용 가능하며, 음성 합성과 네이티브 이미지 생성 기능은 얼리 액세스 파트너(Early Access Partner)들에게 먼저 제공됩니다. 또한 실시간 오디오, 비디오 스트리밍 입력을 지원하는 새로운 Multimodal Live API가 출시될 예정입니다.

Project Astra: 실생활에서 사용 가능한 멀티모달 에이전트

지난 Google I/O에서 선보였던 Project Astra는 실생활에서 AI 에이전트 활용을 연구하는 프로젝트로, 다음과 같은 개선사항이 포함되었습니다:

다국어 및 혼합 언어 대화 지원
Google Search, Lens, Maps 등 도구 통합
10분 단위의 세션 메모리와 개선된 대화 기억 능력
실시간 대화 수준의 지연 시간 구현

Project Astro와 관련한 더 자세한 내용은 다음 링크를 참고해주세요:

Project Mariner: 복잡한 작업을 수행하는데 도움을 주는 에이전트

Project Mariner는 브라우저 기반의 작업 자동화(Task Automation)를 위한 연구 프로토타입으로, WebVoyager benchmark에서 83.5%의 성능을 달성했습니다. Chrome 확장 프로그램을 통해 다음과 같은 기능을 제공합니다:

브라우저 화면의 픽셀 단위 이해
웹 요소(텍스트, 코드, 이미지, 폼) 분석
사용자 승인 기반의 자동화된 작업 수행

Project Marniner와 관련한 더 자세한 내용은 다음 링크를 참고해주세요:

Jules: 개발자를 위한 에이전트

Jules는 GitHub 워크플로우에 직접 통합되는 코드 에이전트로, 개발자의 지시와 감독 하에 문제를 해결하고, 계획을 수립 및 실행할 수 있습니다. Jules는 향후 코딩을 포함한 모든 영역에서 도움이 되는 AI 에이전트 구축을 위한 목표의 일환입니다.

Jules와 관련한 더 자세한 내용은 다음 링크의 글을 참고해주세요:

게임 및 기타 영역에서의 에이전트

Google DeepMind는 오랜 기간 게임을 활용하여 AI 모델이 규칙을 잘 따르면서 계획하고 논리적으로 행동하는 것을 보였습니다. 예를들어, 최근에는 플레이 가능한 3D 세계를 만들 수 있는 모델인 Genie 2를 공개했습니다. 여기에 게임 개발사 SuperCell과 협력하여 전략 시뮬레이션 게임인 '클래시 오브 클랜(Clash of Clans)'이나 농업 시뮬레이션 게임인 '헤이 데이(Hay Day)' 등에서 규칙과 과제 해석 능력을 시험해보고 있습니다. 이러한 에이전트들은 게임에서 사용자를 돕는 것 외에도, Google 검색을 활용하여 최신의 게임 지식을 검색 및 제공할 수 있습니다.

또한, Gemini 2.0의 공간 추론 기능을 적용하여, 가상 세계가 아닌 현실 세계에서도 로봇을 활용한 에이전트를 실험 중에 있습니다. 이러한 연구 및 실험에 대한 자세한 내용은 다음 링크의 Google Labs에서 확인하실 수 있습니다:

Gemeni 2.0 및 주요 프로젝트 소개 블로그

이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.

파이토치 한국 사용자 모임이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

아래쪽에 좋아요를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~