Gemini의 추론 능력: 멀티모달 LLM의 '상식'에 대해 알아보기

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • Google DeepMind에서 공개한 Gemini는 다양한 형태의 데이터를 이해하고 처리할 수 있는 멀티모달 LLM(M-LLM, Multimodal LLM)으로, 최근의 기술 혁신 중 하나로 주목받고 있습니다. OpenAI의 GPT-4V(ision, gpt-4v)를 비롯하여 올해는 대규모 멀티모달 모델(LMM, Large Multimodal Model)들에 대한 관심이 높아질 것으로 보입니다.
  • 이런 가운데, Google Gemini의 추론(reasoning) 능력에 대해 살펴본 논문이 있어 GPT와 함께 읽어보았습니다. 일반적인 상식과 맥락적 이해, 시간적 추론과 사회적 상호작용, 윤리적 판단 등에 대한 추론 능력을 비교 및 설명합니다.
  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

Gemini의 추론 능력: 멀티모달 LLM의 상식에 대해 알아보기 (Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models)

Gemini 모델 소개

구글 딥마인드(Google DeepMind)에 의해 개발 새로운 AI 모델인 Gemini는 다양한 멀티모달 작업을 수행할 수 있는 능력을 가지고 있습니다. 즉, 텍스트, 이미지, 오디오, 비디오 및 코드를 포함한 다양한 형태의 정보를 일반화하고, 원활하게 이해하고, 조합하여 텍스트 요약, 이미지 이해, 오디오 처리, 비디오 이해, 멀티모달 추론 및 코드 분석 및 생성 등이 있습니다. 또한, 다양한 언어에 걸쳐 번역 작업 및 기능을 수행할 수 있는 광범위한 다국어 능력을 가지고 있습니다.

Gemini 모델은 구글의 최신 Tensor Processing Units(TPUs)를 사용하여 대규모 데이터에 대해 학습되었으며, 다양한 언어와 모달리티에 걸쳐 광범위한 능력을 보여줍니다. 현실 세계의 다양한 문제를 해결을 위해 Gemini 모델은 서로 다른 목적과 크기의 세 가지 버전으로 제공되며, 각 모델은 다음과 같습니다:

  • Gemini Ultra 모델은 가장 복잡한 과제에 사용되며, 물리 문제와 같은 복잡한 문제를 단계적으로 해결하거나 과학 논문에서 관련 정보를 추출하는 데 사용될 수 있습니다.

  • Gemini Pro 모델은 다양한 과제를 처리하는 데 적합하며, 현재 텍스트 전용 형태로 Bard에서 사용되고 있습니다. 기존의 모델들보다 향상된 추론, 계획 및 이해 능력을 제공합니다.

  • Gemini Nano 모델은 모바일 장치에서 직접 실행(on-device)할 수 있을 정도로 작고 효율적인 모델로, 현재는 Google Pixel 8 Pro에서 Recorder 앱과 Smart Reply 기능을 제공하는데 사용하고 있습니다.

Gemini의 상식적 추론 및 다양한 도메인에 대한 응용

Gemini 모델 평가에 사용한 '상식' 데이터셋 개요(Overview of commonsense datasets used in our experiments)
답변 종류(Answer Type)의 K-Way MC는 K개의 보기 중에서 정답을 고르는 문제임을 나타냅니다. 예시 문제(Example Questions)의 굵은 글씨가 정답입니다.

우리가 살펴볼 "Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models" 논문에 따르면, Gemini는 다양한 데이터셋에서 상식적 추론 능력을 보여주고 있습니다. 특히, Gemini 모델은 특정 영역에서 뛰어난 성능을 보였지만, 시간적 및 사회적 추론, 감정 인식 등에서는 어려움을 겪었습니다.

Gemini의 상식적 추론 능력은 AI의 인간 같은 이해력과 상호작용 능력에 기여하는 중요한 요소입니다. 이 능력을 평가하는 것은 AI의 발전을 이해하는 데 중요하며, 특히 복잡한 시나리오에서의 미묘한 이해와 해석에 있어서 여전히 중대한 도전이 남아 있습니다.

이러한 상식적 추론 능력의 발전은 과학, 금융 등 다양한 분야에서의 새로운 돌파구를 가져올 수 있으며, 향후 연구는 이러한 능력을 향상시키는 데 초점을 맞추어야 할 것입니다.

상식적 추론의 중요성과 Gemini의 역할

상식적 추론은 인간이 일상 생활에서 직면하는 복잡한 상황을 이해하고 해석하는 데 필수적인 역할을 합니다. 예를 들어, 날씨에 따라 옷을 고르는 것은 단순한 선택이 아니라 날씨 패턴, 옷의 적합성, 사회적 맥락 등 다양한 지식을 종합하는 과정을 포함합니다. 구글의 Gemini는 이러한 상식적 추론을 디지털 세계에서 구현하려는 시도 중 하나로, 멀티모달 데이터를 이해하고 처리하는 능력이 특징입니다. 이 모델은 텍스트, 이미지, 오디오 등 다양한 형식의 정보를 통합하고 처리할 수 있도록 설계되었으며, 이러한 멀티모달 접근 방식은 AI의 이해력을 인간에 더 가깝게 만들려는 노력의 일환입니다.

성능 평가 및 비교

논문의 평가 결과에 따르면, Gemini는 상식적 추론 작업에서 GPT-3.5 Turbo와 비슷한 수준의 성능을 보였지만, GPT-4 Turbo에 비해서는 다소 뒤처졌습니다. 특히 시간적 및 사회적 추론과 이미지 내 감정 인식에서의 어려움이 발견되었습니다. 이러한 결과는 Gemini가 아직 완벽하지 않으며 특정 영역에서는 개선의 여지가 있음을 보여줍니다.

GPT-4V와 Gemini Pro Vision의 VCR 데이터셋에 대한 성능 비교 결과

예를 들어, Gemini는 일반적인 상식적 추론에서 높은 수준의 이해력을 보였지만, 더 복잡하고 추상적인 사고를 요구하는 시간 관련 추론이나 수수께끼 해결에서는 한계를 드러냈습니다. 이는 AI가 인간처럼 다양한 상황에서 유연하게 생각하고 추론하는 능력을 갖추기 위해서는 여전히 해결해야 할 과제가 많다는 것을 의미합니다.

상세한 분석과 향후 발전 방향

Gemini의 추론 능력에 대한 분석은 모델이 올바른 답변을 제공하는 것뿐만 아니라 상황에 근거한 타당한 추론을 할 수 있는지에 초점을 맞췄습니다. 이를 위해 연구팀은 다양한 상식적 추론 데이터셋을 사용하여 모델의 추론 과정을 평가했습니다. 즉, Gemini Pro는 일반적인 상황에서 적절한 추론을 보였으나, 시간적 상황이나 사회적 상황에서는 더 명확한 맥락이나 정보가 필요한 경우가 많았습니다. 이는 상식적 추론이 단순한 정보 처리를 넘어서 다양한 맥락과 상황을 이해하고 통합하는 능력을 필요로 한다는 것을 보여줍니다.

또한, Gemini 모델은 시각적 내용에서 감정을 해석하거나 공간적 관계를 정확히 파악하는 데 어려움을 겪었는데, 이는 시각적 맥락에서의 논리적 추론과 감정 인식이 AI에게 여전히 도전적인 영역임을 나타냅니다.

언어 기반 LLM 추론 능력 평가 시의 에러 유형
시각 기반 M-LLM 추론 능력 평가 시의 에러 유형

더 읽어보기

논문

언어 기반(Language-based) 상식(Common Sense) 데이터셋 11종

데이터셋 이름 설명 참고 URL
CommonsenseQA 상식적 질문 답변을 위한 데이터셋 CommonsenseQA Dataset
Cosmos QA 문맥적 이해에 중점을 둔 서술형 스토리 기반의 질문-답변 데이터셋 Cosmos QA Dataset
αNLI (Abductive NLI) 가능한 가장 그럴듯한 설명을 추론하는 것에 초점을 맞춘 추론 데이터셋 αNLI Dataset
HellaSWAG 맥락적 이벤트 시퀀스 추론을 위한 데이터셋 HellaSWAG Dataset
TRAM 시간에 관한 추론 능력을 평가하는 데이터셋 TRAM Dataset
NumerSense 일상적 맥락에서 숫자에 대한 이해를 평가하는 데이터셋 NumerSense Dataset
PIQA 물리적 상호작용에 관한 지식을 평가하는 데이터셋 PIQA Dataset
QASC 과학 관련 추론을 평가하는 데이터셋 QASC Dataset
RiddleSense 창의적 사고를 측정하기 위한 수수께끼 해결 데이터셋 RiddleSense Dataset
Social IQa 사회적 상호작용에 대한 이해를 평가하는 데이터셋 Social IQa Dataset
ETHICS 도덕적 및 윤리적 추론 능력을 평가하는 데이터셋 ETHICS Dataset

사용한 시각적 상식 데이터셋 1종

데이터셋 이름 설명 참고 URL
VCR 시각적 상황에 대한 이해와 추론을 평가하는 데이터셋 VCR Dataset




:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck:

1개의 좋아요