VLM(Vision-Language Model)과 시각 연역 추론에 대한 Apple의 연구

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • Apple이 최근 Multimodal 논문들을 많이 내고 있습니다. 지난 번 MobileCLIP이라거나 MGIE, Ferret 등에 이어, 이번에는 Vision-Language Model의 시각 연역적 추론 능력에 대해서 살펴보는 논문을 발표했습니다.

  • 주요 내용은 VLM의 추상적 사고 능력을 측정하기 위해 RPMs(Raven's Progressive Matrices)를 활용하고, 이를 통해 텍스트 기반의 추론 능력에 비해 시각적 연역 추론 능력이 부족함을 보이고 있습니다. 최근 텍스트 뿐만 아니라 영상 데이터를 비롯한 다양한 Multimodality를 처리하는 모델들이 등장하고 있는 가운데, 복잡한 시각 정보를 처리하고 해석하는 현재 기술의 한계를 이해하는데 도움이 될 것으로 예상합니다.

RPMs(Raven's Progressive Matrices)에 대한 시각적 연역적 추론을 설명하는 그림


논문 소개

Apple에서 공개한 이 연구는 다양한 비전 언어 작업에서 GPT-4V와 같은 모델의 획기적인 성과에도 불구하고, 복잡한 다단계의 관계형 및 연역적 추론(multi-hop relational & deductive reasoning)에 적용할 경우 그 기능이 부족하다는 사실을 밝혀냈습니다. 저자들은 멘사 IQ 테스트와 RAVEN을 포함한 다양한 데이터 세트에 대한 엄격한 평가를 통해 VLM(Vision-Language Model)의 내재적 한계를 밝히고 시각적 추론과 텍스트 추론의 중요한 숙련도 차이를 드러냈습니다.

이 글을 읽기 위해 필요한 2가지 주요 개념에 대해서 소개해드리겠습니다:

RPMs(Raven's Progressive Matrices)에 대한 시각적 연역적 추론을 설명하는 그림

  • RPMs(Raven's Progressive Matrices): RPM은 추상적 추론, 특히 비언어적이고 유동적인 지능을 측정하는 데 사용되는 표준화된 테스트입니다. 사용자가 기본 패턴을 파악하여 풀어야 하는 일련의 시각적 퍼즐로 구성됩니다.

  • 다단계의 관계형 및 연역적 추론((multi-hop relational & deductive reasoning): 문제 내의 여러 요소 간의 관계를 기반으로 여러 단계의 추론이 필요한 논리적 추론을 하는 능력을 말합니다.


일반적으로 VLM은 시각 정보와 텍스트 정보 간의 복잡한 상호 작용을 이해하도록 설계되며, 이미지의 콘텐츠와 텍스트가 제공하는 컨텍스트를 모두 이해해야 하는 작업을 수행할 수 있습니다. 이러한 기능 덕분에 VLM은 이미지 캡션과 시각적 질문에 대한 답변부터 시각적 단서와 언어적 단서 모두에서 정보를 종합해야 하는 복잡한 추론 작업에 이르기까지 다양한 애플리케이션에 매우 적합합니다.

VLM의 기능을 향상시키기 위한 기존의 방법은 주로 텍스트 콘텐츠나 단순한 시각적 텍스트 작업의 이해 및 생성 성능을 향상시키는 데 중점을 두었습니다. 문맥 내 학습(ICL, In-Context Learning), 자기 일관성(self-consistency), 생각의 연쇄(CoT, Chain-of-Thoughts) 접근법과 같은 기법은 텍스트 기반 추론 과제에서 효과를 보였습니다.

그러나 이러한 전략을 시각적 연역 추론 영역에 적용하면 그 효과가 크게 떨어집니다. 이는 시각적 추론 작업에서는 추상적인 패턴을 해석하고 복합적인 정보를 통합해야 하기때문으로 보입니다.

주요 기여 내용

이 연구의 주요한 기여는 시각적 단서만을 기반으로 멀티홉 관계 추론 및 연역적 추론을 수행하는 VLM의 능력을 체계적으로 평가한 데 있습니다. 이 연구는 Raven의 프로그레시브 매트릭스와 기타 복잡한 추론 데이터 세트를 활용하여 텍스트 추론 능력에도 불구하고 VLM이 시각적 연역 추론 과제에서 상당한 어려움을 겪는다는 사실을 밝혀냈습니다. 이 연구 결과는 현재 VLM의 한계를 강조할 뿐만 아니라 향후 이 분야의 연구 및 개발 방향을 제시한다는 점에서 매우 중요합니다.

평가 방법

시각적 연역 추론 과제에서의 성능을 평가하기 위해 GPT-4V를 비롯한 여러 유명 VLM을 종합적으로 평가하고 있습니다. 다양한 데이터셋에 대한 일련의 실험을 통해 복잡한 시각적 추론 퍼즐을 푸는 데 있어 현재 VLM의 맹점과 한계를 체계적으로 파악합니다.

RPM에서는 일련의 시각적 패턴이 제시되고 연역적 추론을 바탕으로 패턴을 완성하는 누락된 조각을 찾아내야 합니다. 텍스트 단서 없이 시각적 정보만을 바탕으로 추상적 관계에 대한 이해와 다단계 추론이 필요하기 때문에 VLM은 이러한 과제에 어려움을 겪습니다. 즉, 시각적 데이터만으로 심층적이고 추상적인 추론이 필요한 작업에서 VLM의 현재 역량에 한계가 있음을 보여줍니다.

이 연구의 방법론에는 시각적 작업에 특별히 적합한 상황 내 학습, 자기 일관성, 생각의 연쇄(CoT) 등의 표준 전략을 사용하여 여러 데이터셋에 걸쳐 VLM의 성능을 자세히 분석하는 것이 포함됩니다. 이 접근 방식은 텍스트 추론에 효과적인 기존 방법이 시각적 추론 능력으로 이어지지 못하는 정도를 보여줍니다. 이 분석은 VLM이 RPM 예제에서 혼란스러운 여러 추상적 패턴을 인식하고 이해하는 데 겪는 어려움을 포함하여 이러한 어려움의 원인에 대한 인사이트를 제공합니다.

평가 결과

Mensa IntelligenceTest RAVEN
Entropy Accuracy Entropy Accuracy Entropy Accuracy
GPT-4V 1.49 0.24±0.05 1.40 0.16±0.04 2.07 0.12±0.04
Gemini Pro 1.24 0.15±0.04 1.18 0.18±0.03 1.37 0.11±0.04
QWen-VL-Max 1.13 0.17±0.01 0.97 0.13±0.02 0.48 0.10±0.03
LLaVA-1.5-13B 0.72 0.23±0.01 0.64 0.09±0.01 0.25 0.10±0.03
GPT-4V (0-shot) 1.49 0.24±0.05 1.40 0.16±0.04 2.07 0.12±0.04
GPT-4V (1-shot) 1.41 0.22±0.06 1.31 0.17±0.04 2.03 0.12±0.04
GPT-4V (Self-consistency) 0.17 0.31±0.01 0.15 0.19±0.02 0.20 0.10±0.02
Gemini Pro (0-shot) 1.24 0.15±0.04 1.18 0.18±0.03 1.37 0.11±0.04
Gemini Pro (1-shot) 0.69 0.17±0.03 0.54 0.19±0.01 1.35 0.10±0.03
Gemini Pro (Self-consistency) 0.03 0.18±0.01 0.03 0.18±0.01 0.08

결론

종합적인 평가 결과에 따르면 VLM은 다양한 시각 언어 작업에서 뛰어난 능력을 보임에도 불구하고 시각적 연역적 추론에서는 여전히 뒤처지는 것으로 나타났습니다. 이러한 차이는 복잡한 시각 정보를 이해하고 해석하는 VLM의 능력을 향상시키는 데 초점을 맞춰 이 분야에 대한 추가 연구 개발이 필요함을 보여주고 있습니다.

예를 들어, 시각적 연역적 추론에서의 이러한 VLM의 한계는 자율주행 차량이나 의료 영상 분석과 같이 고도의 시각적 이해가 필요한 AI 애플리케이션에 중요한 영향을 미칩니다. 자율주행차의 경우, 복잡한 시각적 장면을 빠르고 정확하게 해석하는 능력은 안전한 주행을 위해 매우 중요합니다. 추상적인 시각 패턴을 이해하는 데 있어 VLM이 직면하는 어려움은 비전형적인 도로 표지판을 인식하거나 복잡한 도시 환경을 탐색하는 등 시각적 입력을 기반으로 미묘한 결정을 내리는 능력에 영향을 미칠 수 있습니다.

또한 시각 데이터의 정확한 해석이 진단에 중요한 의료 영상 분석의 경우에도 현재 VLM의 한계로 인해 텍스트 주석 없이 미묘한 패턴이나 이상 징후를 식별하는 데 한계가 있을 수 있습니다.


이러한 한계를 극복하기 위해 데이터셋의 품질 또는 다양성의 개선과 모델 구조의 발전이 필요할 것으로 보입니다. 다양하고 고품질의 데이터셋은 모델이 더 넓은 범위의 시각적 패턴과 관계를 학습하는 데 도움이 되어 복잡한 시각 정보를 이해하고 추론하는 능력을 잠재적으로 향상시킬 수 있습니다. 또한 추상적인 시각적 추론을 처리하도록 특별히 설계된 모델 아키텍처를 개발하면 이러한 작업에서 VLM의 성능을 개선할 수 있는 새로운 경로를 제공할 수 있습니다.

예를 들어, 공간 추론이나 추상적 패턴 인식에 특화된 모듈을 VLM에 통합하면 복잡한 시각 데이터를 처리하고 해석하는 능력을 향상시킬 수 있습니다. 또한 인간의 문제 해결 과정을 시뮬레이션하는 모델과 같은 인지 과학의 접근 방식을 통합하면 고급 시각적 추론이 가능한 AI 시스템을 설계하는 데 새로운 인사이트를 제공할 수 있을 것으로 기대합니다.

논문 읽어보기

Visual Reasoning Benchmark에 대한 GitHub 저장소




이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck: