Whiteboard-of-Thought(WoT), Multimodal LLM을 위한 시각적 CoT(Chain-of-Thought)에 대한 연구

Whiteboard-of-Thought 연구 개요

인간은 시각적으로 사고하는 데 능숙합니다. 문제를 풀 때 우리는 이미지나 도식을 사용하여 복잡한 정보를 처리하고, 공간적 사고나 추상적 개념을 이해할 때도 이를 시각적으로 변환해 다루곤 합니다. 이와 달리, 대형 언어 모델(Large Language Models, LLM)은 텍스트 기반의 추론을 통해 문제를 해결하려고 시도합니다. 특히, 연쇄적 사고 유도(Chain-of-Thought, CoT) 기법을 통해 중간 추론 과정을 텍스트로 표현함으로써 복잡한 문제 해결에서 높은 성과를 보여왔습니다. 하지만 이러한 기법도 시각적 사고가 요구되는 문제에서는 한계를 보이고 있습니다.

이 연구에서는 이러한 문제를 해결하기 위해 Whiteboard-of-Thought(WoT) 기법을 제안합니다. WoT는 멀티모달 언어 모델(Multimodal Large Language Model, MLLM)이 텍스트와 이미지를 모두 처리하도록 하여, 중간 추론 과정을 시각적으로 표현한 후 이를 다시 모델에 입력하여 보다 정확한 답변을 생성할 수 있도록 합니다.

CoT(Chain-of-Thoght) 기법에 대한 소개 및 문제점

연쇄적 사고 유도(Chain of Thought, CoT) 기법은 모델이 문제 해결 과정을 단계별로 추론하도록 하는 방법입니다. 이는 특히 복잡한 수학적 계산이나 논리적 추론 문제에서 매우 효과적인 것으로 입증되었습니다. CoT는 모델이 단순히 최종 답변만 생성하는 대신, 문제를 해결하기 위한 중간 단계를 텍스트로 작성하여 모델의 사고 과정을 추적하고 문제를 점진적으로 해결하게 만듭니다.

하지만 CoT 기법은 시각적 사고가 필요한 문제에서 한계를 보입니다. 예를 들어, 공간적 관계나 시각적 배치를 이해해야 하는 문제에서는 텍스트만으로 중간 추론을 표현하기 어렵기 때문에, 이러한 문제에서는 정확한 답을 내지 못합니다. 본 논문에서는 이러한 문제를 해결하기 위해, 모델이 중간 단계에서 시각적 표현을 생성하고 이를 바탕으로 문제를 해결할 수 있도록 하는 WoT 기법을 제안합니다.

Whiteboard-of-Thought(WoT) 방법론

시각적 사고의 필요성

인간이 시각적 문제를 해결할 때는 흔히 그림을 그리거나 물리적인 도구를 사용해 문제를 해결합니다. 예를 들어, 문자 "q"의 시각적 특징을 설명하는 문제는 직관적으로 '원에 수직선이 오른쪽 아래로 이어진 모양'이라고 묘사할 수 있습니다. 이러한 문제는 시각적 사고가 필수적이며, 텍스트 기반의 연쇄적 사고로는 충분히 해결되지 않습니다.

WoT의 작동 원리

WoT는 모델이 중간 추론 단계에서 시각적 출력을 생성하고, 이를 다시 모델에 입력하여 추가적인 추론을 하도록 설계되었습니다. 이 과정에서 모델은 파이썬(Python) 라이브러리(Matplotlib 또는 Turtle)를 사용해 코드 형태로 시각적 정보를 생성합니다. 생성된 이미지는 모델로 다시 입력되며, 모델은 이를 바탕으로 문제를 해결하게 됩니다. 이를 통해 텍스트로만 해결할 수 없었던 시각적 문제들을 해결할 수 있습니다.

시각적 처리의 역할

시각적 처리의 핵심은 모델이 단순히 텍스트 기반의 추론을 넘어, 이미지를 통해 정보를 처리하는 능력을 활용하는 것입니다. MLLM은 이미지 인식 능력을 통해 이러한 시각적 출력을 분석하고, 이를 기반으로 새로운 추론을 수행할 수 있습니다. WoT는 기존의 텍스트 기반 중간 추론과 달리, 시각적 추론을 통해 공간적 사고나 시각적 문제에 더 적합한 방식으로 문제를 해결합니다.

실험

ASCII Art 이해 실험

ASCII(아스키) 아트는 문자나 기호의 조합으로 이미지를 표현하는 방식입니다. LLM은 이러한 ASCII 패턴을 텍스트로만 처리하려고 시도하지만, 공간적 배치나 시각적 의미를 제대로 이해하지 못하는 경우가 많습니다. 본 연구에서는 WoT를 적용하여 모델이 ASCII 문자를 시각적으로 재현하고 이를 통해 문제를 해결할 수 있도록 했습니다.

WoT(Whiteboard-of-Thought) 연구에서의 ASCII Art 실험 결과

실험 결과, WoT를 적용한 모델은 기존 CoT 기법으로는 풀 수 없었던 ASCII 아트 문제에서 현저하게 높은 정확도를 기록했습니다. 특히, 단순한 문자 패턴이 아닌 복잡한 시각적 배열을 포함한 문제에서도 효과적인 성능을 보여주었습니다.

공간 네비게이션(Spatial Navigation) 실험

공간 네비게이션(Spatial Navigation) 실험에서는 자연어로 주어진 공간적 지시에 따라 목적지까지의 경로를 찾는 문제가 주어졌습니다. 이 문제는 좌표 기반의 2D 그리드 환경뿐만 아니라 비그리드 구조(예: 원형, 육각형 등)에서도 실험이 진행되었습니다.

CoT 기법은 그리드 기반의 문제에서는 비교적 높은 성능을 보였지만, 비그리드 구조에서는 현저하게 낮은 성능을 보였습니다. 반면, WoT를 통해 모델이 시각적으로 경로를 그리게 한 결과, 다양한 구조에서도 일관된 성능 향상을 확인할 수 있었습니다.

Whiteboard-of-Thought의 실제 적용 사례

시화(Calligrams)

WoT는 시각적 형태로 배치된 시(Calligram)를 이해하는 데도 적용되었습니다. 시의 텍스트뿐만 아니라 그 시각적 배열 역시 중요한 의미를 가지기 때문에, 단순히 텍스트를 해석하는 CoT 기법은 올바른 답을 도출하지 못했습니다. 반면, WoT는 시각적 표현을 통해 시의 배치를 이해하고, 이를 바탕으로 보다 정확한 답변을 생성할 수 있었습니다.

비디오 게임 아트

또한 WoT는 비디오 게임과 같은 디지털 환경에서 사용자의 행동을 시각적으로 표현하고, 이를 분석하는 데에도 활용될 수 있습니다. 예를 들어, 게임 내에서 사용자가 생성한 이미지나 도형을 분석하여 그 의미를 파악하거나, 콘텐츠 적합성을 평가하는 작업에 적용할 수 있습니다.

결론 및 한계

Whiteboard-of-Thought(WoT)는 멀티모달 대형 언어 모델이 시각적 사고를 활용할 수 있도록 하여, 기존의 텍스트 기반 문제 해결 방식을 넘어서게 합니다. 이를 통해 CoT로는 해결할 수 없었던 시각적 문제를 효과적으로 해결할 수 있었습니다. 특히, ASCII 이해나 공간 네비게이션과 같은 문제에서 큰 성과를 보였습니다.

그러나 WoT는 시각적 정보를 처리하는 컴퓨터 비전 시스템에 대한 의존성이 크며, 현재의 모델들이 기하학적 도형이나 복잡한 시각적 정보 처리를 완벽하게 수행하지는 못한다는 한계가 있습니다. 향후 컴퓨터 비전 기술이 발전함에 따라 WoT의 성능 역시 더욱 향상될 것으로 기대됩니다.

:house: Whiteboard-of-Thought(WoT) 프로젝트 홈페이지

:scroll: Whiteboard-of-Thought(WoT) 논문

:github: Whiteboard-of-Thought(WoT) GitHub 저장소

(향후 공개 예정)




이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:

:pytorch:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:+1:를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~ :star_struck: