OpenToM: 사람의 정신 상태를 이해하는 이론적 마음(Theory-of-Mind) 평가를 위한 벤치마크

PyTorchKR​:fire::kr: :thinking::speech_balloon:

  • 사람들과 어우러져 하루하루를 살아가다보면, 사람은 이성적인만큼 감정적인 존재라는 것을 종종 깨닫게 되는데요, 과연 인공지능은 이러한 인간의 정신 상태를 이해하고 예측할 수 있을까요? '이론적 마음(ToM, Theory-of-Mind)'은 다른 사람들이 나와 다르게 세상을 인식한다는 것을 알고, 그러한 자이를 추적하는 능력을 뜻하는 용어라고 합니다.

  • OpenToM은 이러한 ToM을 LLM이 얼마나 잘 이해할 수 있는지를 측정하기 위한 벤치마크로, 더 길고 명확한 내러티브, 명시적 성격 특성을 가진 캐릭터, 물리적 및 심리적 상태 모두를 모델링하는 능력 등을 평하가는 다양한 질문들로 이뤄져있다고 합니다. 이쯤되니 괜한 논문을 선택했다는 생각이 들기도 하는데요, GPT:robot:와 함께 읽어보시죠 :rofl:

  • 이 글은 GPT 모델로 정리한 것으로, 잘못된 부분이 있을 수 있으니 글 아래쪽의 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다. :hugs:


OpenToM: 대규모 언어 모델의 이론적 마음(ToM) 추론 능력 평가를 위한 포괄적 벤치마크

OpenToM: 대규모 언어 모델의 이론적 마음(ToM) 추론 능력 평가를 위한 포괄적 벤치마크

이론적 마음(ToM, Theory-of-Mind) 이란?

이론적 마음(ToM)은 자신과 타인에게 정신 상태—신념, 의도, 욕망, 감정, 지식—를 귀속시키고, 타인이 자신과 다른 신념, 욕망, 의도를 가지고 있다는 것을 이해하는 인지 능력입니다. 이 개념은 인간 사회적 상호 작용에서 중요하며, 기계가 인간 행동을 이해하고 예측할 수 있도록 개발하는 AI 연구에서 중요한 초점이 되었습니다. AI, 특히 대규모 언어 모델(LLM)에서 ToM의 발전은 인간 인지 능력과 기계 이해 사이의 격차를 좁히는 것을 목표로 하며, 더 자연스럽고 효과적인 인간-컴퓨터 상호 작용을 가능하게 합니다.

기존의 ToM 평가 방법

기존에는 AI에서 이론적 마음을 평가하기 위해서 주로 간단한 내러티브 작업과 직접적인 질문-답변 형식에 의존했으며, 물리적 행동과 관찰 가능한 결과에 초점을 맞췄습니다. 이러한 접근 방식은 AI가 기본적인 사회 시나리오를 이해하는 데 초기 통찰력을 제공했지만, 미발언 의도, 감정 및 복잡한 사회적 역학을 이해하는 더 깊은 인지 능력을 평가하는 데는 부족했습니다. 뉘앙스가 부족한 내러티브, 피상적인 캐릭터 개발, 인간 정신 상태의 전체 스펙트럼을 포착하지 못하는 좁은 범위의 질문 유형 등의 한계가 있었습니다.

OpenToM 벤치마크 소개 및 구성

OpenToM 벤치마크는 기존 N-ToM 평가의 한계를 극복하기 위해 여러 혁신적인 아이디어를 도입합니다. 첫째, 복잡한 사회적 상호 작용을 평가하는 데 필요한 풍부한 맥락을 제공하는 더 길고 자세한 내러티브를 포함합니다. 둘째, 캐릭터 기반 행동에 기반한 AI의 정신 상태 추적 및 예측 능력을 더 깊이 평가할 수 있도록 명시적인 성격 특성과 선호도를 가진 캐릭터를 도입합니다. 이러한 기능은 심리적 상태에 초점을 맞추고, 이론적 마음 추론 능력에 도전하는 더 넓고 뉘앙스 있는 질문 범위를 도입함으로써 이전 벤치마크와 크게 달라집니다.

OpenToM의 단순화된 스토리와 그에 해당하는 1차 ToM 질문의 그림
ToM 예시. 이 스토리에는 두 명의 주인공이 등장합니다: 샘(관찰자) 와 에이미(움직이는 사람), 그리고 관심 대상인 고무 오리 관련된 컨테이너는 두 가지입니다: 바구니와 에이미의 배낭. OpenToM 내의 각 내러티브는 다음과 같습니다. 세 가지 유형의 질문이 뒤따릅니다. 엔티티의 위치(Loc)에 관한 질문, 멀티-홉 추론(MHop)을 포함하는 질문 멀티-홉 추론(MHop)을 포함하는 질문, 등장인물의 태도에 대한 태도(Att)에 관한 질문이 있습니다.


즉, 기존의 대규모 언어 모델의 이론적 마음 추론 능력을 평가하는 벤치마크는 종종 모호한 내러티브, 캐릭터의 깊이 부족, 심리적 상태보다 물리적 상태에 초점을 맞춘 문제로 인해 AI의 사회적 지능을 평가하는 데 효과적이지 않습니다. AI가 인간과 더 개인적이고 감정적인 수준에서 이해하고 상호 작용할 수 있게 하려면 이러한 ToM을 평가하고 개선해야 합니다. 또한, 이를 통해 건강 관리, 교육, 고객 서비스와 같은 분야에서 AI의 적용 가능성을 향상시킬 수 있습니다.



위 그림의 스토리를 예로 들어 의인화 과정에서 생성된 특징들을 파트 (A)에 표시하면 캐릭터 선호도(:heart:), 상대 캐릭터의 선호도 믿음(:clubs:), 교란된 이동자의 선호도 믿음(:spades:), 이동자의 성격 특성(⋆), 이동자의 의도 및 행동(:diamonds:)이 포함됩니다. OpenToM 플롯에서 이러한 정보의 사용법은 문단 표시기 옆의 파트 (B)에 나와 있습니다. 휴먼 어노테이션 및 규칙 기반 라벨 생성 프로세스에 대한 자세한 설명은 논문의 Appendix A.3을 참조하세요.

LLM을 평가하기 위한 OpenToM 벤치마크의 구현은 여러 핵심 구성 요소를 포함합니다. 내러티브는 실제 세계의 사회적 상호 작용을 반영하는 명확한 캐릭터 중심의 줄거리를 포함하여 복잡한 인간 행동을 이해하는 LLM의 평가를 가능하게 합니다. 벤치마크는 또한 이론적 마음 추론의 다양한 측면을 탐구하기 위해 설계된 다양한 장르의 질문을 분류합니다. 이 다면적 접근 방식은 LLM의 능력을 종합적으로 평가할 수 있게 하여, 물리적 상태 모델링에서의 강점과 심리적 상태 이해에서의 약점을 강조합니다.

주요 LLM들의 평가 결과


Loc_cLoc_f 는 각각 거칠고(coarse) 미세함(fine)을 나타냅니다. 괄호 안의 대문자 F와 S는 1차(First-order) ToM과 2차(Secnod-order) ToM을 나타냅니다. Naive Baseline 컬럼의 Ran.은 무작위 추측(Random Guess), Maj.는 과반수(Majority)를 뜻합니다. 그리고 FT 컬럼은 미세조정 기준선(Fine-Tuned Baseline.)은 논문의 Appendix D.3의 구성에 따라 미세조정된 Llama2-Chat 13B 모델입니다.

OpenToM을 사용하여 최신 LLM을 평가한 결과, LLM은 물리적 상호 작용과 관련된 특정 정신 상태의 모델링에서 능숙하지만, 캐릭터의 심리적 정신 상태를 추적하고 예측하는 데는 어려움을 겪는 것으로 나타났습니다. 이 성능 차이는 인간 심리와 사회적 상호 작용에 대한 뉘앙스 있는 이해를 개발하는 현재의 도전을 강조합니다. OpenToM의 결과는 LLM의 현재 능력에 대한 귀중한 통찰력을 제공할 뿐만 아니라 이 분야에서 추가 연구 및 개발의 필요성을 강조합니다.

더 읽어보기

OpenToM 홈페이지

OpenToM 논문

OpenToM GitHub 저장소

OpenToM 데이터셋




:fire:파이토치 한국 사용자 모임:kr:이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일:love_letter:로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)

:gift: 아래:arrow_lower_right:쪽에 좋아요:heart:를 눌러주시면 뉴스 발행에 힘이 됩니다~ :star_struck:

3개의 좋아요