AGI 시대의 HCI 연구 방향(HCI for AGI)에 대한 글 소개
인공지능 모델이 점점 더 강력해지고 있습니다. 특히 AGI(Artificial General Intelligence)로의 발전이 가속화되면서, AI 기술을 더 직관적이고 유용하게 활용할 수 있도록 하는 HCI(Human-Computer Interaction) 연구가 필수적입니다. AI가 인간과 협력하여 가치를 창출하는 방식에 대한 연구가 필요한 시점입니다.
이번에 살펴볼 'HCI for AGI'라는 제목의 글은 AGI 시대에 HCI 연구가 나아가야 할 방향에 대해서 살펴보고 있습니다. 이 글은 Google DeepMind의 Meredith Ringel Morris가 HCI 분야의 연구/디자인/실무 관련 연구와 논의를 다루는 ACM(Association for Computing Machinery) 산하의 Interactions 저널에 기고한 글로, 어떻게 상호작용과 인터페이스 설계, 평가 방법 등이 발전해야 할지를 다루고 있습니다.
이 글의 저자인 Meredith Ringel Morris는 Google DeepMind의 수석 과학자(Principal Scientist) 겸 인간-AI 상호작용 연구 디렉터(Director for Human-AI Interaction Research)로 활동하고 있는 저명한 연구자입니다. 그녀는 HCI(Human-Computer Interaction, 인간-컴퓨터 상호작용)와 AI의 접점을 연구하며, 사용자 중심 AI(human-centered AI), 인터랙션 디자인, 평가 방법론, 그리고 AI의 사회적 영향과 관련된 다양한 주제를 탐구하고 있습니다.
주요 내용
인공지능 기술의 발전은 사용자 인터페이스(UI)와 사용자 경험(UX)의 혁신을 요구하고 있습니다. 일례로 ChatGPT 같은 프롬프트 기반 시스템은 강력하지만, 많은 사용자에게는 여전히 접근성이 낮은 편입니다. 이를 개선하기 위해 프롬프트 엔지니어링이라는 새로운 분야가 등장했고, 점차 더 직관적이고 강력한 인터페이스 개발이 요구되고 있습니다.
AGI는 단순한 AI 모델을 넘어 인간과 자연스럽게 상호작용할 수 있는 시스템을 의미합니다. AI 기술은 점점 더 강력해지고 있지만, 사용자가 이를 쉽게 활용하고 신뢰할 수 있도록 하는 HCI 연구는 여전히 미성숙한 단계입니다. 이러한 시스템이 효과적으로 작동하려면, 사용자가 의도를 명확하게 전달하고 AI가 이를 정확하게 이해할 수 있도록 하는 상호작용 기법, 인터페이스 설계, 평가 방법 등이 필수적으로 발전해야 합니다.
예를 들어 현재의 ChatGPT 같은 모델은 프롬프트를 직접 입력해야 하지만, 미래에는 음성, 제스처, 시선 추적 등에 기반한 음성, 제스처, 시선 추적 등가 더 일반적이 될 것입니다. 또한, 뇌-컴퓨터 인터페이스(BCI, Brain-Computer Interface) 연구도 HCI에서 중요한 역할을 할 것입니다.
인공지능이 발전함에 따라 현재 AI 시스템은 특정 작업을 수행하는 데 최적화되어 있지만, AGI는 보다 일반적인 문제 해결 능력을 갖추게 됩니다. 하지만 AGI는 해석 가능성이 낮고, 사용자가 이를 평가하기 어려운 문제(Gulf of Evaluation)를 동반할 가능성이 큽니다. 이러한 AGI 시대에 HCI 분야가 다뤄야 할 주요 연구 분야 및 핵심 과제를 다음과 같이 제안하고 있습니다.
인터페이스 디자인 (Interface Designs)
인공지능 시스템이 점점 발전하면서, 인간이 AI와 상호작용하는 방식에도 혁신이 필요합니다. 현재의 AI 인터페이스는 사용자가 원하는 작업을 시스템에 명확하게 전달하는 과정(실행 간극, gulf of execution), AI가 수행한 작업이 정확했는지 평가하는 과정(평가 간극, gulf of evaluation), 그리고 AI의 내부 작동 방식이 불투명하여 이해하기 어려운 문제(프로세스 간극, process gulf)로 인해 여전히 많은 한계를 가지고 있습니다. 이러한 문제를 해결하기 위해, 인공지능이 수행하는 작업의 과정과 의도를 보다 명확하게 전달할 수 있는 새로운 인터페이스 디자인이 필요합니다.
특히 인공지능 시스템이 제공하는 결과를 사용자가 신뢰하고 활용할 수 있도록 설명 가능성(interpretability)을 높이는 연구가 중요합니다. 예를 들어, 생성형 AI가 특정한 결과를 도출한 과정에 대해 단계별로 설명하는 기능이나, 사용자가 AI의 의사결정 논리를 직관적으로 이해할 수 있도록 돕는 시각적 피드백을 제공하는 방식이 연구될 필요가 있습니다. 또한 AI와의 상호작용 방식을 단순한 텍스트 입력에 국한하지 않고, 음성, 제스처, 그림, 맥락 정보 등을 활용하는 멀티모달 인터페이스 개발도 중요한 과제입니다. 이를 통해 AI 시스템이 보다 직관적으로 사용자 의도를 파악하고, 인간과의 협업이 원활해질 수 있도록 해야 합니다.
물리적 폼 팩터 (Physical Form Factors)
인공지능 시스템이 점점 더 우리 일상과 밀접하게 결합하면서, 소프트웨어 인터페이스를 넘어 물리적 형태로 구현되는 사례도 증가하고 있습니다. 웨어러블 디바이스, 증강 현실(AR) 기반 인터페이스, AI를 내장한 스마트 기기 등 다양한 형태의 물리적 폼 팩터가 등장하고 있지만, 실제 사용자 경험을 충분히 고려한 설계는 아직 부족한 실정입니다. 예를 들어, 최근 출시된 Humane AI Pin과 같은 AI 웨어러블 기기는 AI와 상호작용할 수 있는 새로운 방식을 제안했지만, 실사용자의 요구를 충분히 반영하지 못한 결과 시장에서 큰 반응을 얻지 못했습니다.
인공지능 시스템이 우리 삶에 자연스럽게 녹아들기 위해서는 사용자 중심의 물리적 인터페이스 설계가 필수적입니다. 예를 들어, AI와의 상호작용을 보다 직관적으로 만들기 위해 햅틱 피드백(haptic feedback), 음성 인터페이스, 탠저블 컴퓨팅(tangible computing)과 같은 기술을 결합하는 방안이 연구될 수 있습니다. 또한 AI 기기가 인간과의 소통을 방해하지 않도록 설계하는 것이 중요합니다. 스마트폰이 개인의 정보 접근성을 높여준 반면, 대면 커뮤니케이션을 방해하는 문제가 있었던 것처럼, AI 시스템이 우리의 사회적 상호작용에 미치는 영향을 충분히 고려해야 합니다. 앞으로 AI가 사람들의 생활 패턴을 어떻게 변화시킬 수 있는지 분석하고, 보다 자연스러운 형태로 녹아들 수 있도록 폼 팩터를 연구하는 것이 중요한 과제가 될 것입니다.
디자인 방법론 (Design Methods)
인공지능 시스템의 발전에 따라, 기존의 HCI 디자인 방법론이 충분한지 재검토하고, 새로운 접근법을 개발할 필요가 있습니다. 현재 HCI 연구에서는 저-피델리티 프로토타이핑(low-fi prototyping), 마법사 오즈(Wizard of Oz), 참여형 디자인(participatory design)과 같은 다양한 기법을 활용하여 시스템을 설계하고 있지만, 인공지능의 특성상 지속적으로 학습하고 발전하는 시스템을 설계하는 데 있어 기존 방식만으로는 한계가 있을 수 있습니다.
특히, 인공지능 시스템이 사회적 관계나 사용자 행동에 미치는 장기적인 영향을 평가하는 연구가 더욱 중요해지고 있습니다. 인공지능이 제공하는 개인 맞춤형 인터페이스가 사용자에게 긍정적인 영향을 미칠 수도 있지만, 반대로 정보의 편향성을 강화하거나, 특정 사용자 그룹에게 불이익을 초래할 가능성도 존재합니다. 이에 따라 새로운 연구 방법이 필요하며, 특히 AI 시스템의 의도하지 않은 긍정적 활용 사례를 탐색하는 “그린 팀 연구(Green Teaming)”와 같은 접근법이 유용할 수 있습니다. 인공지능이 예기치 않은 방식으로 유용하게 활용되는 사례를 분석하고, 이를 기반으로 시스템을 개선하는 것이 중요한 연구 과제가 될 것입니다. 또한, 인공지능을 디자인 파트너로 활용하는 AI-보조 디자인(AI-assisted design) 기법을 개발하여, 인공지능이 인간 디자이너의 창의성을 보완하는 방식도 연구될 필요가 있습니다.
평가 방법론 (Evaluation Methods)
AI 시스템을 효과적으로 평가하기 위해서는 기존의 사용성 평가 방법을 재검토하고, 새로운 평가 기법을 도입해야 합니다. AI는 시간이 지남에 따라 학습하며 변하기 때문에, 한 번의 사용자 테스트만으로는 그 성능과 사용성을 충분히 평가할 수 없습니다. 이에 따라 지속적이고 반복적인 평가 방법이 필요합니다.
최근 AI 평가 방식 중 하나로 합성 평가(Synthetic Evaluation)가 등장하였습니다. 이는 AI가 인간 사용자 역할을 대신 수행하며 시스템을 테스트하는 방식으로, 실제 사용자 데이터를 수집하지 않고도 대규모 평가를 수행할 수 있는 장점이 있습니다. 하지만 이러한 방식이 실제 사용자 경험을 충분히 반영하는지, 윤리적으로 적절한지에 대한 논의가 필요합니다. 또한, AI 시스템의 공정성과 포괄성을 보장하기 위해 다양한 사용자 그룹(예: 비서구권 문화, 장애인, 신경다양성 사용자 등)을 대상으로 한 평가 방법도 함께 연구되어야 합니다.
벤치마킹 접근법 (Benchmarking Approaches)
현재 AI 모델의 성능을 평가하는 벤치마크는 대부분 정량적 평가에 초점을 맞추고 있습니다. 예를 들어 MMLU, BIG-bench와 같은 기존의 AI 벤치마크는 주어진 문제를 얼마나 정확하게 해결하는지를 측정하지만, 실생활에서 AI의 유용성을 평가하는 데는 한계가 있습니다. AI 시스템이 실제 사용자에게 얼마나 도움을 주는지, 얼마나 신뢰할 수 있는지 등을 평가하기 위해서는 새로운 벤치마킹 접근법이 필요합니다.
특히, AI가 단순한 문제 해결을 넘어 복잡한 다단계 작업(multi-step tasks)이나 해결책이 명확하지 않은 난제(wicked problems)를 처리할 때의 성능을 평가하는 것이 중요합니다. 또한 사용자의 신뢰도, 만족도, 피드백을 반영한 새로운 정성적 평가 방식이 필요하며, AI 시스템의 장기적인 사용성을 분석할 수 있는 데이터 기반 벤치마킹도 연구될 필요가 있습니다. 이를 위해 AI와 인간 간의 상호작용 데이터를 수집하고, 다양한 사용자 경험을 반영하는 새로운 평가 지표를 개발하는 것이 앞으로의 과제가 될 것입니다.
향후 전망
HCI 연구는 AI 시스템이 더 유용하고 직관적이며 윤리적으로 설계될 수 있도록 하는 중요한 역할을 담당할 것입니다. 앞으로 AI 시스템이 사용자와 더 자연스럽게 상호작용할 수 있도록, 인터페이스 설계, 평가 기법, 상호작용 기법이 지속적으로 발전할 것으로 예상됩니다.
Google DeepMind의 소개
ACM Interactions 홈페이지에서 HCI for AGI 글 보기
HCI for AGI PDF로 보기
https://dl.acm.org/doi/pdf/10.1145/3708815
이 글은 GPT 모델로 정리한 글을 바탕으로 한 것으로, 원문의 내용 또는 의도와 다르게 정리된 내용이 있을 수 있습니다. 관심있는 내용이시라면 원문도 함께 참고해주세요! 읽으시면서 어색하거나 잘못된 내용을 발견하시면 덧글로 알려주시기를 부탁드립니다.
파이토치 한국 사용자 모임
이 정리한 이 글이 유용하셨나요? 회원으로 가입하시면 주요 글들을 이메일
로 보내드립니다! (기본은 Weekly지만 Daily로 변경도 가능합니다.)
아래
쪽에 좋아요
를 눌러주시면 새로운 소식들을 정리하고 공유하는데 힘이 됩니다~