대유행 사이의, AI 겨울

hyoyoung · 11월 30, 2024, 1:31오후

1970년대의 AI 겨울이 지나간뒤로
AI는 사라지고 잊혀져가는 기술이 되었던거 같습니다.
그뒤로 일부가 살아남아서 Machine Learning이 되었고,
서서히 산업계 및 실생활에도 적용되었지만 다들 AI라고는 하지 않았었습니다.

그러다 딥러닝이 유행하게되고,
국내에 소개될때쯤에 여러 유명 교수님들의 시크했던 답변들이 기억납니다
"그거 우리가 다 해봤던 것들인데, 성능 안좋아"
"성능 좋았던 몇몇도 있는데 너무 느려서 쓰지 못해"

그 시절에는 AI를 한다면 뭔가 구닥다리 낡은 것을 하는 느낌이었고,
큰 빌딩의 오래된 에어콘의 리모콘에는 먼지가 많이 묻어 낡아보이는 AI 버튼 같은게 있었습니다.
그걸 눌러서 작동 시켜보면 알 수 없는 규칙에 의해 자동으로 껐다 켜지곤 하는데
도무지 알수도 없고 쓸모가 없어보이는 그런 버튼이었습니다.

이제는 덧셈을 해도 AI라고 하는 세상이니, 많이 바뀌었는데,
그런 시절을 조용히 얘기해주는 기사가 있어서 소개해드립니다.

전문, 기계 번역됨

fir sapling in winter

호황과 침체 사이: 겨울의 AI

사람들이 더 이상 관심을 가지지 않게 된 후, 인공지능(AI)은 더 흥미로워졌다.

최근 몇 년간 전 세계를 휩쓴 인공지능(AI) 열풍을 지켜보며, 공상과학 작가인 테드 창은 반대의 입장을 취했습니다. 그는 “인공지능”이라는 용어가 “50년대에 잘못 선택된 단어”라며 “많은 혼란을 일으켰다”고 주장했습니다. “학습”, “이해”, “알다”와 같은 동사는 자아가 존재하지 않는 곳에서 자아를 암시하려고 잘못 사용되었다는 것입니다. 그가 제안한 올바른 용어는 “응용 통계학”이었다고 합니다. 창은 AI가 항상 특정 기술을 마케팅하기 위해 사용되는 모호한 용어였고, 이는 인지와 본질적으로 연결되지 않는다고 맞았습니다. 또한 현재의 대부분의 AI 기술들이 대규모 훈련 데이터 세트의 통계적 특성을 모델링하는 방식으로 작동하는 것도 사실입니다.

하지만 창이 주장한 “AI는 1950년대 이후로 일관되게 통계적이었다”는 점은 상당히 잘못된 주장입니다. 1960년대에서 1980년대까지 AI 분야를 지배했던 접근법은 통계학이나 확률과는 전혀 관계가 없었습니다. 이번 칼럼에서는 AI 연구가 확률적 방법으로 이동한 과정과 신경망의 부흥에 대해 다룹니다. 이 이야기는 복잡한데, AI의 확률적 방법으로의 전환이 처음에는 신경망에 의해 주도되지 않았고, 신경망의 부흥은 최근까지 AI보다는 기계 학습(machine learning)이라는 이름으로 더 자주 불렸기 때문입니다.

지난 칼럼에서 설명했듯이, 20세기 인공지능에 대한 관심은 1980년대에 절정에 달했으며, 이는 전문가 시스템과 공공 자금의 폭증에 의해 촉발되었습니다. AI는 처음으로 실험실을 넘어 대기업의 스타트업 회사와 연구 그룹으로 확산되었습니다. 그러나 그 후 거품은 터졌고, 유명한 AI 겨울이 시작되었습니다.

기술 트렌드의 변화가 항상 그렇듯 그 변화는 가혹했습니다. 더 이상 스타트업에 자금을 지원하려는 사람은 없었고, 그들의 제품과 서비스 판매가 급락했습니다. 기업 내 시스템 개발 그룹은 더 이상 AI와 연관지어진다고 해서 자원과 존경을 얻을 수 없었으며, 일부는 다른 이름으로 계속 진행되었습니다. 1980년대에는 복잡한 프로세스를 자동화하는 방식으로 규칙을 적용하는 모든 것을 전문가 시스템이라고 불렀습니다. 1990년대에는 분산 컴퓨터 아키텍처의 추진과 함께 같은 기본 아이디어가 비즈니스 로직으로 이름이 바뀌었습니다. 규칙 기반 자동화는 네트워크 보안 분야의 새로운 연구에서도 중요한 역할을 했습니다.

대학에서는 변화가 더디게 일어났습니다. AI 과목이 커리큘럼에서 사라지거나, 기존 AI 교수진이 다른 컴퓨터 과학 분야로 대거 이직했다는 증거는 없습니다. 하지만 AI가 더 이상 인기 있는 분야가 아니게 되자 AI 연구를 위한 기금을 받기가 어려워졌고, 이는 대학원생과 박사후 연구원들에게도 기회에 영향을 미쳤습니다. AI 학회에 대한 종합적인 참석자는 1986년 최고치를 찍은 뒤 급격히 감소하여 1999년경에 바닥을 쳤습니다.

새로운 접근법

주목받지 않던 시기 동안, 인공지능(AI)은 기존의 지배적인 접근법에 대한 신뢰 상실로 인해 새로운 아이디어가 자리를 잡을 수 있는 공간을 만들어가며 더욱 다양해졌습니다. 2010년대 초에 학회 참석이 완전히 회복될 무렵, AI 커뮤니티는 이전에 지배적이었던 두 개의 일반적인 학회 대신 로봇, 신경망, 컴퓨터 비전 등 다양한 분야에 초점을 맞춘 약 12개의 다른 학회로 분화되었습니다. (미국 인공지능 학회 회의와 국제 인공지능 학회 회의가 그 예였습니다.)

로드니 브룩스(Rodney Brooks)는 1997년에 MIT 인공지능 연구소의 소장이 되며, 패트릭 윈스턴(Patrick Winston)을 이어갔습니다. 브룩스는 전통적인 AI가 더 이상 힘을 쓰지 못한다고 느꼈습니다: “이제는 인간 지능의 전 범위를 복제하려는 이야기는 하지 않습니다. 대신 우리는 전문화된 하위 문제로 후퇴하는 모습을 봅니다.” AI를 재활성화하려는 브룩스는 구현된 지능(embodied intelligence)을 지지했습니다. 1960년대의 자율 로봇, 예를 들어 SRI의 ‘Shakey’는 센서 입력을 통해 환경 모델을 만들고 그 모델 내에서 행동 계획을 세운 후 실제 세계에서 그 계획을 실행하려 했습니다. 곤충들은 작은 뇌를 가졌지만 유연한 움직임을 하고 복잡한 작업을 협력하여 수행할 수 있습니다. 브룩스는 로봇들도 환경과 동적으로 상호작용함으로써 지능적인 행동을 이뤄야 한다고 주장했습니다.

2000년대 초, 브룩스와 그의 학생들이 설립한 iRobot은 수백만 대의 로봇 청소기를 만들어 벽을 따라, 바닥을 가로지르며 돌아다니고 있었습니다. 1999년에 출시된 소니의 아이보(Aibo) 시리즈는 인공 개로서 반려동물의 대체물로 설계되었지만, 대학들에서 학생들이 이를 프로그래밍하여 로봇 축구 리그에서 경쟁하게 하며 인기를 끌었습니다.

유전자 알고리즘(Genetic algorithms)은 또 다른 인기 분야였습니다. 전문가가 규칙에 지식을 인코딩하는 대신, 시스템은 후보 방법을 시도해 보고 가장 잘 작동하는 방법을 찾아냈습니다. 해결책의 다른 가능한 요소들, 즉 은유적인 유전자들은 반복적으로 재조합되었고, 더 잘 수행된 것에는 더 많은 가중치가 부여되었습니다. 성능은 점진적으로 개선되었고, 이는 본질적으로 오르막을 오르는 최적화 접근법에 기반한 진화의 과정으로 볼 수 있습니다.

생물학적 은유의 사용은 인공 생명(artificial life)이라는 개념과 함께 심화되었습니다. 이 개념은 크리스토퍼 랭턴(Christopher Langton)이 처음 제시했으며, 복잡성 이론을 기반으로 한 학제적 과학을 구축하려는 산타페 연구소에서 확산되었습니다. 컴퓨터 과학의 선구자 존 폰 노이만(John von Neumann)과 앨런 튜링(Alan Turing)은 모두 자기 재생 시스템을 수학적으로 모델링하려는 아이디어에 매료되었습니다. 인공 생명은 사이버네틱스의 정신을 되살렸으며, 이는 실제 생물학적 시스템과 모의 생물학적 시스템에서 공통의 메커니즘을 찾으려는 시도였습니다. 1990년대 초, 생태학자인 톰 레이(Tom Ray)가 Tierra 시스템을 개발했을 때 관심이 확산되었습니다. 이 시스템에서는 자기 복제 프로그램이 가상 컴퓨터에서 실행되며 변이를 일으켰습니다. 레이는 이 프로그램들이 처리 시간과 저장소를 차지하기 위해 경쟁하는 과정에서 생물학적 집단에서 관찰된 것과 유사한 진화적 동역학을 보였다고 주장했습니다.

한동안 인공 생명은 인공지능과 밀접하게 연결된 것으로 여겨졌습니다. 1996년 AI 교과서에서 철학자 앤디 클락(Andy Clark)은 인공 생명(구체적으로는 구현된 지능과 유전자 알고리즘 포함)을 상징적 AI(symbolic AI)와 연결주의(connectionism)와 함께 AI의 세 가지 주요 접근법으로 자리매김했습니다. 그러나 인공 생명은 사이버네틱스처럼 하나의 학문적 메타 분야로서 사라졌고, 생물학적 과정의 시뮬레이션은 시스템 생물학이라는 이름으로 더 발전했으며, 합성 DNA 설계에 대한 관심도 증가했습니다.

확률론적 전환

인공지능(AI) 분야에서 긴 침체기가 있던 중, 2011년에는 UC 버클리의 주디아 페를(Judea Pearl)이 통계적 추론이라는 새로운 기초 위에 AI를 재건한 공로로 튜링상을 수상하며 그 침체가 깨졌습니다. 페를은 컴퓨터 과학 연구 경력을 heuristic search 전문가로 시작했지만, 1980년대 중반에는 AI를 위한 새로운 지식 표현 방식인 베이지안 네트워크(Bayesian networks)를 개발하기 시작했습니다. 베이지안 통계에서는 확률이 가설에 대한 믿음의 정도로 표현됩니다. 이는 AI 연구자들이 지식과 추론에 집중하는 것과 자연스럽게 맞아떨어졌지만, 초기 AI 시스템들이 참과 거짓이 확실한 논리적 명제를 의존했던 것과 충돌했습니다. 일부 전문가 시스템은 결론과 함께 신뢰도 추정치를 포함하기도 했지만, 이는 임의로 할당된 규칙에서 계산된 것이었습니다.

페를의 네트워크는 믿음을 관찰과 연결하고 새로운 데이터가 도착함에 따라 추정치를 업데이트했습니다. 이 연구는 1988년 “Probabilistic Reasoning in Intelligent Systems”라는 책을 출판하면서 절정을 이뤘습니다. 페를의 연구는 사회과학뿐만 아니라 컴퓨터 과학에도 영향을 미쳤으며, 연구자들이 통제된 실험에서 결과를 얻는 대신 자연 발생적 데이터를 통해 가능한 원인을 역으로 추론할 수 있도록 했습니다.

AI 연구자 스튜어트 J. 러셀은 “페를의 베이지안 네트워크는 논리적 모델에 대해 조지 불(George Boole)이 제공한 문법과 계산법처럼, 다변량 확률 모델을 위한 문법과 계산법을 제공했다”고 말했습니다. 그 영향은 심오했습니다: “몇 년 만에, AI의 논리적 접근법과 신경망 접근법을 대표하는 주요 연구자들이 확률론적—종종 현대적 접근법이라고 불리는—방법을 채택했다”고 주장했습니다.

러셀은 피터 노르빅(Peter Norvig)과 함께 쓴 교과서 Artificial Intelligence: A Modern Approach에서 이 접근법을 명확히 했습니다. 이 교과서는 AI의 새로운 시대에 맞게 다양한 접근법을 다루었으며, 특히 확률론적 방법에 특별한 주의를 기울였습니다. 이 교과서의 첫 번째 판은 1995년에 출판되었으며, 빠르게 전 세계 대학에서 표준 교재로 자리잡았습니다.

러셀과 노르빅은 교과서에서 지능형 에이전트(intelligent agents)를 “통합된 주제”로 삼았습니다. 이는 1980년대의 정통성을 벗어난 또 다른 변화였습니다. 에이전트 개념은 AI의 뿌리인 사이버네틱스와 유기체와 환경 간의 상호작용을 되새기게 했습니다. 러셀과 노르빅에 따르면, 온도조절기와 같은 간단한 스위치도 에이전트의 한 예에 해당하지만, 이는 지능의 네 가지 계층에서 가장 낮은 수준에 속한다고 했습니다. 이상적인 에이전트는 불완전한 정보로도 합리적으로 행동하며, 추정된 확률을 기반으로 가장 높은 수익을 극대화하려고 합니다.

에이전트 개념은 경제학과 운영 연구에서 AI의 검색 및 최적화에 대한 초점과 일치했습니다. 그러나 허브 사이먼(Herbert Simon)의 조직적 의사결정에 대한 관심에도 불구하고, 이 개념은 AI 교과서에서 다뤄지지 않았습니다. 2000년대 초에는 AI 저널에서 제약 만족 문제에 대한 연구가 활발히 진행되었고, 이는 널리 적용 가능한 기술들을 생산하게 되었습니다.

에이전트 개념은 학문 밖에서도 공감을 얻었습니다. 사람들은 컴퓨터 네트워크를 통해 비즈니스를 하기 시작했기 때문에, 소프트웨어 에이전트가 사이버 공간을 돌아다니며 관련 정보나 좋은 거래를 찾아줄 것이라는 비전은 그럴듯하게 여겨졌습니다. 비슷한 비전은 초기 휴대용 디지털 장치에도 영향을 미쳤습니다. 예를 들어, 애플의 실패한 Newton은 지능형 개인 비서를 구상한 장치 중 하나였습니다.

빅 데이터, 작은 프로그램

자연어 처리에서 중요한 도전 과제 중 하나는 문장을 명사, 동사, 기타 품사로 올바르게 구문 분석하는 것입니다. 인간 언어, 특히 영어를 구문 분석하는 작업은 작성된 텍스트라도 자동화하기 매우 어렵습니다. 구문 분석 과정은 기계 번역에 필수적이지만, 덜 명확하게는 자동 음성 전사에도 중요한 역할을 합니다. 음성에서 개별 음소(구별되는 소리)를 인식하는 것은 본질적으로 오류가 발생하기 쉽습니다. 문장의 구조를 활용하여 의미 있는 단어 선택을 우선시할 수 있으면 소리를 단어로 변환하는 것이 훨씬 쉬워집니다.

연구자들은 유사한 형태의 문장쌍을 수집하여 간단한 규칙으로 구문 분석을 작성하는 것이 불가능함을 설명했습니다. 30년 후, 그런 문장쌍 중 하나인 앤서니 외팅거(Anthony Oettinger)의 예시가 자연어 처리 수업에서 가장 기억에 남는 예시로 떠오릅니다: “Time flies like an arrow./Fruit flies like a banana.” 1977년, 컴퓨터 언어학자 요릭 윌크스(Yorick Wilks)는 이 문맥에서 “거의 모든 AI 언어 프로그램이 공통적으로 가진 특징은 … 지식의 역할에 대한 강한 강조”라고 관찰했습니다. “과일 파리(fruit flies)“는 존재하지만 “시간 파리(time flies)“는 존재하지 않다는 것을 아는 시스템만이 첫 번째 문장에서 “flies”를 동사로, 두 번째 문장에서 명사구의 일부로 인식할 수 있을 것입니다.

이 논리에 따르면 배경 지식을 체계적으로 인코딩하려는 노력들이 실패했기 때문에 여전히 실용적인 음성 인식 시스템을 기다리고 있을지도 모릅니다. 그러나 미디어 학자 샤오창 리(Xiaochang Li)는 현대 자연어 처리의 기초가 본질적으로 다른 접근 방식을 취한 연구에 의해 놓였다고 밝혔습니다. 1970년대 IBM은 미니컴퓨터의 증가하는 경쟁에 맞서 강력한 메인프레임 시스템을 위한 잠재적 새로운 시장으로 음성 인식 연구에 관심을 가졌습니다. 깊은 이해가 텍스트를 구문 분석하는 데 필요하지 않다는 것이 드러났고, 대신 방대한 양의 훈련 데이터와 컴퓨터 시간이 필요했습니다. 리는 IBM 그룹의 “디렉터인 프레드 젤리넥(Fred Jelinek)이 시스템의 성공을 인간 언어 능력과 전문 지식에 대한 집착에서 벗어난 개념적 전환 덕분으로 돌렸다며, 시스템이 개선될 때마다 언어학자를 해고했다고 농담했다”고 언급합니다.

젤리넥은 언어 지식을 명시적 규칙에 인코딩하기보다는 모델을 자동으로 훈련하는 방식을 목표로 했습니다. 모델의 수학적 핵심은 숨겨진 마르코프 모델(hidden Markov model)로, 본질적으로 영어 텍스트에서 한 단어에서 다음 단어로의 전이 확률을 이용해 화자가 의도한 단어를 추측하는 시스템이었습니다. 웹이나 다른 전자 출판이 대중화되기 전에는 시스템을 훈련시키기 위한 대규모 영어 문장 모음을 찾는 것이 쉬운 일이 아니었습니다. IBM은 여러 곳에서 이를 모았고, 특히 법적 문서들을 1억 개의 기계 판독 가능한 단어로 전사한 방대한 컬렉션에서 발견한 대규모 데이터가 핵심이 되었습니다. 이는 곧 기계 학습에 대한 빅 데이터 접근 방식의 기원이 되었으며, 리는 윌크스가 이를 “빅 데이터, 작은 프로그램” 접근법이라고 칭했다고 언급합니다. 이 용어는 정교한 프로그래밍에서 방대한 훈련 데이터로 성능 향상의 기초를 전환한 두 가지 측면을 잘 포착한 표현이라 생각합니다.

1984년까지 IBM은 5천 개의 단어 어휘에서 선택된 단어들을 신뢰성 있게 전사할 수 있는 시스템을 개발했습니다. 그러나 메인프레임에서 작업을 처리하려면 문장마다 밤새 작업을 해야 했기 때문에 기술을 실제로 보여주기는 어려웠습니다. 1980년대 후반, IBM은 이 통계 기법을 기계 번역에 확장하여 동등하게 놀라운 결과를 얻었습니다.

ARPA는 1970년대 음성 인식 프로그램을 인공지능 프로젝트로 분류했지만, IBM 내에서 젤리넥 그룹의 작업은 AI로 개념화되지 않았습니다. 이는 시간이 지나면서 인공지능이 분석 범주로서 불안정하게 변해왔다는 또 다른 예입니다. 1992년경까지 통계적 구문 분석은 자연어 처리 연구의 주류로 자리 잡았으며, 수작업으로 만든 규칙에 의존하는 시스템을 대체했습니다. 프로세서 전력과 저장 장치의 비용이 급격히 떨어지면서 메인프레임은 더 이상 필요하지 않았고, 기가바이트의 메모리를 갖춘 시스템이 가능해졌습니다. 펜실베이니아 대학교의 미치 마커스(Mitch Marcus)는 거대한 훈련 코퍼스를 구축하는 작업을 이끌었습니다.

새로운 기술은 IBM과 카네기 멜론의 음성 인식 팀에서 나온 제품인 Dragon Naturally Speaking으로 상용화되었습니다. 1990년대 말까지 이 기술은 소비자 개인용 컴퓨터에서 연속적인 음성을 실용적인 방식으로 전사할 수 있었습니다. 2011년, 애플은 아이폰에 Siri 비서를 통합하면서 이 기본적인 접근 방식을 스마트폰에 적용했습니다. Siri의 음성 인식은 처음에는 전화기 자체가 아니라 클라우드 데이터 센터에서 실행되는 강력한 컴퓨터에서 수행되었습니다.

2005년경 IBM은 수백만 개의 문서 저장소를 기반으로 자연어 질문에 대한 그럴듯한 답을 검색할 수 있는 컴퓨터 클러스터를 개발하는 대규모 언어 처리 작업을 시작했습니다. 그 결과로 나온 시스템인 Watson은 2011년 TV 퀴즈 쇼 “Jeopardy!“에서 인간 챔피언을 제압하면서 널리 주목을 받았습니다. Watson은 데이터베이스에서 질문과 통계적으로 유사한 구절을 찾는 방식으로 작동했습니다(혹은 “Jeopardy!“의 특이한 형식에서 답에 맞는 질문을 찾는 방식).

빅 데이터 기술자들은 확률론적이고 베이지안 통계에 뿌리를 두고 있지만, 주디아 페를이 논의한 신념 네트워크와 완전히 일치하지는 않습니다. 조정되는 수학적 가중치와 그들 간의 연결은 특정 지식 조각과 문서화된 대응 관계가 없습니다. 따라서 이러한 시스템은 자신들의 추론을 설명할 수 없습니다. 반면 페를은 인간 전문가가 정의한 논리적 관계를 구현한 모델을 통해 확률적 추론을 수행하는 시스템을 상상했습니다. 이런 시스템은 결론과 증거를 연결하는 의미 있는 관계의 체인을 가리키며 출력을 뒷받침할 수 있습니다. 페를은 최근의 연구에서 현재의 접근 방식이 “단지 데이터를 맞추는 것”이라고 비판해왔습니다.

신경망의 귀환

현재 AI로 브랜드화된 대부분의 시스템은 시뮬레이션된 신경망 훈련을 중심으로 구성되어 있습니다. 이러한 시스템은 또한 빅 데이터 접근 방식을 사용하지만, 모델의 수학적 성격은 다릅니다. 1994년, 저는 학생 시절 맨체스터 대학의 인공지능 연구 그룹에 대한 프로필을 공동 저술했습니다. 이 그룹의 교수인 데이비드 브리(David Brée)는 AI를 대체로 “허우적거리는 것”으로 설명하면서, 그 중 세 개의 “성공의 섬”이 있었고, 그 중 가장 최근의 것은 신경망이라고 말했습니다. 이 그룹의 7명 중 두 명은 신경망을 연구하고 있었습니다. 인터뷰 중에 한 연구자는 프린스턴에서 철학을 전공한 또 다른 연구자와 논의했는데, 그는 AI가 사실 “자동 추론”을 의미해야 한다고 주장하며 형식 논리에 깊은 신념을 갖고 있었습니다.

브리의 신경망이 최근에 등장한 기술이라는 제안이 저를 놀라게 했습니다. 왜냐하면 지금은 신경망이 인공지능의 초기 시절부터 존재해왔다는 사실을 알기 때문입니다. 신경망은 때때로 특별한 목적의 전자 장치로 구현되었으며, 그 중 가장 유명한 것은 1950년대 후반 프랭크 로젠블랫(Frank Rosenblatt)이 설계한 마크 I 퍼셉트론(Mark I Perceptron)입니다. 이 장치는 이미지 인식을 실험하기 위해 미국 군부의 자금을 지원받았습니다. 그것은 인간의 눈 기능을 모방하려는 의도를 가지고 있었습니다. 400픽셀 카메라가 망막처럼 입력을 생성하고, 이를 512개의 가변 가중치를 통해 처리하여 8개의 출력을 생성했습니다. 기계가 훈련되면서 입력과 출력 간의 가능한 연결에 할당된 가중치가 자동으로 강화되고 약화되어 샘플 데이터에 맞게 모델을 개선했습니다. 이러한 가중치에 신경망이라는 사이버네틱 언어를 덧붙인 것은 뇌의 기능과 직접적인 병행을 암시했으며, 워렌 맥컬로흐(Warren McCulloch)와 월터 피츠(Walter Pitts)의 기초 연구로 되돌아갑니다.

로젠블랫은 처음에 인공지능의 창시자로 기억되는 4명(허브 사이먼, 앨런 뉴웰, 마빈 민스키, 존 맥카시)만큼 두드러졌습니다. 1950년대에 “뉴런 네트워크”는 다트머스 여름학교에서 인공지능이라는 브랜드를 시작하는 자금 제안서에 관심 분야로 포함되었으며, 민스키는 이 분야에서 초기 작업을 했기 때문에 초대되었습니다. 그러나 1970년대 중반, 로젠블랫은 사망했고, 사이먼과 뉴웰은 인간의 뇌와 컴퓨터가 모두 기호 처리 기계라는 아이디어를 성공적으로 자리잡게 했습니다.

민스키는 로젠블랫의 유산을 철저히 해체하는 데 도움을 주었습니다. 민스키는 1969년, 시모어 페이퍼트(Seymour Papert)와 함께 쓴 영향력 있는 책에서 입력과 출력 사이에 가중치가 하나만 있을 경우 퍼셉트론이 인식할 수 있는 패턴의 범위가 크게 제한된다고 보여주었습니다. 제가 지난 칼럼에서 설명한 바와 같이, 1980년대 인공지능이 컴퓨터 과학 교육의 주류로 자리 잡을 때, 신경망에 대한 모든 논의는 교과서에서 사라졌습니다.

인공지능의 범위는 연결주의(connectionism)를 배제하는 방향으로 재정의되었습니다. 이는 대부분의 컴퓨터 과학 부서에서 연결주의를 추방했지만, 그것을 죽이지는 않았습니다. 역사학자 아론 멘돈-플라섹(Aaron Mendon-Plasek)은 1950년대와 1960년대에 많은 연구자들이 패턴 인식이나 기계 학습을 중심으로 자신을 정의했다고 강조했습니다. 멘돈-플라섹은 패턴 인식이 단순한 인공지능의 하위 분야가 아니라 사실상 독립적인 연구 공동체를 정의했다고 주장합니다. 이 작업의 많은 부분은 공학 학교에서 이루어졌습니다. 예를 들어, 맨체스터의 신경망 전문가들은 전기 공학과 물리학을 전공한 배경을 가지고 있었습니다.

주류 인공지능이 상징적 접근법(symbolic approaches)으로 초점을 제한한 것도 인지 과학(cognitive science)이라는 새로운 학제간 분야의 기회를 창출했습니다. 인지 과학은 언어학, 심리학, 신경과학과 같은 분야의 입력을 통해 인간 뇌의 기능을 모델링하고 설명하려는 목표를 가지고 있었습니다. 입력과 출력 사이에 추가적인 은닉층을 추가하여 간단한 퍼셉트론 스타일의 신경망을 확장하면 민스키와 페이퍼트가 문서화한 한계를 제거할 수 있었지만, 새로운 문제가 발생했습니다: 여러 뉴런으로 구성된 여러 경로를 통해 입력과 출력이 연결될 때, 훈련 데이터를 사용해 연결에 할당된 가중치를 조정하는 방법은 무엇인가? 1986년, 데이비드 루멜하르트(David Rumelhart), 제프리 힌턴(Geoffrey Hinton), 로널드 J. 윌리엄스(Ronald J. Williams)가 쓴 “Learning representations by back-propagating errors”라는 논문은 그 질문에 대한 새로운 답을 제시했습니다. 루멜하르트는 스탠포드에서 근무했으나 컴퓨터 과학보다는 심리학을 전공했고, 힌턴은 심리학과 인공지능을 모두 전공하며, 신경망의 부활을 이끌었습니다.

신경망의 점진적인 부활은 MIT, 스탠포드, 카네기 멜론을 중심으로 한 엘리트 인공지능 공동체 밖에서 이루어졌습니다. 힌턴은 당시 카네기 멜론의 젊은 교수였으나, 미국 컴퓨터 과학자들이 레이건 행정부의 “스타워즈” 미사일 방어 계획에 참여하는 것에 반대하여 곧 토론토 대학으로 이직했습니다. 다양한 협력자들과 함께 힌턴은 캐나다를 “딥 러닝(deep learning)“이라는 용어를 사용하여 신경망 연구의 중심지로 만들었습니다. “딥 러닝”은 뉴런의 중간 계층이 많다는 특성을 반영하는 것입니다.

신경망의 부활

1970년대 후반의 컴퓨터 과학자들에게 신경망은 오래되고 신뢰를 잃은 기술이었습니다. 1990년대 중반의 컴퓨터 과학자들에게 그것은 새로운, 흥미로운 기술이었습니다. 맨체스터 프로그램에 저보다 1년 후에 입학한 학생들은 신경망을 주류 인공지능(AI) 2학년 과정에서 접했습니다. 그 다음 해, 러셀과 노르빅은 그들의 교과서에서 27개 장 중 하나를 신경망에 할애했습니다.

역전파(backpropagation) 방법은 강력했지만, 통계적 구문 분석처럼 막대한 양의 컴퓨터 파워와 훈련 데이터에 의존했습니다. 신경망의 첫 번째 주요 성공은 벨 연구소(Bell Labs)가 신경망을 숫자 인식에 적용했을 때 일어났습니다. 10개의 십진수 숫자는 있지만, 이를 여러 가지 스타일로 쓸 수 있습니다. 초기 작업은 1980년대 중반부터 시작되었으며, 미국 우편 서비스에서 제공한 훈련 데이터를 사용했는데, 우편 서비스는 ZIP 코드의 자동 판독에 관심이 있었습니다. 벨 연구소는 특수한 신경망 칩을 개발하기도 했습니다. 1996년, 벨 연구소의 숫자 인식 기술은 NCR의 상업용 수표 읽기 기계에 통합되어 수표 처리 속도를 높였습니다. 이 시스템의 개발자에는 벨 연구소의 직원인 얀 르쿤(Yann LeCun)과 당시 박사후 연구원이었던 요슈아 벵지오(Yoshua Bengio)가 포함되어 있습니다. 두 프랑스인은 모두 공학과 컴퓨터 과학을 전공했습니다.

그 후 신경망의 역사는 Cade Metz에 의해 잘 보도되었으며, 그는 1990년대 중반의 신경망에 대한 관심이 있었음에도 불구하고 신경망이 2010년대까지 여전히 주변적인 기술로 남아 있었다고 강조합니다. 발전은 AI의 전통적인 중심지 밖에서 계속되었으며, 힌턴(Hinton)은 토론토에서, 르쿤(LeCun)은 뉴욕 대학교에서, 벵지오(Bengio)는 몬트리올에서, 그리고 위르겐 슈미드후버(Jürgen Schmidhuber)는 스위스 루가노에서 각각 새로운 알고리즘과 네트워크 유형을 개발했습니다. 이 작업은 역전파의 단순한 적용을 넘어서서 훨씬 더 많은 발전을 이뤘습니다. 예를 들어, 수표 인식 시스템은 그래프 변환 네트워크에 의존했습니다. 신경망을 기계 번역에 적용하는 작업은 관련된 문맥에 집중할 수 있도록 하는 주의 메커니즘(attention mechanism)을 영감을 주었습니다. 르쿤은 인간의 지침 없이도 훈련 데이터의 중요한 특성을 인식할 수 있는 합성곱 신경망(convolutional networks)을 발명했습니다. 힌턴, 르쿤, 벵지오는 2018년 ACM A.M. 튜링 상을 수상했습니다.

전통적인 AI 방법들이 대부분 그렇듯, 이 기술들은 일반화 가능하고 실용적임을 증명했습니다. Metz는 2009년 힌턴이 마이크로소프트에서 신경망을 기계 전사(machine transcription)에 적용하는 여름 프로젝트를 시작했다고 전합니다. “몇 달 만에 한 교수와 두 명의 대학원생은 세계에서 가장 큰 회사 중 하나가 10년 넘게 작업한 시스템과 동등한 성과를 이뤄냈습니다.” 또 다른 힌턴 학생은 이 새로운 접근법을 구글에 도입했고, 빠르게 안드로이드 폰에 적용되었습니다.

최근까지 신경망은 인공지능(AI)보다는 기계 학습, 딥 러닝 또는 빅 데이터로 더 많이 홍보되었습니다. AI 겨울의 여파로 인공지능에 대한 낙인이 찍혔고, AAAI와 같은 그룹에서 상징적 AI가 지배적이었기 때문에 신경망 전문가들은 다른 곳에서 더 편안하게 활동할 수 있었습니다. 1987년에 시작된 신경 정보 처리 시스템 컨퍼런스(Neural Information Processing Systems, NIPS)는 2010년대에 AAAI 회의보다 훨씬 더 큰 규모로 성장했습니다. 2011년, 유럽의 주요 AI 컨퍼런스의 의장이었던 마이클 울드리지는 기계 학습 전문가를 프로그램 위원회에 포함시키기 위해 연락을 했지만, 참여를 원하는 사람은 거의 없었습니다.

2012년, AlexNet이 신경망 기술의 성숙함과 유연함을 가장 극적으로 보여주었습니다. AlexNet은 힌턴과 그의 학생인 알렉스 크리제프스키(Alex Krizhevsky)와 일리야 슈츠케버(Ilya Sutskever)가 이미지넷(ImageNet) 이미지 인식 대회에 참가하기 위해 개발한 시스템이었습니다. AlexNet은 그룹의 여러 기술을 결합했으며, 여기에는 그래픽 처리 장치(GPU)를 사용하여 병렬 계산 능력을 활용한 깊은 합성곱 신경망(deep convolutional network)이 포함되어 있습니다. 이 시스템은 수년간 개선된 특수 알고리즘을 사용하는 프로그램들을 포함하여 모든 다른 경쟁자들을 훨씬 능가했습니다. 이들의 논문은 2024년 현재 150,000번 이상 인용되었습니다. 다른 신경망 시스템들은 분자 후보 약물을 선별하거나 교통 신호를 인식하는 데 사용되며 중요한 경쟁에서 우승했습니다.

이러한 성공은 기계 학습에 대한 새로운 투자 열풍을 불러일으켰으며, 이는 결국 1980년대의 전문가 시스템 붐을 모방하고 초과하게 되었습니다. 이 시리즈의 마지막에서는 오늘날의 생성적 AI 열풍과 20세기 우리가 알고 있던 전통적인 AI 사이의 유사점과 차이점에 대해 다룰 것입니다.

출처 : Between the Booms: AI in Winter – Communications of the ACM