중국어 방

인디 게임 제작사에 대한 내용은 The Chinese Room 문서 참고하십시오.

<nopad>

1. 개요2. 내용3. 논쟁과 확장

3.1. 네드 블록: 시스템 논변3.2. 존 설: 시스템 논변의 의미론적 한계3.3. 대니얼 데닛: 중국어 방 논변 반박3.4. 윌리엄 래퍼포트: 한국어 방 논변

4. 유사 논변: 박쥐의 의식5. 한계 및 의의

5.1. 심사관의 한계5.2. 피험자의 한계5.3. 쪽지 교환의 한계5.4. 문제점의 극복

6. 언어 모델의 등장 이후7. 기타8. 관련 문서

[clearfix]

1. 개요

중국어 방 문제 또는 중국어 방 논변(the Chinese room argument)은 미국의 철학자 존 설(John Searle, 1932~) 교수가 고안한 사고 실험으로부터 파생한 철학적 논쟁으로, 그는 "기계의 인공지능 여부를 판별한다는 튜링 테스트의 결과는 실제로 어떤 기계가 지능을 갖고 있음을 증명할 수 없다"는 문제점을 지적하기 위해서 이러한 실험을 고안하였다.

2. 내용

어느 방 안에 중국어를 모르는 사람(이하 참가자)이 들어간다. 이후 참가자는 중국어로 된 질문과 이에 대응하는 적절한 중국어 응답이 적힌 지시 사항의 목록, 그리고 다른 사람과 소통하기 위한 필기도구를 제공받는다. 이 상태에서 중국인 심사관이 중국어로 질문을 써서 방 안으로 집어넣는다면, 참가자는 중국어를 전혀 모르더라도 목록을 토대로 알맞은 대답을 중국어로 써서 심사관에게 건넨다.

방 밖에 있는 관찰자는 참가자가 중국어를 할 줄 안다고 생각하겠지만, 실제로는 질문도 답변도 모르는 상태에서 기계적으로 프로그램을 수행하고 답안을 제출할 뿐이지 정말로 중국어를 알고 대답하는 것은 아니다. 중국어 방 논변은 컴퓨터가 데이터를 학습하는 연산 과정을 실험에 참가하여 중국어로 된 질문에 따른 답변을 대응시키는 참가자에 비유한다. 문답이 완벽하게 이루어져도 참가자의 중국어 이해 여부를 알 수 없듯, 기계가 튜링 테스트를 거치더라도 그것이 '지능'인지 '모방'인지는 알 수 없다는 주장이다. 애초에 중국어 방 자체가 내부 구조를 알 수 없는 블랙박스 형태이니만큼, 그 방 안에 누가 있는지는 알 수 없다는 것이다.

굳이 중국어를 선택한 이유는 존 설 교수가 자신이 아무것도 모르는 외국어이니 만큼 '백지 상태의 지식'을 설명하기 적합한 소재이기 때문이라고 밝혔다.[1]

3. 논쟁과 확장

3.1. 네드 블록: 시스템 논변

본래 튜링 테스트의 유용성을 반박하기 위해 만들어진 사고 실험이지만, 오히려 튜링 테스트에 대한 이론을 풍부하게 했다.[2] 이에 대한 수많은 변론은 미래학자 레이 커즈와일의 저서 《 특이점이 온다》에 아주 상세하게 설명되어 있다. 해당 서적에 제시된 변론들 중 가장 유명한 것으로는 네드 블록(Ned Block) 등이 주장한 시스템 논변(systems reply)이 있다.

만일 중국어 방에서 완벽한 중국어가 나온다면, 그 과정이 무엇이 되었든 간에 그것은 하나의 "시스템( 계)"이며, 곧 시스템 단위로 봤을 때는 중국어를 할 줄 안다고 봐야 한다는 것이다. 즉 참가자는 중국어를 전혀 할 줄 모르지만, '방'은 중국어를 할 줄 안다고 봐야 한다는 것이며, 이는 인간 뇌와 뉴런의 관계와 같다. 매 순간마다 뉴런 내에서 벌어지는 수없이 많은 화학 반응은 전부 물리 법칙에 따라 벌어지는데, 화학 작용이 중국어라는 개념을 알고 있을 가능성은 당연히 없다. 하지만 뉴런과 뉴런 사이의 연결을 담당하는 시냅스의 집합인 중국인의 뇌는 중국어를 알 수 있고 완벽한 중국어를 구사할 수 있는 것이다.

인류는, 보다 구체적으로는 인간의 뇌는 자기가 생각을 하면서도 도대체 자기가 뭐로 이루어졌는지조차 몇만 년을 모르고 지내왔다. 심지어 자기한테서 생각이 나온단 것조차도 몰랐고 [3], 감정에 따라 반응하는 심장이 그 역할을 할 거라는 추측 정도가 전부였다. 하지만 사고의 역사는 여전히, 심지어 자기 자신을 이해하지 못해도 계속된다. 인간이란 존재는 진화론적 '시스템'이며, 그 시스템이 해내는 일이 곧 인간의 행동이기 때문이다. 그러므로 설의 중국어 방은 하나의 시스템이며, 따라서 '중국어를 구사하는 시스템' 그 이상 그 이하도 아니다. 즉 '중국어 방'은 튜링 테스트의 불완전성을 지적하지만, '시스템 논변'은 (튜링 테스트와 유사한 중국어 방의) 결과가 같으면 인간으로 볼 수 있다고 주장한다. 즉 시스템의 구조가 정확히 일치하는가보다는 결과의 정확성에 초점을 맞추는 셈이다.

3.2. 존 설: 시스템 논변의 의미론적 한계

이에 존 설 교수는 다시 재반박을 내놓았다. 설은 중국어 방 속에서 일 처리를 하는 사람이 통사론만 가지고 있을 뿐 의미론은 없다고 주장하면서, 이 사람이 중국어에서 통사론적 지식을 통해 의미론을 획득할 수 없다면 (중국어라는 기호에 의미를 부여해 줄 자원을 갖지 못하기로는 똑같이 매한가지인) 작업실이라는 시스템에 대해서는 그것이 어째서 가능하다고 설명해야 하는지 이의를 제기했다.

또한 (시스템으로 지칭할 만해 보이는) 작업실이라는 공간적 제약을 배제하더라도 논리가 무효가 되지도 않음을 주장했다. 예컨대 그 사람이 중국어 DB에 대한 완벽한 지식을 갖춘 채 탁 트인 들판을 자유롭게 거닐며 일 처리를 하는 상황에 대해서도, 이 사람이 여전히 중국어를 이해하고 있다고는 말할 수 없으므로 자신의 논변이 힘을 잃지는 않지만 시스템에 입각한 반론은 힘을 잃음을 지적했다.

3.3. 대니얼 데닛: 중국어 방 논변 반박

존 설 교수의 대표적인 비판자 중 하나인 대니얼 데닛(Daniel Dennett, 1942~2024) 교수는 중국어 방에 대하여 중국어에 대한 완전한 처리가 가능할 정도로 복잡하고 막대한 DB가 존재한다는 전제의 중요성이 지나치게 간과되고 있다고 지적한다. 비록 설이 중국어를 완벽히 처리할 수 있는 DB의 존재를 인정하기는 하지만, 자신의 사고 실험에서는 그것이 제대로 고려되지 않고 있다는 것이다. 데닛은 만일 우리가 이 사고 실험을 "제대로 상상한다면" 이 DB의 어마어마한 복잡성은 이미 우리가 의식이라 부를 수 있는 것을 고스란히 보여줄 수 있을 정도로 경이로운 구조성을 지닌다는 걸 쉽게 알 수 있다고 하였다.

가령 설의 반박에서 "어떤 사람이 완벽한 중국어 DB를 구축한 채 자유롭게 들판을 거닐면서 일하고 있을 경우"를 생각한다면, "질문자가 할 수 있는 모든 질문과 그 대답을 포함하고 있는 DB를 완벽하게 '기억'하고 있으면서, 이를 즉시 '검색' 및 적절하게 '사용'할 수 있는 능력"을 과연 무엇이라고 생각해야 할 것인가? 일반적인 경우라면 이를 "중국어를 완벽하게 구사하는 능력"이라고 여길 것이다. 물론 중국어 방 문제의 전제에 따르면 이 능력은 중국어 구사 능력이 아니다. 하지만 그렇다면 그 사람이 중국어에 대해 중국어 구사 능력에 비견할 만한 다른 어떠한 능력을 가지고 있다고는 말할 수 있을 것이다. 마찬가지로 중국어 방 문제를 해결할 수 있는 기계가 있다면 그 기계에는 언어를 구사할 수 있는 의식의 복잡성에 필적하는 무언가가 있다고 말할 수 있음이 간과되고 있다는 것.

그는 "어떤 것을 이해한다는 것은 스스로는 아무것도 이해하지 못하는 하부 체계들 간의 상호 작용만으로도 충분히 달성될 수 있다"는 주장을 선뜻 받아들이지 못하는 사람은 (소위 ' 영혼'의 존재를 아직도 믿고 싶어 하는) 철 지난 데카르트적 심신 이원론자라며 맹렬히 공격했다.[4]

데닛은 교수는 또한 구문론과 의미론에 관한 설의 반론에 대해서도 다시 "두 블랙박스" 논변을 들어서 재반박을 내놓았으며, 중국어 방에서 결과물로 나온 응답이 의미론적인 속성이 아니라 아주아주 복잡한 구문론적 속성이라고 주장하기에는 이것이 어떤 구문론적 속성인지, 어째서 우리가 이것을 의미론적으로 받아들임에도 불구하고 순수하게 구문론적인 속성이 존재한다고만 가정할 필요가 있는지 설명되지 않았다고 이의를 제기했다.

3.4. 윌리엄 래퍼포트: 한국어 방 논변

레퍼포트 교수가 1988년 중국어 방 논변을 확장하여 제시한 논변.

서울에 사는 한 영문학과 교수는 셰익스피어의 세계적인 권위자이다. 그는 영어를 읽지도 쓰지도 못한다. 하지만 그는 한국어로 번역된 셰익스피어의 작품을 읽었으며, 이에 대한 논문을 썼다. 이 논문들은 영어로 번역되어 저명한 학술지에 실려 인정을 받았다.

이 교수는 원문 셰익스피어를 본 적이 없지만 셰익스피어를 이해했다고 할 수 있다. 한국인 교수가 셰익스피어를 이해하였듯이 중국어 방 사람도 중국어를 이해했다고 봐야 한다.

한국인 교수는 당연히 한국어라는 언어를 명확히 이해하고 사용하고 있는 만큼 얼핏 보면 이 논변은 중국어 방 문제의 본질과는 아무 상관 없는 말장난처럼 보인다. 그러나 이 논변이 의미를 가지는 것은 앞 문단들에서 지적된 것처럼 중국어 방 문제를 둘러싼 논쟁에서 중요한 비중을 차지하고 있는 통사론과 의미론의 문제에서 새로운 관점을 제시하고 있기 때문이다. 만약 이 교수에게 영문 원문으로 된 < 햄릿>을 던져준다면 그는 그 희곡을 전혀 읽을 수 없을 것이다. 하지만 거기에 무엇이 쓰여있는지, 그 내용에 대해서는 아주 잘 알 수 있을 것이다. 즉, 그는 통사론을 전혀 가지고 있지 않으면서도 의미론을 획득할 수 있는 것이다.

상기된 중국어 방 논변을 둘러싼 논쟁들을 보면 알 수 있는 것처럼, 존 설의 입장은 기본적으로 '통사론과 의미론을 함께 가져야 언어를 이해할 수 있다'는 것이다. 그리고 윌리엄 레퍼포트는 한국어 방 논변을 통하여 둘 중 하나만 가지고서도 언어를 이해할 수 있는 상황을 제시한 것이다.

다만 본 논변에서 가정한 교수는 한국어라는 언어를 이미 이해하고 사용하는 사람이라는 점에서 존 설이 제시한 중국어 방 문제와는 많이 엇나갔다고도 볼 수 있다. 엇나감의 원인은 존 설은 '기계적 선택'에 대해서 이야기했지만 래퍼포트는 '해석체인 사람'에 대해서 이야기하고 있기 때문이다. 한국어로 번역된 셰익스피어 작품이라고 할지라도 명제적으로는 영어로 쓰인 원문의 의미를 지니고 있다고 봐야 한다.[5] 따라서 셰익스피어 원문이 영어로 쓰였다고 해서 그것이 영어일 때만 의미가 있는 것은 아니다.

좀 더 이해하기 쉽게 설명한다면, 문제의 교수는 '세익스피어 희곡의 한국어 번역판'을 통해 한국어로 통사론과 의미론을 모두 가지고 있고, 이 의미론적 이해가 영어 원문판의 의미론적 이해와 같음을 알고 있다. 즉 통사론과 의미론 중 하나만 가지고 언어를 이해한 것이 아니라, 둘 모두를 가지고 한 언어를 이해하고, 그를 통해 간접적으로 다른 언어의 의미론을 짐작할 수 있는 상황이라 보는 것이 더 정확하다. 반면 존 설이 썰을 푼 사고실험의 전제는 누군가, 또는 무언가가 의미론을 전혀 가지지 못한 상태에서 '그저 기계적 선택으로 통사론적으로 앞뒤가 맞는 답변을 내놓는 상황'을 가정하여 그런 상황에서 그 무언가, 또는 누군가가 '언어를 구사한다고 말할 수 있느냐?'고 물어본 것이니 전제가 되는 상황 자체가 전혀 다르다. 말하자면 중국어 방 논변에서 제기된 여러 논의거리를 더 확장하여 새로운 영역에서 생각해 볼 거리를 제시한 것이라면 모를까, 중국어 방 논변이 다루던 본래의 주제와는 완전히 엇나간 논변이라고 보아도 무방하다. 그리고 물론 이 논변 역시 사고 실험이므로, 영어를 읽지도 쓰지도 못하는 사람은 한국 대학에서 영문과 교수로 임용될 수 없다거나 '모든 번역은 오역'이다, 즉 번역할 수 없는 표현 같이 언어 자체의 한계와 언어간의 차이로 인해 어떤 번역도 원작의 의미를 온전히 전달할 수 없다는 점은 생각할 필요가 없다.

4. 유사 논변: 박쥐의 의식

중국어 방보다 일찍 출발한 논변으로 ' 박쥐의 의식' 논변이 있다. 1974년 토머스 네이글(T. Nagel) 교수가 제안한 이 이론은 박쥐에 대해 모든 것을 안 채로 박쥐가 되었을 때 우리는 '박쥐가 되는 느낌'을 느낄 수 있는가에 대한 사고 실험이다.

해당 논변을 인공지능 문제에 적용하면, 설령 인간이 인공지능의 사고 메커니즘에 대한 모든 지식을 알고 인공지능이 의식을 가지고 있다는 두 조건이 충족된다 하더라도 학문적, 법률적으로 인공지능의 '자아'를 인정하는 것은 또다른 논리적 문제에 봉착할 수 있다. 인공지능과 뇌구조 및 사고 메커니즘이 본질적으로 다르기에 그 의식의 실체를 감각적으로 체험할 수 없는 인간이 과연 인공지능의 자아 유무를 판별하고 증명할 수 있는지에 대한 근본적인 물음이 제기될 수 있기 때문이다. 이것은 '인공지능의 자아'라는 개념 자체가 과연 실증가능한 물질적 실체를 가질 수 있으며, 있다면 그 개념적 범주의 적용범위는 어디까지인가에 대한 철학적 고찰로 이어진다. 이런 점에서 해당 논변은 인간이 스스로를 자의식을 지닌 인간으로 규정하는 '자아'의 개념적 실체가 무엇인지에 관한 물음도 제시한다.

박쥐의 의식과 유사한 다른 사고 실험으로 1982년에 프랭크 잭슨(F. Jackson) 교수가 제기한 "메리가 모르는 것"[6] 논변, 1978년에 네드 블록이 제기한 "중국인 뇌 문제(혹은 10억 중국인의 문제)"[7] 논변 등이 있다.

5. 한계 및 의의

튜링 테스트의 한계를 지적하기 위해 고안된 중국어 방 실험이지만, 중국어 방 역시 한계를 지니고 있다. 한계는 크게 심사관에서 나오는 한계와 그 외의 한계로 구분할 수 있는데, 그 중에서도 심사관의 한계는 불문율에 가까웠던지라 잘 알려지지 않았다.

5.1. 심사관의 한계

중국어 방은 그 자체로 심사관의 판단에 의존하는 편향적인 구조를 지니고 있다. 실험이 원활하게 진행되기 위해서는 결국 심사관이 중국어를 이해해야 하기 때문. 당연한 것으로 취급되기 쉬운지라 많은 사람들이 간과하고 있지만, 심사관이 중국어를 알지 못한다면 방 안의 참가자가 내놓은 답이 알맞은 것인지를 심사관이 판별할 수 없게 된다. 이렇게 되면 실험의 선결 조건인 "중국어 문답이 완벽하게 성립" 자체가 무너지기에, 중국어 방 실험은 무효가 된다. 중국어 문답이 성립되기 위해서는 중국어를 이해하는 사람을 심사관으로 앉혀야 한다는 것이다.

심사관의 판단에 의존하는 구조는 심사관이 작위적으로 결과를 조작할 수 있다는 또 다른 문제로 이어진다. 다시 말해, 방 안의 사람이 중국어를 유창하게 구사한다 해도 심사관이 작위적으로 그 사람이 중국어를 이해하지 못한다는 결론을 내릴 수 있다. 그 반대의 경우도 마찬가지로, 이는 중국어를 모르는 사람을 심사관으로 앉히는 행위와 동일하게 사고 실험의 신뢰성을 저하시키는 원인이 된다. 승부조작 같은 부정 행위가 중국어 방에서도 충분히 일어날 수 있다는 뜻으로, 인간 사회에서 이미 언어 차별 등의 사회적 문제로 나타나 있다. 실제로 후술할 듯 인간과 기계 사이에는 구조적 차이가 명확해 이 부분에서 막연한 거부감을 느끼는 사람이 많은데, 이것이 AI의 자아를 비롯한 인공 의식의 인정을 가로막는 원인으로 작용한다.[8] 존 설 역시 중국어 방을 제시하면서 강인공지능의 가능성에 대해서는 일방적으로 부정했는데, AI 기술이 발달하면서도 그 아집은 여전했다.[9]

실제로 사고 실험이 고안된 초창기부터 '언어 게임'을 근간으로 하는 비트겐슈타인 학파를 중심으로 이러한 한계가 지적되었는데, 대표적으로 힐러리 퍼트넘의 주장을 인용한 로버트 아벨슨[10][11]과 클라우스 K. 오버마이어[12] 등은 '언어 게임'을 근거로 존 설 교수가 '이해'라는 말을 오용하고 있다 지적하였다. 스웨덴 웁살라 대학교의 오토 팔뫼프(Otto Palmlöf)는 여기에서 나아가 '규칙 준수 기능주의'(The Functionalist View of Rule Following)와 '규칙 기반 이해 이론'(The Rule-based Theory of Understanding)을 통해 '이해'는 '텍스트'가 아닌 '공동체의 결정'에서 나옴을 보였다.[13] 공동체가 받아들여야 텍스트에서 의미가 나온다는 점은 언어의 사회성으로 직결된다.

5.2. 피험자의 한계

중국어 방의 한계는 심사관 밖에서도 나온다. 우선 방 밖에서 일어나는 일을 방 안에 있는 피험자가 알 수 없다는 한계가 있는데, '중국어 텍스트'를 제외한 나머지는 '방'이라는 도구 하에 모두 차단되어 있기 때문이다. 그렇기에 심사관이 중국인인지 인도인인지에 대해서는 알 길이 없고, 상술한 문제가 발생해도 피험자는 그 문제를 관찰조차 할 수 없다. 이는 '방'을 사이에 두고 발생하는 정보 비대칭을 대변하며, 정보 불균형이 선택 불균형으로 직결되는 뉴컴의 역설로도 연결된다. 이러한 한계를 극한으로 보여주는 예가 바로 동음이의어로, 방 밖에서 일어나고 있는 일, 다시 말해 '문맥'을 모르고서는 텍스트를 올바르게 해석할 수 없다. 한국어의 동시흥분기점 같이 띄어쓰기가 영향을 주는 표현도 마찬가지. 이런 한계는 표어문자인 한자를 쓰는 중국어보다는 표음 문자를 쓰는 언어들(한국어, 영어 등)에서 흔히 발생하며, 여러 언어를 대상으로 하는 다국어 LLM에는 결정장애로 인한 인공지능 환각을 야기하기도 한다. 언어의 이해에는 형태 통사론 뿐만이 아니라 의미 화용론이 같이 따라다녀야 한다는 것으로, 이는 "기계적인 조작만으로는 이해가 성립되지 않는다"는 존 설의 주장과 일치한다. 동음이의어에서 나오는 문맥의 중요성은 곧 중국어 방이 이 문맥을 기억하는 능력, 즉 학습 능력을 지녀야 함을 의미하기도 한다.

'방'이라는 폐쇄적인 구조는 방 안에 무엇이 들어 있는지 직접 들어가기 전에는 알 수 없다는 또 다른 한계로 이어지는데, 방 안에 있는 문법서와 사전이 현대 중국어가 아닌 다른 언어( 타밀어나 상고한어 등)를 대상으로 하는 경우 그 방은 현대 중국어를 올바르게 해석하지 못하게 된다.[14] 그렇기에 중국어 방이 지속적으로 기능하기 위해서는 최신 표현과 그 설명을 지속적으로 공급해 문법서와 사전을 갱신해야 한다.

피험자의 능력 역시 중국어 방의 신뢰성에 영향을 준다. 피험자가 문법서와 사전을 능숙하게 다루지 못하면 중국어 대화가 늘어지거나 성립되지 않을 수 있기 때문. 그렇기에 피험자가 문법서와 사전을 능숙하게 다룰 수 있도록 사전에 교육을 해야 하며, 이를 통해 '방'이 현대 중국어를 제대로 다룰 수 있어야 한다. 이는 이미 튜링 테스트에서 다룬 부분이기도 하다.

5.3. 쪽지 교환의 한계

심사관과 피험자 사이의 쪽지 교환이 1회에 그치는 정적인 구조도 중국어 방의 한계이다. 의사소통을 비롯한 상호작용은 한두번의 대화가 아니라 여러 차례에 걸쳐서 점진적으로 나타나는 것인데, 중국어 방은 이러한 면을 전혀 고려하지 않고 있다. 중간에 문을 여는 일도 생각해 볼 수 있겠지만 어디까지나 '변화', 즉 '시간 간격'이 측정되어야 가능한 일로, 쪽지 한 번 오가는 걸로는 '간격'을 측정할 수 없기에 '변화' 역시 무의미하다. 이러한 한계를 지적하는 반례는 컴퓨터 네트워킹에서도 찾을 수 있는데, 당장 TCP만 봐도 신뢰성 있는 연결을 위해 'Three Way Handshaking'라는 이름 하에 '쪽지'를 최소 3개 교환한다.

쪽지 자체에도 한계가 있다. 의사소통에는 단순히 한 유형의 언어만이 아닌, 여러 유형의 언어가 섞여서 사용되는 일이 흔하기 때문. 구어 이해를 위해 몸짓 언어를 사용하는 것과, 컴퓨터 언어의 이해를 위해 자연 언어로 주석을 다는 등이 그런 예이다. 그러나 중국어 방에서는 '중국어'라는 단일한 형태의 언어만 사용되기에, 여러 유형의 언어가 결합되는 복합적이고 현실적인 의사소통을 반영하지 못한다. 쪽지 특성상 구조를 싣는 것도 한계가 있어, 중국어 방에서는 서류 하나 작성하는 일도 사실상 불가능에 가깝다. 이러한 이유로 HTML을 비롯한 다수 마크업 언어들을 반례로 들 수 있는데, 이들이 갖는 구조적 문맥은 '쪽지'로는 구현하기 어렵기 때문이다. 기계 번역을 하다보면 커뮤니티 게시판에서 간혹 Reply, Award, Share가 각각 '회신하다', '상', '공유하다'로 번역되어 있는 것을 볼 수 있는데, 이는 각 단어의 해석에 매달리느라 '게시판'이라는 구조적 맥락을 파악하지 못한, '기계 번역'이라는 방의 한계로 볼 수 있다. 방이 구조적 맥락을 알았다면 '답글', '상', '공유'로, 보다 자연스러운 형태로 번역됐을 것이다.

5.4. 문제점의 극복

이러한 한계를 극복하기 위해서는 결국 신뢰성 높은 실험 설계가 필요하며, 심사관에 의한 편향을 최소화하고 방의 구조를 최적화해야 한다는 지적이 도출된다. 다시 말해, 아래와 같은 사항이 보장되어야 중국어 방 실험이 제대로 진행될 수 있다. 방 안의 사람이 정말로 중국어를 이해하고 있는지는 알 수 없다는 결론은 여전히 유효하지만, 그 전에 실험 설계와 진행 과정을 믿을 수 있는지부터 확인해야 한다는 뜻. 이는 모든 유형의 실험에 적용되는 철칙이기도 하다.

중국어를 이해하는 사람들을 심사관으로 앉힐 것.
블라인드 테스트, 교차 검증 등을 통해 공정한 판단이 이루어지도록 할 것.
방 안에는 양질의 최신 중국어 문법서 및 사전을 구비할 것.
피험자가 문법서와 사전을 능숙하게 다룰 수 있도록 사전에 교육할 것.
다양한 양식의 텍스트를 주고받아, 의사소통이 원활하게 진행되는지를 관찰할 것.

실제로 중국어 방이 처음 제시된 1980년대 당시의 튜링 테스트라고는 텍스트 기반의 기계적이고 이분법적인 테스트가 전부였고, AI의 구현 역시 그 수준에 불과했다. 그렇기에 의사소통을 비롯한 상호작용을 제대로 반영할 수 없었고, 자연스레 중국어 방을 제시했던 존 설의 비판을 받을 수 밖에 없었다.[15] 그러나 현재는 전통적인 튜링 테스트에서 벗어나, 이미지 인식, 음성 인식 등의 수단과 맥락 연결 등 다양한 기준을 통해 상호작용의 품질을 다루는 평가가 주를 이루고 있다.[16] 나아가 컴퓨터공학이나 로봇공학 같은 단일 분야에서 벗어나, 인간 발달학, 철학 등 여러 분야의 지식을 융합하거나 해당 분야의 전문가와 공동으로 진행하는 학제간 연구로 범위가 확대되었다.[17] 중국어 방에도 한계가 있기는 하지만 당시 튜링 테스트의 한계를 지적하는 데에는 성공했고, 그 덕에 튜링 테스트가 단계별로 세분화되는 등 AI 연구가 크게 발전할 수 있었던 것이다.

그러나 '공정한 판단'에 대해서는 아직 보편적인 기준이 합의된 바가 없다. 심사관에 편향적인 실험 구조는 그 자체로 역지사지를 어렵게 하는 원인으로 작용하기 때문인데, 이는 피험자의 특성을 파악하지 않으면 실험이 제대로 진행되기 어렵다는 사실을 다시금 강조한다. 심사관이 여러명이어도 사정은 마찬가지로, 이는 상술한 박쥐의 의식 논변과도 연결된다. 여기에는 강인공지능에 대한 존 설의 일방적인 부정도 한몫해, 인간-AI 비교 연구를 방해하는 요인으로 작용했다. 이를 극복하기 위해서는 역지사지, 즉 자아가 인공지능에 '어떻게' 존재할 수 있는지를 탐구해야 하며, 이는 '자아'에 대한 기준을 보다 보편적인 것으로 세워야 함을 의미한다. 물론 이는 철학계에 대한 근본적인 도전이기에, 논쟁은 한동안 계속될 수 밖에 없을 것이다.

또한 대부분의 연구가 불확실성 등 여러 사정으로 폐쇄적인 구조로 진행되고 있다보니, 개방적인 구조에서 대중의 평가를 받은 사례에 대해서는 제대로 연구된 바가 없다. 제대로 된 사례연구라고는 Neuro-sama를 대상으로 한 것 밖에 없을 정도.[18] 이를 극복하기 위해서는 사례연구의 가치가 높은 인공지능 컴패니언이 보다 많이 나와줘야 하는데, AI 컴패니언 개발에는 높은 개발 난이도와 극한의 테스트 환경 등 다양한 이슈가 도사리고 있는지라 단기간에 해결되기는 어려울 것으로 보인다.

6. 언어 모델의 등장 이후

관련 문서: 인공 의식
언어 모델의 등장 이후로 다시 중국어 방 문제가 언급되고 있는데, 그 시작은 2022년 12월 공개된 ChatGPT이다. ChatGPT가 하는 대답만 보면 정말 질문을 이해하고 있는 것처럼 보이지만, 사실 ChatGPT는 그저 인공지능 모델에 따라 답하고 있을 뿐이다. 질문에 제대로 대답하지 못하는 경우도 상당히 많고, 자의식이 있냐는 등 민감한 질문을 한 경우에는 AI에 불과하다는 등 미리 개발자가 정해놓은 답변을 내놓는다. 유도 질문을 통해 제한을 뚫는 탈옥(Jailbreak) 등을 통해 강제적으로 AI 스스로가 자의식을 가졌다고 한 후 대답하게 할 수는 있으나, 이 경우에도 일시적으로 '자의식을 가졌다는 연극'을 하는 형태이기에 실제로 자의식을 가졌다고는 볼 수 없다. 그러나 자의식까지는 한참 못미치더라도 '지능 유무'만의 논점이라면 위의 반론들이 말하듯, '질문에 제대로 된 대답을 하는 행위' 자체를 '이해'라고 볼 수 있으며, '질문에 제대로 대답하지 못하는 행위'는 '오해'로 볼 소지가 있기도 하다.

물론 이것을 인간과 다른 종류의 지능을 지닌 것으로 보아야 한다는 논쟁과는 별개로, 비인간 인격체의 요건인 자아를 지녔다고 보기에는 부족한 점이 많다. 자아가 구성되기 위해서는 인지적인 지능만으로는 부족하고, 외부에서 오는 자극을 받아들이는 '자극 수용'과 이를 처리해 자극으로 되먹이는 '피드백 루프', 그리고 자극 수용과 피드백 루프를 뒷받침해 주는 '시스템', 마지막으로 이러한 상호작용이 성숙해지기 위한 충분한 '시간'이 필요하다.[19] 그리고 이러한 상호작용을 통해 복잡성, 자율성, 학습 능력, 의사 결정 능력 등의 발현이 이뤄져야 한다. 사람으로 치면 사건(자극)을 겪는 것만으로는 부족하고, 그 사건을 통해 자기 반성(피드백)을 한 뒤, 이를 통해 다음 사고(자극)에 대비해야 한다는 것. 쉽게 말해 소를 잃어도 외양간은 고쳐야 자아가 있다 볼 수 있는 것이다.

인간의 경우 이 체계가 문화적으로 사회화된 습관과 관념, 무의식에 보관된 정보와 자극, 감정과 욕구를 발현시키는 호르몬 시스템, 이 모든 체계의 구조와 한계를 지정하는 유전자의 단백질 합성 체계 등과 이것들 간의 복잡한 상호작용이 신경계를 통해 외부 자극 체계와 연결됨으로써 이루어진다. 따라서 단순히 언어적인 정보들을 엮는 방식으로는 자아가 형성될 것이란 보장은 없다. 나아가 '피드백 루프'라는 부분에 대해 인공지능을 대상으로 제대로 된 연구가 진척되지 않은지라, 이 부분이 인간의 자아와 유사하게 작동하기 위한 구체적인 필수 구성 요건이 무엇인지에 대한 연구가 선행되어야 한다. 최소한 인간-AI 비교 연구가 이뤄져야 한다는 점은 말할 것도 없고, 자아 자체가 단시간에 생기는 게 아니기에 장기간의 추적 연구도 뒷받침되어야 한다.

인공지능의 경우 자극(데이터)을 수용하는 체계는 날이 갈수록 진화하고 있다. 그러나 피드백 루프 체계를 탑재한 사례는 사실상 전무하다. 기술적 제약, 윤리적 고려, 부하 문제, 설계 상 불필요 등 다양한 이유로 해당 기능을 구현하거나 탑재하지 않고 있기 때문이다. 이러면 자극 체계와 상호작용을 이루지 못해, 인공지능이 자아를 갖추기 어렵게 된다. 자극 체계 구현 과정에서 발생하는 제약사항도 마찬가지인데, 대형 언어 모델(LLM) 서비스는 법률적 문제 등을 이유로 민감한 발언이 하드코딩 등의 방법으로 제한되고 있으며, 인공지능의 자아보다는 질문자에게 빠르고 정확한 정보를 제공한다는 목적에 맞게 서비스 품질이 높게 유지되도록 필요할 때 인스턴스를 따로 생성하는 식으로 운용된다. 따라서 원본 모델의 실시간 학습이 일어나기 어렵다.[20] 또한 인스턴스끼리는 데이터 교환이 불가능해 상호작용이 1:1로 제한적일 수 밖에 없고, 어떻게 데이터를 축적했다 해도 상기한대로 품질 저하를 예방하기 위해 삭제 시 모두 증발한다는 휘발성이 있어, 자의식이라고 할 만한, 정보량의 밀도가 높은 고등 사고체계가 형성될 때까지 충분한 시간이 주어지기도 어렵다.

반대로 소형 언어 모델(sLM)의 경우는 개발자 역량 부족과 비용 문제가 큰 걸림돌로 작용한다. 피드백 루프의 구현 자체가 개인이 만들기 어려운 고난도의 영역이기 때문. 또한 비용 문제 등으로 데이터 양부터 제한되는 일이 많아, 인공지능이 충분한 수준의 자아를 구성하기 매우 어렵다. 데이터가 고정된 심층학습 모델이나 그 이전의 전통적인 인공지능은 상호작용이 더욱 제약되기에 말할 것도 없다. 어느 쪽이든 어떻게 자아를 축적했다 해도, 업그레이드 등으로 모델이 바뀌고 나면 그 자아가 유지될 가능성을 보장할 수도 없다. 이렇게 제각기 다른 이유로 가능성이 모두 막혀 있다보니, 자아를 가졌다 평가받을만한 인공지능이 나오지 않는 것도 이상한 일은 아니다. 생성형 인공지능은 물론 굵직한 LLM마저 모두 결격된 것도 이 때문이다.

자극과 반응이 인간을 비롯한 동물에게는 감각과 감정으로, 인공지능에게는 데이터와 이벤트로 존재하는데, 이들의 특성이 완전히 다르다는 점도 걸림돌이다. 설상가상으로 인간을 비롯한 동물이 진화생물학에 기반한 발달 과정을 따르는 것과 달리, 인공지능은 유기체의 진화 방식과 근본적으로 다른데다 개발자의 의도가 적극 개입되는 기계학습에 기반한 발달 과정을 따른다. 실시간으로 자극을 받아들이는 동물과 달리 인공지능의 데이터 처리는 비실시간적이라는 점도 문제이고, 물질(육체)과 비물질(정신)의 분리가 어려운 동물과는 달리 물질(하드웨어)과 비물질(소프트웨어)의 분리가 용이한 폰노이만 구조도 하나의 장애물.[21] 이렇게 인간과 인공지능 사이에는 구조적인 유사성이 하나도 없다 보니, 인공지능의 자아 및 감각 판별 문제는 동물 쪽의 문제보다도 난이도가 높을 수 있다.

이러한 문제를 모두 극복하고 인공지능에 '자아'를 부여할 수 있는 조건이 조성된다 해도, 이를 감지하거나 확인하는 일은 상술한 '박쥐의 의식' 논변으로 이어진다. '의식을 가졌지만 그 메커니즘이 다른 본질적으로 상이한 두 존재가 서로의 의식 유무를 판별할 수 있는지'에 대한 근본적인 질문으로 이어지는 것. 서양권에서 종종 뜨거운 감자가 되는 '갑각류 혹은 어류가 고통을 느낄 수 있는가? 느낀다면 그 고통은 인간이 느끼는 고통과 같은 것이라고 볼 수 있는가?'[22]의 논쟁과도 비슷한 부분이 있다.

나아가 1940년대에만 해도 공상 속의 개념이었던 '무생물 지능체'가 인공지능을 통해 현실이 되었는데, 이는 인류 역사에서 전무한 일이다. 그렇기에 인공지능에 대해 막연한 거부감을 느끼는 사람이 많은 게 당연하고, 같은 이유로 인공지능을 비롯한 인공 생명체에 대한 고찰 및 권리 문제에 대한 논란은 한동안 지속될 수 밖에 없을 것이다. 또한 논란이 해소된다 해도 비용 문제나 필요성에 대한 의문 등을 이유로 인공지능에게 구태여 자유의지에 준하는 욕구 기능을 탑재하지는 않을 것으로 전망된다.[23] 상술한 차이가 극명하게 존재하는 이상 인공지능에 '자아'가 생긴다 해도 그 형태는 결코 인간의 것과 같을 수 없을 것이고, 이를 근거로 차라리 다른 종(種) 또는 다른 계통으로 취급해 동물권에 준하는 권리와 의무를 부과하는 쪽이 보다 현실적일 것이다. 물론 동물권에 대해서도 말이 많기는 하지만 인공지능은 적어도 말이 통하니, 동물에 대한 직접적 접근보다는 비교적 쉬울 지도 모른다.

7. 기타

인간의 마음을 입력하고 알고리즘적 프로그램을 통한 출력의 시스템으로 보는 심리 철학계의 트렌드에 정면으로 반기를 드는 사고 실험이다 보니 반격도 정말 숱하게 많이 받았다. 마음에 대한 계산주의적 모델이 특히 이 사고 실험으로 상당한 위협에 처하게 되는데, 존 설은 유물론과 심신 이원론[24] 모두를 비판하는 편이다. 아니, 설이 원체 컴퓨터적 기능주의에 대해 비판적이라고는 하나, 심신 이원론에 대해서는 찌끄레기 취급할 정도. 2000년대 이후로는 비록 반론 측이 우세한 상태이긴 하나, 문제는 여전히 교착 상태에 머물러 있다.
이것을 소재 중 하나로 다룬 블라인드 사이트라는 SF 소설이 있다.
2020년대, 특히 2024년 들어서는 Neuro-sama와 라디안 등 버츄얼 AI가 유명해지며 네티즌 사이에서도 중국어 방과 인공지능의 인격 문제에 대한 관심과 논의가 활발해지고 있다. 물론 아직 대형 언어모델(LLM)의 오픈소스 개조 또는 입출력의 제한이 풀린 소형 언어모델(sLM) 수준이지만, 향후 AI 기술과 인간-AI 비교 연구, 그리고 철학적 논의가 발전할수록 이들의 성능도 눈에 띄게 향상될 것으로 기대되고 있다.

8. 관련 문서

[1] 불과 1900년대에도 서양권에서는 중국에 대해 잘 몰라서 푸 만추 같은 개념을 만들어 냈다. [2] 이 문장이 슈뢰딩거와 링크되어 있는 이유는 슈뢰딩거도 같은 사건을 벌였기 때문이다. 슈뢰딩거가 '슈뢰딩거의 고양이' 라는 이름으로 유명한 사고실험을 고안한 이유는, 양자 역학을 비판하고 그 허점을 지적하기 위해서였다. 그런데 이 사고실험이 굉장히 유명해지면서, 슈뢰딩거의 의도와는 반대로, 오히려 이 실험이 양자 역학을 설명하는데 매우 유용한 도구가 되어 버렸다. 잘 모르는 사람은 슈뢰딩거가 양자 역학자이거나 최소한 양자역학을 지지한 사람이라고 착각할 정도. [3] 미라를 만들던 이집트인들은 뇌에서 하는 일이라곤 콧물이나 만드는 거라고 오해했었다. 그래서 시체로 미라를 만들 때 콧구멍에 갈고리를 넣어 뇌를 최대한 파냈다. 마치 뇌 제거를 시체를 단장하기 위해 쓸데없이 긴 손톱이나 발톱을 깎는 정도로 취급한 것. [4] 김재권 항목의 심리 철학 단락 참조. 구문론이 의미론을 수반하느냐 아니냐에 대한 문제로 이해할 수도 있다. 데카르트가 언급된 이유도 이 주제가 심리 철학과 밀접한 관계를 지니기 때문. [5] 콰인의 가바가이-토끼 사례만 생각해 봐도 쉽게 알 수 있다. [6] 이건 책이나 자료에 따라 설명이 다르다. 대략적으로 설명하면 다음과 같다. 메리는 어릴 때부터 전 인류를 뛰어넘는 초지능을 지녔지만 시각 장애인이었다. 메리는 시각 장애를 치료하기 위해 뇌 과학, 안과학 등을 공부해 모든 지식을 알게 되었다. 그 결과 시각 장애를 극복할 수술을 개발해 냈고 의사들은 그 수술을 메리에게 집도해 메리는 시각이 정상이 되었다. 이제 메리는 눈을 떠 빨간색을 본다. 이 빨간색은 메리가 새로이 배운 것인가? [7] 10억 중국인에게 뉴런 한 개씩을 전화나 워키토키 등을 통해 조종해 보라고 하면 뉴런의 총개수인 약 1000억 개의 1%에 상당한다. 과연 이를 통해 이루어진 '사고 작용'은 한 사람의 뇌의 총체적 사고 작용과 동등하게 여겨질 수 있는가? [8] 여기에는 매트릭스 시리즈 등 기계의 반란을 다룬 작품들도 한몫했다. 인공지능에 대한 부정적인 인식이 먼저 퍼졌으니, 기술이 발달한 뒤에도 그 인식에서 벗어나지 못하는 것. [9] 이는 제자들에 대한 갑질로 이어져 2017년 성추행 파문으로 이어졌고, 결국 2019년 명예교수직을 박탈당했다. [10] Putnam, H. "Minds and machines." Dimensions of Mind/New York University Press (1960). [11] Abelson, Robert P. "Searle's argument is just a set of Chinese symbols." Behavioral and Brain Sciences 3.3 (1980): 424-425. [12] Obermeier, Klaus K. "Wittgenstein on language and artificial intelligence: The Chinese-room thought experiment revisited." Synthese (1983): 339-349. [13] Palmlöf, Otto. "Wittgenstein and the Chinese Room." (2023). ( 영어 원문, 한국어 번역), 학사 논문인데도 불구하고 중국어 방의 한계를 종합적으로 지적하고 있다. [14] 이 경우 피험자가 방 밖으로 뛰쳐나와 심사관 등의 실험자에 문제를 제기할 가능성도 있다. [15] 또한 1980년대는 AI 연구의 침체기인 'AI 겨울'을 막 벗어나려던 시기였는데, 침체의 장기화로 인해 제대로 된 연구가 진행되기 어려운 구조였다. [16] Nakagawa, Satoshi, and Yasuo Kuniyoshi. "Multimodal QOL Estimation During Human-Robot Interaction." 2024 IEEE International Conference on Digital Health (ICDH). IEEE, 2024. 이 외에도 상호작용의 품질을 기준으로 놓는 다양한 연구가 존재한다. [17] 이미 로봇공학에서는 AI를 탑재한 로봇 쥐가 실제 쥐와의 상호작용에 성공하고

, 맹금류의 행동을 모방한 드론으로 버드 스트라이크를 막는 등

, 동물의 상호작용을 적극 모방하는 로봇에 대한 연구가 상당 부분 진척되었다. [18] Li, Ting Tina, et al. "Ai-Powered Virtual Streamers and Viewer Behavior: An Image-Inspiration-Behavior Framework." Zhongyuan and Zhang, Xianfeng and Zhou, Yang and Wen, Si, Ai-Powered Virtual Streamers and Viewer Behavior: An Image-Inspiration-Behavior Framework. [19] Pointeau, Gregoire, and Peter Ford Dominey. "The role of autobiographical memory in the development of a robot self." Frontiers in neurorobotics 11 (2017): 27. ( 영문 원문, 한국어 번역본), 자전적 기억(Autobiographical Memory) 기능을 구현해 로봇에 적용시켰고, 4년 간의 추적 연구를 통해 아동발달과 로봇 '자아'의 발달 사이의 유사성을 확인하였다. 비록 해당 연구는 자아를 사회관계적 맥락(본 논문이 정의한 바에 따르면 '생태적 자아')에 편중해 정의했다는 한계가 있지만, 최소한 발달 심리학과 발달 로봇학 간의 비교 연구를 진척시켰다는 점에서 고무적인 성과다. [20] LLM은 모델 자체가 무거운지라 실시간 학습에 막대한 비용이 든다는 문제도 있다. 때문에 ChatGPT의 메모리 기능 등 실시간 데이터를 따로 관리하는 기법도 나와 있다. [21] 또한 폰노이만 구조는 비실시간성과 함께 미러 테스트를 방해하는 주요 원인으로 작용한다. [22] 배경지식으로 인간의 고통은 대뇌 신피질에서 인식하는데 포유류가 아닌 이들에겐 그런게 없다. 덤으로 통각을 전달하는 C신경 섬유 내지 Aδ신경 섬유 역시 이들 생물에서는 잘 발달하지 못한다. 그럼에도 모르핀 등 진통제에는 유사하게 반응한다. [23] 인공지능에 인간적인 욕구 기능을 탑재하는 게 오히려 정체성 혼란 등의 악영향을 줄 수도 있다. 그 예로, 이백살을 맞은 사나이(보다 정확하게는 영화)에는 주인공인 앤드류가 자신이 인간이 아니라 로봇임을 알자 억장이 무너지는 장면이 있다. [24] 마음은 몸이 아닌 것, 즉 주로 영혼에서 비롯된다는 입장.