AI 101

튜링 테스트란 무엇이며 왜 중요한가?

Published July 21, 2020

Updated March 21, 2026

Antoine Tardif, CEO & Founder of Unite.AI

인공지능(AI)에 관심이 있다면 ‘튜링 테스트‘를 분명히 들어보았을 것입니다. 이 테스트는 1950년 앨런 튜링이 처음 제안한 것으로, AI가 인간 수준의 지능에 도달했는지 여부를 판단하는 궁극적인 실험으로 설계되었습니다. 개념적으로, AI가 이 테스트를 통과할 수 있다면, 그것은 인간과 동등하거나 구별할 수 없는 지능을 달성한 것입니다. 우리는 앨런 튜링이 누구인지, 테스트가 무엇인지, 왜 중요한지, 그리고 테스트의 정의가 진화해야 할 수도 있는 이유를 탐구해 보겠습니다.

앨런 튜링은 누구인가?

튜링은 기이한 영국 수학자로, 미래를 내다보는 획기적인 아이디어로 인정받고 있습니다. 1935년, 22세의 나이에 확률론에 대한 그의 연구로 케임브리지 대학교 킹스 칼리지의 펠로우십을 얻었습니다. 그의 추상적인 수학적 아이디어는 아직 발명되지도 않은 분야로 그를 완전히 다른 방향으로 이끌었습니다.

1936년, 튜링은 현재 컴퓨터 과학의 기초로 인정받는 논문을 발표했습니다. 여기서 그는 어떤 지시 사항 집합이든 해독하고 수행할 수 있는 ‘범용 기계’의 개념을 발명했습니다.

1939년, 튜링은 영국 정부의 암호 해독 부서에 채용되었습니다. 당시 독일은 ‘에니그마 기계‘라고 불리는 장치를 사용하여 모든 군사 및 해군 신호를 암호화하고 있었습니다. 튜링은 산업 규모로 에니그마 메시지를 해독할 수 있는 새로운 기계(‘봄브‘)를 빠르게 개발했습니다. 이 발전은 나치 독일의 공세를 물리치는 데 결정적인 역할을 한 것으로 평가받고 있습니다.

1946년, 튜링은 다양한 유형의 계산을 실행할 수 있는 전자 컴퓨터를 개발하기 위해 1936년에 발표한 그의 혁신적인 아이디어로 돌아갔습니다. 그는 자동 계산 엔진(ACE)이라고 불리는 것에 대한 상세한 설계도를 제작했습니다.

1950년, 튜링은 “기계는 생각할 수 있는가?“라고 묻는 그의 획기적인 논문을 발표했습니다. 이 논문은 컴퓨터 과학과 AI 모두를 완전히 변모시켰습니다.

1952년, 한 청년에 의해 경찰에 신고된 후, 튜링은 그의 동성애 활동으로 인해 풍기문란죄로 유죄 판결을 받았습니다. 이로 인해 그의 정부 보안 인가는 취소되었고, 그의 경력은 파괴되었습니다. 그를 처벌하기 위해 그는 화학적 거세를 당했습니다.

인생이 산산조각 난 그는 1954년 6월 8일, 그의 집에서 청소부에 의해 발견되었습니다. 그는 전날 시안화물 중독으로 사망한 상태였습니다. 그의 시체 옆에는 부분적으로 먹힌 사과가 놓여 있었습니다. 검시관의 판정은 자살이었습니다.

다행히도, 그의 유산은 계속해서 살아남았습니다.

튜링 테스트란 무엇인가?

1950년, 앨런 튜링은 Mind 잡지에 “컴퓨팅 기계와 지능“이라는 제목의 획기적인 논문을 발표했습니다. 이 상세한 논문에서 “기계는 생각할 수 있는가?”라는 질문이 제기되었습니다. 이 논문은 기계가 생각할 수 있는지를 정의하려는 탐구를 포기하고, 대신 ‘모방 게임’으로 기계를 시험해 볼 것을 제안했습니다. 이 간단한 게임은 세 사람이 참여합니다:

남자 (A)
여자 (B),
그리고 질문자 (C) – 성별은 어느 쪽이든 될 수 있습니다.

게임의 개념은 질문자(C)가 남자(A)와 여자(B) 모두와 분리된 방에 머무르는 것이며, 목표는 질문자가 누가 남자인지, 누가 여자인지 식별하는 것입니다. 이 경우 남자(A)의 목표는 질문자를 속이는 것이고, 한편 여자(B)는 질문자(C)를 도울 수 있습니다. 공정성을 위해 구두 신호는 사용할 수 없으며, 대신 타자로 친 질문과 답변만 주고받습니다. 그렇다면 질문자는 누굴 믿어야 할지 어떻게 알 수 있을까요? 질문자는 그들을 X와 Y라는 레이블로만 알고 있으며, 게임이 끝날 때 그는 단순히 ‘X는 A이고 Y는 B이다’ 또는 ‘X는 B이고 Y는 A이다’라고 진술합니다. 그렇다면 질문은, 만약 우리가 남자(A)나 여자(B)를 제거하고 그 사람을 지능적인 기계로 대체한다면, 그 기계가 자신의 AI 시스템을 사용하여 질문자(C)를 속여 그것이 남자나 여자라고 믿게 만들 수 있을까요? 이것이 본질적으로 튜링 테스트의 본질입니다. 다시 말해, 만약 당신이 모르는 사이에 AI 시스템과 소통하고, 반대편의 ‘존재’가 인간이라고 가정했다면, AI가 당신을 무기한으로 속일 수 있을까요?

튜링 테스트가 중요한 이유

앨런 튜링은 그의 논문에서 튜링 테스트가 결국 극복될 수 있을 것이라고 믿는다는 사실을 암시했습니다. 그는 이렇게 말합니다: “2000년까지, 약 50년 후에는 약 10⁹의 저장 용량을 가진 컴퓨터를 프로그래밍하여 모방 게임을 너무 잘 수행하게 만들어 평균적인 질문자가 5분간의 질문 후에 올바른 식별을 할 확률이 70%를 넘지 않도록 할 수 있을 것이라고 믿습니다.” 튜링 테스트를 현대적인 렌즈를 통해 바라볼 때, AI 시스템이 5분 동안 인간을 속일 수 있다는 것은 매우 가능해 보입니다. 인간이 지원 챗봇이 인간인지 봇인지 모르고 챗봇과 상호작용하는 경우가 얼마나 자주 있을까요? 튜링 테스트를 통과했다는 많은 보고가 있었습니다. 2014년, 13세 우크라이나 소년을 시뮬레이션하는 유진 구스트먼이라는 챗봇 프로그램이 레딩 대학교가 주최한 행사에서 튜링 테스트를 통과했다고 합니다. 이 챗봇은 런던 왕립학회에서 심사위원의 33%를 인간이라고 믿게 만들었다고 합니다. 그럼에도 불구하고 비평가들은 테스트의 부적절함, 너무 많은 심사위원이 납득하지 못했다는 사실, 테스트 기간(단 5분), 그리고 이 성과에 대한 증거가 제시되지 않았다는 점을 지적하기 위해 서둘렀습니다. 2018년, Google Duplex 예약 시스템이 Google Assistant의 도움을 받아 미용실에 전화를 걸어 이발 예약을 했습니다. 이 경우, AI 시스템은 자신을 AI라고 소개하지 않았고, 전화 통화 중 미용실 접수원과 이야기하면서 인간인 척했습니다. 짧은 대화 후, 이발 예약이 성공적으로 이루어졌고 양측은 전화를 끊었습니다. 그럼에도 불구하고, 자연어 이해(NLU) 및 자연어 해석(NLI)와 같은 하위 분야를 가진 자연어 처리(NLP) 시대에, 기계가 자신이 말하는 내용의 맥락을 완전히 이해하지 못한 채 질문을 하고 답변한다면 그 기계가 진정으로 지능적인 것인지 질문을 던져야 합니다. 결국, 자연어로 제기된 질문에 답할 수 있는 컴퓨터 시스템으로, Jeopardy 챔피언을 물리치기 위해 IBM이 개발한 왓슨의 기술을 검토해 보면, 왓슨이 인터넷을 통해 세계 지식의 큰 부분을 다운로드함으로써 실제로 이 언어의 맥락을 이해하지 않고도 세계 챔피언을 이길 수 있었다는 것이 분명해집니다. 위키백아를 포함한 다양한 출처의 2억 페이지에 달하는 정보가 있었습니다. 왓슨이 게임을 하는 동안 인터넷에 접속할 수 없다는 제한이 있었지만, 이는 게임 시작 전에 모든 인간 지식에 접근할 수 있는 AI에게는 단순히 사소한 제한에 불과합니다. 검색 엔진과 유사하게, 키워드와 참조점이 만들어졌습니다. AI가 이 정도의 이해 수준에 도달할 수 있다면, 오늘날 발전하는 기술을 바탕으로 인간을 5분 또는 10분 동안 속이는 것은 단순히 기준을 충분히 높게 설정하지 않은 것이라고 생각해야 합니다.

튜링 테스트는 진화해야 하는가?

튜링 테스트는 시간의 시험을 견디는 데 놀라운 역할을 해왔습니다. 그럼에도 불구하고, AI는 1950년 이후 극적으로 진화했습니다. AI가 인간만이 할 수 있다고 주장했던 업적을 달성할 때마다 우리는 기준을 더 높게 설정합니다. 우리가 이해하는 대로의 튜링 테스트를 AI가 꾸준히 통과할 수 있게 되는 것은 시간 문제일 뿐입니다. AI의 역사를 검토할 때, AI가 인간 수준의 지능에 도달할 수 있는지 여부의 궁극적인 척도는 거의 항상 그것이 다양한 게임에서 인간을 이길 수 있는지에 기반합니다. 1949년, 클로드 섀넌은 컴퓨터가 어떻게 체스를 두도록 만들 수 있을지에 대한 그의 생각을 발표했는데, 이는 인간 지능의 궁극적인 정점으로 간주되었기 때문입니다. 1996년 2월 10일, 지치도록 긴 3시간의 경기 끝에 세계 체스 챔피언 게리 카스파로프가 초당 2억 수를 평가할 수 있는 IBM 컴퓨터인 딥 블루와의 6게임 매치 첫 게임에서 패배할 때까지 그렇게 되지 않았습니다. 얼마 지나지 않아 체스는 더 이상 인간 지능의 정점으로 간주되지 않았습니다. 체스는 그 후 3000년 이상 전 중국에서 기원한 게임인 바둑으로 대체되었습니다. AI가 인간 수준의 지능에 도달한다는 기준이 올라갔습니다. 시간을 2015년 10월로 빨리 감아보면, 알파고는 3회 연속 유럽 챔피언인 판 후이 씨와 첫 경기를 했습니다. 알파고는 바둑 프로를 상대로 사상 처음으로 5-0의 점수로 승리했습니다. 바둑은 10³⁶⁰가지의 가능한 수를 가진 세계에서 가장 정교한 게임으로 간주됩니다. 갑자기 기준이 다시 올라갔습니다. 결국 논쟁은 AI가 MMORPG(대규모 다중 사용자 온라인 롤플레잉 게임)에서 플레이어 팀을 이길 수 있어야 한다는 것이었습니다. OpenAI는 심층 강화 학습을 사용하여 빠르게 이 도전에 부응했습니다. 이러한 비유적인 기준의 지속적인 이동 때문에 우리는 튜링 테스트의 새로운 현대적 정의를 재고해야 합니다. 현재 테스트는 속임수와 챗봇의 기술에 너무 많이 의존할 수 있습니다. 잠재적으로, 로봇공학의 진화와 함께 AI가 진정으로 인간 수준의 지능에 도달하기 위해서는, AI가 정의된 규칙이 있는 게임 환경이나 시뮬레이션 환경이 아닌 우리의 실제 세계에서 상호작용하고 “살아야” 할 필요가 있을 수 있습니다. 만약 우리를 속이는 대신, 로봇이 대화를 나누고 아이디어와 해결책을 제안함으로써 다른 인간처럼 우리와 상호작용할 수 있다면, 아마도 그때야 비로소 튜링 테스트가 통과될 것입니다. 튜링 테스트의 궁극적인 버전은 AI가 인간에게 접근하여, 우리에게 그것이 자의식이 있다고 설득하려고 시도할 때일 수 있습니다. 그 시점에서, 우리는 인공 일반 지능(AGI)도 달성하게 될 것입니다. 그러면 AI/로봇이 지능 면에서 우리를 빠르게 능가하는 것은 불가피할 것입니다.