Человеческий разум и разум вообще

Тест Тьюринга

Тест Тьюринга — эмпирический тест, идея которого была предложена Аланом Тьюрингом в статье «Вычислительные машины и разум» (Computing Machinery and Intelligence ), опубликованной в 1950 году в философском журнале «Mind». Тьюринг задался целью определить, может ли машина мыслить.

Стандартная интерпретация этого теста звучит следующим образом: «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор».

Все участники теста не видят друг друга. Если судья не может сказать определенно, кто из собеседников является человеком, то считается, что машина прошла тест. Чтобы протестировать именно интеллект машины, а не её возможность распознавать устную речь, беседа ведется в режиме «только текст», например, с помощью клавиатуры и экрана (компьютера-посредника). Переписка должна производиться через контролируемые промежутки времени, чтобы судья не мог делать заключения исходя из скорости ответов. Во времена Тьюринга компьютеры реагировали медленнее человека. Сейчас это правило необходимо, потому что они реагируют гораздо быстрее, чем человек.

По состоянию на 2009 год ни одна из существующих компьютерных систем не приблизилась к прохождению теста.

История

Философские предпосылки

Хотя исследования в области искусственного интеллекта начались в 1956 году, их философские корни уходят глубоко в прошлое. Вопрос, может машина думать или нет, имеет долгую историю. Он тесно связан с различиями между дуалистическим и материалистическим взглядами. С точки зрения дуализма, мысль не является материальной (или, по крайней мере, не имеет материальных свойств), и поэтому разум нельзя объяснить только с помощью физических понятий. С другой стороны, материализм гласит, что разум можно объяснить физически, таким образом, оставляя возможность существования разумов, созданных искусственно.

В 1936 году философ Альфред Айер рассмотрел обычный для философии вопрос касательно других разумов: как узнать, что другие люди имеют тот же сознательный опыт, что и мы? В своей книге «Язык, истина и логика» Айер предложил алгоритм распознавания сознающего человека и не осознающей машины: «Единственным основанием, на котором я могу утверждать, что объект, который кажется разумным, на самом деле не разумное существо, а просто глупая машина, является то, что он не может пройти один из эмпирических тестов, согласно которым определяется наличие или отсутствие сознания». Это высказывание очень похоже на тест Тьюринга, однако точно неизвестно была ли известна Тьюрингу популярная философская классика Айера.

Алан Тьюринг

К 1956 году британские ученые уже на протяжении 10 лет исследовали «машинный интеллект». Этот вопрос был обычным предметом для обсуждения среди членов «Ratio Club» — неформальной группы британских кибернетиков и исследователей в области электроники, в которой состоял и Алан Тьюринг, в честь которого был назван тест.

Тьюринг в особенности занимался проблемой машинного интеллекта, по меньшей мере, с 1941 года. Одно из самых первых его упоминаний о «компьютерном интеллекте» было сделано в 1947 году. В докладе «Интеллектуальные машины» Тьюринг исследовал вопрос, может ли машина обнаруживать разумное поведение, и в рамках этого исследования предложил то, что может считаться предтечей его дальнейших исследований: «Нетрудно разработать машину, которая будет неплохо играть в шахматы. Теперь возьмем трех человек — субъектов эксперимента. А, В и С. Пусть А и С неважно играют в шахматы, а В — оператор машины. […] Используются две комнаты, а также некоторый механизм для передачи сообщений о ходах. Участник С играет или с А, или с машиной. Участник С может затрудниться ответить с кем он играет».

Таким образом, к моменту публикации в 1950 году статьи «Вычислительные машины и разум», Тьюринг уже на протяжении многих лет рассматривал возможность существования искусственного интеллекта. Тем не менее, данная статья стала первой статьей Тьюринга, в которой рассматривалось исключительно это понятие.

Тьюринг начинает свою статью утверждением: «Я предлагаю рассмотреть вопрос „Могут ли машины думать?“». Он подчеркивает, что традиционный подход к этому вопросу состоит в том, чтобы сначала определить понятия «машина» и «интеллект». Тьюринг, однако, выбрал другой путь; вместо этого он заменил исходный вопрос другим, «который тесно связан с исходным и формулируется относительно недвусмысленно». По существу, он предлагает заменить вопрос «Думают ли машины?» вопросом «Могут ли машины делать то, что можем делать мы (как мыслящие создания)?». Преимуществом нового вопроса, как утверждает Тьюринг, является то, что он проводит «четкую границу между физическими и интеллектуальными возможностями человека».

Чтобы продемонстрировать этот подход, Тьюринг предлагает тест, придуманный по аналогии с игрой для вечеринок «Imitation game» — имитационная игра. В этой игре мужчина и женщина направляются в разные комнаты, а гости пытаются различить их, задавая им серию письменных вопросов и читая напечатанные на машинке ответы на них. По правилам игры и мужчина, и женщина пытаются убедить гостей, что все наоборот. Тьюринг предлагает переделать игру следующим образом: "Теперь зададим вопрос, что случится, если в этой игре роль А будет исполнять машина? Будет ли задающий вопросы ошибаться так же часто, как если бы он играл с мужчиной и женщиной? Эти вопросы заменяют собой исходный «Может ли машина думать?».

В том же докладе Тьюринг позднее предлагает «эквивалентную» альтернативную формулировку, включающую судью, который беседует только с компьютером и человеком. Наряду с тем, что ни одна из этих формулировок точно не соответствует той версии теста Тьюринга, которая наиболее известна сегодня, в 1952 ученый предложил третью. В этой версии теста, которую Тьюринг обсудил в эфире радио Би-Би-Си, жюри задает вопросы компьютеру, а роль компьютера состоит в том, чтобы заставить значительную часть членов жюри поверить, что он на самом деле человек.

В статье Тьюринга учтены 9 предполагаемых вопросов, которые включают все основные возражения против искусственного интеллекта, поднятые после того, как статья была впервые опубликована.

Элиза и PARRY

Блей Витби указывает на 4 основные поворотные точки в истории теста Тьюринга — публикация статьи «Вычислительные машины и разум» в 1950, сообщение о создании Джозефом Вейзенбаумом программы Элиза в 1966, создание Кеннетом Колби программы PARRY, которая была в первые описана в 1972 году, и Коллоквиум Тьюринга в 1990.

Принцип работы Элизы заключается в исследовании введенных пользователем комментариев на наличие ключевых слов. Если найдено ключевое слово, то применяется правило, по которому комментарий пользователя преобразуется и возвращается предложение-результат. Если же ключевое слово не найдено, Элиза либо возвращает пользователю общий ответ, либо повторяет один из предыдущих комментариев. Вдобавок Вейзенбаум запрограммировал Элизу на имитацию поведения психотерапевта, работающего по клиент-центрированной методике . Это позволяет Элизе «притвориться, что она не знает почти ничего о реальном мире». Применяя эти способы, программа Вейзенбаума могла вводить в заблуждение некоторых людей, которые думали, что они разговаривают с реально существующим человеком, а некоторых было «очень трудно убедить, что Элиза […] не человек». На этом основании некоторые утверждают, что Элиза — одна из программ (возможно первая), которые смогли пройти тест Тьюринга. Однако это утверждение очень спорно, так как людей, «задающих вопросы», инструктировали так, чтобы они думали, что с ними будет разговаривать настоящий психотерапевт, и не подозревали о том, что они могут разговаривать с компьютером.

Работа Колби — PARRY — была описана, как «Элиза с мнениями»: программа пыталась моделировать поведение параноидального шизофреника, используя схожий (если не более продвинутый) с Элизой подход, примененный Вейзенбаумом. Для того чтобы проверить программу, PARRY тестировали в начале 70-х, используя модификацию теста Тьюринга. Команда опытных психиатров анализировала группу, составленную из настоящих пациентов и компьютеров под управлением PARRY, используя телетайп. Другой команде из 33 психиатров позже показали стенограммы бесед. Затем обе команды попросили определить, кто из «пациентов» — человек, а кто — компьютерная программа. Психиатры лишь в 48 % случаев смогли вынести верное решение. Эта цифра согласуется с вероятностью случайного выбора. Заметьте, что эти эксперименты не являлись тестами Тьюринга в полном смысле, так как для вынесения решения данный тест требует, чтобы вопросы можно было задавать в интерактивном режиме, вместо чтения стенограммы прошедшей беседы.

Пока что ни одна программа и близко не подошла к прохождению теста. Хотя такие программы, как Элиза (ELIZA ), иногда заставляли людей верить, что они говорят с человеком, как, например, в неформальном эксперименте, названном AOLiza , но эти случаи нельзя считать корректным прохождением теста Тьюринга по целому ряду причин:

  • Человек в таких беседах не имел никаких оснований считать, что он говорит с программой, в то время как в настоящем тесте Тьюринга человек активно пытается определить, с кем он беседует.
  • Документированные случаи обычно относятся к таким чатам, как IRC, где многие беседы отрывочны и бессмысленны.
  • Многие пользователи Интернета используют английский как второй или третий язык, так что бессмысленный ответ программы легко может быть списан на языковый барьер.
  • Многие просто ничего не знают об Элизе и ей подобных программах, и поэтому не сочтут собеседника программой даже в случае совершенно нечеловеческих ошибок, которые эти программы допускают.

Китайская комната

В 1980 году в статье «Разум, мозг и программы» Джон Сёрль выдвинул аргумент против теста Тьюринга, известный как мысленный эксперимент «Китайская комната». Сёрль настаивал, что программы (такие как Элиза) смогли пройти тест Тьюринга, просто манипулируя символами, значения которых они не понимали. А без понимания их нельзя считать «разумными» в том же смысле, что и людей. «Таким образом, — заключает Сёрль, — тест Тьюринга не является доказательством того, что машина может думать, а это противоречит изначальному предположению Тьюринга».

Такие аргументы, как предложенный Сёрлем, а также другие, основанные на философии разума, породили намного более бурные дискуссии о природе разума, возможности существования разумных машин и значимости теста Тьюринга, продолжавшиеся в течение 80-х и 90-х годов.

Премия Лёбнера

Ежегодный конкурс на получение премии Лёбнера является платформой для практического проведения тестов Тьюринга. Первый конкурс прошел в ноябре 1991 года. Приз гарантирован Хью Лёбнером (Hugh Loebner). Кембриджский центр исследований поведения, расположенный в Масачусетсе, США, предоставлял призы до 2003 года включительно. По словам Лёбнера, соревнование было организовано с целью продвижения вперед в области исследований, связанных с искусственным интеллектом, отчасти потому, что «никто не предпринял мер, чтобы это осуществить».

Серебряная (аудио) и золотая (аудио и зрительная) медали никогда ещё не вручались. Тем не менее, ежегодно из всех представленных на конкурс компьютерных систем судьи награждают бронзовой медалью ту, которая, по их мнению, продемонстрирует «наиболее человеческое» поведение в разговоре. Не так давно программа «Искусственное лингвистическое интернет-компьютерное существо» (Artificial Linguistic Internet Computer Entity — A.L.I.C.E.) трижды завоевала бронзовую медаль (в 2000, 2001 и 2004). Способная к обучению программа Jabberwacky побеждала в 2005 и 2006. Её создатели предложили персонализированную версию: возможность пройти имитационный тест, пытаясь более точно сымитировать человека, с которым машина тесно пообщалась перед тестом.

Конкурс проверяет способность разговаривать; победителями становятся обычно чат-боты или «Искуственные Разговорные Существа» (Artificial Conversational Entities (ACE)s). Правилами первых конкурсов предусматривалось ограничение. Согласно этому ограничению каждая беседа с программой или скрытым человеком могла быть только на одну тему. Начиная с конкурса 1995 года это правило отменено. Продолжительность разговора между судьей и участником была различной в разные годы. В 2003 году, когда конкурс проходил в Университете Суррея, каждый судья мог разговаривать с каждым участником (машиной или человеком) ровно 5 минут. С 2004 по 2007 это время составляло уже более 20 минут. В 2008 максимальное время разговора составляло 5 минут на пару, потому что организатор Кевин Ворвик (Kevin Warwick) и координатор Хьюма Ша (Huma Shah) полагали, что ACE не имели технических возможностей поддерживать более продолжительную беседу. Как ни странно, победитель 2008 года, Elbot, не притворялся человеком, но все-таки сумел обмануть трех судей.

Появление конкурса на получение премии Лёбнера привело к возобновлению дискуссий о целесообразности теста Тьюринга, о значении его прохождения. В статье «Искусственная тупость» газеты The Economist отмечается, что первая программа-победитель конкурса смогла выиграть отчасти, потому что она «имитировала человеческие опечатки». (Тьюринг предложил, чтобы программы добавляли ошибки в вывод, чтобы быть более хорошими «игроками».) Существовало мнение, что попытки пройти тест Тьюринга просто препятствуют более плодотворным исследованиям.

Во время первых конкурсов была выявлена вторая проблема: участие недостаточно компетентных судей, которые поддавались умело организованным манипуляциям, а не тому, что можно считать интеллектом.

Тем не менее, с 2004 года в качестве собеседников в конкурсе принимают участие философы, компьютерные специалисты и журналисты.

Варианты теста Тьюринга Человеческий разум и разум вообще - student2.ru

Файл:The Imitation Game.pngИмитационная игра согласно описанию Тьюринга в статье «Вычислительные машины и разум». Игрок С путем задания серии вопросов пытается определить, кто из двух других игроков — мужчина, а кто — женщина. Игрок А, мужчина, пытается запутать игрока С, а игрок В пытается помочь С. Файл:Turing Test Version 1.pngПервоначальный тест на основе имитационной игры, в котором вместо игрока А играет компьютер. Компьютер теперь должен запутать игрока С, в то время как игрок В продолжает пытаться помочь ведущему.

Существуют, по крайней мере, три основных варианта теста Тьюринга, два из которых были предложны в статье «Вычислительные машины и разум», а третий вариант, по терминологии Саула Трейджера (Saul Traiger), является стандартной интерпретацией.

Наряду с тем, что существует определенная дискуссия, соответствует ли современная интерпретация тому, что описывал Тьюринг, либо она является результатом неверного толкования его работ, все три версии не считаются равносильными, их сильные и слабые стороны различаются.

Имитационная игра

Тьюринг, как мы уже знаем, описал простую игру для вечеринок, которая включает в себя минимум трех игроков. Игрок А — мужчина, игрок В — женщина и игрок С, который играет в качестве ведущего беседу, любого пола. По правилам игры С не видит ни А, ни В и может общаться с ними только посредством письменных сообщений. Задавая вопросы игрокам А и В, С пытается определить, кто из них — мужчина, а кто — женщина. Задачей игрока А является запутать игрока С, чтобы он сделал неправильный вывод. В то же время задачей игрока В является помочь игроку С вынести верное суждение.

В той версии, которую С. Г. Стеррет (S. G. Sterret) называет «Первоначальный тест на основе имитационной игры» (Original Imitation Game Test), Тьюринг предлагает, чтобы роль игрока А исполнял компьютер. Таким образом, задачей компьютера является притвориться женщиной, чтобы сбить с толку игрока С. Успешность выполнения подобной задачи оценивается на основе сравнения исходов игры, когда игрок А — компьютер, и исходов, когда игрок А — мужчина. Если, по словам Тьюринга, «ведущий беседу игрок после проведения игры [с участием компьютера] выносит неверное решение в так же часто, как и после проведения игры с участием мужчины и женщины», то можно говорить о том, что компьютер разумен.

Второй вариант предложен Тьюрингом в той же статье. Как и в «Первоначальном тесте», роль игрока А исполняет компьютер. Различие заключается в том, что роль игрока В может исполнять как мужчина, так и женщина.

«Давайте рассмотрим конкретный компьютер. Верно ли то, что модифицируя этот компьютер с целью иметь достаточно места для хранения данных, увеличивая скорость его работы и задавая ему подходящую программу, можно сконструировать такой компьютер, чтобы он удовлетворительно выполнял роль игрока А в имитационной игре, в то время как роль игрока В выполняет мужчина?», — Тьюринг, 1950, стр. 442.

В этом варианте оба игрока А и В пытаются склонить ведущего к неверному решению.

Достоинства теста

Ширина темы

Сильной стороной теста Тьюринга является то, что можно разговаривать о чем угодно. Тьюринг писал, что «метод вопросов и ответов кажется подходящим для обсуждения почти любой из сфер человеческих интересов, которую мы хотим обсудить». Джон Хогеленд добавил, что «одного понимания слов недостаточно; вам также необходимо разбираться в теме разговора». Чтобы пройти хорошо поставленный тест Тьюринга, машина должна использовать естественный язык, рассуждать, иметь познания и обучаться. Тест можно усложнить, включив ввод с помощью видео, или, например, оборудовав шлюз для передачи предметов: машине придется продемонстрировать способность к зрению и робототехнике. Все эти задачи вместе отражают основные проблемы, стоящие перед теорией об искусственном интеллекте.

перед теорией об искусственном интеллекте.

Недостатки теста

Несмотря на все свои достоинства и известность, тест критикуют на нескольких основаниях.

Человеческий разум и разум вообще

Направленность теста Тьюринга ярко выражена в сторону человека (антропоморфизм). Проверяется только способность машины походить на человека, а не разумность машины вообще. Тест неспособен оценить общий интеллект машины по двум причинам:

  • Иногда поведение человека не поддается разумному толкованию. В это же время тест Тьюринга требует, чтобы машина была способна имитировать все виды человеческого поведения, не обращая внимания на то, насколько оно разумно. Он также проверяет способность имитировать такое поведение, какое человек за разумное и не посчитает, например, реакция на оскорбления, соблазн соврать или просто большое количество опечаток. Если машина неспособна с точностью до деталей имитировать поведение человека, опечатки и все такое, то она не проходит тест, несмотря на весь тот интеллект, которым она может обладать.
  • Некоторое разумное поведение не присуще человеку. Тест Тьюринга не проверяет высокоинтеллектуальное поведение, например, способность решать сложные задачи или выдвигать оригинальные идеи. По сути, тест требует, чтобы машина обманывала: какой бы умной ни была машина, она должна притворяться не слишком умной, чтобы пройти тест. Если же машина способна быстро решить некую вычислительную задачу, непосильную для человека, она по определению провалит тест.

Непрактичность

Стюарт Рассел (Stuart Russel) и Питер Норвиг (Peter Norvig) утверждают, что антропоморфизм теста приводит к тому, что он не может быть по-настоящему полезным при разработке разумных машин. "Тексты по авиационному проектированию и строительству, — строят они аналогию, — не ставят целью своей отрасли «создание машин, которые летают точно так же, как летают голуби, что даже сами голуби принимают их за своих». Из-за этой непрактичности прохождение теста Тьюринга не является целью ведущих научных или коммерческих исследований (по состоянию на 2009). Сегодняшние исследования в области искусственного интеллекта ставят перед собой более скромные и специфические цели.

«Исследователи в области искусственного интеллекта уделяют мало внимания прохождению теста Тьюринга», — отмечают Рассел и Норвиг, — с тех пор как появились более простые способы проверки программ, например, дать задание напрямую, а не окольными путями, первой обозначить некоторый вопрос в чат-комнате, к которой подключены и машины, и люди. Тьюринг никогда не предполагал использовать свой тест на практике, в повседневном измерении степени разумности программ; он хотел дать ясный и понятный пример, для поддержки обсуждения философии искусственного интеллекта.

Наши рекомендации