Широта пространства возможных устройств ума

Эволюция жёстко сохраняет некоторые структуры. В той мере, как развитие других генов опирается на ранее существовавший ген, этот ранний ген полностью цементируется: он не может мутировать, не нарушая множество форм адаптации. Гомеотические (Homeotic) гены – гены, контролирующие развитее структуры тела эмбриона – говорят множеству других генов, когда активироваться. Мутация гомеотического гена может привести к тому, что эмбрион плодовой мушки разовьётся нормально, за исключением того, что у него не будет головы. В результате гомеотические гены столь точно сохраняются, что многие из них одни и те же у человека и плодовой мушки – они не изменились со времён последнего общего предка человека и насекомых. Молекулярные механизмы синтеза АТФ по существу одни и те же в митохондриях животных, хлоропластах растений и у бактерий; синтез АТФ не претерпел значительных изменений с развития эукариотов 2 миллиарда лет назад.

Любые два устройства ИИ могут быть менее похожи друг на друга, чем вы и садовый цветок петуния.

Термин ИИ относится к гораздо большему пространству возможностей, чем термин "Homo sapiens". Когда мы говорим о разных ИИ, мы говорим об умах вообще, или о процессах оптимизации вообще. Представьте себе карту возможных устройств ума. В одном углу маленький кружочек означает всех людей. И вся эта карта находится внутри ещё большего пространства, пространства процессов оптимизации. Естественный отбор создаёт сложные функционирующие механизмы не привлекая процесса думания; эволюция находится внутри пространства процессов оптимизации, но за пределами пространства умов.

Этот гигантский круг возможностей исключает антропоморфизм как законный способ мышления.

Предсказание и устройство

Мы не можем спрашивать наш собственный мозг о нечеловеческих процессах оптимизации – ни о насекомоглазых монстрах, ни о естественном отборе, ни об искусственном интеллекте. И как же мы будем продолжать? Как мы можем предсказать, что ИИ будет делать? Я нарочно задаю этот вопрос в форме, которая делает его труднообрабатываемым. При такой постановке проблемы невозможно предсказать, будет ли произвольная вычислительная система выполнять хоть какие-нибудь функции ввода-вывода, включая, например, простое умножение (Rice, 1953.) Так как же возможно, что компьютерные инженеры могут создавать микросхемы, которые надёжно выполняют вычисления? Потому что люди-инженеры нарочно используют те проекты, которые они могут понять.

Антропоморфизм заставляет людей верить, что они могут делать предсказания, не имея никакой другой информации, кроме как о самом факте «интеллектуальности» (intelligence) чего-то – антропоморфизм продолжает генерировать предсказания, не взирая ни на что, в то время как ваш мозг автоматически ставит себя на место этой самой «интеллектуальности». Это может быть одним из факторов вызывающей замешательство истории ИИ, которая происходит не из трудности ИИ как такового, но из загадочной лёгкости обретения ошибочной веры в то, что некий данный дизайн ИИ сработает.

Для того, чтобы сделать утверждение о том, что мост выдержит вес автомобилей в 30 тонн, гражданские инженеры имеют два оружия: выбор изначальных условий и запас прочности для безопасности. Им нет необходимости предсказывать, может ли выдержать вес в 30 тонн произвольная конструкция, но только проект данного конкретного моста, относительно которого они делают это заявление. И хотя это показывает с лучшей стороны инженера, который может вычислить точный вес, который мост может выдержать, также приемлемо вычислить, что мост выдержит автомобили не менее, чем в 30 тонн – хотя для того, чтобы доказать это расплывчатое утверждение строго, может потребоваться большая часть того теоретического понимания, которое входит в точное вычисление.

Гражданские инженеры придерживаются высоких стандартов в предсказании того, что мосты выдержат нагрузку. Алхимики прошлого придерживались гораздо более низких стандартов в предсказании того, что последовательность химических реагентов трансформирует свинец в золото. Какое количество свинца в какое количество золота? Каков причинный механизм этого процесса? Вполне понятно, почему исследователь-алхимик хотел золото больше, чем свинец, но почему данная последовательность реагентов превращает свинец в золото, а не золото в свинец или свинец в воду?

Ранние исследователи ИИ полагали, что искусственная нейронная сеть из слоёв пороговых устройств, обученная посредством обратного распространения, будет «интеллектуальной» (intelligent). Использованное при этом мышление, обусловленное результатом (wishful thinking), ближе к алхимии, чем к гражданском строительству. Магия входит в список человеческих универсалий Дональда Брауна (Brown, 1991); наука – нет. Мы инстинктивно не понимаем, что алхимия не работает. Мы инстинктивно не различаем строгие рассуждения и хорошее рассказывание историй. Мы инстинктивно не замечаем ожидание положительных результатов, висящее в воздухе. Человеческий вид возник посредством естественного отбора, функционирующего посредством неслучайного сохранения случайных мутаций.

Один из путей к глобальной катастрофе – когда кто-то нажимает кнопку, имея ошибочное представление о том, что эта кнопка делает – когда ИИ возникнет посредством подобного сращения работающих алгоритмов, с исследователем, не имеющим глубокого понимания, как вся система работает. Нет сомнения, они верят, что ИИ будет дружественным, без ясного представления о точном процессе, вовлечённом в создание дружественного поведения, или какого-либо детального понимания того, что они имеют в виду под дружественностью. Несмотря на то, что ранние исследователи ИИ имели сильно ошибочные, расплывчатые ожидания об интеллектуальности своих программ, мы можем представить, что этим исследователям ИИ удалось сконструировать интеллектуальную программу, но они имели сильно ошибочные расплывчатые ожидания относительно дружественности своих программ.

Не знание того, как сделать дружественный ИИ, не смертельно само по себе, в том случае, если вы знаете, что вы не знаете. Именно ошибочная вера в то, что ИИ будет дружественным, означает очевидный путь к глобальной катастрофе.

3: Недооценка силы интеллекта

Мы склонны видеть индивидуальные различия вместо общечеловеческих качеств. Поэтому, когда кто-то говорит слово «интеллект» (intelligence), мы думаем скорее об Эйнштейне, чем о людях. Индивидуальные различия в человеческом интеллекте имеют стандартное обозначение, известные как G-фактор Шпеермана (Spearman's G-factor), это – спорная интерпретация твёрдых экспериментальных фактов о том, что различные тесты интеллекта высоко коррелируют друг с другом, а также с результатами в реальном мире, такими, как суммарный доход за жизнь. (Jensen, 1999.) G-фактор Шпеермана является статистической абстракцией индивидуальных различий в интеллекте между людьми, которые, как вид, гораздо более интеллектуальны, чем ящерицы. G-фактор Шпеермана выводится из миллиметровых различий в высоте среди представителей вида гигантов.

Мы не должны путать G-фактор Шпеермана с общечеловеческой интеллектуальностью, то есть нашей способностью обрабатывать широкий круг мыслительных задач, непостижимых для других видов. Общая интеллектуальность – это межвидовое различие, комплексная адаптация и общечеловеческое качество, обнаруживаемое во всех известных культурах. Возможно, ещё нет академического согласия об интеллектуальности, но нет сомнения в существовании, или силе, такой вещи, которая должна быть объяснена. Есть что-то такое в людях, что позволяет нам оставлять следы ботинок на Луне.

Но слово «интеллектуальность» обычно вызывает образы голодающего профессора с IQ в 160 единиц и миллиардера-главу компании с IQ едва ли в 120. В действительности, существуют различия в индивидуальных способностях помимо качеств из «книжек про карьеру», которые влияют на относительный успех в человеческом мире: энтузиазм, социальные навыки, музыкальные таланты, рациональность. Отметьте, что каждый из названных мною факторов является когнитивным. Социальные навыки присущи мозгу, а не печени. И – шутки в сторону – вы не обнаружите много глав компаний, ни даже профессоров академии, которые были бы шимпанзе. Вы не обнаружите много ни прославленных мыслителей, ни художников, ни поэтов, ни лидеров, ни опытных социальных работников, ни мастеров боевых искусств, ни композиторов, которые были бы мышами. Интеллектуальность – это основание человеческой силы, мощь, которая наполняет другие наши искусства.

Опасность перепутать общую интеллектуальность с g-фактором состоит в том, что это ведёт к колоссальной недооценки потенциального воздействия ИИ. (Это относится как к недооценке потенциально хороших воздействий, равно как и плохих воздействий.) Даже фраза «трансгуманистический ИИ» или «искусственный суперинтеллект» по-прежнему может создавать впечатление о «ящике с книгами как сделать карьеру»: ИИ, который реально хорош в когнитивных задачах, обычно ассоциируется с «интеллектуальностью», подобной шахматам или абстрактной математике. Но не со сверхчеловеческой убедительностью, или со способностью гораздо лучше, чем люди, предсказывать и управлять человеческими институтами, или нечеловечески умом в формулировании длительных стратегий. Так что, может, нам следует подумать не об Эйнштейне, а о политическом и дипломатическом гении 19 века Отто фон Бисмарке? Но это только малая часть ошибки. Весь спектр от деревенского идиота до Эйнштейна, или от деревенского идиота до Бисмарка, уменьшается в маленькую точку на отрезке между амёбой и человеком.

Если слово «интеллектуальность» ассоциируется с Эйнштейном, а не с людьми, то может показаться осмысленным заявление, что интеллектуальность не имеет отношения к ружьям, как если бы ружья росли на деревьях. Может показаться осмысленным заявление о том, что интеллектуальность не имеет ничего общего с деньгами, как если бы мыши использовали деньги. Человеческие существа начинали, не обладая большими активами зубов, когтей, вооружений, или каких-либо других преимуществ, которые были ежедневной валютой для других видов. Если вы взгляните на людей с точки зрения остальной экосферы, не было никакого намёка на то, что мягкие розовые твари в конце концов закроют себя в бронированные танки. Мы создали поле битвы, на котором мы победили львов и волков. Мы не сражались с ними посредством когтей и зубов; у нас было собственное представление о том, что действительно важно. Такова сила творчества.

Винж (Vinge, 1993) уместно замечает, что будущее, в котором существуют умы, превосходящие человеческие, отличается качественно. ИИ – это не удивительный блестящий дорогой гаджет, рекламируемый в свежайших выпусках технических журналов. ИИ не принадлежит к тому же графику, который показывает прогресс в медицине, производстве и энергетике. ИИ – это не то, что вы можете небрежно добавить в люмпен-футуристический сценарий будущего с небоскрёбами и летающими машинами и нанотехнологическими красными кровяными клетками, которые позволяют вам задержать дыхание на 8 часов. Достаточно высокие небоскрёбы не могут начать проектировать сами себя. Люди достигли господства на Земле не из-за того, что задерживали дыхание дольше, чем другие виды.

Катастрофический сценарий, произрастающий из недооценки силы интеллекта, заключается в том, что некто создаст кнопку, не достаточно заботясь о том, что эта кнопка делает, потому что он не думает, что эта кнопка достаточно сильна, чтобы повредить ему. Или, поскольку недооценка силы интеллекта ведёт к пропорциональной недооценке силы Искусственного Интеллекта, то (в настоящая время микроскопическая) группа озабоченных исследователей и поставщиков грантов и отдельных филантропов, занимающихся рисками существованию, не будет уделять достаточно внимания ИИ.

Или широкое поле исследований ИИ не будет уделять достаточно внимания рискам сильного ИИ, и в силу этого хорошие инструменты и твёрдые установления для Дружественности окажутся недоступными, когда возникнет возможность создавать мощные интеллекты.

И также следует заметить – поскольку это тоже влияет на глобальные риски – что ИИ может быть мощным решением для других глобальных рисков, и по ошибке мы можем игнорировать нашу лучшую надежду на выживание. Утверждение о недооценке потенциального воздействия ИИ симметрично относительно потенциально хороших и потенциально плохих воздействий. Именно поэтому название этой статьи – «Искусственный интеллект как позитивный и негативный фактор глобального риска», а не «Глобальные риски Искусственного интеллекта». Перспектива ИИ влияет на глобальные риски более сложным образом; если бы ИИ был чистой помехой, ситуация была бы проще.

Способности и мотивы

Есть один вид ошибочности, часто встречающийся в дискуссиях об ИИ, особенно об ИИ сверхчеловеческих способностей. Кто-нибудь говорит: «Когда технологии продвинутся достаточно далеко, мы будем способны создавать интеллекты, далеко превосходящие человеческие. Очевидно, что размер ватрушки, который вы можете испечь, зависит от вашего интеллекта. Суперинтеллект может создавать гигантские ватрушки – ватрушки, размером с города – боже мой, будущее будет полно гигантских ватрушек!» Вопрос в том, захочет ли суперинтеллект создавать огромные ватрушки. Видение образа ведёт прямо от возможности к реализации, без осознавания необходимого промежуточного элемента – мотива. Следующие цепочки рассуждений, рассматриваемые в изоляции без подтверждающего доказательства, все являются примером Ошибочности Гигантской Ватрушки:

- Достаточно сильный ИИ может преодолеть любое человеческое сопротивление и истребить человечество. (И ИИ решит сделать это.) Поэтому мы не должны строить ИИ.

- Достаточно сильный ИИ может создать новые медицинские технологии, способные спасти иллионы человеческих жизней. (И он решит сделать это.) Поэтому мы должны создать ИИ.

- Когда компьютеры станут достаточно дёшевы, огромное большинство работ будет выполняться ИИ более легко, чем людьми. Достаточно сильный ИИ даже будет лучше нас в математике, конструировании, музыке, искусстве и во всех других работах, которые нам кажутся важными (И ИИ решит выполнять эти работы.) Таким образом, после изобретения ИИ, людям будет больше нечего делать, и мы будем голодать или смотреть телевизор.

Процессы оптимизации

Вышеприведенный разбор ошибочности Гигантской Ватрушки имеет органически присущий ему антропоморфизм – а именно, идею о том, что мотивы разделимы; подразумеваемое предположение о том, что, говоря о «способностях» и «мотивах», мы разрываем связность реальности. Это удобный срез, но антропоморфический.

Для того, чтобы рассмотреть проблему с более общей точки зрения, я ввёл концепцию процесса оптимизации: системы, которая поражает маленькие цели в большом пространстве поиска, чтобы порождать согласованные эффекты в реальном мире.

Процесс оптимизации направляет будущее в определённые регионы возможного. Когда я посещаю удалённый город, мой друг из местных вызывается отвезти меня в аэропорт. Я не знаю окрестностей. Когда мой друг выезжает на перекрёсток, я не могу предсказать его повороты, ни в последовательности, ни по отдельности. Но я могу предсказать результат непредсказуемых действий моего друга: мы прибудем в аэропорт. Даже если дом моего друга находится в другом месте города, так что моему другу придётся совершить совершенно другую последовательность поворотов, я могу с той же степенью уверенности предсказать, куда мы конце концов прибудем. Не странная ли эта ситуация, научно говоря? Я могу предсказать результат процесса, будучи неспособным предсказать ни один из его промежуточных этапов. Я буду называть область, в которую процесс оптимизации направляет будущее, целью оптимизации.

Рассмотрим автомобиль, например, Тойоту Кароллу. Из всех возможных комбинаций атомов, которые её составляют, только бесконечно малая часть будет работающим автомобилем. Если вы будете собирать атомы в случайном порядке, много много возрастов вселенной пройдёт, пока вам удастся собрать автомобиль. Малая доля пространства проектов описывает автомобили, которые мы могли бы признать как более быстрые, более эффективные и более безопасные, чем Королла. Таким образом, Королла не является оптимальной с точки зрения целей своего конструктора. Но Королла является, однако, оптимизированной, поскольку конструктор должен был попасть в сравнительно бесконечно малую область в пространстве возможных конструкций, только чтобы создать работающий автомобиль, не говоря уже о машине качества Короллы. Вы не можете даже построить эффективную тележку, распиливая доски случайно и сколачивая их по результатам броска монеты. Чтобы достичь такой малой цели в пространстве конфигураций, необходим мощный оптимизационный процесс.

Понятие о «процессе оптимизации» является предсказательно полезным, поскольку легче понять цель процесса оптимизации, чем его пошаговую динамику. Обсуждение Короллы выше неявно предполагает, что конструктор Короллы пытался создать «автомобиль», средство транспорта. Это предположение следует сделать явным, но оно не ошибочно и оно очень полезно для понимания Короллы.

Наведение на цель

Есть соблазн спросить, что ИИ будет хотеть, забывая о том, что пространство умов-вообще гораздо больше, чем малая человеческая точка. Следует сопротивляться соблазну распространить количественные ограничения на все возможные умы. Рассказчики историй накручивают сказки об отдалённой и экзотичной земле, называемой Будущее, говоря, каким будущее должно быть. Они делают предсказания. Они говорят: «ИИ нападёт на людей с помощью армий марширующих роботов» или «ИИ изобретёт лекарство от рака». Они не предлагают сложных отношений между изначальными условиями и результатами – так они могли бы потерять аудиторию. Но мы нуждаемся в понимании соотношений, чтобы управлять будущим, направляя его в область, приятную человечеству. Если не рулить, мы рискуем попасть туда, куда нас занесёт.

Главный вызов состоит не в том, чтобы предсказать, что ИИ атакует людей с помощью армий роботов, или, наоборот, введёт лекарство от рака. Задача состоит даже не в том, чтобы сделать это предсказание для произвольного устройства ИИ. Скорее, задача состоит в том, чтобы выбрать и создать такой процесс оптимизации, чьи позитивные эффекты могут быть твёрдо доказаны.

Я усиленно призываю своих читателей не начинать придумывать причины, почему универсальный процесс оптимизации должен быть дружественным. Естественный отбор не является дружественным, ни ненавидит вас, ни оставляет вас в одного. Эволюция не может быть так антропоморфизирована, она не работает, как вы.

Многие биологи до 1960-х годов ожидали, что естественный отбор создаст полный набор всех хороших вещей, и выдумывали всевозможные усложнённый причины, почему он должен сделать это. Они были разочарованы, поскольку естественный отбор сам по себе не начинает со знания, что от него хотят приятного человеку результата, и затем не придумывает сложные пути, чтобы создать приятные результаты, используя давление отбора. Таким образом, события в природе были результатами совершенно других по своим причинам процессов, чем те, что приходили в голову биологам до 1960-х годов, и поэтому предсказания и реальность расходились.

Мышление, привязанное к цели (wishful thinking), добавляет детали, ограничивает предсказания и таким образом отягощает невозможностью. Как насчёт инженера гражданских сооружений, который надеется, что мост не упадёт? Следует ли инженеру доказывать это тем, что мосты обычно не падают? Но природа сама по себе не предлагает разумных причин, почему мосты не должны падать. Скорее, это инженер преодоляет тяжесть недостоверности (burden of improbability) посредством специфического выбора, направляемого специфическим пониманием. Инженер начинает с намерения создать мост. Затем он использует строгую теорию, чтобы выбрать конструкцию моста, которая бы выдерживала автомобили. Затем строит реальный мост, чья структура отражает рассчитанный проект. И в результате реальная структура выдерживает автомобили. Таким образом достигается гармония предсказанных позитивных результатов и реальных позитивных результатов.

Дружественный ИИ

Было бы очень здорово, если бы человечество знало, как создать мощный оптимизационный процесс с неким частным результатом. Или, говоря более общими словами, было бы здорово, если бы мы знали, как создать хороший ИИ (nice AI).

Для того, чтобы описать область знания, необходимого, чтобы взяться за этот вызов, я предложил термин «Дружественный ИИ». Этот термин я отношу не только к самой методике, но также и к её продукту – то есть к ИИ, созданному со специфической мотивацией. Когда я использую термин Дружественный в любом из этих двух смыслов, я пишу его с большой буквы, чтобы избегать путаницы с обычным смыслом слова «дружественный».

Типичная реакция на это людей, которую я часто встречал, заключалась в немедленном заявлении, что Дружественный ИИ невозможен, потому что любой достаточно сильный ИИ сможет модифицировать свой собственный исходный код так, чтобы разорвать любые наложенные на него ограничения.

Первую логическую несообразность, которую вы тут можете отметить – это ошибочность Гиганстской Ватрушки. Любой ИИ, имеющий свободный доступ к своему исходному коду, в принципе, будет обладать способностью изменить свой код таким образом, что изменится его цель оптимизации. Но это не означает, что ИИ имеет побуждение изменить свои собственные побуждения. Я не стану сознательно глотать пилюлю, которая побудит меня наслаждаться убийствами, потому что я в настоящем предпочитаю, чтобы мои собратья – люди не умирали.

Но что если я попытаюсь изменить себя и сделаю ошибку? Когда компьютерные инженеры доказывают пригодность чипа – что есть хорошая идея, если в чипе 155 миллионов транзисторов, и вы не можете выпустить патч потом – инженеры используют руководимую человеком и проверяемую машинами формальную проверку. Замечательным свойством формального математического доказательства является то, что доказательство из 10 миллиардов шагов в той же мере надёжно, что и доказательство из 10 шагов. Но человеческие существа недостойны доверия в том, чтобы следить за проверкой из 10 миллиардов шагов; у нас слишком высокие шансы пропустить ошибку. Современные техники доказывания теорем не достаточно умны, чтобы спроектировать и проверить целый компьютерный чип сами по себе – современные алгоритмы испытывают экспоненциальный рост по мере увеличения пространства поиска. Люди-математики могут доказывать теоремы гораздо более сложные, чем те, что могут осилить современные программы-доказыватели, без того, чтобы быть поверженными экспоненциальным взрывом. Но люди-математики неформальны и ненадёжны; время от времени кто-то находит ошибку в принятом ранее неформальном доказательстве. Выход состоит в том, что люди-инженеры направляют программы-доказыватели на промежуточные шаги доказательства. Человек выбирает следующую лемму, и сложный доказыватель теорем генерирует формальное доказательство, и простой проверяльщик сверяет шаги. Таким образом современные инженеры создают надёжные механизмы со 155 миллионами независимых частей.

Проверка корректности работы компьютерного чипа требует синергии человеческого интеллекта и компьютерных алгоритмов, поскольку сейчас ни того, ни другого недостаточно. Возможно, подлинный ИИ будет использовать подобную комбинацию способностей, когда будет модифицировать свой собственный код – будет обладать как способностью вводить объёмные проекты без того, чтобы потерпеть поражение от экспоненциального роста, так и способностью проверить свои шаги с высокой надёжностью. Это один из путей, которым подлинный ИИ может оставаться познаваемо (knowably) стабильным в своих целях даже после выполнения большого количества самоисправлений.

Эта статья не будет разъяснять приведённую выше идею в деталях. (Также см. Schmidhuber 2003 на связанную с данной тему.) Но следует подумать об этом вызове, и изучить его с привлечением наилучших доступных технических данных, до того, как объявлять его невозможным – особенно, если большие ставки зависят от ответа. Неуважительно по отношению к человеческой изобретательности объявлять проблему неразрешимой без внимательного и творческого рассмотрения. Это очень сильное заявление: сказать, что вы не можете сделать нечто – что вы не можете построить летающую машину тяжелее воздуха, что вы не можете извлечь полезную энергию из ядерных реакций, что вы не можете летать на Луну. Такие заявления являются универсальными обобщениями, относящимися к любому возможному подходу к решению этой проблемы, который кто-либо придумал или придумает. Требуется всего один противоположный пример, чтобы опровергнуть универсальное обощение. Утверждение о том, что Дружественный (или дружественный) ИИ теоретически невозможен, осмеливается относиться к любым возможным устройствам ума и любым возможным процессам оптимизации – включая человеческие существа, которые тоже имеют ум, и многие из которых хорошие (nice) и хотят быть ещё лучше. На настоящий момент имеется неограниченное количество расплывчато убедительных аргументов, почему Дружественный ИИ может быть не под силу человеку, и всё же гораздо вероятнее, что проблема разрешима, но никто не соберётся решить её вовремя. Но не следует слишком быстро списывать проблему, особенно учитывая масштаб ставок.

Наши рекомендации