Глава 12. Добрые парни финишируют первыми.
Это выражение, по-видимому, впервые родилось в мире бейсбола, хотя некоторые авторитеты настаивают, что противоположное утверждение появилось еще раньше. Американский биолог Гаррот Хардин (Garret Hardin) воспользовался этой фразой, чтобы кратко сформулировать идею о том, что можно было бы назвать «социобиологией» или «эгоистичным генным механизмом». Уместность такого использования очевидна. Если перевести общепринятый смысл слов «добрый парень» его дарвиновским эквивалентом, то «добрый парень» — это индивидуум, который помогает другим представителям своего вида, в ущерб самому себе, передавать их гены следующему поколению. Таким образом, число «добрых парней» неизбежно будет сокращаться: доброта гибнет дарвинистской смертью. Существует, однако, и другая, техническая, интерпретация слова «добрый». Если мы примем это определение, которое не слишком далеко отходит от разговорного смысла, то добрые парни могут кончать первыми. Именно этому более оптимистичному заключению и посвящена данная глава.
Вспомните Злопамятных из гл. 10. Это были птицы, которые помогали друг другу, очевидно из альтруистичных побуждений, но Злопамятные при этом отказывали в помощи индивидуумам, которые ранее отказывались помочь им самим. Злопамятные в конечном счете заняли доминирующее положение, потому что они передавали последующим поколениям больше генов, чем Простаки (помогавшие всем без разбора и сами подвергавшиеся эксплуатации) и Плуты (которые стремились безжалостно эксплуатировать всех и в конечном счете уничтожали друг друга). История Злопамятных иллюстрирует важный принцип, который Роберт Трайверс назвал «реципрокным альтруизмом». Как мы видели на примере рыб-чистильщиков, в реципрокном альтруизме могут участвовать и представители разных видов. Он присутствует во всех взаимоотношениях, называемых симбиотическими, как, например, взаимоотношения между муравьями и их «коровами»-тлями, которых они доят. После того как гл. 10 была написана, американский политолог Роберт Аксельрод (Robert Axelrod) при участии У. Гамильтона, имя которого упоминается на столь многих страницах этой книги, использовал идею реципрокного альтруизма в новых очень интересных направлениях. Именно Аксельрод определил техническое значение слова «добрый», о чем я упоминал во вступительном абзаце этой главы.
Аксельрод, подобно многим политологам, экономистам и психологам, был восхищен простой азартной игрой, получившей название «Парадокс заключенных». Она так проста, что я знаю умных людей, которые, не допуская такой простоты, совершенно неправильно ее понимали и пытались искать в ней что-то еще. Но простота обманчива. Целые полки в библиотеках отведены вариантам этой увлекательной игры. Многие влиятельные люди полагают, что в ней содержится ключ к планированию стратегической обороны и что нам следует изучать ее, если мы хотим предотвратить третью мировую войну. Как биолог я согласен с Аксельродом и Гамильтоном, что многие дикие животные и растения заняты бесконечной игрой в Парадокс заключенных, происходящей в эволюционных масштабах времени.
В своем первоначальном, человеческом, варианте эта игра состоит в следующем. Имеется «банкомет», который судит игру и выплачивает выигрыши двум игрокам. Допустим, что я играю против вас (хотя, как мы увидим, «против» — это как раз то, чего нам не следует делать). На руках у каждого игрока только по две карты с надписями Кооперируюсь и Отказываюсь. Каждый из нас выбирает одну из двух своих карт и кладет ее на стол рубашкой вверх, с тем чтобы ни один из игроков не знал, как пошел другой; собственно говоря, оба они ходят одновременно. Далее игроки напряженно ожидают, пока банкомет перевернет карты. Напряженность связана с тем, что выигрыш зависит не только от собственного хода (каждый игрок знает, какую карту положил он сам), но и от хода противника (что остается неизвестным, пока банкомет не перевернет карты).
Поскольку в игре участвуют 2 х 2 карты, то имеется четыре возможных исхода (из уважения к северо-американскому происхождению игры выигрыши приводятся в долларах):
Исход I.
Мы оба сыграли КООПЕРИРУЮСЬ.
Банкомет выплачивает каждому из нас по 300 долларов.
Эта почтенная сумма называется «Награда за взаимное кооперирование».
Исход II.
Мы оба сыграли ОТКАЗЫВАЮСЬ.
Банкомет штрафует каждого из нас на 10 долларов.
Это называется «Наказание за взаимный отказ».
Исход III.
Вы сыграли КООПЕРИРУЮСЬ, а я ОТКАЗЫВАЮСЬ.
Банкомет выплачивает мне 500 долларов (Плата за риск) и штрафует вас (Простака) на 100 долларов.
Исход IV.
Вы сыграли ОТКАЗЫВАЮСЬ, а я КООПЕРИРУЮСЬ.
Банкомет выплачивает вам за риск 500 долларов и штрафует меня (Простака) на 100 долларов.
Совершенно очевидно, что исходы III и IV представляют собой зеркальные отражения один другого: один игрок выигрывает, а другой проигрывает. При исходах I и II оба оказываются в равном положении, но исход I обоим выгоднее, чем исход II. Точная сумма выигрыша не имеет значения. Не играет также роли и то, сколько исходов оказываются положительными (выплаты), а сколько — отрицательными (штрафы). Самое главное условие для того, чтобы игра стала настоящим Парадоксом заключенных, — это относительный ранг (цена) исходов. «Табель о рангах» должен быть следующим: Плата за риск. Награда за взаимное кооперирование, Наказание за взаимный отказ. Штраф Простаку. (Строго говоря, есть еще одно условие, соблюдение которого необходимо для признания игры настоящим Парадоксом заключенных: среднее между Платой за риск и Штрафом Простаку не должно превышать Награды. Основания для этого дополнительного условия станут понятны позднее.)
При чем же тут «Парадокс»? Чтобы понять это, попытайтесь представить себе мысли, проходящие через мою голову, когда я играю против вас. Я знаю, что имеются только две карты, с которых вы можете пойти: Кооперируюсь и Отказываюсь. Обсудим их по порядку. Если вы пошли Отказываюсь (это означает, что нам надо смотреть на правую сторону матрицы), то лучшее, что я могу сделать, это также сыграть Отказываюсь. Правда, мне при этом придется заплатить штраф за взаимный отказ, но если бы я пошел Кооперируюсь, то был бы оштрафован как Простак, что еще хуже. Обратимся теперь к левой половине матрицы, т.е. допустим, что вы пошли с карты Кооперируюсь. И снова мне лучше всего играть Отказываюсь. Если бы я сыграл Кооперируюсь, то мы оба получили бы довольно высокий куш — по 300 долларов. Если же я играю Отказываюсь, то получаю даже еще больше — 300 долларов. Отсюда следует вывод, что независимо от того, с какой карты вы пошли, моей лучшей тактикой будет Всегда отказываюсь.
Итак, я путем безупречных логических рассуждений установил, что независимо от ваших действий, я должен отказаться. С помощью столь же безупречной логики придете к точно такому же выводу и вы. Таким образом, когда встречаются два разумных игрока, они оба будут отказываться и оба в конечном счете либо заплатят штраф, либо получат небольшую выплату. При этом каждый из них прекрасно знает, что если бы только они оба играли Кооперируюсь, то каждый получил бы довольно высокую Награду за взаимное кооперирование (в нашем случае 300 долларов). Поэтому-то игра и называется Парадоксом, причем она так парадоксальна, что может довести до исступления, и поэтому раздавались голоса за то, чтобы издать закон о ее запрещении.
«Заключенные» относится к одному воображаемому примеру. Валютой в этом примере служат не деньги, а сроки заключения. Два человека — назовем их Петерсон и Мориарти — сидят в тюрьме по подозрению в соучастии в преступлении. Каждому из заключенных в его отдельной камере предлагают предать своего товарища (Отказаться), дав в суде показания против него. Дальнейший ход событий зависит от того, как поступят оба заключенных при том, что ни один из них не знает, как поступил другой. Если Петерсон свалит всю вину на Мориарти, а Мориарти, храня молчание, тем самым подтвердит это (кооперируясь со слоим былым и, как оказалось, вероломным другом), то Мориарти получит длительный срок заключения, а Петерсон выйдет на свободу целым и невредимым, получив Плату за риск. Если каждый из них свалит вину на другого, то обоих осудят за инкриминируемое им преступление, но оба получат некоторое снисхождение за дачу показаний и приговор окажется Наказанием за взаимный отказ, хотя и несколько смягченным. Если оба преступника кооперируются (друг с другом, а не с властями), отказываясь давать показания, то доказательств их вины может оказаться недостаточно, чтобы осудить кого-то одного из них за главное преступление, и они получат меньший срок за какое-нибудь более мелкое преступление — Награда за взаимное кооперирование. Вряд ли можно назвать тюремное заключение «наградой», однако люди, которым грозило долгое пребывание за решеткой, воспримут его именно так. Вы должны были заметить, что хотя все выплаты выражены не в долларах, а в сроках тюремного заключения, главные черты игры сохраняются (обратите внимание на относительный ранг четырех исходов по их желательности). Если вы поставите себя на место каждого из заключенных, допуская, что обоими движет разумный эгоизм, и помня, что они не имеют возможности переговорить друг с другом, чтобы заключить соглашение, то вы поймете, что ни у одного из них нет иного выбора, как предать другого.
Можно ли разрешить этот парадокс? Оба игрока знают, что, независимо от действий оппонента, лучшее, что они могут делать сами, это отказываться; но при этом оба знают также, что если бы только они оба кооперировались, то каждый из них оказался бы в более выгодном положении. Если бы только... если бы только... если бы только существовала какая-то возможность достигнуть соглашения, какой-то способ убедить каждого из игроков, что другому можно верить, что он не пойдет на то, чтобы эгоистично сорвать банк, если бы имелся какой-то способ проконтролировать соглашение.
В простом варианте игры «Парадокс заключенных» такой способ отсутствует. Если хотя бы один из игроков не окажется настоящим праведником, не от мира сего, игра неизбежно окончится обоюдным отказом с парадоксально жалким результатом для обоих игроков. Однако есть и другой вариант этой игры. Она называется Итерированным, или Многократным, Парадоксом заключенных. Итерированный вариант игры сложнее, и его сложность вселяет надежду.
Итерированная игра — это просто та же самая игра, повторенная бесконечное число раз с участием тех же игроков. Снова мы с вами сидим друг против друга, по обе стороны от банкомета. Снова у каждого из нас по две карты — Кооперируюсь и Отказываюсь. Снова каждый из нас ходит с той или другой из этих карт, а банкомет выплачивает деньги или взимает штрафы в соответствии с приведенными выше правилами. Однако на этот раз вместо того, чтобы закончить игру, мы снова берем карты и готовимся к следующей партии. Последовательные партии позволяют нам выяснить, следует ли доверять противнику или нет, отплачивать ему за каждый удар или умиротворять, прощать или мстить. В бесконечно долгой игре очень важно добиться того, чтобы мы оба выигрывали за счет банкомета, а не за счет друг друга.
После десяти партий я теоретически мог бы выиграть 5000 долларов, но только в том случае, если вы необыкновенно глупы (или праведны) и всякий раз играли Кооперируюсь, несмотря на то, что я все время ходил Отказываюсь. Более реально допустить, что каждый из нас получит по 3 тысячи долларов за счет банкомета, если мы оба все 10 раз сыграли Кооперируюсь. Для этого нам не надо быть особенно праведными, так как мы оба можем убедиться на основании предшествующей игры противника, что ему можно доверять. Мы можем, в сущности, регулировать поведение друг друга. Вполне вероятен также и другой оборот: ни один из нас не верит другому и мы оба играем Отказываюсь все десять раз, а банкомет получает от каждого из нас по 100 долларов в виде штрафов. Скорее всего мы частично доверимся друг другу, каждый будет играть вперемешку то Кооперируюсь, то Отказываюсь, и в результате получит некую промежуточную сумму денег.
Описанные в гл. 10 птицы, которые удаляли друг у друга клещей из перьев, играли в итерированный вариант Парадокса заключенных. Как это получается? Если вы помните, птице очень важно избавляться от клещей, однако она не может добраться до собственной макушки и ей нужно, чтобы кто-то сделал это за нее. Казалось бы, справедливость требует, чтобы она впоследствии отплатила за эту услугу тем же самым. Но на процедуру вытаскивания клещей надо затратить время и энергию, хотя и не слишком много. Если птица может безнаказанно сплутовать, т.е. если ей была оказана услуга, а она отказывается сделать то же самое, то она пожинает все плоды, не расплачиваясь за это. Расположите исходы в порядке их «цены» и вы убедитесь, что перед вами типичная игра Парадокс заключенных. Когда оба кооперируются (вытаскивают друг у друга клещей), то это дает достаточно хорошие результаты, однако остается соблазн добиться большего, отказавшись оплачивать стоимость ответной услуги. Если оба играют Отказываюсь (отказываются вытаскивать клещей), то ничего хорошего не получается, однако еще хуже затрачивать усилия на вытаскивание клещей из другого индивидуума, а самому оставаться зараженным клещами. Соответствующая платежная матрица представлена на рис. 2.
Но это всего лишь один пример. Чем больше думаешь об этом, тем больше понимаешь, что не только жизнь людей, но также жизнь животных и жизнь растений переполнена играми типа Итерированного Парадокса заключенных. Жизнь растений? А почему бы нет? Вспомните, что речь идет не об осознанных стратегиях (хотя иногда можно говорить и о них), а о стратегиях в «мэйнардсмитовском» смысле, стратегиях тех типов, которые могли бы программироваться генами. А пока займемся более глубоким изучением того, в чем же состоит важность итерации.
В отличие от простого варианта игры, которая довольно предсказуема в том смысле, что Отказываюсь — единственная разумная стратегия, итеративный вариант предлагает много разных стратегий. В простом варианте возможны лишь две стратегии: Кооперируюсь и Отказываюсь. Итерация, однако, допускает множество стратегий, и какая из них лучше всех — отнюдь не очевидно. Приведем в качестве примера одну из тысяч: «играй Кооперируюсь по большей части, но в выбранных случайным образом 10°/о партий играй Отказываюсь». Другие стратегии могут зависеть от того, как протекала игра перед этим. Примером служит мой «Злопамятный»: у него хорошая память на лица, и хотя в основном он склонен кооперироваться, он отказывается, если другой игрок отказывался когда-либо в прошлом. Другие стратегии могут быть более снисходительными и не такими злопамятными.
Число стратегий, возможных в итеративной игре, ограничено, очевидно, лишь нашей изобретательностью. Можно ли установить, какая из них лучше всех? Эту задачу поставил перед собой Аксельрод. У него возникла увлекательная идея провести конкурс и он пригласил специалистов по теории игр представить свои стратегии. В данном случае стратегии — это заранее составленные программы действия, и соответственно соперники представили свои заявки на языке программирования. Было предложено четырнадцать стратегий. Аксельрод добавил к ним пятнадцатую, назвав ее Случайной, которая просто без всякой системы играла то Кооперируюсь, то Отказываюсь и служила своего рода базовой «анти-стратегией»: стратегию, дававшую худшие результаты, чем Случайная, следовало признать очень плохой.
Аксельрод описал все 15 стратегий на одном общем языке программирования. Каждая стратегия сравнивалась по эффективности поочередно с каждой из остальных (в том числе не собственной копией) в игре Итерированный Парадокс заключенных. Поскольку стратегий было 15, то компьютер сыграл 15 х 15, или 225, отдельных игр. После того, как каждая пара сделала по 200 ходов, все выигрыши были суммированы и был объявлен победитель.
Нас здесь не интересует, какая именно стратегия вышла победителем в игре против каждого отдельного противника. Нам важно установить, какая стратегия выиграла больше всего «денег» за все свои 15 вариантов. «Деньги» — это просто «очки», присуждаемые по следующей схеме: взаимное Кооперирование — 3 очка; Риск — 5 очков; Наказание за взаимный отказ — 1 очко (эквивалент небольшого штрафа в игре, описанной ранее); Штраф Простаку — 0 очков (эквивалент большого штрафа в игре, описанной ранее).
Максимально возможный выигрыш, который могла бы получить та или иная стратегия, составляет 15000 очков (200 партий по 5 очков за партию с каждым из 15 противников). Минимальный результат составляет 0. Излишне говорить, что ни один из этих крайних результатов на самом деле не наблюдался. Наибольший выигрыш, на который может реально надеяться данная стратегия в среднем из своих 15 турниров, не может сколько-нибудь значительно превысить 600 очков. Это все, что мог бы получить каждый из двух игроков, если бы они оба все время играли Кооперируюсь, зарабатывая по 3 очка за каждую из 200 сыгранных партий. Если бы один из них поддался искушению отказаться, то число его очков, вероятно, оказалось бы меньше 600, так как другой игрок отплатил бы ему тем же (в большей части представленных стратегий было заложено в той или иной форме стремление к ответному удару). Мы можем использовать число 600 в качестве своего рода точки отсчета для данной игры и выражать результаты в процентах от этого числа. По такой шкале оценок теоретически можно довести выигрыш до 166% (1000 очков), но практически ни одна стратегия не заработала в среднем больше 600 очков.
Не забывайте, что «игроками» в турнире были не люди, а программы, точнее — запрограммированные стратегии. Их авторы, т.е. люди, выступали в той же роли, что и гены, программирующие тела (вспомните гл. 4 — компьютер, играющий в шахматы, и компьютер, созданный по инструкциям с Андромеды). Стратегии, о которых идет речь, можно рассматривать как доверенных лиц их авторов. На самом деле кто-то из авторов мог бы представить не одну, а несколько программ (хотя было бы жульничеством — которого Аксельрод, вероятно, не допустил бы, — если бы тот или другой автор «забил» весь турнир своими стратегиями, и одна из них воспользовалась бы плодами жертвенного кооперирования со стороны других).
Было предложено несколько очень хитроумных стратегий, хотя они были, конечно, далеко не столь хитроумными, как их авторы. Интересно, что победившая стратегия была проще всех других и на первый взгляд наименее хитроумной. Она называлась «Око за око» и была представлена проф. Анатолем Рапопортом (Anatol Rapoport), известным психологом и специалистом по теории игр из Торонто. По этой стратегии первым ходом должно быть Кооперируюсь, а в дальнейшем следует просто повторять предыдущий ход другого игрока.
Как проходит игра Око за око? Как всегда, развитие событий зависит от поведения второго игрока. Допустим для начала, что второй игрок — это тоже стратегия Око за око (напомним, что каждая стратегия играла не только против каждой из 14 других стратегий, но также против копии самой себя). Обе стратегии Око за око начинают с кооперирования. При следующем ходе каждый игрок повторяет предыдущий ход противника, т.е. кооперируется. Оба продолжают играть Кооперируюсь до конца игры, которую оба заканчивают, достигнув на 100% суммы очков, принятой за точку отсчета, т.е. заработав по 600 очков.
Допустим, что Око за око играет против стратегии, названной Наивный испытатель. На самом деле Наивный испытатель не участвовал в конкурсе Аксельрода, но тем не менее этот пример поучителен. Наивный испытатель в основном идентичен программе Око за око, с той разницей, что время от времени, скажем один раз за десять ходов, причем без всякой закономерности, он совершенно беспричинно играет Отказываюсь и требует 5 очков, причитающиеся ему за риск. До тех пор, пока Наивный испытатель не предпримет один из своих зондирующих отказов, оба игрока ведут себя в соответствии со стратегией Око за око. Однако внезапно, без предупреждения, скажем на восьмом ходу, Наивный испытатель отказывается. Око за око, разумеется, сыграла в этот раз Кооперируюсь, а поэтому получила 0 очков, как это положено Простаку. Наивный испытатель, казалось бы, добился успеха, заработав за этот ход 5 очков. Но своим следующим ходом Око за око «мстит». Она играет Отказываюсь, просто следуя заложенному в нее правилу копировать предыдущий ход противника. Тем временем стратегия Наивный испытатель, следуя правилу копировать противника, заложенному в нее самое, повторила ее ход — Кооперируюсь. В результате ей достается Штраф Простаку, т.е. 0 очков, тогда как Око за око получает высшую плату — 5 очков. Своим следующим ходом Наивный испытатель довольно несправедливо, как можно подумать, — «мстит» за отказ стратегии Око за око. И такое чередование продолжается. При этом оба игрока получают в среднем по 2,5 очка за ход (среднее между 5 и 0). Это меньше, чем те верные 3 очка за ход, которые получают игроки, если они оба играют Кооперируюсь (кстати, это и есть причина введения того «дополнительного условия», которому не было дано объяснения на с. 188). Итак, когда Наивный испытатель играет против стратегии Око за око, оба выигрывают меньше, чем в игре Око за око против Ока за око. Если же игра идет между двумя Наивными испытателями, дела обоих обстоят еще хуже, так как серии взаимных отказов начинаются раньше.
Рассмотрим теперь еще одну стратегию, получившую название Раскаивающийся испытатель. Раскаивающийся испытатель сходен с Наивным испытателем, отличаясь от него лишь тем, что для запуска серии поочередных возмездий необходимо предпринимать активные шаги. Для этого ему нужна несколько более долгая «память», чем у стратегий Око за око или Наивный испытатель. Раскаивающийся испытатель запоминает, был ли его отказ спонтанным и привело ли это к быстрому возмездию. В этом случае он, «полный раскаяния», предоставляет своему противнику право на «один бесплатный удар», за которым не следует возмездия. Это означает, что серии взаимных возмездий пресекаются в самом зачатке. Если теперь продолжить воображаемую игру между стратегиями Раскаивающийся испытатель и Око за око, то обнаружится, что серии мнимых взаимных возмездий быстро прерываются. На протяжении большей части игры противники взаимно кооперируются, что обеспечивает им обоим большой выигрыш. Раскаивающийся испытатель играет более успешно против стратегии Око за око, чем Наивный испытатель, хотя и не так успешно, как Око за око против самой себя.
Некоторые из стратегий, участвовавших в турнире Аксельрода, были гораздо более хитроумными, чем Раскаивающийся испытатель или Наивный испытатель, однако они также набирали в среднем меньше очков, чем простая стратегия Око за око. В сущности наименее успешной из всех стратегий (если исключить Случайную) оказалась самая сложная, тщательно разработанная стратегия. Она была представлена под девизом «Автор пожелал остаться неизвестным», что послужило поводам для веселых гипотез. Кто автор? Какой-то серый кардинал в Пентагоне? Глава ЦРУ? Генри Киссинджер? Сам Аксельрод? Я думаю, что этого мы никогда не узнаем.
Подробно разбирать отдельные стратегии не так уж интересно. В задачи этой книги не входит обсуждение изобретательности программистов. Гораздо интереснее распределить имеющиеся стратегии по определенным категориям и изучать эффективность этих более крупных подразделений. Самая важная из различаемых Аксельродом категорий названа «добропорядочной». Добропорядочная стратегия определяется как такая стратегия, которая никогда не отказывается первой. Примером служит Око за око. Она способна отказаться, но делает это только в порядке возмездия. Как Наивный, так и Раскаивающийся испытатели — недобропорядочные стратегии, потому что они иногда, хотя и редко, отказываются без всякого к тому повода. Из 15 стратегий, участвовавших в турнире, 8 были добропорядочными. Показательно, что эти же 8 стратегий набрали наибольшее число очков, а 7 недобропорядочных остались далеко позади. Стратегия Око за око набрала в среднем 504,5 очка, что составляет 84% от нашей точки отсчета (600 очков) и может считаться хорошим результатом. Другие добропорядочные стратегии набрали лишь немного меньше очков — от 83,4 до 78,6%, оставив далеко позади самую успешную из всех непорядочных стратегий — Грааскамп, набравшую 66,8% очков.
Еще один из технических терминов Аксельрода — это «прощение». У прощающей стратегии короткая память, хотя она может давать сдачи. Она очень быстро забывает о прошлых обидах. Око за око — прощающая стратегия. Она немедленно дает отказчику по рукам, но тут же забывает о нанесенной ей обиде. Описанный в гл. 10 Злопамятный никогда не прощает. Он сохраняет в памяти все события до самого конца игры. Он никогда не забывает, если кто-то из игроков хотя бы один раз сыграл против него Отказываюсь. Стратегия, формально названная Злопамятный, участвовала в турнире Аксельрода под именем Фридман и не достигла особенно хороших результатов. Среди всех добропорядочных стратегий (заметим, что она добропорядочна лишь в техническом смысле, но при этом совершенно ничего не прощает) пара Злопамятный/Фридман оказалась на втором; месте с конца. Причина, по которой неспособные прощать стратегии не достигают хороших результатов, состоит в том, что они не могут разорвать серию взаимных возмездий даже в тех случаях, когда их противник «раскаивается». Можно быть более снисходительным, чем стратегия Око за око. Стратегия Око за два ока разрешает своим противникам два отказа подряд и только потом мстит. Это может показаться слишком милостивым и великодушным. Тем не менее Аксельрод установил, что если бы кто-то представил на рассмотрение стратегию Око за два ока, то она победила бы в турнире. Это обусловлено способностью данной стратегии избегать серии взаимных возмездий.
Таким образом, мы определили качества выигрывающих стратегий: добропорядочность и способность к прощению. Это почти утопическое заключение, что добропорядочность и всепрощение окупаются, вызвало удивление у многих экспертов, которые пускались на всевозможные хитрости, предлагая стратегии, содержащие в себе скрытые элементы недобропорядочности; даже те, кто предложил добропорядочные стратегии, не решились на что-либо столь всепрощающее, как Око за два ока.
Аксельрод объявил о втором турнире. Он получил 62 заявки на участие и снова добавил к ним Случайную стратегию, что в сумме составило 63 стратегии. На этот раз по причине, о которой я скажу позднее, точное число ходов за партию — 200 — не было оговорено заранее. Мы снова можем выражать в процентах оценки от точки отсчета или же от результатов, получаемых при условии «Всегда кооперируйся», несмотря на то, что определение этой точки отсчета требует более сложных вычислений и она уже не всегда равна 600 очкам.
Всем программистам, участвовавшим во втором турнире, были представлены результаты первого турнира, а также проведенный Аксельродом анализ того, почему Око за око и другие добропорядочные и способные к прощению стратегии получили такие хорошие результаты. Разумеется, участники турнира тем или иным образом должны были учесть эту информацию. На самом деле они разбились на две группы. Одни считали, что добропорядочность и способность к прощению, очевидно, давали шансы на выигрыш, и соответственно предложили добропорядочные способные к прощению стратегии. Джон Мейнард Смит зашел так далеко, что представил всепрощающую стратегию Око за два ока. Другая группа исходила из того, что многие участники, прочитав анализ Аксельрода, предложат теперь добропорядочные способные к прощению стратегии. Они поэтому представили недобропорядочные стратегии, пытаясь использовать в своих интересах этих предполагаемых придурков!
Однако недобропорядочность опять оказалась невыгодной. Снова стратегия Око за око, представленная Анатолем Рапопортом, вышла победителем, и результат составил целых 960/0 от 600. И еще раз добропорядочные стратегии в общем оказались более эффективными, чем непорядочные. Все 15 более эффективных стратегий, за исключением одной, были добропорядочными, а из 15, набравших меньше очков, все, за исключением одной, были непорядочными. Но хотя праведная стратегия Око за два ока выиграла бы в первом турнире, если бы в нем участвовала, она не вышла победителем из второго. Это объясняется тем, что во втором турнире участвовали более коварные стратегии, способные безжалостно наброситься на столь откровенного придурка.
Такой результат выявил одно важное обстоятельство, характерное для этих турниров: успех той или иной стратегии зависит от того, какие другие стратегии участвуют в турнире. Это единственный способ объяснить различие между вторым турниром, в котором Око за два ока заняла гораздо более далекое место в турнирной таблице, и первым турниром, в котором эта стратегия выиграла бы. Однако, как я уже говорил, эта книга не о том, сколь изобретательны программисты. Существует ли способ, позволяющий решить, какую стратегию можно действительно считать наилучшей в более общем и менее произвольном смысле? Те, кто прочитали предыдущие главы, уже готовы искать ответ на этот вопрос в теории эволюционно стабильных стратегий.
Я был одним из тех, кому Аксельрод сообщил о своих ранних результатах с просьбой прислать стратегию для второго турнира. Я этого не сделал, но высказал другое предложение. Аксельрод уже начинал мыслить в терминах ЭСС, но я счел это столь важным, что написал ему, предложив связаться с У. Гамильтоном. Аксельрод не знал, что Гамильтон в это время работал в одном с ним университете, только в другом отделении. Он немедленно встретился с ним, и результатом последовавшего за этим сотрудничества оказалась блестящая статья, опубликованная в журнале Science в 1981 г. и завоевавшая премию Ньюкомба Кливленда Американской ассоциации содействия развитию науки. Помимо обсуждения некоторых восхитительно оторванных от жизни биологических примеров Итерированных Парадоксов заключенных, Аксельрод и Гамильтон дали, с моей точки зрения, должную оценку подходу в свете теории ЭСС.
Сопоставьте этот подход с «соревнованием по круговой системе», в соответствии с которым проводились два турнира Аксельрода. Каждая стратегия выставлялась против каждой из других стратегий одинаковое число раз. Конечная оценка стратегии определялась общей суммой очков, «заработанных» ею в играх со всеми остальными стратегиями. Таким образом, чтобы добиться успеха в соревновании по круговой системе, данная стратегия должна выстоять против всех других стратегий, которые людям вздумается предложить. Аксельрод назвал стратегию, способную победить широкий круг других стратегий, «сильной» стратегией. Око за око оказалась сильной стратегией. Однако набор стратегий, предлагаемых людьми в том или другом случае, произволен. Именно это беспокоило нас выше. По чистой случайности в первом турнире Аксельрода примерно половина стратегий относилась к добропорядочным. В этих условиях Око за око выиграла, а Око за два ока выиграла бы, если бы приняла участие в турнире. Допустим, однако, что все представленные стратегии случайно оказались непорядочными. Такая ситуация могла бы возникнуть очень легко. Ведь из 14 предложенных стратегий 6 действительно были непорядочными. Если бы число непорядочных стратегий составило 13, то Око за око не выиграла бы. Атмосфера оказалась бы для нее неподходящей. Не только сумма выигрыша, но и место в иерархическом ряду, выстраиваемом на основе достигнутого успеха, определяется тем, какие стратегии были представлены; иным словами, все зависит от такого произвольного фактора, как прихоть того или иного человека. Как мы можем уменьшить эту произвольность? Если будем «мыслить в духе ЭСС».
Как вы, вероятно, помните по первым главам, важная характеристика эволюционно стабильной стратегии состоит в том, что она продолжает оставаться эффективной, когда она уже многочисленна в данной популяции стратегий. Называя Око за око эволюционно стабильной стратегией, мы говорим, что Око за око эффективна в ситуации, в которой эта стратегия доминирует. Это можно рассматривать как особый тип «силы». Как эволюционисты мы испытываем соблазн рассматривать его как единственный тип силы, имеющий существенное значение. Почему это так важно? А потому, что в мире дарвинизма выигрыши выплачиваются не в виде денег, а в виде потомков. Для дарвиниста успешная стратегия — это такая стратегия, которая стала многочисленной в данной популяции стратегий. Для того чтобы стратегия оставалась успешной, она должна быть особенно эффективной тогда, когда она многочисленна, когда она действует в обстановке, где доминируют ее собственные копии.
На самом деле Аксельрод провел третий раунд своего турнира так, как его мог бы вести естественный отбор, стремящийся найти некую ЭСС. Правда, он не назвал это третьим раундом, поскольку он не обращался с просьбами о новых предложениях, а использовал те же 63 стратегии, что и в раунде 2. Мне кажется удобным рассматривать его как раунд 3, потому что, по-моему, он отличается от двух «соревнований по круговой системе» более основательно, чем эти два соревнования отличаются друг от друга.
Аксельрод взял эти 63 стратегии и вновь ввел их в компьютер в качестве «генерации 1» некой эволюционной последовательности. Поэтому в «генерации 1» были равномерно представлены все 63 стратегии. В конце генерации 1 каждой стратегии был выплачен выигрыш не в виде «денег» или «очков», но в виде {шрифт наклонный}потомков{шрифт обычный}, идентичных своим (бесполым) родителям. С течением времени, по мере того, как одно поколение сменялось другим, некоторые стратегии становились редкими и в конце концов вовсе исчезали. Другие стратегии стали встречаться чаще. Вслед за изменением этих соотношений изменялась и «обстановка», в которой происходило дальнейшее развитие игры.
В конце концов по прошествии примерно 1000 поколений дальнейшие изменения обстановки прекратились. Была достигнута стабильность. До этого благосостояние различных стратегий возрастало и падало, точно так же, как при компьютерном моделировании стратегий Плутов, Простаков и Злопамятных. Некоторые стратегии пошли на убыль с самого начала, а к 200-му поколению большая их часть вымерла. Одна или две из непорядочных стратегий стали встречаться все чаще, однако их процветание, как и у Простака в моей модели, было недолгим. Единственная непорядочная стратегия, сохранившаяся по прошествии 200 поколений, была стратегия под названием Харрингтон. Выигрыши этой стратегии резко возрастали на протяжении первых 150 поколений, а затем довольно медленно снижались, и стратегия практически вымерла к 1000-му поколению. Стратегия Харрингтон была успешной в течение некоторого времени по той же причине, что и моя оригинальная стратегия Плут. Она эксплуатировала придурков вроде стратегии Око за два ока, пока они еще существовали. Затем, после того как эти придурки были доведены до вымирания, стратегия Харрингтон, лишившись легкой добычи, последовала за ними. Арена оказалась свободной для таких добропорядочных, но дерзких стратегий, как Око за око.
Сама стратегия Око за око действительно взяла верх в пяти из шести партий третьего раунда, точно так же, как это было в раундах 1 и 2. Пять других добропорядочных, но дерзких стратегий добились почти такого же успеха (высокая частота в популяции), как Око за око, одна из них даже победила в шестой партии. После того как все недобропорядочные стратегии было доведены до вымирания, ни одну из добропорядочных стратегий нельзя было отличить от Ока за око или друг от друга, потому что все они, будучи добропорядочными, просто играли друг против друга Кооперируюсь.
Эта неразличимость означает, в частности, что хотя Око за око напоминает ЭСС, она, строго говоря, не является настоящей ЭСС. Вспомним: для того, чтобы быть ЭСС, стратегия, когда она становится широко распространенной, должна быть защищена от проникновения той или иной редкой мутантной стратегии. Что же касается стратегии Око за око, то хотя она и не допускает проникновения какой-либо недобропорядочной стратегии, от других добропорядочных стратегий она не защищена. Как мы только что видели, в популяции добропорядочн