Probing the Improbable: Methodological Challenges for
Risks with Low Probabilities and High Stakes
Toby Ord, Rafaela Hillerbrand, Anders Sandberg*
* Future of Humanity Institute, University of Oxford.
http://arxiv.org/abs/0810.5515
Некоторые риски имеют исключительно высокие ставки, например, всемирная пандемия или столкновение с астероидом могу убить более миллиарда людей. К счастью, научные вычисления часто дают очень низкие оценки вероятности таких катастроф. В этой статье мы хотим отметить, что есть важные новые методологические проблемы, которые возникают при оценке рисков глобальных катастроф, и мы сосредотачиваемся на проблеме оценки вероятностей. Когда эксперт даёт калькуляцию вероятности некоторого исхода, в действительности он даёт вероятность этого исхода при условии, что его доказательство является безупречным. Однако его доказательство может быть ложным по ряду причин, таких как ошибки в используемой теории или ошибки в вычислениях. Если оценка вероятности, даваемая неким доказательством, уменьшается за счёт того шанса, что само доказательство содержит ошибки, то тогда эта оценка находится под подозрением. Мы рассмотрим эту идею формально, объясняя попутно, чем она отличается от подобных неопределённостей модели и неопределённости параметров. Используя оценки рисков Большого Адронного Коллайдера в качестве тестового примера, мы покажем, насколько серьёзна может быть эта проблема, когда речь идёт о рисках глобальной катастрофы, и как наилучшим образом ее решать.
Введение
Падения больших астероидов являются крайне маловероятными событиями[144], однако правительство тратит значительные суммы на проблемы предотвращения связанных с этим рисков. Именно большой возможный ущерб, то есть большие ставки в игре, являются тем, что делает эти проблемы стоящими исследования. Исследование рисков включает в себя рассмотрение как размеров ставок, так и вероятностей этих событий. Если риск угрожает жизням огромного числа людей, то является не только рациональным, но и морально обязательным исследовать этот риск в деталях и постараться определить, что мы можем сделать, чтобы уменьшить его. В этой статье исследуются риски с низкой вероятностью, но с большими ставками. Во втором разделе мы покажем, что оценки вероятности в научном анализе не могут быть приравнены самой вероятности того, что эти события случатся. Вместо вероятности того, что событие случится, научный анализ даёт вероятность события при условии, что данное доказательство верно. Хотя это касается всех вероятностных оценок, мы покажем, как это становится особенно важно после некого порогового уровня. Чтобы продолжать, нам следует кое-что узнать о надёжности доказательства. Обычно при анализе рисков это делается через анализ различий между неопределённостью модели и неопределённостью параметров. Мы постараемся доказать, что эта дихотомия не очень хорошо подходит для оценки надёжности теорий, которые входят в оценку рисков. Более того, эта дихотомия не учитывает неосознанно сделанные ошибки. Вместо этого в третьем разделе мы предлагаем трёхуровневую классификацию различий между теорией доказательства, моделью и вычислениями.
Объясняя это разделение более детально, мы проиллюстрируем его историческими примерами ошибок во всех трёх областях. Мы покажем, как при конкретной оценке рисков можно использовать предложенное разделение теория-модель-калькуляция, чтобы вычислить надёжность данного доказательства и, таким образом, увеличить надёжность вероятностной оценки редких событий. Недавно возникли опасения, что высокоэнергетичные эксперименты в области физики элементарных частиц на таких установках как RHIC (Коллайдер тяжёлых релятивистских ионов) и на Большом адронном коллайдере в ЦЕРН, в Женеве, могут угрожать человечеству. Если эти риски реальны, эти эксперименты представляют угрозу человечеству, которую можно избежать, просто не проводя эти эксперименты. В 4 разделе мы применим методы, разработанные в этой статье, к нынешним дебатам о безопасности экспериментов в области физики высоких энергий. Мы рассмотрим опубликованные отчёты по безопасности в свете наших находок и дадим рекомендации по безопасности для будущих исследований. В последнем разделе мы вернёмся к главной проблеме оценки низковероятных рисков. Мы хотим подчеркнуть, что результаты этой статьи не должны интерпретироваться как антиинтеллектуализм, но как аргументы в пользу того, чтобы сделать заполненную шумом и ошибками природу научных и технических исследований предметом интеллектуального размышления, особенно в тех случаях, когда вероятности очень малы и ставки очень велики.
Оценка вероятностей
Предположим, что вы прочитали некий отчёт, который исследует некий возможный риск глобальной катастрофы и в котором делается вывод, что вероятность глобальной катастрофы составляет один к миллиарду. Какую вероятность вы должны приписать тому, что эта катастрофа случится? Мы утверждаем, что прямое использование оценки, даваемое этим отчётом, является наивным. Это связано с тем, что авторы отчёта подвержены ошибкам и их доказательство может содержать скрытые неточности. То, что нам говорится в этом отчёте – это не вероятность катастрофы, а вероятность катастрофы, при условии, что доказательство является верным. Даже если аргумент выглядит непробиваемым, шансы на то, что он содержит критическую ошибку могут быть гораздо выше, чем один на миллиард. В конечном счёте в выборке из миллиарда выглядящих неуязвимыми доказательств наверняка найдутся те, которые содержат скрытые ошибки. В результате наша наилучшая оценка вероятности катастрофы может быть значительно выше, чем даваемая в отчёте[145].
Давайте использовать следующие обозначения:
X = катастрофа происходит,
A = доказательство истинно.
В то время как мы в действительности интересуемся P(X), отчёт даёт нам только оценку P(X|A), поскольку в нём не может приниматься во внимание вероятность его же собственной ошибки[146]. Из аксиом теории вероятностей мы знаем, что P(X) связано с P(X|A) следующей формулой:
(1) P(X)=P(X|A)P(A)+P(X|-A)P(-A) .
Дл использования этой формулы для получения P(X) нам потребуются оценки вероятности того, что доказательство верно P(A), и оценка вероятности того, что катастрофа случится, если доказательство неверно P(X|-A).
Очень вряд ли нам удастся получить точные оценки этих вероятностей на практике, но мы увидим, что даже грубых оценок вероятности достаточно, чтобы изменить наш взгляд на определённые калькуляции рисков. Особый весьма распространённый случай касается отчётов, которые утверждают, что Х абсолютно невозможно. Однако, это говорит нам только о том, что X невозможно при условии, что все наши нынешние убеждения верны, то есть что P(X|A)=0. Но из уравнения (1) мы видим, что это полностью согласуется с тем, что P(X)>0, поскольку доказательство может содержать ошибки. Рисунок 1 является простой графической репрезентацией этой основной идеи.
Квадрат слева представляет пространство возможностей, подобное описанному в научном отчёте, где чёрная область соответствует тому, что катастрофа случилась, а белая область – что не случилась. На вертикальной оси обозначены вероятности того, что событие случилось, и что не случилось. В этом представлении игнорируется возможность того, что рассуждение неверно. Чтобы учесть эту возможность, мы можем обозначить её на квадрате справа. Белая и чёрная область сократились пропорционально вероятности того, что доказательство верно, а новая серая область представляет вероятность того, что доказательство неверно. Теперь горизонтальная ось также ортонормированна и показывает вероятность того, что доказательство неверно.
Чтобы продолжить наш пример, предположим, что доказательство, приведённое в отчёте, выглядит очень надёжным, и наша наилучшая оценка вероятности того, что в нём содержится ошибка составляет 1 к 1000 (P(-A)= 10-3). Другое неизвестный член в уравнении 1, а именно P(X|-A), в общем случае гораздо труднее определить, но давайте предположим, что в нашем примере мы считаем, что крайне маловероятно, что событие произойдёт, даже если доказательство неверно, и мы тоже считаем эту вероятность как 1 к 1000. Уравнение (1) говорит нам, что в этом случае вероятность катастрофы будет в этом случае чуть более одной миллионной – и эта оценка в тысячу раз больше, чем та, которую даёт сам этот отчёт. Это отражает тот факт, что если катастрофа действительно случится, то гораздо вероятнее, что это произойдёт из-за ошибки в отчёте, чем в результате того, что один случай на миллиард будет иметь место.
Ошибочные доказательства нередки. Один возможный способ оценить число больших ошибок в научных статьях – это посмотреть на ту долю их, которые были формально отозваны после публикации. Хотя некоторые отзывы статей связаны с неэтичным поведением, большинство связано с непреднамеренными ошибками[147]. Используя базу данных MEDLINE[148] (Cokol, Iossifov et al. 2007) обнаружили приблизительную частоту отзывов в 6.3*10-5, но если использовать статистическую модель для оценки частоты отзывов статей, то результат будет между 0.001 и 0.01, если все журналы будут проверены с той же степенью тщательности, как те, которые находятся на высшем уровне. Из этого следует, что P(-A) > 0.001, что делает наши предыдущие оценки весьма оптимистичными. Мы также должны отметить, что доказательство легко может содержать ошибки, даже если статья не была формально отозвана. Отзывы статей происходят только тогда, когда ошибки не тривиальны и незамедлительно становятся очевидны научному сообществу. Таким образом частота отзывов даёт нижнюю границу частоты серьёзных ошибок. Конечно, мы должны помнить, что в различных областях науки могут быть различные частоты отзывов статей и различные частоты ошибок. Например, фундаментальная наука может быть в меньшей степени подвержена ошибкам, чем более прикладные области.
Важно отметить особую связь между данным анализом и рисками с высокими ставками и низкой вероятностью. Хотя данный анализ может быть применим к любым рискам, он наиболее полезен в данной категории. Только если P(X|A) очень мало, то серая область начинает играть относительно большую роль. Если P(X|A) умеренно велико, то тогда малый вклад вероятности ошибки имеет небольшое значение в оценке вероятности, например, определяя разницу между 10% и 10,001%, а не разницу между 0,001% and 0,002%. Ставки должны быть также очень велики, чтобы имел смысл дополнительный анализ рисков, при том, что изменение вероятности очень невелико в абсолютных терминах. Если ещё одна миллионная шанса смерти миллиарда людей определённо стоит дальнейшего рассмотрения, то дополнительная миллионная доля шанса пожара в доме этого не стоит.
Возможно следующее возражение нашему подходу, на том основании, что мы только показали, что неопределённость становится больше, чем это считалось раньше, но не вероятность события становится больше, чем это оценивалось ранее: дополнительная неопределённость может как увеличить, так и уменьшить вероятность события. При применении нашего подхода к произвольным случаям, это возражение будет работать, однако в этой статье мы специально обращаемся к случаям, в которых вероятность P(X|A) крайне мала, так что любое значение P(X|-A) было бы выше и, таким образом, двигало бы суммарную оценку вероятности вверх. Эта ситуация симметрична в отношении экстремально высоких значений P(X|A), где повышение неопределённости доказательства приведёт к уменьшению оценки вероятности, и эта симметрия нарушается только нашей концентрацией на очень маловероятных событиях.
Другое возможное возражение состоит в том, что поскольку всегда есть ненулевая вероятность того, что доказательство содержит ошибки, то ситуация является безнадёжной: любое новое доказательство не сможет полностью убрать серую зону. Верно, что серую область никогда не удастся убрать, однако если новое доказательство (А2) является независимым от предыдущего доказательства (А1), то тогда серая область уменьшится, то есть P(-A1,-A2)<P(-A1). Это может привести к значительному прогрессу. Небольшая оставшаяся серая область может быть приемлема, если P(X|-A)P(-A), согласно оценкам, является достаточно малым в сравнении с уровнем ставок.
Теории, модели и вычисления
Наиболее обычный путь в оценке надёжности доказательства состоит в разделении между неопределённостью модели и неопределённостью параметров и в приписывании разных вероятностей этим вариантам. Хотя эта классификация определённо полезна в некоторых практических случаях, она является слишком грубой для наших нынешних целей, поскольку неспособна учесть потенциальные ошибки в вычислениях или ложность теории, на которой доказательство основывается. Для того, чтобы учесть все возможные ошибки в доказательстве, мы по отдельности рассмотрим его теорию, его модель и его вычисления. Вычисления развивают конкретную модель, представляющую исследуемый процесс, например, формирование чёрных дыр при столкновении частиц, реакцию на определённые климатические параметры (такую как среднюю температуру или скорость испарения) или изменения концентрации парникового газа, или реакцию экономики на изменение цен на нефть. Эти модели обычно выводятся из более общих теорий. В дальнейшем мы не будем ограничивать термин «теория» точно установленными и математическими проработанными теориями, вроде электродинамики, квантовой хромодинамики или теории относительности. Скорее, теории понимаются как базовое теоретическое знание, вроде исследовательских парадигм или общепринятых исследовательских практик внутри данной области знаний. Примером этого является гипотеза об эффективности рынка, которая лежит в основе многих моделей в экономике, таких как модель Блэка-Скоулза. Даже неверные теории и модели могут быть полезны, если их отклонение от реальности достаточно мало с точки зрения заданных целей. Таким образом, мы рассматриваем адекватные модели или теории, а не истинные. Например, мы склонны признавать, что Ньютонова механика является адекватной теорией во многих ситуациях, хотя при этом признаём, что в некоторых случаях она является полностью неадекватной (например, при вычислении орбиталей электронов). Мы, таким образом, называем репрезентацию некой системы адекватной, если она способна предсказывать с требуемой точностью релевантные черты данной системы. Например, рассмотрим случай, когда исследователи климата хотят определить воздействие выбросов парниковых газов на благополучие будущих поколений; в этом случае модель, описывающая локальные изменения испарения и температуры не будет адекватной. Однако им достаточно, чтобы модель описывающая глобальные изменения температуры и испарения была бы адекватной. На теоретическом уровне можно сказать гораздо больше о разнице между адекватностью и истинностью, но для целей определения надёжности оценок рисков приведённого выше объяснения должно быть достаточно.
Используя следующие обозначения:
Т – используемые теории адекватны
М – выведенная модель адекватна
С – вычисления верны
Мы можем разделить А указанным выше образом и заменить P(X|A) в уравнении (1) на P(X|T,M,C) и P(A) на P(T,M,C ). Из законов условной вероятности следует:
(2) P(T,M,C) = P(T)P(M|T)P(C|M,T)
Мы можем признать С независимым от М и Т, так как корректность вычислений не зависит от адекватности тех теоретических предположений и модели, на которых они основываются. С учётом этой независимости P(C|M,T) = P(C) и приведённое выше уравнение может быть упрощено:
(3) P(T,M,C) = P(T) P(M|T) P(C).
Подставляя этот результат назад в уравнение (1), мы получим более удобоваримую формулу для вычисления вероятности исследуемого события. Мы уже сделали грубую попытку оценить P(A) на основании частоты отзыва статей. Оценка P(T), P(M|T) and P(C) является более аккуратной и в некотором отношении более простой, хотя всё ещё представляет значительную трудность. Хотя оценка различных составляющих уравнения (3) должна делаться в каждом случае отдельно, последующее прояснение того, что мы имеем в виду под вычислениями, моделью и теорией прольёт определённый свет на то, как проводить такой анализ. Следуя нашей трёхуровневой классификации, наиболее прямым подходом было бы применение открытий в области надёжности теорий из философии науки – основанных, например, на вероятностных методах верификации (например, (Reichenbach 1938)) или методах фальсификации как в (Hempel 1950) или (Popper 1959). Часто, однако, лучшим, что мы можем сделать, является установление неких границ на основании исторических данных. Далее мы рассмотрим типичные источники ошибок в этих трёх областях.
3.1 Вычисления: аналитические и численные
Независимая от адекватности модели и от теории оценка верности вычислений является важной во всех случаях, когда используемая математика является нетривиальной. Большинство случаев, когда мы можем дать нечто большее, чем чисто эвристический анализ рисков, относятся к этому классу. Вспомните климатические модели, рассматривающие неограниченно растущие изменения климата и оценки рисков коллайдера или столкновения с астероидами. Когда вычислений становится много, даже простые арифметические процедуры становятся подвержены ошибкам. Отдельная трудность возникает в связи с разделением труда в науке: в современной научной практике является обычным, что различные шаги в вычислениях выполняются различными людьми, которые могут быть в различных рабочих группах в разных странах. Космический аппарат Mars Climate Observer был потерян в 1999 году из-за того, что часть контролирующего оборудования, разработанная Локхид Мартин использовала британскую систему мер и весов вместо метрической системы, которую ожидало программное обеспечение от НАСА (NASA 1999).
Ошибки в вычислениях огорчительно распространены. Нет надёжной статистики по ошибкам в вычислениях, сделанных в оценке рисков, или, шире, в научных статьях. Однако есть исследование ошибок, сделанных в очень простых вычислениях, которые выполнялись в госпиталях. Ошибки в дозировке дают примерную оценку частоты того, насколько часто математические ошибки происходят. Ошибки в рецептах имеют место в от 1.2% до 31% случаев согласно различным исследованиям (Prot, Fontan et al. 2005; Stubbs, Haw et al. 2006; Walsh, Landrigan et al. 2008), и среднее значение составляет 5% от числа назначений. Из этих ошибок 15-40% составляют ошибки в дозах, что даёт общий уровень ошибок в дозах в 1-2%. Что это значит для частоты ошибок в оценке рисков? Поскольку ставки являются большими, когда речь идёт об ошибках в дозах, эти данные представляют собой серьёзную попытку дать правильный ответ в отношении условий, когда речь идёт о жизни и смерти. Вероятно, что люди, занимающиеся оценкой рисков, более надёжны в арифметики, чем профессионалы в области здравоохранения, и имеют больше времени для исправления ошибок, но кажется невероятным, что они являются более надёжными на несколько порядков величины. Следовательно, вероятность в 0.001 ошибки в простых вычислениях не выглядит невероятной. Рандомизированная выборка статей из Nature и BritishMedical Journal показала, что 11% статистических результатов содержали ошибки, большей частью по причине ошибок округления и перезаписи (García-Berthou and Alcaraz 2004). Ошибки в вычислениях включали в себя не только «простые» описки, которые мы знаем со школы, такие как перепутанные знаки, забытый обратный квадратный корень или неверное переписывание из строки сверху. Вместо этого, многие ошибки возникли в результате численного решения аналитических математических уравнений. Компьютерные симуляции и численный анализ редко осуществляется напрямую. История компьютеров содержит большое число впечатляющих примеров сбоев в результате маленьких ошибок в программном обеспечении и оборудовании. 4 июня 1996 года ракета Ариан 5 взорвалась в результате незаконченного фрагмента программного кода, вызвавшего цепочку отказов (ESA 1996). Аудит финансовых отчётов в реальном мире обнаружил 88% ошибок (Panko 1998). Ошибка в операциях с плавающей запятой в 1993 году в процессорах Пентиум касалась 3-5 млн. процессоров, уменьшив их вычислительную надёжность и, таким образом, нашу уверенность в чём-либо, вычисленном на них (Nicely 2008). Программистские ошибки могут «спать» в течение очень долгого времени в с виду правильном коде, только чтобы проявиться в крайних ситуациях. Элементарный и широко распространённый алгоритм бинарного поиска, входящий в стандартные библиотеки для Java, как оказалось после 9 лет использования, содержал баг, который возникает только при очень большой длине списка (Bloch 2006). Ошибка в обработке данных привела к тому, что пять продвинутых статей по структуре белка были отозваны, поскольку хиральность молекул была инвертирована (Miller 2006). В тех случаях, когда для моделирования используются вычислительные методы, многие ошибки неизбежны. Используются дискретные аппроксимации уравнений из модели, которые обычно непрерывны, и, как нам известно, в некоторых случаях эти дискретные версии не являются хорошей аппроксимацией для непрерывной модели (Morawetz and Walke 2003). Более того, численные вычисления часто выполняются на дискретной вычислительной сетке, где значения в середине ячеек вычисляются как средние, исходя из значений в узлах решётки. Хотя мы знаем, что определённые схемы экстраполяции являются более надёжными в некоторых случаях, чем другие, мы часто не можем исключить вероятность ошибки или хотя бы количественно оценить ее.
3.2 Способы моделирования и теоретизирования.
Наше разделение между моделью и теорией следует типичному использованию терминов в математических науках, таких как физика или экономика. В то время как теории ассоциируются с широкой применимостью и большой уверенностью в их истинности, модели ближе к феноменам. Например, оценивая вероятность столкновения конкретного астероида с Землёй, следует использовать либо Ньютонову механику, либо общую теорию относительности в качестве теории, описывающей роль гравитации. Затем можно использовать эту теорию совместно с наблюдениями позиций космических тел, скоростей и масс, чтобы сконструировать модель, и наконец произвести серию вычислений на основании модели, чтобы оценить вероятность столкновения. Как из этого следует, ошибки, которые возможны при создании конкретной модели включают в себя и превосходят те ошибки, которые обычно называются неопределённостью параметров. Помимо вопросов о индивидуальных параметрах (позициях, скоростях, массах), есть также важные вопросы о деталях (можем ли мы пренебречь внутренней структурой сталкивающихся тел?) и ширины (можем ли мы сфокусироваться только на Земле и астероиде, или мы должны моделировать другие планеты или Солнце?)[149] Как видно из приведённого примера, один из способов отличать теории от моделей состоит в том, что теории слишком общи, чтобы их можно было прямо применить к конкретной проблеме. Для любой теории есть много способов применить ее к проблеме, и благодаря этому возникают разные модели. Философы науки отметят, что разделение теории и модели согласуется с неформальным определением, используемым (Giere 1999), (Morrison 1998) (Cartwright 1999), но отличается от даваемого (Suppes 1957). Мы также должны отметить, что доказательство вполне вероятно может использовать несколько моделей и теорий. Это усложняет анализ и создаёт дополнительные источники ошибок в доказательстве[150]. Например, для оценки риска возникновения чёрных дыр нам потребуется не только квантовая хромодинамика (теория, которую БАК должен протестировать), но также теория относительности и теория излучения чёрных дыр Хокинга. В дополнение к другим своим ролям, предположения, сделанные в модели, должны объяснить, как связать вместе столь разные теории (Hillerbrand and Ghil 2008). В оценке рисков участвующие системы обычно не так хорошо понятны, как столкновения с астероидами. Часто разные модели существуют одновременно – причём про каждую известно, что она не полна или некорректна в некотором отношении, однако исправить ее трудно. В этих случаях особенно проявляется свойство человека, имеющего в голове представления о том, каким должен быть желаемый исход, подстраивать под него модель, делая его уязвимым для когнитивного искажения, связанного с ожиданием: тенденции получать желаемый ответ, а не истинный. Это когнитивное искажение оказало влияние на многих великих учёных (Jeng 2006), и в случае оценки рисков желание получить «позитивный исход» (безопасность в случае сторонника и опасность в случае противника проекта) выглядит вероятной причиной искажений в моделировании.
Рисунок 2. Наша классификация способов, которыми оценки рисков могут быть искажены.
3.3 Исторические примеры ошибок в модели и в теории
Драматическим примером ошибки в модели было ядерное испытание Кастель Браво 1 марта 1954 года. Устройство дало взрыв силой 15 мегатонн вместо предсказанных 4-8 мегатонн. Радиоактивные осадки выпали на части Маршаловых островов и привели к облучению японского рыболовного судна, в результате чего один рыбак погиб, что привело к международному скандалу (Nuclear Weapon Archive 2006.) Хотя конструкторы в Лос Аламосской национальной лаборатории понимали актуальную в данном случае теорию альфа-распада, их модель реакций, участвующих во взрыве, была слишком узкой, поскольку она пренебрегала одной из участвующих частиц (литием-7), который, как оказалось, отвечает за большую часть выделяющейся энергии. Кастель Браво примечателен также как пример ошибки в модели в очень серьёзном эксперименте, основанном на точных науках и с известными высокими ставками. История науки содержит множество примеров того, как общепринятые теории были опрокинуты новыми данными или новыми пониманиями, а также того, как множество малых теорий существовали удивительно долго, до того, как были опровергнуты. Классические примеры первого – это космология Птолемея, теория флогистона и калорическая теория; пример последнего – это число хромосом у человека, которое систематически ошибочно вычислялось как равное 48 (а не 46) и эта ошибка просуществовала 30 лет (Gartler 2006). В качестве последнего примера рассмотрим оценку лордом Кельвиным возраста Земли (Burchfield 1975). Они были выполнены на основании температуры Земли и ее теплопроводности, и привели к оценкам возраста Земли от 20 до 40 миллионов лет. Эти оценки не принимали в расчет нагревание за счёт радиоактивного распада, поскольку радиоактивный распад не был известен в то время. Как только было показано, что он способен давать дополнительное тепло, модель была быстро усовершенствована. Хотя пренебрежение радиоактивностью сегодня выглядит как слабость модели, во времена лорда Кельвина оно представляло собой большую непредвиденную слабость в физическом понимании Земли и, таким образом, ошибку теории. Эти примеры показывают, что вероятности адекватности модели и теории не независимы друг от друга, и, таким образом, в самом общем случае мы не должны дальше разлагать на слагаемые уравнение (3).