Как определить «значимость» научного открытия
В каких случаях вы принимаете научное открытие всерьез? Когда оно «значимо»?
Паранормальные события по определению являются экстраординарными и выходят за рамки мира обычной науки. Если вы делаете ошибочный вывод о том, что результат не случаен, а имеет конкретную причину, то это ошибка I рода. (Ошибочный вывод в том, что реальный неслучайный эффект — всего лишь результат случайности, называется ошибкой II рода.) Говоря проще, ошибка 1 рода — это когда вы считаете, что «происходит что-то необычное», тогда как на самом деле все идет своим чередом. В данном тексте мы рассмотрим процедуру сверки с реальностью, призванную выявлять ошибки I рода.
Пусть ученый проводит эксперимент с целью определить, стоит ли за неким явлением — скажем, необычайной способно стью выигрывать в лотерею, читать мысли или предсказывать результаты выборов — какая-то конкретная причина или это чистая случайность. Пусть далее наш ученый получит подряд несколько позитивных результатов. В конце концов игрок в покер может иногда получить удачные карты, в этом нет ничего таинственного. Да и в лотерею люди иногда выигрывают.
К счастью, существуют статистические процедуры для оценки вероятности ошибки I рода. К примеру, мы считаем, что выигрыши в лотерее распределяются совершенно случайно и честно, так что выигрыш каждого человека зависит исключительно от удачи. При этом некоторым людям все же выпадают выигрыши. Если выигрышей больше, чем можно было ожидать, мы можем заподозрить, что лотерея работает не совсем случайно. Возможно, кто-нибудь жульничает или здесь работают паранормальные силы. Чтобы разобраться в происходящем, статистики вычисляют, сколько выигрышных билетиков должно быть предъявлено, чтобы мы сделали вывод о том, что происходит нечто странное. Может быть, по законам случайности на один миллион участников должно приходиться 10, 100 или даже 1000 выигрышей. Любое число, превышающее 10, 100 или 1000, вызовет подозрения. Но как выбрать допустимое число выигрышей? Все зависит от того, чем вы готовы рискнуть. Насколько вы боитесь совершить ошибку I рода.
«Уровень риска» совершения ошибки I рода называется a-уровнем. Традиционно многие ученые ориентируются на а-уровень 5 % (0,05), но иногда используются и другие уровни (1 % (0,01) и 0,1 % (0,001)). Так, а-уровень 5 % означает, что лотерея становится по-настоящему подозрительной. Если же уровень уверенности не превышает 5 %, т. е. вероятность ошибки не превышает 1/20. Иногда уровень вероятности для краткости называют p-величиной. В научных докладах можно часто встретить следующие утверждения (не забывайте, что при этом р лучше, т. е. меньше, 0,05, и, соответственно, результаты эксперимента значимы):
Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 45 % случаев, предсказания обычных людей — в 41 % случаев.
Предсказания экстрасенсов были точны значительно чаще, чем предсказания обычных людей (р = 0,02). Вывод: результаты эксперимента свидетельствуют о том, что экстрасенсы могут предсказывать будущее.
Если эксперимент не подтвердил точности предсказаний экстрасенсов, отчет может выглядеть примерно так:
Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 44 % случаев, предсказания обычных людей — в 43 % случаев. Превышение успешности предсказаний экстрасенсов по отношению к предсказаниям обычных людей не было статистически значимым (р = 0,12). Вывод: результаты эксперимента не подтверждают вывод о том, что экстрасенсы могут предсказывать будущее.
Обратите внимание: ученые говорят о «статистической значимости» явления, если полученная в ходе эксперимента «-величина не превышает принятого в эксперименте уровня значимости (a-уровня)». Утверждение «Этот результат является статистически значимым, р = 0,02» можно перевести примерно так: «Мы уверены, что этот результат — не просто удача или случайность. Наша статистика показывает, что вероятность ошибки составляет всего 2 шанса из 100, а это лучше, чем уровень 5/100, принятый большинством ученых».
Способ, при помощи которого вычисляется а-уровень для статистических данных, останется за пределами этой книги. Однако заметим, что эта задача может оказаться весьма сложной. К примеру, многократное повторение одного и того же эксперимента может создавать совершенно особую проблему, о которой иногда забывают исследователи паранормального. Любой эксперимент сам по себе напоминает бросание монетки. Со временем при многократном повторении вы можете по чистой случайности получить желаемый результат. В гипотетическом исследовании предсказаний экстрасенсов и обычных людей, о котором мы говорили выше, некоторые участники (как экстрасенсы, так и неэкстрасенсы), вполне воз можно, сделали удачное предсказание случайно. Мы уже объяснили, что статистики умеют оценивать уровень вероятности и учитывать его при обработке результатов. Точно так же, если повторить этот эксперимент сотни раз, исследуя каждый раз по 50 экстрасенсов и неэкстрасенсов, в некоторых случаях доля успешных предсказаний у экстрасенсов обязательно окажется выше — по чистой случайности. Минимум, что вы должны сделать, — это изменить a-уровень так, чтобы учесть возросший риск ложноположительного решения.
Исследователи, которые многократно повторяют один и тот же эксперимент (или учитывают большое количество параметров водном эксперименте), вынуждены принимать дополнительные меры, чтобы исключить ложноположительное решение. Некоторые из них пользуются тестом, придуманным Карло Эмилио Бонферрони (Bonferroni, 1935), и делят а-уровень (0,05 или 0,01) на число экспериментов (или параметров), чтобы скомпенсировать тем самым возросшую вероятность ошибочного результата. Новый a-уровень отражает более жесткие критерии, при помощи которых придется в этом случае оценивать достоверность проведенного исследования. Ведь, если провести аналогию с бросанием костей, вы увеличиваете вероятность выигрыша за счет большого количества бросков. К примеру, если вы провели 100 экспериментов по экстрасенсорному предсказанию будущего (или один эксперимент, в котором попросили участников предсказать поведение 100 отдельных трупп объектов, таких как спортивные матчи, номера лотерейных билетов, природные события и т. д.), то новый a-уровень у вас будет 0,0005 (0,05/100). Таким образом, если после статистической обработки результатов вашего исследования окажется, что уровень достоверности составляет всего 0,05. В данном случае это будет означать, что значимых результатов вам получить не удалось.
Возможно, вы плохо разбираетесь в статистике и с трудом понимаете, о чем идет речь. Тем не менее Бонферрони снабдил нас очень удобным инструментом оценки, пользоваться которым совсем не трудно. При помощи этого инструмента вы всегда можете понять, не возбуждают ли результаты того или иного исследования ложных надежд. Сосчитайте число экспериментов, о которых идет речь. Или число различных «исходящих» переменных, которые подвергались исследованию. Разделите 0,05 на число экспериментов или переменных и получите новое пороговое значение. Уровень достоверности исследования, о котором идет речь, должен быть не выше этого значения (т. е. меньше или равен ему). Только тогда вы можете быть уверены в значимости полученных результатов. Ниже приведен гипотетический отчет об исследовании зеленого чая. Можете ли вы определить, почему он вводит читателя в заблуждение?
Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 — подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. За письменные работы те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, — в среднем «4». Это значимая разница, р = 0,02. Вывод: зеленый чай повышает успеваемость.
А вот тот же отчет с поправкой на тест Бонферрони:
Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 — подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. Лучше всего зеленый чай сказался на качестве письменных работ. Здесь те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, — в среднем «4». Разница в оценках дает нам р = 0,02. Однако этот результат не удовлетворяет а-уровню с поправкой Бонферрони (0,01). Вывод: зеленый чай не повышает успеваемость.