Разговоры об иллюзии умения
«Он знает, что, исходя из данных обследования, предсказать развитие болезни практически невозможно. Откуда же такая у веренность? Это похоже на иллюзию значимости».
«Она связала все, что знала, в стройную систему, и когерентность помогает ей чувствовать себя на высоте».
«Почему он думает, что сможет перехитрить рынок? Это иллюзия умения?»
«Она – „еж“ по натуре. У нее есть теория, которая все объясняет. Отсюда возникает иллюзия понимания мира».
«Проблема не в том, насколько сведущи эти эксперты, а в том, насколько предсказуема жизнь».
21
Интуиция и формулы – кто кого?
Пол Мил – удивительный и необычный человек, один из самых разносторонних психологов ХХ века. В Миннесотском университете он в разное время занимал преподавательские должности на факультетах психологии, юриспруденции, психиатрии, неврологии и философии. Его работы также касались вопросов религии, политологии и способности крыс к обучению. Он был не только исследователем, глубоко понимающим статистику и критикующим голословные утверждения клинических психологов, но и практикующим психоаналитиком. Мил написал несколько глубоких статей о философских основах психологических исследований – в годы аспирантуры я выучил их наизусть. Мы ни разу не встречались лично, но он стал одним из моих кумиров с тех пор, как я прочел его «Клинический и статистический прогнозы: теоретический анализ и фактологический обзор».
В этой небольшой работе, которую Мил позже называл своей «подрывающей основы книжечкой», он рассмотрел результаты двадцати исследований, анализирующих, что точнее: клинические прогнозы, основанные на субъективных представлениях врачей-профессионалов, или статистические прогнозы, полученные по строгой формуле, объединяющей оценки и данные. В типичном эксперименте социальные педагоги после сорокапятиминутного опроса каждого студента предсказывали оценки первокурсников к концу учебного года. Интервьюерам также предоставлялся доступ к результатам обучения в старшей школе и итогам тестов на интеллект и способности, а также к четырехстраничному эссе абитуриента, необходимому для поступления в университет. Статистическая формула использовала только часть всей этой информации, а именно отметки старшей школы и результаты одного теста на выявление способностей. Тем не менее формула оказалась точнее в прогнозах, чем 11 из 14 педагогов. Сходные результаты были получены при изучении ряда других предсказаний, в частности вероятности нарушения режима условно-досрочного освобождения, успешного прохождения программы подготовки пилотов или криминального рецидива.
Неудивительно, что «книжечка» Мила вызвала у многих психологов-клиницистов оторопь и недоверие, а начатая в ней полемика дала начало потоку исследований, который не иссякает до сих пор, спустя полвека после публикации. Число исследований, сравнивающих клинические и статистические прогнозы, возросло до двух сотен, но счет в и гре «человек против формулы» с тех пор не изменился. Примерно 60 % исследований доказали перевес в пользу формулы (то есть статистические прогнозы оказались гораздо точнее). Другие сравнения показали равные по точности результаты, но по статистическим законам ничья равносильна победе, а использовать статистику дешевле, чем нанимать экспертов. Никаких убедительных исключений из правила замечено не было.
С тех пор статистическое прогнозирование стало использоваться и в медицине – для определения продолжительности жизни раковых больных, сроков госпитализации, выявления кардиологических заболеваний и вероятности возникновения синдрома внезапной смерти новорожденных. В экономике с его помощью рассчитывают перспективы успеха новых компаний, оценивают риски кредитования в банках и возможность профессионального «выгорания». Статистические прогнозы применяются и в государственных учреждениях – для отбора кандидатов в приемные родители, определения вероятности рецидива у ма лолетних правонарушителей, а также возможности совершения ими других форм насилия. Статистические прогнозы проводятся во многих областях – с целью оценки научных презентаций, для поиска победителей в футбольном чемпионате и предсказания будущих цен на вина. Каждая из этих областей содержит значительную меру неопределенности и непредсказуемости. Мы называем их «малодостоверными областями». В каждом случае результативность экспертов не уступает или даже проигрывает точности формулы.
Как с законной гордостью заметил Мил через тридцать лет после выхода книги, «еще ни одному противоречию в общественных науках не посвящали такого множества качественно разнородных исследований, движущихся в одном направлении».
Принстонский экономист и знаток вин Орли Ашенфельтер подготовил убедительную демонстрацию превосходства простой статистики над мнением всемирно известных экспертов. Ашенфельтер хотел предсказать изменение цен на бордо по информации, доступной в год урожая. Это – важный момент, поскольку вину требуется несколько лет, чтобы созреть. К тому же цены сильно варьируют в зависимости от выдержки – цены на вина из одного и того же виноградника, разлитые с интервалом 12 месяцев, могут отличаться в десятки раз, а то и больше. Способность предсказывать эти изменения очень важна, поскольку инвесторы вкладывают средства в марочные вина как в произведения искусства, в надежде, что с годами они будут дорожать.
Общеизвестно, что на вкус марочного вина влияют только изменения погоды в период созревания винограда. Лучшие вина получают в те годы, когда лето сухое и теплое (виноделам Бордо следует воздать дань парниковому эффекту). Дождливая весна – еще один благоприятный фактор, поскольку повышает урожайность винограда, не влияя на качество. Ашенфельтер преобразовал все эти сведения в статистическую формулу, которая позволяет спрогнозировать изменение цен (на вино конкретного производителя и конкретного разлива) по трем м етеорологическим показателям: средней температуре за лето, объему осадков в период сбора урожая и за предшествующую зиму. Его формула дает точный прогноз цен на ближайшие годы и даже десятилетия. Более того, если в расчетах исходить из нынешних цен на молодое вино, прогноз будет менее точен. Этот пример «схемы Мила» бросает вызов как способностям экспертов, чье мнение формирует раннюю цену, так и всей экономической теории, согласно которой цены должны отражать всю имеющуюся информацию, включая погодные условия. Формула Ашенфельтера дает чрезвычайно точный результат – корреляция между настоящей и предсказанной ценой выше 0,90.
Так почему же эксперты проигрывают формулам? Одна причина, как предположил Мил, состоит в том, что они пытаются быть умнее, мыслить независимо и принимать во внимание сложные комбинации факторов. В иных случаях сложность помогает, но чаще всего она снижает достоверность предсказаний. Лучше исходить из простых комбинаций факторов. Исследования продемонстрировали, что люди, принимающие решения, уступают в точности формуле, даже когда им показывают результат, вычисленный посредством формулы! Им кажется, что они могут отвергнуть этот результат, поскольку обладают дополнительной информацией, но чаще всего ошибаются. По Милу, всего в нескольких случаях имеет смысл обращаться к экспертам, а не к формуле. В знаменитом мысленном эксперименте он описывает формулу, которая предсказывает, отправится ли некий человек нынешним вечером в кино. Согласно Милу, разумно игнорировать формулу, если стало известно, что днем человек сломал ногу. Так появилось «правило сломанной ноги». Смысл его в том, что перелом – событие редкое, но ключевое.
Другая причина того, что эксперты проигрывают формулам, – непростительное непостоянство человеческих обобщений при обработке сложной информации. Если предоставить экспертам один и тот же набор данных дважды, они часто дают разные ответы. Степень этого непостоянства вызывает серьезную тревогу. Опытные радиологи, оценивая рентгенограммы грудной клетки (норма или патология), противоречат себе в 20 % случаях, когда повторно видят одни и те же снимки. Опрос 101 независимого аудитора, которым предложили определить надежность внутрикорпоративных аудиторских проверок, выявил равную долю противоречий. Обзор 41 исследования о надежности суждений, высказанных аудиторами, патологами, психологами, менеджерами и прочими специалистами, позволяет предположить, что такая частота противоречий типична для всех случаев, даже если повторная оценка материала проводилась спустя всего несколько минут. Ненадежные оценки не могут привести к точным предсказаниям.
Возможно, непостоянство суждений столь широко распространено из-за крайней зависимости Системы 1 от контекста. Исследования в области прайминга показывают, что незамеченные воздействия окружающей среды сильно влияют на наши мысли и действия. Эти влияния поминутно меняются. Приятная прохлада ветерка в жаркий ден ь может настроить вас на оптимистичный лад и сказаться на вашем мнении в данный момент. Шансы преступника на досрочное освобождение сильно колеблются в соответствии с графиком работы судей (между перерывами на еду). Люди редко осознают напрямую, что происходит у них в головах, а потому не догадываются, что даже самые незначительные обстоятельства способны радикально изменить их решение. Формулы, напротив, не подвержены влиянию обстоятельств. При одних и тех же данных они всегда выдают один и тот же ответ. Когда предсказуемость низка (как в большинстве исследований, изученных Милом и его последователями), непостоянство уничтожает прогностическую значимость.
Данные исследования подводят нас к неожиданному выводу: для максимального повышения прогностической точности конечные решения следует доверить формулам, особенно в «малодостоверных» областях. Например, при поступлении в медицинские вузы последнее решение оставляется за преподавателями, проводящими собеседование с абитуриентами. Немногочисленные свидетельства позволяют предположить, что проведение собеседования, скорее всего, снижает точность процедуры отбора, поскольку интервьюеры обычно излишне уверены в собственной интуиции и слишком часто полагаются на собственные наблюдения, не обращая внимания на другие источники информации. Аналогичным образом эксперты по оценке качества незрелого вина получают данные, которые скорее ухудшают, чем улучшают точность прогноза по поводу его будущей стоимости, – им позволяют дегустировать вино. Даже отдавая себе отчет, что качество вин прежде всего зависит от погоды, эксперты не могут соперничать с формулой в постоянстве выводов.
Наиглавнейшим достижением в этой области науки после работы Мила можно считать знаменитую статью Робина Доуза «Грубая красота неточных линейных моделей, используемых в принятии решений». В общественных науках преобладает статистическая практика приписывать вес каждому из элементов предсказания (предиктору), сл едуя алгоритму, называемому множественной регрессией. В наше время этот алгоритм встраивают в типовое программное обеспечение. Логику множественной регрессии невозможно опровергнуть: она находит оптимальную формулу для совмещения взвешенной комбинации предикторов. Однако Доуз обнаружил, что сложность статистического алгоритма почти не повышает его эффективности. С равным успехом можно выбрать несколько показателей, обладающих некоторой значимостью для предсказания результата, и подогнать их значения для сравнимости по стандартным позициям. Формула, соединяющая предикторы с равными весами, была бы настолько же точна в предсказании новых случаев, как и формула множественной регрессии, оптимальная для изначальной выборки. Новейшие исследования пошли еще дальше: согласно им, формулы, придающие равный вес всем предикторам, часто превосходят другие, поскольку на них не влияют случайности, возникающие при составлении выборки.
Поразительный успех равновесных схем имеет ва жное практическое значение: стало возможно разрабатывать полезные алгоритмы без предварительных статистических исследований. Хорошо предсказывают значимые результаты простые равновесные формулы, основанные на существующей статистике или здравом смысле. В одном запоминающемся примере Доуз показал, что устойчивость брака предсказывается формулой:
частота занятий любовью минус частота ссор
Хорошо, если результат будет величиной положительной.
Важный вывод данного исследования состоит в том, что алгоритм, сочиненный «на коленке», по результативности часто соперничает с оптимально взвешенной формулой и с легкостью превосходит прогноз эксперта. Это правило применимо ко многим областям, будь то выбор акций для инвестиционного портфеля или выбор метода лечения врачами или пациентами.
Классическое применение этот подход нашел в простом алгоритме, который спас жизнь сотням тысяч новорожденных. Акушеры знают, что ребенок, у которого в первые минуты после рождения не устанавливается нормальное дыхание, впоследствии подвержен высокому риску повреждений головного мозга и гибели. До вмешательства анестезиолога Вирджинии Апгар в 1953 году врачи и повивальные бабки, оценивая состояние новорожденного, полагались на собственные клинические суждения. При этом каждый специалист искал определенные симптомы: одни изучали проблемы с дыханием, другие – когда раздастся первый крик. Без стандартизированной п роцедуры признаки опасности часто упускались из виду, и многие дети погибали в младенчестве.
Однажды за завтраком начинающий врач спросил Апгар, как проводить комплексную оценку состояния новорожденного. «Это просто, – ответила она. – Надо сделать вот так…» С этими словами Апгар наскоро записала пять параметров (пульс, дыхание, выраженность рефлексов, мышечный тонус и цвет кожных покровов) и три варианта оценки (0, 1, 2 – в зависимости от степени проявления признака). Осознав, что ее метод легко применить в любой родильной палате, Апгар начала оценивать по этой шкале младенцев через минуту после рождения. Ребенок с общим показателем от 8 и выше находился в хорошем состоянии: он дрыгался, кричал и гримасничал, имел пульс от 100 и выше, а также розовый цвет кожи. В то же время ребенок с показателем 4 и ниже – синюшного цвета, вялый, малоподвижный, со слабым пульсом – нуждался в срочной медицинской помощи. Персонал родильных палат, пользуясь шкалой Апгар, получил пос тоянные стандарты для определения того, какому ребенку грозит опасность, что в итоге значительно понизило смертность среди детей до года. Шкала Апгар до сих пор ежедневно используется в родильных домах. Хирург Атул Гаванде недавно опубликовал книгу «Манифест контрольного перечня», где приводится множество примеров полезности шкал и простых правил.