Изобилие данных и выбор исследователя

Это специальный раздел, так что читатель может пропустить его с легким сердцем. Опциональность есть повсюду, и здесь самое место поговорить о предвзятом подходе, или систематической ошибке отбора, вредящей духу науки и делающей избыток данных чрезвычайно опасным для знания. Больше данных – значит больше информации, в том числе неверной. Мы обнаруживаем сейчас, что все меньше исследований повторяют друг друга. Учебники психологии уже следует переписать. Что до экономики – забудьте. Не стоит доверять многим наукам, базирующимся на статистике, – особенно если на ученых давит необходимость публиковаться, чтобы продолжать научную карьеру. Пусть они и утверждают, что «двигают науку вперед».

Вспомним понятие «эпифеномен» и дискуссию о том, чем реальность отличается от библиотеки. Тот, кто изучает историю в библиотеке, обязательно обнаружит куда больше ложных взаимосвязей, чем тот, кто стал участником событий и наблюдает за причинами и следствиями в реальном времени. Нас обманывают эпифеномены, возникающие в том числе из-за переизбытка данных – в сравнении с реальными сигналами.

В главе 7 затрагивался вопрос уровня шума. В сфере информации шум зашкаливает и становится серьезной проблемой, потому что исследователь, как и банкир, обладает опциональностью. Ученый извлекает выгоду, а истина несет убытки. Свобода действий исследователя выражается в том, что он волен выбрать статистику, которая подтверждает его точку зрения – или дает хороший результат, – а остальное утаить. Ученый может попросту остановиться на том результате, который сочтет верным. Более того, он может обнаружить статистические взаимосвязи – и создать иллюзию результата. Таково одно из свойств информации: в огромных массивах данных большие отклонения – это куда чаще шум (или вариации), а не информация (или сигнал)[136].

Рис. 18. Трагедия изобилия данных. Чем больше у нас переменных, тем больше взаимосвязей «умелый» исследователь может преподнести как важные. Ошибки нарастают быстрее, чем растет информация; эти ошибки нелинейны (выпуклы) в отношении данных.

В медицине различают два типа исследований: (а) исследование по данным наблюдений, в ходе которого ученый смотрит на статистические соотношения в своем компьютере, и (б) метод двойной анонимности, когда информация добывается в ходе реалистического эксперимента, имитирующего реальность.

Первый тип, наблюдение за данными в компьютере, порождает всевозможные результаты, и, как доказал Джон Иоаннидис, по меньшей мере в восьми случаях из десяти они являются ложными. Однако об исследованиях по данным наблюдений пишутся статьи, публикуемые в некоторых научных журналах. К счастью, такие исследования не одобряет Управление по контролю качества пищевых продуктов и лекарственных препаратов – тамошние ученые очень осторожны. Мы с великим активистом Стэном Янгом, разоблачающим ложную статистику, обнаружили в журнале The New England Journal of Medicine посвященное генетике исследование, результаты которого получены статистическим путем – с тем же успехом их могли взять с потолка. Мы написали в журнал письмо, но нам никто не ответил.

На рис. 18 показано, сколь чудовищно велико может быть число потенциальных ложных взаимосвязей. Идея проста. Если я работаю с набором из 200 случайных переменных, совершенно не зависящих друг от друга, почти невозможно не обнаружить высокую корреляцию на уровне, скажем, 30 процентов, однако эта корреляция будет абсолютно ложной. Есть методики, позволяющие контролировать избирательность (скажем, поправка Бонферрони), но даже они не останавливают злоумышленников – как регулирование не останавливает инсайдеров, которые наживаются на системе. Вот почему за двенадцать с чем-то лет с тех пор, как мы расшифровали геном человека, генетики не добились никаких существенных результатов. Я не говорю, что данные не содержат важной информации; беда в том, что искать ее – все равно что искать иголку в стогу сена.

Искажены могут быть даже сами эксперименты: у исследователя имеется стимул отбирать лишь то, что отвечает его задачам, и скрывать неудачи. Ученый может также сформулировать гипотезу по итогам эксперимента, то есть подогнать ее под эксперимент. Впрочем, тут отклонение не столь велико, как в первом случае.

Эффект «одураченных данными» проявляется все шире. Есть отвратительный феномен «изобилия данных», когда ученые отбирают их в промышленных масштабах. Новое время в избытке обеспечивает нас переменными (и дает слишком мало данных по каждой переменной), так что ложные взаимосвязи множатся куда быстрее истинных, ведь шум обладает выпуклой природой, а важная информация – вогнутой.

По сути, данные могут поставлять нам только знание а-ля via negativa — их можно эффективно использовать для развенчания концепций, а не для подтверждения их.

Трагедия в том, что очень трудно получить финансирование, чтобы воспроизвести – и опровергнуть – уже проведенные исследования. Но даже если деньги найдутся, сложно найти тех, кто за это взялся бы: все понимают, что воспроизводя чужие опыты, героем не стать. В итоге мы не можем доверять эмпирическим результатам – кроме отрицательных. Я романтик, и мой идеал – английский священник, ученый-любитель, который обдумывает опыты за чаем. Нынешние профессиональные исследователи соревнуются в «поиске» взаимосвязей. Наука не должна быть соревнованием; в ней не должно быть табели о рангах – как мы видим, подобная система неизбежно рушится. Нужно очистить знание от агентской проблемы.

Тирания коллектива

Ошибки, совершаемые коллективно, а не индивидуально, – это признак организованного знания и лучший аргумент против него. Мы только и слышим доводы типа «все это делают» или «другие делают это именно так». Эта закономерность не тривиальна: люди, которые сами по себе ни за что не сделали бы что-то глупое, совершают глупости, объединяясь в группы. Так ученое сообщество с его институциональной структурой вредит науке.

Крис С., докторант из Массачусетского университета, однажды пришел ко мне и сказал, что разделяет мою идею «жирных хвостов» и скепсис в отношении нынешних методов управления риском, но это не поможет ему продолжить карьеру ученого. «Все учат этим методам, все пишут об этом статьи», – сказал он. Другой студент объяснил мне, что хотел бы работать в престижном университете, где моя концепция неуязвимого управления риском не пригодится, потому что «все пользуются другими учебниками». Один раз администрация университета приглашала меня преподавать стандартные методы управления риском, которые я считаю шарлатанством чистой воды (я отказался). Что я должен делать как профессор – обеспечивать студентов работой, приносящей ущерб обществу, или выполнять свой гражданский долг? Если первое, у бизнес-школ и экономической науки серьезные этические проблемы. Только эта порочная система держит экономическую науку на плаву, невзирая на то, что экономисты несут очевидную чушь – и это научно обоснованная чушь. (В моей статье про Четвертый квадрант – см. обсуждение в Приложении I – я показываю, что их методы управления риском эмпирически неверны и к тому же плохо обоснованы математически, другими словами, это научное надувательство.) Профессоров не наказывают за то, что они учат студентов теориям, которые обрушивают финансовую систему; жульничество никуда не исчезает. Факультетам нужно учить хоть чему-то , чтобы студенты устраивались на работу, даже если это «что-то» – ахинея от начала до конца. В итоге мы не можем выйти из порочного круга, где каждый знает, что теории неверны, но никто не свободен или не обладает смелостью это сказать.

Беда в том, что наука – это последнее место, где можно применять логику «другие тоже так думают». Наука зиждется на доводах, не зависящих от чужого мнения, и если эмпирически или математически доказано, что теория неверна, не имеет никакого значения, сколько «экспертов» с этим не согласятся – сотня или три триллиона. Сам факт упоминания «других» в контексте науки ясно указывает на то, что отдельный ученый – или целый коллектив, состоящий из «других», – слабак. В Приложении II показано, что именно не так в экономической науке – и какими теориями те, кто пока не пострадал от своих ошибок, продолжают пользоваться из желания сохранить работу или получить повышение.

Есть и хорошие новости: я убежден, что один наделенный доблестью человек способен победить коллектив слабаков.

Здесь нам опять же следует искать лекарство в истории. Авторы Священного Писания очень хорошо осознавали проблему рассеивания ответственности – и не зря запретили «следовать за большинством на зло», а также «решать тяжбы, отступая по большинству от правды»[137].

Я завершу Книгу VII следующей мыслью. Когда кто-то говорит «я этичен», я напрягаюсь. Когда говорят о лекциях по этике, я напрягаюсь еще больше. Все, чего я хочу, – это избавиться от опциональности и уменьшить антихрупкость людей, которые выигрывают за чужой счет. Это простой путь отрицания, via negativa . Остальное сложится само.

Глава 25.

Заключение

Как обычно в конце моих путешествий, в момент, когда я глядел на толстую рукопись на ресторанном столике, некто, принадлежащий к семитской культуре, попросил меня объяснить, о чем моя книга. На сей раз это был Шаий Пилпел, специалист по теории вероятностей; мы с ним два десятка лет ведем спокойные беседы и ни разу не обсуждали пустяки. Сложно найти знающих и уверенных в себе людей, которые способны увидеть самую суть явления, а не придираться к мелочам.

Соотечественник Шаия задавал тот же вопрос о моей предыдущей книге, и в тот раз мне нужно было время на размышление. Теперь я не стал даже задумываться.

Ответ был столь очевиден, что Шаий тут же выдал его сам. Он считает, что истинные идеи сводимы к простым формулам, но подавляющее большинство людей в конкретной области из-за специализации и неспособности думать этих формул не знают. В области религии все сводится к детализации, применению и трактовке Золотого правила: «Не делай другим того, чего не хочешь, чтобы делали тебе». Этот же принцип стоит за законом Хаммурапи. В основе основ лежит не прокрустово ложе, а именно Золотое правило. Главный довод – это не обобщение, это скорее источник энергии.

Шаий вывел из моей книги следующую простую формулу: «Все на свете улучшается или страдает от переменчивости. Хрупкое страдает от переменчивости и неопределенности». Стакан на столе – это короткая переменчивость.

В романе Альбера Камю «Чума» герой долго ищет совершенную фразу, которой можно было бы начать роман. Достаточно найти одну эту фразу, а все остальное будет следовать само собой из начала. Но читатель, чтобы понять и оценить первое предложение, должен будет прочесть весь роман.

Я смотрел на рукопись со спокойной радостью. Каждое предложение в этой книге – это производная, применение, трактовка короткой максимы. Ряд деталей и разъяснений могут казаться нелогичными или слишком конкретными, особенно когда я принимал решения в условиях непрозрачности, но в конечном счете вся книга развертывает одну истину.

Я приглашаю читателя сделать то же самое. Оглянитесь, посмотрите на свою жизнь, на вещи, отношения, сущности. Для большей ясности вы можете заменить переменчивость другими членами семейства беспорядка, но это не обязательно – все эти слова обозначают одно и то же явление. Время – это переменчивость. Образование – как формирование характера и личности и приобретение истинного знания – обожает беспорядок; образование, которое навешивает ярлыки, и люди, не знающие ничего, кроме ярлыков, беспорядок ненавидят. Одни вещи ломаются, если обращаться с ними неправильно, другие – нет. Одни теории исчезают, другие – нет. Инновация улучшается от неопределенности. Есть те, кто только и ждет перемен, чтобы использовать их в качестве сырья, и эти люди очень напоминают наших предков-охотников.

Прометей – это длинный беспорядок (как длинная гамма), Эпиметей – короткий. Мы можем разделить людей и качество их опыта по тому, опасаются они беспорядка или жаждут его: спартанские гоплиты против блогеров, авантюристы против редакторов, финикийские торговцы против латинских грамматиков, пираты против преподавателей танго.

Все, что нелинейно, выпукло или вогнуто, или то и другое, в зависимости от интенсивности стрессора; так устроен мир. Мы видели, как связаны выпуклость и любовь к переменам. Все вокруг нас любит или ненавидит переменчивость до какого-то предела. Абсолютно все.

Мы можем распознать то, что любит переменчивость, благодаря выпуклости или возрастанию и эффектам второго порядка; выпуклость – это реакция вещи, любящей беспорядок. Используя знания о том, как распознать вогнутость, мы можем создать системы, защищенные от Черных лебедей. Мы можем принимать решения, касающиеся нашего здоровья, если поймем выпуклость вреда и логику прилаживания Матери-Природы, если осознаем, где таится непрозрачность и когда нам следует рисковать. Проблемы этики – это проблемы украденной выпуклости и опциональности.

Переходя на специальный язык: мы можем никогда не узнать x , но при этом совладать с риском, исходящим от x , благодаря стратегии штанги; мы можем взять под контроль функцию от x, f (x), даже если x остается за пределами нашего понимания. Мы можем изменять f (x) так долго, как нам это нравится, благодаря механизму выпуклой трансформации — более изящное название для стратегии штанги.

Короткая максима также сообщает вам, где именно хрупкость замещает истину, почему мы лжем нашим детям – и почему мы, люди, уже обогнали самих себя в чудовищной гонке нового времени.

Распределенная случайность (в противоположность концентрированной) – это необходимость, а не выбор: все крупное – это короткая переменчивость. Как и все быстрое. Большое и быстрое отвратительно. Современность не любит переменчивости.

Триада указывает нам на то, как жить в мире, который не хочет, чтобы мы его понимали, – в мире, который очарователен именно потому, что мы не можем его понять.

Стакан мертв; живые существа – это долгая переменчивость. Лучший способ удостовериться, что вы живы, – проверить, любите ли вы перемены. Помните, что еда безвкусна, когда вы не голодны; результат без усилий не имеет смысла, как и радость без грусти, убеждения без неопределенности; жизнь по этическим правилам неэтична, если вы ничем не рискуете.

Еще раз благодарю тебя, читатель, за то, что ты прочел мою книгу.

Эпилог

Наши рекомендации