Раскапывание данных, статистика и шарлатанство

Какова вероятность для вас выиграть в Нью-джерсийской лотерее дважды? Один шанс из 17 триллионов. И все же это случилось с Эвелин Адаме, кого читатель мог бы считать избранной судьбой. Используя метод, который мы развивали выше, Перси Диаконис и Фредерик Мостеллер, из Гарварда, оценили шансы в 30 к 1, что кто-либо, где-нибудь, полностью неоднозначным способом, станет настолько удачливым!

Некоторые люди переносят свою деятельность по выкапыванию данных в богословие - в конце концов, древнее Средиземноморье имело обыкновение читать потенциальные сообщения по внутренностям птиц. Интересное расширение выкапывания данных на библейские толкования представлено в Коде Библии неким Майклом Дроснином. Дроснин, бывший журналист (по-видимому, не замешанный в любом обучении статистике), при содействии "математика", помог "предсказать" убийство премьер-министра Израиля Рабина, расшифровывая код Библии. Он информировал Рабина, который, очевидно, не принял это слишком серьезно. Код Библии находит статистические нерегулярности в Библии, что помогает предсказывать некоторые такие события. Само собой разумеется, что книга имела хороший сбыт.

Лучшая книга, какую я когда-либо читал!

Мое любимое времяпрепровождение проходит в книжных магазинах, где я бесцельно двигаюсь от книги к книге, в попытке принять решение относительно того, стоит ли тратить время на ее чтение. Мои покупки часто основаны на импульсах, базирующихся на поверхностных, но наводящих на размышления, ключах. Часто, лишь только суперобложка помогает мне принять решение. Они, обычно, содержат похвалу кого-то, известного или не очень, или выдержки из книжного обзора. Хорошая похвала известного и уважаемого человека или известного журнала, могла бы подвигнуть меня на покупку книги.

В чем проблема? Я имею тенденцию путать книжный обзор, который, как предполагается, является оценкой качества книги, с обзорами лучших книг, испорченными теми же самыми пристрастиями выживания. Я путаю распределение максимума переменной с распределением самой переменной. Издатель никогда не будет печатать на суперобложке что-либо, кроме лучших похвал. Некоторые авторы идут даже на шаг дальше, публикуя прохладный или даже неблагоприятный книжный обзор, но выбирая слова в нем, которые кажутся хвалебными для книги. Один такой пример - некий Пауль Вилмотт (английский финансовый математик редкого блеска и непочтительности), который сумел объявить, что я дал ему его "первый плохой обзор", и все же использовал выдержки из этого обзора, в качестве похвалы на суперобложке (позже мы стали друзьями, что позволило мне получить подтверждение от него).

Первый раз меня одурачило такое пристрастие при покупках в 16 лет. Это была книга Джона Дос Пассеса, американского автора, Манхэттэнское перемещение. И я основывался на похвале на суперобложке философа Жан-Поля Сартра, которая гласила в том смысле, что Дос Пассес был самый большой писатель нашего времени. Эта простая ремарка, которую выпаливают возможно в состоянии опьянения или чрезвычайного энтузиазма, вызвала потребность чтения Дос Пассеса в европейских интеллектуальных кругах, поскольку ремарка Сартра была ошибочно принята за согласную оценку качества Дос Пассеса, вместо того, чем она являлась на самом деле - просто лучшей ремаркой. (Несмотря на получение Нобелевской премии по литературе, Дос Пассес вернулся во мрак.)

Тестер исторических данных

Программист помог мне построить тестировщик исторических данных или бэктестер. Это программа, связанная с базой данных исторических цен, которая позволяет мне проверять гипотетическую прошлую результативность любого правила для торговли средней сложности. Я могу просто применять механическое правило торговли, подобное покупке акции, если она закрывается более, чем на 1.83% выше её средней цены предыдущей недели и немедленно получаю идею относительно прошлой результативности такого правила. Экран высветит мой гипотетический отчет о сделках, связанных с этим правилом торговли. Если мне не нравятся результаты, я могу изменять процент, скажем, 1.2%. Я могу также сделать правило более сложным. Я буду продолжать пробовать, пока я не найду хорошо работающий набор правил.

Что я делаю? Точно та же самая задача поиска оставшихся в живых в пределах набора правил, которые, возможно, могут работать. Я приспосабливаю правило к данным. Такая деятельность называется выискиванием данных. Чем больше я пробую, тем больше вероятность простой удачной находки правила, которое работало на прошлых данных. Случайный ряд будет всегда представлять некоторую обнаружимую модель. Я убежден, что существует торгуемая ценная бумага в Западном мире, которая на 100% коррелированна с изменениями температуры в Улан-Баторе, столице Монголии. Говоря технически, есть даже худшие расширения. Не давняя! выдающаяся статья Салливана, Тиммермана и Уайта идет дальше и полагает, что правила, которые могут успешно использоваться сегодня, могут быть результатом пристрастия выживания.

Предположим, что какое-то время, инвесторы экспериментировали с техническими правшами торговли, вытянутыми из очень широкого пространства - в принципе, тысячи параметризаций разнообразных типов правил. С течением времени, правша, которые, оказались исторически хорошо результативными, получают большее внимание и рассматриваются, как "серьезные соперники" инвестиционным сообществом, в то время как неудачные правила торговли, более вероятно, будут забыты .... Если рассматривается достаточное число правш торговли в течение времени, то некоторые правша, благодаря чистой удаче, далее в очень большой выборке, производят превосходный результат, даже если они совсем не обладают прогнозирующей властью над доходностью актива. Безусловно, вывод, основанный исключительно на подмножестве выживших правш торговли может вводить в заблуждение в этом контексте, так как он не учитывает полный набор начальных правш торговли, большинство из которых вряд ли будет иметь меньшую результативность.

Я вынужден порицать некоторую чрезмерность в тестировании исторических данных, которую я наблюдал в течение своей личной карьеры. Есть превосходный продукт, предназначенный только для этого, называемый Omega TradeStation, который предлагается в настоящее время на рынке и используется десятками тысяч трейдеров. Он даже предлагает свой собственный компьютерный язык. Борясь с бессоницей, компьютеризированные трейдеры стали тестировщиками, пропахивающими данные в поисках некоторых их свойств. Они бросают своих обезьянок на пишущие машинки, без того, чтобы определить, что за книгу они хотят, чтобы писала их обезьянка, и жаждут натолкнуться где-нибудь на гипотетическое золото. Многие из них слепо верят в это.

Один из моих коллег, человек с престижными степенями дошел в своей вере в такой виртуальный мир до точки полной потери всякого смысла реальности. Могла ли капелька здравого смысла, остававшаяся в нем быстро исчезнуть под насыпями моделирований или у него не оставалось ничего, я не могу сказать. Близко наблюдая его, я узнал, что естественный скептицизм у него, возможно, исчез под весом данных - поскольку он был чрезвычайно скептичен, но в других областях. Ах, Юм!

Более тревожное расширение

Исторически, медицина работала методом проб и ошибок -другими словами, статистически. Мы знаем к настоящему времени, что могут быть полностью случайные связи между симптомами и лечением и что некоторые лекарства успешно проходят медицинские испытания просто по случайным причинам. Я не могу претендовать на роль эксперта в лекарствах, но много читал медицинскую литературу в течение прошедших пяти лет. Достаточно долго, чтобы беспокоиться о стандартах, как мы увидим в следующей главе. Медицинские исследователи редко бывают статистиками, а статистики - медицинскими исследователями. Многие медики даже отдаленно не знают про это пристрастие. По правде, оно может играть несущественную роль, но оно, безусловно, существует. Одно недавнее медицинское исследование связывает курение сигарет с сокращением рака легких, таким образом, конфликтуя со всеми предыдущими исследованиями. Логика подсказывает, что результат может быть подозрителен и является простым совпадением.

Наши рекомендации