Значение и применение формулы байеса в современном мире
Объект исследования: формула Байеса, применение формулы в современных условиях.
Результаты, полученные лично автором: обобщение теоретического материала.
То́мас Ба́йес (Бейес, англ. Reverend Thomas Bayes [beɪz]) (1702 — 17 апреля 1761) — английский математик и пресвитерианский священник, член Лондонского королевского общества (1742). Математические интересы Байеса относились к теории вероятностей. В курсе «Теория вероятностей и математическая статистика» мы познакомились с понятиями байесовская вероятность, байесовская сеть доверия, байесовская оценка решения. Байес сформулировал и решил одну из основных задач этого раздела математики, дающую возможность оценить вероятность событий эмпирическим путём, что играет важную роль в современной математической статистике и теории вероятностей. Работа, посвящённая этой задаче, была опубликована в 1763 году, уже после его смерти.
В 2017 году исполнилось 315 лет со дня рождения Томаса Байеса, который, не опубликовав научных работ при жизни, внес весомый вклад в науку. Байес является одной из весьма почитаемых фигур в современной компьютерной индустрии.
Теорема Байеса, имеющая ныне сильнейшее влияние на разработки компаний, создающих программное обеспечение, имеет дело с расчетом вероятности верности гипотезы в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях. Другими словами, по формуле Байеса можно более точно пересчитывать вероятность, беря в учет как ранее известную информацию, так и данные новых наблюдений.
Широкая популярность и даже «мода на Байеса» пришли в 1990-е годы. Пионером здесь стала британская интернет-компания Autonomy для интеллектуального поиска информации, созданная математиком Майком Линчем. Программное обеспечение Autonomy, построенное на базе байесовых оценок, позволяет компьютерам «понимать» содержание неструктурированной информации, такой как текстовые участки веб-страниц или электронная почта. Лежащая в основе Autonomy технология DRE (Dynamic Reasoning Engine) по сути дела сводит воедино вероятностные методы Томаса Байеса и труды Клода Шеннона по теории информации. Формулы Байеса связаны с вычислением вероятностных связей между многими переменными и определением их взаимовлияния. Используя эту технику и компьютерные мощности, удается выявлять связи между различными элементами информации. Поняв основной смысл текста (или другого информационного носителя), система Autonomy приступает к следующему шагу и использует теорию Шеннона, согласно которой чем менее часто встречается информация, тем она более информативна.
Байесовский математический аппарат разработан сейчас весьма мощно, и технологии на его основе применяются во множестве других компаний. Например, корпорация Oracle использует теорию Байеса в своем новом ПО для баз данных, где с ее помощью выявляются характерные тенденции в сложных массивах данных, а также вносится столь популярная ныне «персонализация» в маркетинговые кампании. В корпорации Microsoft этот же статистический аппарат заложен в программы выявления неполадок в ОС WinXP, а еще ранее – был использован при создании некоторых функций для пакета MS Office.
Байесовская фильтрация спама — метод для фильтрации спама, основанный на применении наивного байесовского классификатора, в основе которого лежит применение теоремы Байеса. Первой известной программой, фильтрующей почту с использованием Байесовского классификатора, была программа iFile Джейсона Ренни, выпущенная в 1996. Программа использовала сортировку почты по папкам. Первая академическая публикация по наивной байесовской фильтрации спама появилась в 1998. Вскоре после этой публикации была развернута работа по созданию коммерческих фильтров спама. Однако в 2002 г. Пол Грэм смог значительно уменьшить число ложноположительных срабатываний до такой степени, что байесовский фильтр мог использоваться в качестве единственного фильтра спама.
Модификации основного подхода были развиты во многих исследовательских работах и внедрены в программных продуктах. Многие современные почтовые клиенты осуществляют байесовское фильтрование спама. Данный метод прост, удобен, эффективен. В общем, есть все показания для его повсеместного использования, что и имеет место на практике — на его основе построены практически все современные спам-фильтры.
В 2006 году в Европе стартовал исследовательский проект Bayesian Approach to Cognitive Systems. Его цель — оценить применимость теоремы Байеса к созданию искусственных систем, способных решать сложные задачи в реальных условиях.
Т.о., теория, разработанная около трех веков назад человеком, даже не предполагавшим наступление эры компьютерных технологий, позволяет решать актуальные проблемы современной науки, байесовские подходы с равным успехом могут быть применены в математике, экономике, компьютерной индустрии и многих других науках.
Материал поступил в редколлегию 25.04.17
УДК 517.2
П.А. Остроносов
Научный руководитель: доцент кафедры «Высшая математика»,
к.т.н. Н.А. Ольшевская