Инструментарий технологии Data Mining

Индустриальные системы

В настоящее время большинство ведущих в мире производителей программного обеспечения предлагает свои продукты и решения в области Data Mining. Как правило - это масштабируемые системы, в которых реализованы различные математические алгоритмы анализа данных. Они имеют развитый графический интерфейс, богатые возможности в визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных, функционирую в архитектуре клиент/сервер на Intel или UNIX платформах. Вот несколько примеров таких систем:

Ø PolyAnalyst (Мегапьютер Интеллидженс);

Ø Intelligent Miner (IBM);

Ø Interprise Miner (SAS);

Ø Clementine (Integral Solutions);

Ø MineSet (Silicon Graphics);

Ø Knowledge Studio (Angoss Software).

Предметно-ориентированные аналитические системы

Эти системы решают узкий класс специализированных задач. Хорошим примером являются программы технического анализа финансовых рынков:

Ø MetaStock (Equis International, USA);

Ø SuperCharts (Omega Research, USA);

Ø Candlestick Forecaster (IPTC, USA);

Ø Wall Street Money (Market Arts, USA).

Статистические пакеты

Это мощные математические системы, предназначенные для статистической обработки данных любой природы. Они включают многочисленные инструменты статистического анализа, имеют развитые графические средства. Примеры систем:

Ø SAS (SAS Institute, USA);

Ø SPSS (SPSS, USA);

Ø Statgraphics (Statistical Graphics, USA).

Нейроннoсетевые пакеты

Это широкий класс разнообразных систем, представляющих собой иерархические сетевые структуры, в узлах которых находятся так называемые нейроны. Сети тренируются на примерах, и во многих случаях дают хорошие результаты предсказаний. Основным недостатком нейронных сетей являются трудности в интерпретации результатов. Тренированная нейронная сеть представляет собой "умный черный ящик", работу которого невозможно понять и контролировать. Примеры нейронно-сетевых пакетов:

Ø BrainMaker (CSS, USA);

Ø NeuroShell (Ward Systems Group, USA);

Ø OWL (Hyperlogic, USA).

Пакеты, реализующие алгоритмы "Decision trees"

Этот метод используется только для решения задач классификации. Это является его серьезным ограничением. Результатом работы метода является иерархическая древовидная структура классификационных правил типа "IF...THEN...". Достоинством метода является естественная способность классификации на множество классов. Примеры систем:

Ø C5.0 (Rule Quest, Australia);

Ø SIPINA (University of Lyon, France);

Ø IDIS (Information Discovery, USA).

7. Важное положение Data Mining- нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные (unexpected) регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge). К обществу пришло понимание, что сырые данные (raw data) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки. То есть уровень знаний может быть поверхностный, неглубокий и скрытый.

Специальные приложения

Медицина

Известно много экспертных систем для постановки медицинских диагнозов. Они построены главным образом на основе правил, описывающих сочетания различных симптомов различных заболеваний. С помощью таких правил узнают не только, чем болен пациент, но и как нужно его лечить. Правила помогают выбирать средства медикаментозного воздействия, определять показания - противопоказания, ориентироваться в лечебных процедурах, создавать условия наиболее эффективного лечения, предсказывать исходы назначенного курса лечения и т. п. Технологии Data Mining позволяют обнаруживать в медицинских данных шаблоны, составляющие основу указанных правил.

Молекулярная генетика и генная инженерия

Пожалуй, наиболее остро и вместе с тем четко задача обнаружения закономерностей в экспериментальных данных стоит в молекулярной генетике и генной инженерии. Здесь она формулируется как определение так называемых маркеров, под которыми понимают генетические коды, контролирующие те или иные фенотипические признаки живого организма. Такие коды могут содержать сотни, тысячи и более связанных элементов.

На развитие генетических исследований выделяются большие средства. В последнее время в данной области возник особый интерес к применению методов Data Mining. Известно несколько крупных фирм, специализирующихся на применении этих методов для расшифровки генома человека и растений.

Прикладная химия

Методы Data Mining находят широкое применение в прикладной химии (органической и неорганической). Здесь нередко возникает вопрос о выяснении особенностей химического строения тех или иных соединений, определяющих их свойства. Особенно актуальна такая задача при анализе сложных химических соединений, описание которых включает сотни и тысячи структурных элементов и их связей.

Можно привести еще много примеров различных областей знания, где методы Data Mining играют ведущую роль. Особенность этих областей заключается в их сложной системной организации. Они относятся главным образом к надкибернетическому уровню организации систем [4], закономерности которого не могут быть достаточно точно описаны на языке статистических или иных аналитических математических моделей [5]. Данные в указанных областях неоднородны, гетерогенны, нестационарны и часто отличаются высокой размерностью.

Наши рекомендации