Процесс DM. Построение и использование моделей
Проверка моделиподразумевает проверку ее достоверности или адекватности. Эта проверка заключается в определении степени соответствия модели реальности. Адекватность модели проверяется путем тестирования.
Адекватность модели - соответствие модели моделируемому объекту или процессу.
Понятия достоверности и адекватности являются условными, поскольку мы не можем рассчитывать на полное соответствие моделиреальному объекту, иначе это был бы сам объект, а не модель. Поэтому в процессе моделирования следует учитывать адекватностьне модели вообще, а именно тех ее свойств, которые являются существенными с точки зрения проводимого исследования. В процессе проверки модели необходимо установить включение в модель всех существенных факторов. Сложность решения этой проблемы зависит от сложности решаемой задачи.
Оценка модели подразумевает проверку ее правильности. Оценка построенной модели осуществляется путем ее тестирования.
Тестирование модели заключается в "прогонке" построенной модели, заполненной данными, с целью определения ее характеристик, а также в- проверке ее работоспособности.
Если же результаты моделирования эксперт считает приемлемыми, ее можно применять для решения реальных задач.
Этап 6. Выбор модели
Если в результате моделирования нами было построено несколько различных моделей, то на основании их оценки мы можем осуществить выбор лучшей из них. В ходе проверки и оценки различных моделей на основании их характеристик, а также с учетом мнения экспертов, следует выбор наилучшей. Достаточно часто это оказывается непростой задачей.
Этап 7. Применение модели
После тестирования, оценки и выбора модели следует этап применения модели. На этом этапе выбранная модель используется применительно к новым данным с целью решения задач, поставленных в начале процесса Data Mining. Для классификационных ипрогнозирующих моделей на этом этапе прогнозируется целевой (выходной) атрибут (target attribute).
Этап 8. Коррекция и обновление модели
По прошествии определенного установленного промежутка времени с момента начала использования модели Data Mining следует проанализировать полученные результаты, определить, действительно ли она "успешна" или же возникли проблемы и сложности в ее использовании.
Существует много причин, требующих обучить модель заново, т.е. обновить ее, чтобы отразить определенные изменения.
Основными причинами являются следующие:
· изменились входящие данные или их поведение;
· появились дополнительные данные для обучения;
· изменились требования к форме и количеству выходных данных;
· изменились цели бизнеса, которые повлияли на критерии принятия решений;
· изменилось внешнее окружение или среда (макроэкономика, политическая ситуация, научно-технический прогресс, появление новых конкурентов и товаров и т.д.).
Причины, перечисленные выше, могут обесценить допущения и исходную информацию, на которых основывалась модель при построении.
Инструменты DM. Deductor.
Инструменты Data Mining. SAS Enterprise Miner
Программный продукт SAS Enterprise Miner (разработчик SAS Institute Inc.) – это интегрированный компонент системы SAS, созданный специально для выявления в огромных массивах данных информации, которая необходима для принятия решений.
Назначение пакетаSAS Enterprise Miner. Пакет SAS Enterprise Miner позволяет оптимизировать процесс Data Mining в целом, начиная от организации доступа к данным и заканчивая оценкой готовой модели.
Система PolyAnalyst
Назначение системы. Система PolyAnalyst предназначена для автоматического и полуавтоматического анализа числовых баз данных и извлечения из сырых данных практически полезных знаний.
Программные продукты Cognos (разработчик - компания Cognos [107]) - это инструменты интеллектуального или делового анализа данных (от англ. Business Intelligence Tools), или BI-инструменты. Представление о комплексе программных средств компании Cognos дает следующий рис. 25.1 [108].
Рис. 25.1.Комплекс программных средств компании Cognos
Ниже перечислены основные программные продукты Cognos, которые относятся к проблемным областям, указанным на рисунке.
1. Работа с запросами и отчетами. Решения в области работы с отчетами ориентированы на различные типы пользователей. Продукты отличаются требованиями к уровню сложности отчетов и уровню навыков конечных пользователей:
o Decision Stream - средство для создания витрин данных (data marts), оптимизированных на формирование запросов и построение отчетов;
o Impromptu - средство для работы с запросами, а также со статическими и настраиваемыми отчетами;
o PowerPlay - как средство построения многомерных отчетов;
o Impromptu Web Reports - средства для работы со статическими отчетами через Web;
o Cognos Query - средство для создания запросов, навигации и исследования данных в т.ч. через Web;
o Visualizer - средство для работы с мощными визуальными отчетами.
2. Анализ данных (функция drill through):
o PowerPlay - средство многомерного (OLAP) анализа и построения бизнес-отчетов;
o Impromptu - средство для просмотра отчетов с детальной информацией нижнего уровня (для Windows);
o Impromptu Web Reports - средство для просмотра отчетов с детальной информацией нижнего уровня (для Web);
o Visualizer - средство визуального представления данных.
3. Визуализация и выявление приоритетов.
o Visualizer - средство для представления информации в форме визуальных представлений с использованием визуальных элементов для выявления приоритетов;
o PowerPlay как средство многомерного представления информации;
o Impromptu как средство для работы с настраиваемыми отчетами;
o Cognos Query - средство Web-пользователей для построения запросов.
4. Разведка данных (data mining).
o Scenario - средство сегментации и классификации;
o 4Thought - средство прогнозирования;
o Visualazer как средство визуализации.
5. Защита информации.
Access Manager
6. Описание метаданных Cognos Architect.