Процесс DM. Построение и использование моделей

Проверка моделиподразумевает проверку ее достоверности или адекватности. Эта проверка заключается в определении степени соответствия модели реальности. Адекватность модели проверяется путем тестирования.

Адекватность модели - соответствие модели моделируемому объекту или процессу.

Понятия достоверности и адекватности являются условными, поскольку мы не можем рассчитывать на полное соответствие моделиреальному объекту, иначе это был бы сам объект, а не модель. Поэтому в процессе моделирования следует учитывать адекватностьне модели вообще, а именно тех ее свойств, которые являются существенными с точки зрения проводимого исследования. В процессе проверки модели необходимо установить включение в модель всех существенных факторов. Сложность решения этой проблемы зависит от сложности решаемой задачи.

Оценка модели подразумевает проверку ее правильности. Оценка построенной модели осуществляется путем ее тестирования.

Тестирование модели заключается в "прогонке" построенной модели, заполненной данными, с целью определения ее характеристик, а также в- проверке ее работоспособности.

Если же результаты моделирования эксперт считает приемлемыми, ее можно применять для решения реальных задач.

Этап 6. Выбор модели

Если в результате моделирования нами было построено несколько различных моделей, то на основании их оценки мы можем осуществить выбор лучшей из них. В ходе проверки и оценки различных моделей на основании их характеристик, а также с учетом мнения экспертов, следует выбор наилучшей. Достаточно часто это оказывается непростой задачей.

Этап 7. Применение модели

После тестирования, оценки и выбора модели следует этап применения модели. На этом этапе выбранная модель используется применительно к новым данным с целью решения задач, поставленных в начале процесса Data Mining. Для классификационных ипрогнозирующих моделей на этом этапе прогнозируется целевой (выходной) атрибут (target attribute).

Этап 8. Коррекция и обновление модели

По прошествии определенного установленного промежутка времени с момента начала использования модели Data Mining следует проанализировать полученные результаты, определить, действительно ли она "успешна" или же возникли проблемы и сложности в ее использовании.

Существует много причин, требующих обучить модель заново, т.е. обновить ее, чтобы отразить определенные изменения.

Основными причинами являются следующие:

· изменились входящие данные или их поведение;

· появились дополнительные данные для обучения;

· изменились требования к форме и количеству выходных данных;

· изменились цели бизнеса, которые повлияли на критерии принятия решений;

· изменилось внешнее окружение или среда (макроэкономика, политическая ситуация, научно-технический прогресс, появление новых конкурентов и товаров и т.д.).

Причины, перечисленные выше, могут обесценить допущения и исходную информацию, на которых основывалась модель при построении.

Инструменты DM. Deductor.

Инструменты Data Mining. SAS Enterprise Miner

Программный продукт SAS Enterprise Miner (разработчик SAS Institute Inc.) – это интегрированный компонент системы SAS, созданный специально для выявления в огромных массивах данных информации, которая необходима для принятия решений.

Назначение пакетаSAS Enterprise Miner. Пакет SAS Enterprise Miner позволяет оптимизировать процесс Data Mining в целом, начиная от организации доступа к данным и заканчивая оценкой готовой модели.

Система PolyAnalyst

Назначение системы. Система PolyAnalyst предназначена для автоматического и полуавтоматического анализа числовых баз данных и извлечения из сырых данных практически полезных знаний.

Программные продукты Cognos (разработчик - компания Cognos [107]) - это инструменты интеллектуального или делового анализа данных (от англ. Business Intelligence Tools), или BI-инструменты. Представление о комплексе программных средств компании Cognos дает следующий рис. 25.1 [108].

Процесс DM. Построение и использование моделей - student2.ru


Рис. 25.1.Комплекс программных средств компании Cognos

Ниже перечислены основные программные продукты Cognos, которые относятся к проблемным областям, указанным на рисунке.

1. Работа с запросами и отчетами. Решения в области работы с отчетами ориентированы на различные типы пользователей. Продукты отличаются требованиями к уровню сложности отчетов и уровню навыков конечных пользователей:

o Decision Stream - средство для создания витрин данных (data marts), оптимизированных на формирование запросов и построение отчетов;

o Impromptu - средство для работы с запросами, а также со статическими и настраиваемыми отчетами;

o PowerPlay - как средство построения многомерных отчетов;

o Impromptu Web Reports - средства для работы со статическими отчетами через Web;

o Cognos Query - средство для создания запросов, навигации и исследования данных в т.ч. через Web;

o Visualizer - средство для работы с мощными визуальными отчетами.

2. Анализ данных (функция drill through):

o PowerPlay - средство многомерного (OLAP) анализа и построения бизнес-отчетов;

o Impromptu - средство для просмотра отчетов с детальной информацией нижнего уровня (для Windows);

o Impromptu Web Reports - средство для просмотра отчетов с детальной информацией нижнего уровня (для Web);

o Visualizer - средство визуального представления данных.

3. Визуализация и выявление приоритетов.

o Visualizer - средство для представления информации в форме визуальных представлений с использованием визуальных элементов для выявления приоритетов;

o PowerPlay как средство многомерного представления информации;

o Impromptu как средство для работы с настраиваемыми отчетами;

o Cognos Query - средство Web-пользователей для построения запросов.

4. Разведка данных (data mining).

o Scenario - средство сегментации и классификации;

o 4Thought - средство прогнозирования;

o Visualazer как средство визуализации.

5. Защита информации.

Access Manager

6. Описание метаданных Cognos Architect.

Наши рекомендации