Этап 2. постановка задачи

Постановка задачи Data Mining включает следующие шаги:

формулировка задачи;

формализация задачи.

Постановка задачи включает также описание статического и динамического поведения исследуемых объектов.

Этап 3. Подготовка данных

Цель этапа: разработка базы данных для Data Mining.

Понятие данных было рассмотрено в лекции № 2 этого курса лекций.

Подготовка данных является важнейшим этапом, от качества выполнения которого зависит возможность получения качественных результатов всего процесса Data Mining.

Кроме того, следует помнить, что на этап подготовки данных, по некоторым оценкам, может быть потрачено до 80% всего времени, отведенного на проект.

Процесс Data Mining. Очистка данных

Инструменты очистки данных

На сегодняшний день рынок программного обеспечения предлагает большой выбор

средств, целью которых является преобразование и очистка данных.

Рассмотрим две классификации таких средств.

Эрхард Рам (Erhard Ram) и Хонг Хай До (Hong Hai Do) определяют следующую

классификацию средств очистки и соответствующие им инструментов.

1. Средства анализа и модернизации данных.

2. Специальные средства очистки:

- очистка специфической области;

- исключение дубликатов.

3. Инструменты ETL.

Средства анализа и модернизации данных

Средства анализа и модернизации, обрабатывающие данные с целью выявления ошибок, несоответствий и определения необходимых очищающих преобразований, согласно этой классификации, могут быть разделены на средства профайлинга данных и средства Data Mining.

Профайлинг данных. Для каждого атрибута он определяет следующие метаданные: тип данных, длину, множество элементов, дискретные значения и их процентное отношение, минимальные и максимальные значения, утраченные значения и уникальность. MIGRATIONARCHITECT также может помочь в разработке целевой схемы для миграции данных.

Средства Data Mining. Например, WIZRULE (WizSoft) и DATAMININGSUITE (Information Discovery) выводят отношения между атрибутами и их значениями, вычисляют уровень достоверности, отражающий число квалифицирующих рядов. WIZRULE может отражать три вида правил: математическую формулу, правила if-then ("если-то") и правила правописания, отсеивающие неверно написанные имена.

Специальные средства очистки

Специальные средства очистки обычно имеют дело с конкретными областями – в основном это имена и адреса - или же с исключением дубликатов. Преобразования либо обеспечиваются заранее, в форме библиотеки правил, либо в интерактивном режиме, пользователем. Преобразования данных могут быть автоматически получены и с помощью средств согласования схемы.

Очистка специфической области

Имена и адреса записаны в различных источниках и обычно имеют множество элементов, поэтому поиск соответствий их конкретному потребителю имеет большое значение для управления отношениями с клиентами.

Исключение дубликатов

Примерами средств для выявления и удаления дубликатов являются DATACLEANSER (EDD), MERGE/PURGELIBRARY (Sagent/QMSoftware), MATCHIT (HelpITSystems) и MASTERMERGE (Pitney Bowes). Обычно они требуют, чтобы источник данных уже был очищен и подготовлен для согласования. Ими поддерживается несколько подходов к согласованию значений атрибутов; а такие средства как DATACLEANSER и MERGE/PURGE LIBRARY позволяют также интегрировать правила согласования, определенные пользователем.

Инструменты ETL

Средства ETL обеспечивают возможность сложных преобразований и большей части

технологического процесса преобразования и очистки данных. Общей проблемой средств

ETL являются ограниченные за счет собственных API и форматов метаданных

возможности взаимодействия, усложняющие совместное использование различных

средств.

"Очистка данных" может иметь множество значений, но в целом она означает обеспечение поддержки очистки данных, так или иначе связанных с потребителем.

Инструменты очистки данных обычно выполняют одну или несколько из следующих функций

Парсинг. Имя и адрес клиента часто хранится в текстовых полях свободного формата.

Текст свободного формата иногда труден для разбиения на самостоятельные подстроки, соответствующие типу поля, к которому они относятся (номер улицы, улица адреса, город, штат, индекс и другие данные подобного характера). Программное обеспечение, осуществляющее парсинг, распознает такие подстроки и назначает им соответствующие поля.

Стандартизация. Данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, "Улица", "Ул." и "Ул" обозначают одно и то же очевидное понятие в составе адреса. У Почтовой службы США существуют стандарты для этих и других подобных случаев.

Проверка допустимости. Множество поставщиков предлагают средства распознавания допустимых международных и американских адресов. Некоторые приложения объединяются с программами проверки допустимости и файлами почтовых адресов, проверяющих допустимость международных адресных данных.

Улучшение. Ряд поставщиков предлагают программы, которые добавляют к данным дополнительные факты о записях, изначально в них не содержавшиеся, например, может содержать возможность присвоения клиентам пола на основании анализа его имени и других показателей его профайла.

Согласование и консолидация. Как только имя и адрес очищены, для устранения

дублирования клиентов в рамках каждого списка и соединения данных из различных источников применяется программа согласования. Большинство средств содержат алгоритмы расстановки приоритетов между полями (в процессе согласования) и контроля очередности сравнения полей.

Наши рекомендации