Переработка данных (Data Mining)
Ранее идея "складирования" данных - идея выбора данных компании из операционных систем и помещения их в отдельной базе данных представлялась так, чтобы пользователи могли иметь доступ к ним и анализировать данные без опасности для операционных систем. Аргументом было то, что создание и обслуживание базы данных является операционной системой, поэтому база данных поддерживает всю организацию, создавая данные, доступные каждому, в то время как анализ данных выполняется для отдельного менеджера или маленькой группы менеджеров, и, следовательно, это система поддержки управления. Сейчас анализ данных производится в базе, потому что системы поддержки принятия решений, описанные в предыдущем разделе, часто извлекают данные, в которых они нуждаются, непосредственно из баз данных организаций.
"Добыча данных" (Data Mining) использует ряд технологий (типа деревьев решений и нейронных сетей), чтобы искать или "добывать" маленькие "самородки" информации из крупных объемов данных, запасенных в базе данных организации. Добыча данных, которая иногда рассматривается как вспомогательный аппарат систем поддержки принятия решений, является особенно полезной, когда организация имеет большие объемы данных в базе. Понятие "добыча данных" не ново, хотя название стало популярным только в конце 1990 г. По крайней мере, в течение двух десятилетий много больших организаций использовали внутренних или внешних аналитиков, часто называемых специалистами управления, пробуя распознавать тренды или создавать модели в больших массивах данных, используя методы статистики, математики и искусственного интеллекта. С развитием крупномасштабных баз данных и мощных недорогих процессоров возобновился интерес к тому, что названо в последние годы "добычей данных".
Наряду с возобновлением интереса появился ряд высокопроизводительных и относительно легких в использовании пакетов программ, добывающих коммерческие данные.
Какие методы решения или подходы используются при "добыче данных"? Фирма "KnowledgeSeeker" использует только одну технологию - дерево решений. Это структура в виде дерева, полученная из данных, чтобы представить наборы решений, приводящих к различным результатам. Когда создан новый набор решений в виде информации относительно частного покупателя, дерево решений предсказывает результат. Нейронные сети, область искусственного интеллекта, которые будут обсуждаться позже в этой главе, включены в пакеты программ Marksman, Intelligent Miner и Darwin (последние два также используют дерево решений). Другие популярные технологии включают правила предположений, извлечение из правил "если, то", основанные на статистическом значении; сортировку записей, основанных на наиболее близких им в базе данных;
генетические алгоритмы, т.е. методы оптимизации, основанные на концепциях генетической комбинации, мутации и естественного выбора.
Популярная пресса рассказывает о примерах успешной добычи данных. "Firster Bank", холдинговая компания с оборотом 20 млрд долл, основанная в Милуоки (США), использовала добычу данных для прямой отправки по почте набора заказов, чтобы увеличить быстродействие. Firster применила пакет обработки данных Marksman, сгруппировав карточки заказов клиентов на основе банка данных, который они уже использовали (типа карт расходов, акций домашних займов, сберегательных счетов и
выполнения инвестиций), и затем предсказала, какие изделия будут предложены каждому клиенту и в какое время.
Bank of America, основанный в Сан-Франциско, был завален запросами клиентов. Банк был заинтересован в новых способах текущего контроля за счетами клиентов при наборе новых клиентов. Сначала банковские маркетологи хотели выяснить, кто из клиентов имел тенденцию использовать конкретные изделия и какое сочетание услуг лучше соответствует потребностям различных групп клиентов. Через обширный процесс добычи данных, использующий различные программные изделия. Bank of America сгруппировал клиентов в небольшие группы, которые имели близкие интересы и потребности. "Некоторые клиенты неправильно использовали платежи, так что мы приступаем к их преобразованию", - говорит вице-президент по маркетингу Bank of America. - "Мы вошли в контакт с ними по почте или по телефону и нашли, что реакция была обычно очень благоприятная. Иногда это означало несколько долларов в месяц дополнительно, но зато мы чувствовали, что клиенты будут испытывать большее доверие к банку, который смотрел за их деньгами".
Добыча данных требует разработанной и хорошо построенной базы (склада) данных с сохраняемыми в ней данными. Прежде чем любая организация подумает относительно добычи данных, нужно сначала убедиться, что необходимые данные имеются и что они являются полными и точными. Например, отделение заказов по почте фармацевтического гиганта Merck-Medco, основанного в Нью Джерси, потратило 4 года на работу над громоздкой базой данных пациентов и обращений прежде, чем сделать банки данных готовыми к добыче данных. В Merek-Medco главными задачами реинжиннринга стали очистка данных и объединение их в значимую структуру.