Характерные особенности задач нового типа в компьютерном анализе данных
В числе основных характерных особенностей задач нового типа в компьютерном анализе данных можно назвать следующие:
1) Объект исследования характеризуется большими объемами данных, требуется анализ в ограниченное время;
2) Формальная модель объекта отсутствует (нет полного и непротиворечивого аналитического описания)
3) Необходимо уметь выделять параметры, определяющие поведение (оптимизируемость и управляемость) в тех или иных ситуациях;
4) Необходимо уметь обобщать имеющую информацию, выделяя неявно представленные зависимости (то есть те эмпирические правила, которые позволяют оптимизировать и предсказывать поведение модели в новых обстоятельствах).
Особенностью новой парадигмы компьютерной обработки данных и знаний является использование:
- средств поддержки хранения больших пополняющихся объемов информации
- развитых средств представления знаний и компьютерных моделей рассуждений
- средств компьютерной аппроксимации психологических аспектов умственной деятельности (когнитивная графика и другие средства визуализации, формализация эвристических способов решения задач, формализация поиска релевантного знания в процессе рассуждения)
К середине 90-х годов появилась технология Хранилищ информации (Data WareHouse) DWH и интеллектуального анализа данных (Data Mining and Knowlelge Discovery in Databases) DM.
DWH & DM
DWH - Предметноориентированный и интегрированный (объединяющий значения различных параметров), неизменяемый и поддерживающий хронологию НД, специфическим образом организованный для целей поддержки принятия решения /Bill Inmon/
DM - управляемый данными процесс (data driven) извлечения зависимостей из больших БД. В этом процессе центральное место занимает автоматическое порождение характеризующих анализируемые данные: моделей правил, функциональных зависимостей. Затем они предъявляются пользователю для оценки "интересности", релевантности и полезности для целей процесса Data Mining.
Схема эволюции систем анализа данных и систем поддержки принятия решений
Эта схема с учетом роста объемов данных, усложнения и интеллектуализации средств анализа, ориентации на фактор РВ может быть охарактеризована следующими основными шагами:
Технология БД
БД - специальная форма организации данных, поддерживаемая СУБД для поиска нужного значения параметра в системе формализованных отношений.
Технология OLTP
Стандарт промышленных СУБД, не способных быстро извлекать нужную информацию в режиме РВ был вытеснен с рынка информационных технологий.
Технология OLAP
Усложнение средств АД в процессе принятия решений потребовало усовершенствований в технологиях накопления и обработки данных ("расчеты по заранее заданным формулам")
Свойство | OLTP | OLAP |
Назначение данных | Оперативный поиск, несложная обработка | Аналитическая обработка, прогнозирование, моделирование |
Уровень агрегации | Детализированный | Агрегированный |
Период хранения | Несколько месяцев - до 1 года | Несколько лет - до нескольких. десятков лет |
Частота обновления, объем | Высокая, малыми порциями | Малая, большими порциями |
Критерий эффективности | Мало транзактов в единицу времени | Скорость выполнения сложных запросов, прозрачность структуры хранения информации для пользователей |
4) Технология DWH & DM
Наряду с задачами OLAP-обработки поиск всех релевантных данным и целям их обработки функциональных зависимостей. Характерна взаимная согласованность технологий накопленияданных (представления данных и знаний, эффективного хранения, поиска и доставки) и автоматического извлечения из них полезных зависимостей (моделей, правил, функциональных отношений).
На 4-м этапе эволюции технологий анализа данных (АД) и систем поддержки принятия решений(СППР) оказался востребованным опыт, методология и инструментальные средства, характерные для создания и приложений искусственного интеллекта (НН). Причем, основанные, прежде всего, на методах машинного обучения (machine learning) систем интеллектуального АД (ИАД), способных:
1) Выявлять скрытые взаимные влияния различных факторов и вести причинный анализ (то есть давать ответы на вопросы "Почему?")
2) Порождать возможные зависимости в накопленных данных (причем не только заранее заданного вида, например, линейные функции)
3) Анализировать наблюдаемые в накопленных данных аномалии
4) Прогнозировать (на основе порожденных зависимостей) характер поведения объекта исследования.