Характерные особенности задач нового типа в компьютерном анализе данных

В числе основных характерных особенностей задач нового типа в компьютерном анализе данных можно назвать следующие:

1) Объект исследования характеризуется большими объемами данных, требуется анализ в ограниченное время;

2) Формальная модель объекта отсутствует (нет полного и непротиворечивого аналитического описания)

3) Необходимо уметь выделять параметры, определяющие поведение (оптимизируемость и управляемость) в тех или иных ситуациях;

4) Необходимо уметь обобщать имеющую информацию, выделяя неявно представленные зависимости (то есть те эмпирические правила, которые позволяют оптимизировать и предсказывать поведение модели в новых обстоятельствах).

Особенностью новой парадигмы компьютерной обработки данных и знаний является использование:

- средств поддержки хранения больших пополняющихся объемов информации

- развитых средств представления знаний и компьютерных моделей рассуждений

- средств компьютерной аппроксимации психологических аспектов умственной деятельности (когнитивная графика и другие средства визуализации, формализация эвристических способов решения задач, формализация поиска релевантного знания в процессе рассуждения)

К середине 90-х годов появилась технология Хранилищ информации (Data WareHouse) DWH и интеллектуального анализа данных (Data Mining and Knowlelge Discovery in Databases) DM.

DWH & DM

DWH - Предметноориентированный и интегрированный (объединяющий значения различных параметров), неизменяемый и поддерживающий хронологию НД, специфическим образом организованный для целей поддержки принятия решения /Bill Inmon/

DM - управляемый данными процесс (data driven) извлечения зависимостей из больших БД. В этом процессе центральное место занимает автоматическое порождение характеризующих анализируемые данные: моделей правил, функциональных зависимостей. Затем они предъявляются пользователю для оценки "интересности", релевантности и полезности для целей процесса Data Mining.

Схема эволюции систем анализа данных и систем поддержки принятия решений

Эта схема с учетом роста объемов данных, усложнения и интеллектуализации средств анализа, ориентации на фактор РВ может быть охарактеризована следующими основными шагами:

Технология БД

БД - специальная форма организации данных, поддерживаемая СУБД для поиска нужного значения параметра в системе формализованных отношений.

Технология OLTP

Стандарт промышленных СУБД, не способных быстро извлекать нужную информацию в режиме РВ был вытеснен с рынка информационных технологий.

Технология OLAP

Усложнение средств АД в процессе принятия решений потребовало усовершенствований в технологиях накопления и обработки данных ("расчеты по заранее заданным формулам")

Свойство OLTP OLAP
Назначение данных Оперативный поиск, несложная обработка Аналитическая обработка, прогнозирование, моделирование
Уровень агрегации Детализированный Агрегированный
Период хранения Несколько месяцев - до 1 года Несколько лет - до нескольких. десятков лет
Частота обновления, объем Высокая, малыми порциями Малая, большими порциями
Критерий эффективности Мало транзактов в единицу времени Скорость выполнения сложных запросов, прозрачность структуры хранения информации для пользователей

4) Технология DWH & DM

Наряду с задачами OLAP-обработки поиск всех релевантных данным и целям их обработки функциональных зависимостей. Характерна взаимная согласованность технологий накопленияданных (представления данных и знаний, эффективного хранения, поиска и доставки) и автоматического извлечения из них полезных зависимостей (моделей, правил, функциональных отношений).

На 4-м этапе эволюции технологий анализа данных (АД) и систем поддержки принятия решений(СППР) оказался востребованным опыт, методология и инструментальные средства, характерные для создания и приложений искусственного интеллекта (НН). Причем, основанные, прежде всего, на методах машинного обучения (machine learning) систем интеллектуального АД (ИАД), способных:

1) Выявлять скрытые взаимные влияния различных факторов и вести причинный анализ (то есть давать ответы на вопросы "Почему?")

2) Порождать возможные зависимости в накопленных данных (причем не только заранее заданного вида, например, линейные функции)

3) Анализировать наблюдаемые в накопленных данных аномалии

4) Прогнозировать (на основе порожденных зависимостей) характер поведения объекта исследования.

Наши рекомендации