Способы визуального представления данных. Методы визуализации
С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее "переваривать" и интерпретировать полученные результаты. А, как известно, одно из положений DM - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.
К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.
Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.
Традиционные методы визуализации могут находить следующее применение:
представлять пользователю информацию в наглядном виде;
компактно описывать закономерности, присущие исходному набору данных;
снижать размерность или сжимать информацию;
восстанавливать пробелы в наборе данных;
находить шумы и выбросы в наборе данных.
Методы визуализации
Методы визуализации, в зависимости от количества используемых измерений, принято
классифицировать на две группы [22]:
представление данных в одном, двух и трех измерениях;
представление данных в четырех и более измерениях.
Представление данных в 4 + измерениях
Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.
Наиболее известные способы многомерного представления информации:
параллельные координаты;
"лица Чернова";
лепестковые диаграммы.
Представление пространственных характеристик
Отдельным направлением визуализации является наглядное представление
пространственных характеристик объектов. В большинстве случаев такие средства выделяют на карте отдельные регионы и обозначают их различными цветами в зависимости от значения анализируемого показателя.
Карта представлена в видеграфического интерфейса, отображающего данные в виде трехмерного ландшафтапроизвольно определенных и позиционированных форм (столбчатых диаграмм, каждая синдивидуальными высотой и цветом). Такой способ позволяет наглядно показыватьколичественные и реляционные характеристики пространственно-ориентированных
данных и быстро идентифицировать в них тренды.
Процесс Data Mining. Анализ предметной области. Постановка задачи. Подготовка данных.
Процесс Data Mining. Начальные этапы
Процесс DM является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.
Процесс DM неразрывно связан с процессом принятия решений.
Процесс DM строит модель, а в процессе принятия решений эта модель эксплуатируется.
Рассмотрим традиционный процесс DM. Он включает следующие этапы:
анализ предметной области;
постановка задачи;
подготовка данных;
построение моделей;
проверка и оценка моделей;
выбор модели;
применение модели;
коррекция и обновление модели.
В этой лекции мы подробно рассмотрим первые три этапа процесса Data Mining,
остальные этапы будут рассмотрены в следующей лекции.
Этап 1. Анализ предметной области
Исследование - это процесс познания определенной предметной области, объекта или явления с определенной целью.
Процесс исследования заключается в наблюдении свойств объектов с целью выявления и оценки важных, с точки зрения субъекта-исследователя, закономерных отношений между показателями данных свойств.
Решение любой задачи в сфере разработки программного обеспечения должно начинаться с изучения предметной области.
Предметная область - это мысленно ограниченная область реальной действительности, подлежащая описанию или моделированию и исследованию.
Предметная область состоит из объектов, различаемых по свойствам и находящихся в определенных отношениях между собой или взаимодействующих каким-либо образом.
Предметная область - это часть реального мира, она бесконечна и содержит как
существенные, так и не значащие данные, с точки зрения проводимого исследования.
Исследователю необходимо уметь выделить существенную их часть. Например, при решении задачи "Выдавать ли кредит?" важными являются все данные про частную жизнь клиента, вплоть до того, имеет ли работу супруг, есть ли у клиента несовершеннолетние дети, каков уровень его образования и т.д. Для решения другой задачи банковской деятельности эти данные будут абсолютно неважны. Существенность данных, таким образом, зависит от выбора предметной области.