Модели структуры многомерных данных в разведочном анализе данных

Пусть данные заданы в виде матрицы данных. Объекты можно представить в виде точек в многомерном (р- мерном) пространстве. Для описания структуры этого множества точек в РАД используется одна из следующих статистических моделей:

- модель облака точек примерно эллипсоидальной конфигурации;

- кластерная модель, т.е. совокупность нескольких «облаков» точек, достаточно далеко отстающих друг от друга;

- модель «засорения» (компактное облако точек и при этом присутствуют дальние выбросы);

- модель носителя точек как многообразия (линейного или нелинейного) более низкой размерности, чем исходное: типичным примером является выборка из вырожденного распределения; в рамках этой модели можно рассматривать и регрессионную модель, когда соответствующие многообразие допускает функциональное представление Модели структуры многомерных данных в разведочном анализе данных - student2.ru , где Х11- прогнозируемые, Модели структуры многомерных данных в разведочном анализе данных - student2.ru -предсказывающие признаки, Модели структуры многомерных данных в разведочном анализе данных - student2.ru - функция регрессии, Модели структуры многомерных данных в разведочном анализе данных - student2.ru - ошибка.

- дискриминантная модель, когда точки разделены на несколько групп и дана информация о их принадлежности к той или иной группе.

- эмпирический образ данных в виде покрытия выборочных точек многомерного признакового пространства сетью гиперпараллелепипедов с оцененной плотностью распределения (многомерный аналог гистограммы).

Упрощение описания

Стремление комплексно, многомерно описать изучаемую систему или процесс противоречит желанию делать это сжато, ясно. Т.е. с одной стороны: все больший охват количества сторон и связей явлений, а с другой - выделение базисных узловых. Поэтому и возникает вопрос: можно ли проводить статистическую обработку в пространстве меньшей размерности, не теряя определенных свойств исходного пространства. Само сокращение выгодно в связи с тем, что:

- выбираются наиболее важные информативные характеристики (в таком пространстве результаты устойчивее и надежнее);

- упрощается содержательное восприятие и анализ;

- при сокращении до размерности 1-3 возможна визуализация;

- упрощается вычислительный процедуры.

При упрощении описания обычно стремятся не исказить геометрическую структуру множества. При этом за основу для сравнения принимают исходные свойства совокупности, либо выбирают некоторый внешний критерий сокращения размерности.

Рассмотрим три способа сокращения размерности.

1. Переход из исходного описания в новое пространство, оси которого составляют некоторые комбинации исходных признаков. Наиболее распространенным методом такого типа является компонентный анализ, в котором точки проецируются в пространство первых двух компонент. Главные компоненты имеют свойства: сумма квадратов евклидовых расстояний от исходных точек до пространства натянутого на m первых главных компонент, наименьшая относительно любых других подпространств в той же размерности (полученных с помощью линейных преобразований исходных признаков); среди всех подпространств размерности Модели структуры многомерных данных в разведочном анализе данных - student2.ru в пространстве компонент меньше других искажается сумма квадратов евклидовых расстояний между объектами; наилучшим образом сохраняется сумма расстояний до центра тяжести точек и сумма углов между объектами с вершинами в центре тяжести.

Недостатки подхода: близость измеряется лишь в евклидовом пространстве и по евклидовым расстояниям; первые главные компоненты не всегда хорошо описывают все признаки; критерии гарантируют лишь сохранность суммарных характеристик.

2. Шкалирование - поиск подпространства размерности Модели структуры многомерных данных в разведочном анализе данных - student2.ru , в котором разница между расстояниями в исходном и найденном пространстве была бы минимальной. Критерии основаны на оценке отличий матрицы расстояний в двух пространствах: Модели структуры многомерных данных в разведочном анализе данных - student2.ru . Если стремятся точно приблизить матрицы, то шкалирование называют метрическим, если в приближении стремятся сохранить порядок в двух пространствах - то неметрическим. В шкалировании отыскиваются не новые признаки, а новые пространства. Поэтому его результаты интерпретируются как восстановление структуры расположения точек в пространстве (при Модели структуры многомерных данных в разведочном анализе данных - student2.ru - на плоскости).

3. При выборе информативных признаков сокращается размерность без введения новых комбинированных признаков. Если в качестве измерителя близости использовать квадраты евклидовых расстояний, то структуру данных лучше всего описывают признаки с наибольшими дисперсиями.

Удобна любая визуализация данных, а не только проецирование точек. Остановимся на концепции образного анализа. Его идея: представление многомерных данных в виде доступной для человека информации. А. Эндрюс разработал способ кодирования каждой многомерной точки некоторой кривой, которая выдается на печать. Оригинален метод Г. Чернова [5], предполагающий ставить в соответствие объекту черты человеческого лица.

Методы визуализации внутренне парадоксальны - они используют точные алгоритмы с экстремальными свойствами, чтобы впоследствии человек на их основе принял весьма приближенное, естественное в его понимании решение. Такая парадоксальность не тормозит познание, а способствует его успехам.

Наши рекомендации