Основные характеристики кластеров

Центр кластера - среднее геометрическое место точек в пространстве переменных. Радиус кластера - максимальное расстояние точек от центра кластера. Спорный объект - объект, который может быть отнесен к нескольким кластерам. Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера.Объект относится к кластеру, если расстояние от объекта до центра кластера не больше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным.

11. Факторный анализ– совокупность методов, позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.

Цели: сокращение числа переменных и определение структуры взаимосвязи между ними.

Под фактором понимается гипотетическая, латентная переменная, которая имеет линейные корреляционные связи с исходными измеряемыми переменными.

Этапы:

1. Построение матрицы попарных корреляций.

2. Выделение факторов – Метод Главных Компонент.

(осуществляет переход к новой системе координат F1,..., Fp в исходном пространстве признаков X1,..., Xk).

Идея МГК:

Линейные комбинации выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая ГК F1(х) обладает наибольшей дисперсией.

Геометрически - это ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой выборки в пространстве признаков X1,…,Xk .

Вторая ГК имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой.

3. Вращение матрицы факторных нагрузок.

Методы вращения матрицы факторных нагрузок: варимакс (для столбцов – минимизируется число переменных), квартимакс (для строк – минимизируется число факторов), эквамакс (комбинация варимакс и квартимакс).

4. Определение признаков, объединившихся в каждом факторе.

Что дает факторный анализ? Объединяет связанные исходные признаки в подгруппы и позволяет более наглядно представить взаимное расположение имеющихся подгрупп наблюдений.

12. Дисперсионный анализ – параметрический метод для проверки значимости различий, применяемый, когда нас интересуют сравнение двух и более выборок.

Основные характеристики кластеров - student2.ru

Внутригрупповая вариация измеряет, насколько неоднородна каждая выборка.

Основные характеристики кластеров - student2.ru

ni – количество объектов в i-й выборке,
Si – стандартное отклонение i-й выборки,
n – общее количество исследуемых объектов,
k – количество степеней свободы (выборок).

Межгрупповая вариация отражает, насколько различаются выборочные средние.

Основные характеристики кластеров - student2.ru

Вывод по ДА:

Если Fэмп < Fкр → H0 (Наблюдаемые расхождения в значениях выборочных средних можно объяснить случайностью!)

Если Fэмп ≥ Fкр → H1 (Наблюдаемые расхождения в значениях выборочных средних нельзя объяснить лишь случайностью!)

Виды ДА:

сколько факторов принимает участие в исследовании (однофакторный, многофакторный),

сколько переменных подвержены действию факторов (одномерный, многомерный),

как соотносятся друг с другом выборки значений (связанных, несвязанных выборок).

13

14.1. значения статистических показателей, которые представлены в определенной хронологической последовательности. Элементы ряда: по оси у- показатели, кот харак-ют исследуемый объект, по х-показатели периодов времени (месяц, год, декада).

Наши рекомендации