Основные характеристики кластеров
Центр кластера - среднее геометрическое место точек в пространстве переменных. Радиус кластера - максимальное расстояние точек от центра кластера. Спорный объект - объект, который может быть отнесен к нескольким кластерам. Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера.Объект относится к кластеру, если расстояние от объекта до центра кластера не больше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным.
11. Факторный анализ– совокупность методов, позволяют выявлять скрытые обобщающие характеристики структуры изучаемых объектов и их свойств.
Цели: сокращение числа переменных и определение структуры взаимосвязи между ними.
Под фактором понимается гипотетическая, латентная переменная, которая имеет линейные корреляционные связи с исходными измеряемыми переменными.
Этапы:
1. Построение матрицы попарных корреляций.
2. Выделение факторов – Метод Главных Компонент.
(осуществляет переход к новой системе координат F1,..., Fp в исходном пространстве признаков X1,..., Xk).
Идея МГК:
Линейные комбинации выбираются таким образом, что среди всех возможных линейных нормированных комбинаций исходных признаков первая ГК F1(х) обладает наибольшей дисперсией.
Геометрически - это ориентация новой координатной оси F1 вдоль направления наибольшей вытянутости эллипсоида рассеивания объектов исследуемой выборки в пространстве признаков X1,…,Xk .
Вторая ГК имеет наибольшую дисперсию среди всех оставшихся линейных преобразований, некоррелированных с первой главной компонентой.
3. Вращение матрицы факторных нагрузок.
Методы вращения матрицы факторных нагрузок: варимакс (для столбцов – минимизируется число переменных), квартимакс (для строк – минимизируется число факторов), эквамакс (комбинация варимакс и квартимакс).
4. Определение признаков, объединившихся в каждом факторе.
Что дает факторный анализ? Объединяет связанные исходные признаки в подгруппы и позволяет более наглядно представить взаимное расположение имеющихся подгрупп наблюдений.
12. Дисперсионный анализ – параметрический метод для проверки значимости различий, применяемый, когда нас интересуют сравнение двух и более выборок.
Внутригрупповая вариация измеряет, насколько неоднородна каждая выборка.
ni – количество объектов в i-й выборке,
Si – стандартное отклонение i-й выборки,
n – общее количество исследуемых объектов,
k – количество степеней свободы (выборок).
Межгрупповая вариация отражает, насколько различаются выборочные средние.
Вывод по ДА:
Если Fэмп < Fкр → H0 (Наблюдаемые расхождения в значениях выборочных средних можно объяснить случайностью!)
Если Fэмп ≥ Fкр → H1 (Наблюдаемые расхождения в значениях выборочных средних нельзя объяснить лишь случайностью!)
Виды ДА:
сколько факторов принимает участие в исследовании (однофакторный, многофакторный),
сколько переменных подвержены действию факторов (одномерный, многомерный),
как соотносятся друг с другом выборки значений (связанных, несвязанных выборок).
13
14.1. значения статистических показателей, которые представлены в определенной хронологической последовательности. Элементы ряда: по оси у- показатели, кот харак-ют исследуемый объект, по х-показатели периодов времени (месяц, год, декада).