Методы многомерного статистического анализа. Кластер-анализ. Понятие об иерархическом методе и о методе К-средних. Многомерная классификация с использованием нечетких множеств.
Многомерный статистический анализ.Его цель: построение упрощенного укрупненного ряда объектов.
МСА:
- кластерный анализ
- факторный анализ
- многомерное шкалирование
Кластерный анализ – объединение объектов в группу с единой целью (признаков много).
Способы кластерного анализа:
1. иерархический (дерево иерархического анализа):
Oсновная идея иерархического метода заключается в последовательном объединении группируемых объектов - сначала самых близких, а затем все более удаленных друг от друга. Процедура построения классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).
2. метод К-средних.
Требует заранее заданных классов (кластеров). Подчеркивает внутриклассовую дисперсию. основан на гипотезе о наиболее вероятном количестве классов. Задачей метода является построение заданного числа кластеров, которые должны максимально отличаться друг от друга.
Процедура классификации начинается с построения заданного числа кластеров, полученных путем случайной группировки объектов. Каждый кластер должен состоять из максимально "похожих" объектов, причем сами кластеры должны быть максимально "непохожими" друг на друга.
Результаты этого метода позволяют получить центры всех классов (а также и другие параметры дескриптивной статистики) по каждому из исходных признаков, а также увидеть графическое представление о том, насколько и по каким параметрам различаются полученные классы.
Если рез-ты классификаций, полученные разными методами совпадают, то это подтверждает реальн. Сущ-е групп (надежность, достоверность).
Методы многомерного статистического анализа. Факторный анализ, цели его использования. Понятие о факторных нагрузках и факторных весах, пределы их значений; доля суммарной дисперсии, объясняемой факторами.
Многомерный статистический анализ.Его цель: построение упрощенного укрупненного ряда объектов.
МСА:
- кластерный анализ
- факторный анализ
- многомерное шкалирование
В основе факторного анализа лежит идея о том, что за сложными взаимосвязями явно заданных признаков стоит относительно более простая структура, отражающая наиболее существенные черты изучаемого явления, а "внешние" признаки являются функциями скрытых общих факторов, определяющих эту структуру.
Цель: переход от большего числа признаков к небольшому числу факторов.
в факторном анализе все величины, входящие в факторную модель, стандартизированы, т.е. являются безразмерными величинами со средним арифметическим значением 0 и средним квадратическим отклонением 1.
Коэффициент взаимосвязи между некоторым признаком и общим фактором, выражающий меру влияния фактора на признак, называется факторной нагрузкойданного признака по данному общему фактору. Это число в интервале от -1 до 1. Чем дальше от 0, тем более сильная связь. Значение факторной нагрузки по некоторому фактору, близкое к нулю, говорит о том, что этот фактор практически на данный признак не влияет.
Значение (мера проявления) фактора у отдельного объекта называется факторным весом объекта по данному фактору. Факторные веса позволяют ранжировать, упорядочить объекты по каждому фактору. Чем больше факторный вес некоторого объекта, тем больше в нем проявляется та сторона явления или та закономерность, которая отражается данным фактором. Факторы являются стандартизованными величинами, не могут быть = нулю. Факторные веса, близкие к нулю, говорят о средней степени проявления фактора, положительные – о том, что эта степень выше средней, отрицательные – о том. что она ниже средней.
Таблица факторных весов имеет n строк по числу объектов и k столбцов по числу общих факторов. Положение объектов на оси каждого фактора показывает, с одной стороны, тот порядок, в котором они ранжированы по этому фактору, а с другой стороны, равномерность или же неравномерность в их расположении, наличие скоплений точек, изображающих объекты, что дает возможность визуально выделять более или менее однородные группы.
11. Виды качественных признаков. Номинальные признаки, примеры из исторических источников. Таблица сопряженности. Коэффициент связи номинальных признаков, пределы его значений.
Качественные (или категориальные) данные делятся на два типа: ранговые и номинальные.
Номинальные данные представлены категориями, для которых порядок абсолютно не важен. Для них не определен никакой другой способ сравнения, кроме как на буквальное совпадение/несовпадение.
Примеры номинальных переменных:
· Национальность: англичанин, белорус, немец, русский, японец и пр.
· Род занятий: служащий, врач, военный, учитель и т.д.
· Профиль образования: гуманитарное, техническое, медицинское, юридическое и т.д.
Если в случае с уровнем образования мы еще могли сравнивать людей в терминах "лучше-хуже" или "выше-ниже", то теперь мы лишены даже этой возможности; единственный корректный способ сравнения ‑ это говорить, что данные персоналии "все являются историками", или "все не являются юристами".
Своеобразие качественных данных не означает, что их нельзя анализировать с помощью математических и статистических методов.
Таблицы сопряженности
Таблицей сопряженности называется прямоугольная таблица, по строкам которой указываются категории одного признака (например, разные социальные группы), а по столбцам - категории другого (например, партийная принадлежность). Каждый объект совокупности попадает в какую-либо из клеток этой таблицы в соответствии с тем, в какую категорию он попадает по каждому из двух признаков. Таким образом, в клетках таблицы стоят числа, представляющие собой частоты совместной встречаемости категорий двух признаков (число людей, принадлежащих конкретной социальной группе и входящих в определенную партию). В зависимости от характера распределения этих частот внутри таблицы можно судить о том, существует ли связь между признаками. Что означает связь между социальным статусом и партийной принадлежностью? В данном случае о наличии связи свидетельствовало бы наличии определенных политических пристрастий у членов разных социальных групп. Формально говоря, эта связь понимается как более частая (или наоборот, редкая) совместная встречаемость отдельных комбинаций категорий по сравнению с ожидаемой встречаемостью - ситуацией чисто случайного попадания объектов туда (например, более высокая доля крестьян в партии трудовиков, а дворян - в партии кадетов, чем доли этих социальных групп во всей совокупности депутатов Думы).
12. Виды качественных признаков. Ранговые признаки, примеры из исторических источников. В каких пределах находятся значения коэффициента ранговой корреляции? Какие коэффициенты следует использовать для оценки связи рангового и номинального признаков?
Качественные (или категориальные) данные делятся на два типа: ранговые и номинальные.
Ранговые данные представлены категориями, для которых можно указать порядок, т.е. категории сравнимы по принципу "больше-меньше" или "лучше-хуже".
Примеры ранговых переменных:
· Оценки на экзаменах имеют явно выраженную ранговую природу и выражаются категориями типа: "отлично", "хорошо", "удовлетворительно" и т.д.
· Уровень образования может быть представлен как набор категорий: "высшее", "среднее" и т.п.
Несомненно, мы можем ввести ранговую шкалу и с ее помощью упорядочить всех людей, для которых мы знаем их уровень образования или балл на экзамене. Однако, верно ли, что оценка "хорошо" на столько же хуже, чем "отлично", насколько оценка "удовлетворительно" хуже, чем "хорошо"? Несмотря на то, что формально, в случае с оценками, можно получить разницу в баллах, вряд ли корректно измерять расстояние от "отличника" до "хорошиста" пользуясь теми же правилами, что для расстояния от Москвы до Петербурга. В случае с уровнем образования особенно отчетливо видно, что простые вычисления невозможны, поскольку не существует единого правила вычитания "среднего" уровня образования из "высшего", даже, если мы присвоим высшему образованию код "3", а среднему – код "2".
Своеобразие качественных данных не означает, что их нельзя анализировать с помощью математических и статистических методов.Ряд объектов, упорядоченных в соответствии со степенью проявления некоторого свойства, называют ранжированным, каждому числу такого ряда присваивается ранг.
Меры взаимосвязи между парой признаков, каждый из которых ранжирует изучаемую совокупность объектов, называются в статистике коэффициентами ранговой корреляции.
Эти коэффициенты строятся на основе следующих трех свойств:
· если ранжированные ряды по обоим признакам полностью совпадают (т.е. каждый объект занимает одно и то же место в обоих рядах), то коэффициент ранговой корреляции должен быть равен +1, что означает полную положительную корреляцию:
· если объекты в одном ряду расположены в обратном порядке по сравнению со вторым, коэффициент равен -1, что означает полную отрицательную корреляцию;
· в остальных ситуациях значения коэффициента заключены в интервале [-1, +1]; возрастание модуля коэффициента от 0 до 1 характеризует увеличение соответствия между двумя ранжированными рядами.
Указанными свойствами обладают коэффициенты ранговой корреляции Спирменаr и Кедаллаt.
Коэффициент Кедалла дает более осторожную оценку корреляции, чем коэффициент Спирмена (числовое значение t всегда меньше, чем r).