Наиболее часто используемых непараметрических методов
1. Сравнение двух независимых выборок (критерий Манна—Уитни) -- позволяет установить различия между двумя независимыми выборками по уровню выраженности порядковой переменной.
2. Сравнение двух зависимых выборок может проводиться по критерию Вилкоксона - основан на подсчете числа отрицательных и положительных разностей между повторными измерениями.
3. Критерий серийопределяет, является ли последовательность бинарных величин (событий) случайной или упорядоченной.
4. Биномиальный критерийопределяет, отличается ли распределение дихотомической величины от заданного соотношения. Это определение вероятности того, что наблюдаемое распределение не отличается от заданного. Свойством биномиального распределения является заранее заданное соотношение вероятностей 2х взаимоисключающих событий (при многократном подбрасывании монеты вероятность выпадения орла и решки подчиняется биномиальному критерию.
5. Критерий Колмогорова—Смирнова для одной выборкиопределяет отличие распределения переменной от нормального равномерного. Суть метода заключается в сравнении эмпирического (наблюдаемого) распределения накопленных частот выборки с теоретическим (ожидаемым) нормальным.
6. Критерий хи-квадрат для одной выборки определяет степень отличия наблюдаемого распределения частот по градациям переменной от ожидаемого распределения.
7.Сравнение независимых выборок (критерий Краскала-Уоллеса) позволяет установить степень различия между тремя и более независимыми выборками по уровню выраженности порядковой переменной.
8. Сравнение зависимых выборок (критерий Фридмана) позволяет установить степень различия между тремя и более зависимыми выборками (повторных измерений) по уровню выраженности изучаемой переменной.
Тема 10: Методы статистической оценки взаимодействия независимых и зависимых переменных
Факторный анализ
В последние 30-40 лет факторный анализ приобрел значительную популярность в психологических и социальных исследованиях. Во многом этому способствовала разработка Раймондом Кеттеллем (Raymond В. Cattell) знаменитого 16-факторного личностного опросника (16PF). Именно при помощи факторного анализа ему удалось свести около 4500 наименований личностных особенностей к 187 вопросам, которые, в свою очередь, позволяют измерить 16 различных свойств личности. Факторный анализ дает возможность количественно определить нечто непосредственно не измеряемое, исходя из нескольких доступных измерению переменных. Например, характеристики «посещает развлекательные мероприятия», «много разговаривает», «охотно идет на контакт с любым незнакомым человеком» могут служить оценками качества «общительность», которое непосредственно не поддается количественному измерению. Факторный анализ позволяет установить для большого числа исходных признаков сравнительно узкий набор «свойств», характеризующих связь между группами этих признаков и называемых факторами. Процедура факторного анализа состоит из нескольких основных стадий:
1. Вычисление корреляционной матрицы для переменных, участвующих в анализе. Уже по наличию подобного начального действия можно сделать вывод о том, факторный анализ основан па взаимодействии переменных.
2. Извлечение факторов. Первым шагом в является выбор той независимой переменной, которая обусловливает наибольшую долю дисперсии зависимой переменной. Затем операция повторяется для оставшихся независимых переменных до тех пор, пока доля дисперсии не перестанет быть значимой. Первой задачей факторного анализа является выбор взаимодействующих переменных, у которых есть взаимная корреляция. Эти переменные образуют первый фактор. Затем первый фактор исключается, и из оставшегося множества переменных снова выбираются те, чье взаимодействие определяет наибольшую долю оставшейся общей дисперсии, эти переменные образуют второй фактор.
3. Выбор и вращение факторов. За очень редкими исключениями для исследователя не представляют интереса все извлеченные факторы. Если факторов окажется столько же, сколько исходных переменных, факторный анализ теряет смысл, поскольку его целью является сокращение исходного набора переменных. Итак, нужно принять решение, какие из факторов следует оставить для дальнейшего анализа. Здесь, в первую очередь, рекомендуется руководствоваться здравым смыслом и оставлять те факторы, которые имеют понятную теоретическую ил логическую интерпретацию.
Целью вращения является извлечение простой структуры, которой соответствует большое значение нагрузки каждой переменной только по одному фактору и малое по всем остальным. Нагрузка отражает связь между переменной и фактором, являясь подобием коэффициента корреляции. Значение нагрузки лежит в пределах от -1 до +1. Идеальная простая структура предполагает, что каждая переменная имеет нулевые значения нагрузок для всех факторов кроме одного, для которого нагрузка этой переменной близка к 1 (-1).
Например тестирование 46 школьников. Тест включал 11 субтестов (переменные 1,2,........11). Предпологалось, что эти 11 субтестов позволяют измерить 3 и более обобщенные характеристики: математические, вербальные и образные. ФА должен был установить соотношение субтестов и факторов.
Кластерный анализ
Зачастую описание нового статистического метода удобно проводить путем его сравнения с другим методом. При многочисленных общих чертах между указанными статистическими методами существует немало различий. Сравнение кластерного и факторного анализов
Сходство между кластерным и факторным анализами заключается в том, что тот и другой предназначены для перехода от исходной совокупности множества переменных (или объектов) к существенно меньшему числу факторов кластеров. Тем не менее реализация статистических процедур и интерпретация результатов для двух типов анализа различаются;
1. Целью факторного анализа является замена большого числа исходных переменных меньшим числом факторов. Кластерный анализ, как правило, применяется для того, чтобы уменьшить число объектов путем их группировки. Другими словами, в процедуре кластерного анализа обычно переменные не группируются, а выступают в качестве критериев для группировки объектов. В примере факторного анализа 11 субтестов интеллекта (переменных) были сведены к трем факторам, каждый из которых объединил несколько родственных исходных переменных. Кластерный анализ делается обычно для выделения групп объектов, исходя из их сходства по измеренным признакам. Применительно к примеру с 11 субтестами и типичной задачей кластерного анализа была бы классификация учащихся (обьектов) таким образом, чтобы по измеренным 11 показателям внутри каждой группы объекты были бы более похожи друг на друга, чем на объекты из других групп. Группы объектов выделенные в результате кластерного анализа на основе заданной меры сходства между объектами, называются кластерами
2. Заявленные в предыдущем пункте различия между кластерным и факторным, вариантами анализа со всей полнотой категоричности могут быть отнесены лишь к ранним версиям компьютерной обработки. Сегодня, программы позволяют с равным успехом проводить кластерный анализ не только объектов, по и переменных. В последнем случае кластерный анализ может выступать как более простой и нередко более эффективный аналог факторного анализа. Т.о. есть 2 варианта кластерного анализа.
3. Действия, выполняемые в ходе статистических операций в каждом из вариантов анализа, принципиально различаются. В факторном анализе на каждом этапе извлечения фактора для каждой переменной подсчитывается доля дисперсии, которая обусловлена влиянием данного фактора. При кластерном анализе вычисляется расстояние между текущим объектом и всеми остальными объектами, и кластер образует та пара, для которой расстояние оказалось наименьшим. Подобным образом каждый объект либо группируется с другим объектом, либо включается в состав существующего кластера. Процесс кластеризации конечен и продолжается до тех пор, пока все объекты не будут объединены в один кластер. Разумеется, подобный результат в общем случае не имеет смысла, и исследователь должен самостоятельно определить, в какой момент кластеризация должна быть прекращена.
4. В контексте кластерного анализа особое место занимает, один из его видов, называемый иерархическим кластерным анализом. Этот вид кластерного анализа чаще используется в экономике, социологии, политологии, нежели в психологии. Психологи обычно анализируют переменные с целью найти статистические связи между ними; эти связи, как правило указывают на сходство между теми или иными исследуемыми факторами. Деление выборки наа группы в психологических анализах редко представая интерес; в случаях когда это оказывается необходимым, психологи отдают предпочтение дискримипантному, а не кластерному анализу.
5. Поскольку кластеризация переменных оказывается весьма доступной операцией, было бы интересно сравнить ее результаты с результатами более сложного факторного анализа. Как и в случае факторного анализа, выполнение кластерного анализа и его результаты зависят от ряда параметров: способа вычисления расстояния между объектами, кластеризации индивидуальных объектов и т.д.
Для демонстрации кластерного анализа можно привести пример.
Это данные о 15 подержанных автомобилях разных марок, выставленных па продажу.
Этапы:
1. Выбор переменных-критериев для кластеризации. В нашем примере кластеризация будет осуществляться по следующим переменным: цена (стоимость), экспертная оценка технического состояния по 10-балльной шкале, возраст (количество лет эксплуатации), пробег (пройденный километраж с начала эксплуатации).
2. Выбор способа измерения расстояния между объектами, или кластерами (изначально считается, что каждый объект соответствует одному кластеру). По умолчанию используется квадрат Евклидова расстояния, согласно которому расстояние между объектами равно сумме квадратов разностей между значениями одноименных переменных объектов.
Предположим, что марка автомобиля А имеет показатели технического состояния и возраста 5 и 6, а марка В — соответственно 7 и 4. В этом случае расстояние между марками вычисляется следующим образом: (5 - 7)2 + (6 - 4)2 = 8. При выполнении анализа сумма квадратов разностей вычисляется для всех переменных. Получаемые расстояния используются программой при формировании кластеров.
3. Формирование кластеров. Существует два основных метода формирования кластеров: метод слияния и метод дробления. В первом случае исходные кластеры увеличиваются путем объединения до тех пор, пока не будет сформирован единственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, который затем делится на части до тех пор, пока не будет достигнут желаемый результат. Чаще используется метод слияния который еще, называется межгрупповым и сравнивает средние внутри групп. Программа вычисляет наименьшее средние значение расстояния между всеми парами групп и объединяет две группы оказавшиеся наиболее близкими.
Для рассматриваемого примера нам представляется наиболее предпочтительным число кластеров, равное 3. Как показывает анализ, все марки можно разделить на 3 группы: первая группа имеет высокую стоимость, небольшой срок эксплуатации и средний пробег. Вторая группа имеет среднюю стоимость, небольшой пробег, наибольший возраст, но хорошее техническое состояние. Третья группа содержит недорогие модели с большим пробегом и невысоким рейтингом технического состояния.