Классификация методов статистического вывода о различии выборок по уровню выраженности количественного признака
Количество выборок (градаций Х) | Две выборки | Больше двух выборок | ||
Зависимость выборок | Независимые | Зависимые | Независи- мые | Зависимые |
Признак Y | Метрический | Параметрические методы сравнения | ||
t-Стьюдента, для независимых выборок | t-Стьюдента, для зависимых выборок | ANOVA | ANOVA с повторными измерения- ми | |
Ранговый | Непараметрические методы сравнения | |||
U-Манна Уитни, критерий серий | Т-Вилкоксона, критерий знаков | Н-Краскала Уоллеса | х2-Фридмана |
Теперь рассмотрим наиболее часто используемые методы математической статистики более подробно.
Корреляционный анализ
Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции.
Коэффициент корреляции – это мера прямой или обратной пропорциональности между двумя переменными. Он чувствителен к связи только в том случае, если эта связь является монотонной – не меняет направления по мере увеличения значений одной из переменных.
Основные показатели:
а) сила – определяется по абсолютной величине корреляции (меняется от 0 до 1);
б) направление связи – определяется по знаку корреляции: положительный – связь прямая, тогда как отрицательный – связь обратная;
в) надежность (достоверность) связи – определяется р-уровнем статистической значимости (чем меньше р-уровень, тем выше статистическая значимость, достоверность связи).
В качестве условий применения коэффициента корреляции выделяют:
● переменные измерены в количественной (ранговой, метрической) шкале на одной и той же выборке объектов;
● связь между переменными является монотонной.
После того как были выявлены статистически значимые корреляционные связи, их можно представить графически в виде корреляционной плеяды или плеяд.
Корреляционная плеяда – это фигура, состоящая из вершин и соединяющих их линий. Вершины обычно соответствуют признакам и обозначаются цифрами – номерами переменных. Линии соответствуют статистически достоверным связям и графически выражают знак, а иногда и р - уровень значимости связи (10).
Пример:Построение корреляционной плеяды
Примечание: 1 - напряженность в отношениях, 2 – отчужденность в отношениях, 3 – агрессия в отношениях, 4 – конфликтность в отношениях, 5 – степень дисгармоничности отношений
р≤0,001; р≤0,01; р≤0,05
Посторенние плеяды начинают с переменной, имеющей наибольшее число значимых связей, постепенно добавляя в рисунок другие переменные – по мере убывания числа связей, связывая их линиями, соответствующими связям между ними.
Рассмотрев корреляционный анализ, обратимся к другому методу математической статистики, который также часто используется в психологических исследованиях – факторному анализу.
Факторный анализ
Фактор – скрытая причина согласованной изменчивости наблюдаемых переменных (10).
Основная идея факторного анализа сводится к тому, что если несколько признаков, измеренных на группе индивидов, изменяются согласованно, то можно предположить существование одной общей причины этой совместной изменчивости – фактора как скрытой (латентной), непосредственно недоступной измерению переменной.
При использовании этой статистической процедуры исследователь начинает с множества измеренных эмпирически показателей, которые при помощи факторного анализа группируются по факторам (изучаемым свойствам). Факторы получают интерпретацию по входящим в них переменным, затем отбираются наиболее «весомые» показатели этих факторов, отсеиваются малозначимые переменные, вычисляются значения факторов для испытуемых и сопоставляются с внешними эмпирическими показателями изучаемых свойств.
Как указывает А.Д.Наследов, «факторный анализ становится средством замены набора коррелирующих измерений существенно меньшим числом новых переменных (факторов). При этом основными требованиями являются: а) минимальная потеря информации, содержащейся в исходных данных, и б) возможность представления (интерпретации) факторов через исходные переменные» (10, с.252).
Результатом факторного анализа является переход от множества исходных переменных к существенно меньшему числу новых переменных – факторов.
Одной из трудностей, встающей перед исследователем, является интерпретация факторов. Ее решение заключается в идентификации факторов через исходные переменные. При этом акцент ставится на факторные нагрузки – аналоги коэффициентов корреляции показывают степень взаимосвязи соответствующих переменных и факторов. Чем больше абсолютная величина факторной нагрузки, тем сильнее связь переменной с фактором, тем больше данная переменная обусловлена действием соответствующего фактора.
Каждый фактор идентифицируется по тем переменным, с которыми в наибольшей степени связан, т.е. по переменным, имеющим по этому фактору наибольшие нагрузки. Идентификация фактора заключается, как правило, в присвоении ему имени, обобщающего по смыслу наименования входящих в него переменных.
Как отмечает А.Д.Наследов, «зачастую нет веских оснований предполагать наличие факторов как скрытых причин изучаемых корреляций, и задача заключается лишь в обнаружении группировок тесно связанных переменных» (10, с.254).
Основными задачами факторного анализа выступают:
1. Исследование структуры взаимосвязей переменных. В этом случае каждая группировка переменных будет определяться фактором, по которому эти переменные имеют максимальные нагрузки.
2. Идентификация факторов как скрытых (латентных) переменных – причин взаимосвязи исходных переменных.
3. Вычисление значений факторов для испытуемых как новых, интегральных переменных. При этом число факторов существенно меньше числа исходных переменных. В этом смысле факторный анализ решает задачу сокращения количества признаков с минимальными потерями исходной информации (10).
Часто в ходе исследования встает задача разделить исходное множество объектов на группы (классы, кластеры) с целью построения классификации. В этом случае используется кластерный анализ.
Кластерный анализ
Классификация объектов – это группирование их в классы так, чтобы объекты в каждом классе были более похожи друг на друга, чем на объекты из других классов. Это является основным назначением кластерного анализа.
Кластерный анализ – это процедура упорядочивания объектов в сравнительно однородные классы на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям (10, с.329).
Кластерный анализ решает следующиезадачи:
1. Разбиение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям.
2. Применение кластерного анализа как более простого и наглядного факторного анализа, когда ставится задача группировки признаков на основе их корреляций.
3. Классификация объектов на основе непосредственных оценок различий между ними.
Общая последовательность кластерного анализа:
1. Отбор объектов для кластеризации. Объектами могут быть: а) испытуемые, б) объекты, которые оцениваются испытуемыми, в) признаки, измеренные на выборке испытуемых.
2. Определение множества переменных, по которым будут различаться объекты кластеризации. Для испытуемых – это набор измеренных признаков, для оцениваемых объектов – субъекты оценки, для признаков – испытуемые.
3. Определение меры различия между объектами кластеризации.
4. Выбор и применение метода классификации для создания групп исходных объектов. Разные методы кластеризации порождают разные группировки для одних и тех же объектов.
5. Проверка достоверности разбиения на классы.
Выбор метода является одной из проблем кластерного анализа. Опишем три наиболее типичных метода кластерного анализа, каждый из которых дает свои результаты кластеризации.
Метод одиночной связи (Single Linkage) - часто его называют методом «ближайшего соседа». Метод имеет тенденцию образовывать небольшое число крупных кластеров. К особенностям метода можно отнести то, что результаты его применения часто не дают возможности определить, как много кластеров находится в данных.
Метод полной связи (Complete Linkage) – часто его называют методом «дальнего соседа». Здесь наблюдается тенденция к выделению большего числа компактных кластеров, состоящих из наиболее похожих элементов.
Метод средней связи (Average Linkage) или межгрупповой связи (Between Linkage) – занимает промежуточное положение относительно крайностей методов одиночной и полной связей. Этот метод должен давать более точные результаты классификации, чем остальные методы. Как указывает А.Д.Наследов, «опыт и литературные данные свидетельствуют, что наиболее близкий к реальной группировке результат позволяет получить метод средней связи» (10, с.335).
Исследователь в зависимости от стоящей перед ним задачи вправе выбрать тот метод, который ему больше подходит.
Одной из проблем кластерного анализа является определение численности классов. «Сложность заключается в том, что не существует формальных критериев, позволяющих определить оптимальное число классов. В конечном итоге это определяется самим исследователем исходя из содержательных соображений» (10, с.336).
Часто задачей исследования является сравнение двух выборок. Для ее решения также существуют свои статистические процедуры, которые будут рассмотрены в следующем разделе.