Характеристика «мер центральной тенденции», «мер изменчивости», «мер связи» и «статистического вывода». Их место и назначение в структуре психометрии
Меры Центральной Тенденции
— различные способы осмысления центральной или средней позиции группы наблюдений, чисел и т.д.
Меры центральной тенденции обобщенные характеристики распределения некоторого признака в данной совокупности индивидов. Их называют также средними, оперируя которыми, мы теряем часть информации, но отражаем типичное для изучаемой совокупности в определенных условиях. Чтобы средняя была характеристикой, улавливающей тенденцию, закономерность, она должна применяться к достаточно однородной совокупности.
Имеются три меры: мода, медиана и среднее. Мода — наиболее частое значение. Медиана — значение, занимающее центральное положение, имея множество величин как ниже, так и выше себя. Среднее (чаще называемое средней величиной) вычисляется путем суммирования всех индивидуальных значений и деления суммы на число случаев или наблюдений. Иногда совокупность наблюдений выдает бимодальное распределение (где две разные величины встречаются наиболее часто). Кроме того, при наличии равного числа наблюдений центрального значения медианы нет. В этом случае ее проводят на полпути между двумя центрально расположенными значениями.
Меры изменчивости
Меры изменчивости – численное выражение между индивидуальной вариацией признака.
1) пределы разнообразия – наибольшая и наименьшая величина признака среди всех представителей выборки.
2) размах – разность между максимальной и минимальной величиной признака.
3) дисперсия – сумма квадратов отклонений измеренного признака от их среднего; степень рассеивания значений признака вокруг среднего значения.
4) стандартное (среднее квадратичное) отклонение – она имеет ту же размерность, представлена в тех же единицах измерения, что и исходный массив данных.
5) Коэффициент вариации – отношение стандартного отклонения к среднему значению выраженный в процентах.
Связи Меры
- количественные показатели тесноты и направления связи. Регрессия и корреляция относятся к тем способам, к-рые чаще всего используются для описания связей между переменными. Два разных измерения, полученных по каждому элементу выборки, можно отобразить в виде точек в декартовой системе координат (х, у) — диаграммы рассеяния, являющейся графическим представлением связи между этими измерениями. Часто эти точки образуют почти прямую линию, свидетельствующую о линейной связи между переменными. Для получения линии регрессии — мат. уравнения линии наилучшего соответствия множеству точек диаграммы рассеяния — используются численные методы. После выведения линии регрессии появляется возможность предсказывать значения одной переменной по известным значениям другой и, к тому же, оценивать точность предсказания.
Коэффициент корреляции (r) — это количественный показатель тесноты линейной связи между двумя переменными. Методики вычисления коэффициентов корреляции исключают проблему сравнения разных единиц измерения переменных. С.М. конструируются таким образом, чтобы их значения изменялись в интервале [0; 1] или [-1; 1]. Значение коэффициента, равное нулю, может свидетельствовать как об отсутствии связи между переменными, так и о том, что выбранная модель не соответствует характеру изучаемой связи. Положительные значения коэффициента свидетельствует о прямой (положительной) либо о ненаправленной связи между переменными; отрицательные значения - об обратной (отрицательной) связи ( Анализ корреляционный) . Чем ближе значение коэффициента к 1 или -1, тем теснее связь. Значение, равное 1 или -1, свидетельствует о полной связи, позволяющей по значению одной переменной точно предсказывать значение другой переменной. Для связей между номинальными переменными, анализируемыми посредством таблицы сопряженности , наиболее общей является модель "хи-квадрат" . Коэффициенты тесноты связи, основанные на критерии "хи-квадрат" , могут принимать значения в интервале от 0 до 1 ( Корреляция качественных переменных). Значение коэффициента, равное нулю, означает полное отсутствие связи между переменными. Главными недостатками модели являются отсутствие каких-либо представлений о характере связи, а также конструктивные особенности коэффициентов, которые даже при полной связи не всегда достигают значения 1.
Теория статистического вывода
Этот раздел С. включает систему методов получения выводов о больших группах (фактически, генеральных совокупностях) на основе наблюдений, проведенных в группах меньшего размера, называемых выборками. В психологии статистический вывод служит двум главным целям: 1) оценить параметры генеральной совокупности по выборочным статистикам; 2) оценить шансы получения определенного паттерна результатов исследования при заданных характеристиках выборочных данных.
Среднее является наиболее часто оцениваемым параметром генеральной совокупности. В силу самого способа вычисления стандартной ошибки, выборки большего объема обычно дают меньшие стандартные ошибки, что делает статистики, вычисленные по большим выборкам, несколько более точными оценками параметров генеральной совокупности. Пользуясь стандартной ошибкой среднего и нормированными (стандартизованными) распределениями вероятностей (такими как t-распределение), можно построить доверительные интервалы — области значений с известными шансами попадания в них истинного генерального среднего.
Оценивание результатов исследования. Теорию статистического вывода можно использовать для оценки вероятности того, что частные выборки принадлежат известной генеральной совокупности. Процесс статистического вывода начинается с формулирования нулевой гипотезы (H0), состоящей в предположении, что выборочные статистики получены из определенной совокупности. Нулевая гипотеза сохраняется или отвергается в зависимости от того, насколько вероятным яв-ся полученный результат. Если наблюдаемые различия велики относительно величины изменчивости выборочных данных, исследователь обычно отвергает нулевую гипотезу и делает вывод о крайне малых шансах того, что наблюдаемые различия обязаны своим происхождением случаю: результат является статистически значимым. Вычисляемые критериальные статистики с известными распределениями вероятностей выражают отношение между наблюдаемыми различиями и изменчивостью (вариабельностью).
Содержание и особенности корреляционного, факторного и кластерного видов статистического анализа психологических данных.
Расчет коэффициентов корреляции является инструментом, позволяющим осуществить корреляционный, факторный и кластерный анализ эмпирических данных.
Корреляционный анализ — метод исследования взаимозависимости признаков в генеральной совокупности, являющихся случайными величинами, имеющими нормальное многомерное распределение. Для наглядности интеркорреляционные показатели представляются в виде таблиц корреляций переменных, матриц и графов.
При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.
Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.
С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве-Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (rs), который применяется к порядковым данным, т.е. является непараметрическим.
Факторный анализ — раздел многомерного статистического анализа, сущность которого заключается в выявлении непосредственно неизмеряемого признака, являющегося "главной компонентой" (производной) группы измеренных тестовых показателей.
Факторный анализ - статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных, поэтому факторный анализ используется как метод сокращения данных или как метод структурной классификации.
Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, "сырых", экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее - коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологическими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.
Главное понятие факторного анализа - фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению.
С помощью выявленных факторов объясняют взаимозависимость психологических явлений.
Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интеркорреляций переменных. В таком случае факторы делят на генеральные, общие и единичные. Генеральными называются факторы, все факторные нагрузки которых значительно отличаются от нуля (нуль нагрузки свидетельствует о том, что данная переменная никак не связана с остальными и не оказывает на них никакого влияния в жизни). Общие - это факторы, у которых часть факторных нагрузок отлична от нуля. Единичные - это факторы, в которых существенно отличается от нуля только одна из нагрузок.
Факторный анализ может быть уместен, если выполняются следующие критерии.
1. Нельзя факторизовать качественные данные, полученные по шкале наименований, например, такие, как цвет волос (черный / каштановый / рыжий) и т.п.
2. Все переменные должны быть независимыми, а их распределение должно приближаться к нормальному.
3. Связи между переменными должны быть приблизительно линейны или, по крайней мере, не иметь явно криволинейного характера.
4. В исходной корреляционной матрице должно быть несколько корреляций по модулю выше 0,3. В противном случае достаточно трудно извлечь из матрицы какие-либо факторы.
5. Выборка испытуемых должна быть достаточно большой. Рекомендации экспертов варьируют. Наиболее жесткая точка зрения рекомендует не применять факторный анализ, если число испытуемых меньше 100, поскольку стандартные ошибки корреляции в этом случае окажутся слишком велики.
Однако если факторы хорошо определены (например, с нагрузками 0,7, а не 0,3), экспериментатору нужна меньшая выборка, чтобы выделить их. Кроме того, если известно, что полученные данные отличаются высокой надежностью (например, используются валидные тесты), то можно анализировать данные и по меньшему числу испытуемых.
В настоящее время факторный анализ широко используется в дифференциальной психологии и психодиагностике. С его помощью можно разрабатывать тесты, устанавливать структуру связей между отдельными психологическими характеристиками, измеряемыми набором тестов или заданиями теста.
Факторный анализ используется также для стандартизации тестовых методик, которая проводится на репрезентативной выборке испытуемых.
Кластерный анализ — совокупность статистических (и иных, в том числе качественных) методов, предназначенных для дифференциации относительно отдаленных друг от друга групп и близких между собой объектов по информации о связях (мерах близости) между ними.
Кластерный анализ (англ. Data clustering) — задача разбиения заданной выборки объектов (ситуаций) на подмножества, называемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Задача кластеризации относится к статистической обработке
Задачи кластерного анализа можно объединить в следующие группы:
1. Разработка типологии или классификации.
2. Исследование полезных концептуальных схем группирования объектов.
3. Представление гипотез на основе исследования данных.
4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.
Методы кластерного анализа можно разделить на две группы:
• иерархические;
• неиерархические.
Каждая из групп включает множество подходов и алгоритмов.
Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением. Рассмотрим иерархические и неиерархические методы подробно.
Иерархические методы кластерного анализа
Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.
14. Назначение и содержание стандартизации психологических измерений.
Стандартизация психологами понимается в двух аспектах:
- стандартизация процедуры и условий проведения тестирования, способов обработки и интерпретации результатов, которые должны привести к созданию равных условий для испытуемых и минимизировать случайные ошибки и погрешности как на этапе проведения, так и на этапе обработки результатов и интерпретации данных;
- стандартизация результатов, то есть получение нормы, шкалы оценки, которая служит основанием для определения уровня овладения тем, что выясняет данный тест; при этом не важно, какого рода нормы получаются и какие шкалы используются.
С. т. — это установление унифицированных процедур для а) его проведения и б) подсчета получаемых с его помощью показателей. Первые стандартизированные тесты появились в начале XX столетия, когда Э. Л. Торндайк, занимающийся эксперим. психологией, наряду с др. учеными, распространили принципы, полученные в лабораториях, на психол. измерения.
Наиболее распространенными преобразованиями в психометрике первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Центрирование — это линейная трансформация величин измеренного признака, при которой средняя величина распределения становится равной нулю. Процедура нормирования заключается в переходе к другому масштабу (единицам) измерения (Sc), который базируется на принципе нормальности распределения эмпирических показателей при переходе к стандартным величинам и осуществляется по формуле:
Sc = (х i — Мх / δх) A + M,
где х i - величина показателя теста;
Мх - среднее арифметическое показателей;
δх - среднее квадратичное отклонение показателей;
А - заданное среднее квадратическое отклонение;
М - заданное среднее значение.
В качестве функции Sc обычно используют Z-показатель (стандартный показатель), выражающий отклонение индивидуального результата, хi в единицах, пропорциональных стандартному отклонению единичного нормального распределения. То есть М = 0; А = 1. Z-показатель (z) определяется по формуле:
z = х i - Мх /δх.
На практике психологи наиболее часто используют накопленные проценты (в шкале наименований); процентили (перцентили) — типичные стандартные оценки (М = 50, А = 34); стандартные IQ-баллы (М = 100, А = 15); T-показатели (М = 50, А = 10) и стеновую шкалу (М = 5.5, А = 2).