Измерение связи между распределениями
Существует два типа информации о связи переменных, которые исследуются:
1. Направление связи.
Например: Получают ли люди с высоким балом по одной переменной высокий бал по другой?
2. Величина связи (сильно связанные данные или слабо).
Согласованность - это согласованность данных друг с другом, целостность данных, а также внутренняя непротиворечивость.
Ковариация (с) - мера линейной зависимости двух случайных величин. Ковариация показывает, в какой степени разброс одного распределения схож с разбросом другого распределения.
Например, одинаково ли распределены в группе данные по тесту интеллекта и отмети за экзамен, есть ли связь между этими распределениями.
Ковариация дает информацию о направлении связи.
∑ (X-Mx)(Y-My)
cov(cxy) = N-1
Корреляция – статистическая взаимосвязь двух или нескольких случайных величин.
Корреляция также показывает направление связи, а также ее величину.
cxy
rxy = sxsy
Надежность
Надежность– это характеристика точности методики (или теста), как измерительного инструмента. Она отражает устойчивость этого инструмента к действию помех.
Практика показывает, что при проверке психодиагностических измерений, вариации результатов всегда есть. Один и тот же тест, проведенный неоднократно с одной и той же группой испытуемых дает сходные, но не одинаковые результаты. Отсутствие полного совпадения результатов связано с действием множества причин (внешние и внутренние помехи). Теория надежности основывается на положении Спирмена и Гулликсена. С точки зрения данной теории эмпирически полученный результат Х включает 2 составляющие: истинное значение Т и ошибку измерения Е.
Х = Т + Е
Целью любого измерения является получение значения Т у обследуемых. Отсюда
Т = Х – Е
Надежность теста указывает на степень, в которой различия в тестовых баллах респондентов являются функцией от истинных различий между нами, а не ошибкой измерения. Надежность представляет собой континуум, т.е. измерительная процедура может быть более или менее надежной. Надежность сама по себе – это теоретическое понятие, это наблюдаемая характеристика тестовых баллов.
Классическая теория тестов
Согласно КТТ надежность – это свойство теста, которое выводиться из наблюдаемого балла, истинного балла и ошибки измерения. Надежность отражает степень, в которой различия между наблюдаемыми баллами испытуемых согласованны с различиями в истинных баллах, т.е. надежность зависит от степени, в которой наблюдаемые баллы респондентов могут быть приписаны различиям в их истинных тестовых баллов, а не другим (часто неизвестным) характеристикам теста и процедуры тестирования. Степень, в которой эти «другие» характеристики вносят вклад в различия наблюдаемых баллов, называется ошибкой измерения. Обычно знать все ошибки измерения невозможно. Для того чтобы оценить надежность баллов мы должны сравнить степень в которой индивидуальные различия в наблюдаемых баллах являются функцией ошибки измерения со степенью в которой они являются функцией истинных различий между респондентами.
Надежность теста зависит от двух вещей:
1. Степени в которой различия в тестовых балов могут считаться следствием истинных меж- или внутрииндивидуальных различий
2. Степени в которой эти различия являются функцией ошибки измерения.
В КТТ наблюдаемый балл – это функция от истинного балла испытуемого плюс ошибка измерения.
Х = Т +Е
КТТ делает важное допущение о том, что ошибка измерения случайна, т.е. с одинаковой вероятностью может повышать или понижать конкретный тестовый балл. Поскольку ошибка влияет на тестовый балл случайным образом, повышение или понижение балла не связано с истинным уровнем измеряемого свойства. Существует два следствия этого положения:
1. Ошибки имеют тенденцию взаимно уничтожаться по всей выборке;
2. Ошибки не коррелируют с истинными баллами.
Надежность зависит от дисперсии наблюдаемых баллов (Т), дисперсии истинных баллов (Х) и дисперсии ошибок(Е).
Высокая дисперсия ошибки указывает на потенциально плохое качество измерительного инструмента.
Общая дисперсия наблюдаемых баллов равна
SDt = SDx+SDe
Подходы к пониманию надежности
Истинные баллы | Ошибка измерения | |
Доли дисперсии | Надежность – это отношение дисперсии истинных баллов к дисперсии наблюдаемых баллов | Надежность – это отсутствие дисперсии ошибки |
Корреляции | Надежность – это (квадратная) корреляция между наблюдаемыми и истинными баллами | Надежность – это отсутствие корреляции между наблюдаемыми баллами и ошибкой |
Надежность измеряется от 0 до 1 более высокие значения говорят о более лучшем качестве теста. Несмотря на то, что не существует точного балла отсечения, хорошими показателями считается балл 0.70 и более.
Коэффициент надежности (R) – показатель сравнения надежностей нескольких различных психологических тестов. Величина коэффициента сообщает, на сколько, один тест более надежен, чем другой.
Стандартное отклонение ошибки – это способ выражения ошибки влияющей на ответы на тест. Оно называется стандартная ошибка измерения (дельта D). Стандартная ошибка измерения напрямую связана с надежностью, и вычисляется по формуле:
_____
D = SDt Ö1 – R
Если надежность теста равна 1, то значение стандартной ошибки равно 0.
Параллельные тесты
В реальности исследователи ничего не знают об ошибках измерения. Это проблема преодолевается сторонниками КТТ с помощью введения одного допущения: два психологических теста могут быть сконструированы таким образом что будут «параллельными», т.е. тест измеряет тот же психологический конструкт, истинные баллы по одному тесту в точности ровняются баллам по другому и обладают одинаковой дисперсией ошибки. Следствие этого допущения: наблюдаемые баллы по теста имеют одинаковые средние и стандартные отклонения (если хотя бы одно из этих условий не выполняется тесты нельзя считать параллельными). Согласно КТТ корреляция между двумя параллельными тестами равняется надежности.
Но существует серьезная проблема связанная с тем, что никогда нельзя быть совершенно уверенным в том, что параллельные формы теста на саамам деле параллельны в теоретическом смысле. Отчасти эта проблема возникает из-за того, что разные формы тестов отличаются содержательно. Более тонкую проблему параллельных форм представляет эффект переноса (научения) вследствие повторного тестирования. Еще одна проблема в том, что фундаментальным допущением КТТ является случайность ошибки, а следствием этого допущения является отсутствие корреляции между ошибками по двум различным тестам, т.е. баллы ошибки по одному тесту не коррелируют с балами ошибки по другому.
Таким образом, если ошибки сохраняются относительно стабильно в двух формах теста, это обеспечивает положительную корреляцию между двумя наборами наблюдаемых баллов. Следовательно, корреляция между двумя формами теста даст крайне не точную оценку надежности. Пользователь методик, не знающей об этих возможных проблемах, может сильно переоценивать надежность теста.
Подытожим следующее: если две формы теста, которые имеют сходные средние и сходные стандартные отклонения, и если есть твердая уверенность в том, что оба теста измеряют один и тот же конструкт, тогда можно считать, что формы «достаточно близки» для того, чтобы считаться параллельными. Если считать, что две формы теста достаточно близки, чтобы быть параллельными, для оценки надежности тесто можно рассчитать корреляцию между двумя формами. В этом случае будет получена оценка надежности, получившая название – надежности альтернативных/параллельных форм.
В психометрии термин «надежность» чаще имеет два значения. Тест называется надежным, если он является внутренне согласованным (self-consistent), а также, если он дает одни и те же показатели для каждого испытуемого (при условии, что испытуемый не изменился) при повторном тестировании, т.е. обладает ретестовой надежностью (test-retest reliability).
Тест-ретестовая надежность
Этот метод оценки опирается на те же допущения, что и в случае параллельных форм, т.е. истинные баллы испытуемых стабильны в двух тестовых ситуациях; дисперсия ошибки первого теста равна дисперсии ошибки второго теста. Если эти допущения выполняются, то корреляция между наблюдаемыми баллами по двум тестированиям может считаться оценкой надежности.
Условие равенства дисперсий ошибок вполне правомерно, если тестирование проведено аккуратно. При правильной подготовке можно создать две тестовые ситуации, которые будут сравнимы между собой. Если правильно спланировать тестирование и проконтролировать внешние переменные, которые могут повлиять на тестовые баллы, можно быть уверенным, что две тестовые ситуации идентичны.
Причины снижения точности измерения.
1. Нестабильность измеряемого свойства (интервал временные от 6 мес. До 2 нед т.к. может измениться свойство). Устойчивое свойство ли мы измеряем?
2. Не совершенствование диагностических методик (неопределенная инструкция, разнородные задания, нечеткие указания по использованию методики).
3. Меняющаяся ситуация обследования (различное время суток при проведении тестирование). Может сработать фактор утомления. Разная освещенность помещения, наличие или отсутствие шумов, количество обследуемых в помещении.
Мотивировочный риск - для поощрения морального, материального.
Немотивированный риск – склонность к риску (отбор пожарных и т.д.).
Присутствие публики дало сдвиг ответов к социальной желательности. Доля людей склонных к немотивированному риску 5 – 10%
4. Различия в манере поведения психолога (различное предъявления инструкций).
5. Колебания функционального состояния обследуемого. Колебание внимания, работоспособности (хорошее или плохое), самочувствие.
6. Элементы субъективизма при оценке и интегрировании полученных данных. При протоколировании ответов по степени полноты, оригинальности.
Устранение указанных причин снижения точности измерения обеспечивает приемлемый уровень надежности методики или теста. Важным средством повышения психодиагностической методики является однообразия процедуры обследования, его строгая регламентация.
Сложнее быть уверенным, что истинные баллы людей по измеряемому свойству стабильны. Существуют как минимум три фактора вызывающие это неуверенность.
1. Некоторые конструкты склонны быть мене стабильными, чем другие. Конструкты, которые отражают состояния, мене стабильны по сравнению с конструктами, отражающими более устойчивые характеристики такие как личностные черты.
Задание: Приведите примеры устойчивых и неустойчивых конструктов?
2. Истинные баллы изменяться с большей вероятностью по прошествии нескольких лет, чем нескольких недель или дней. Для проведения повторного тестирования используется интервал от 2 до 8 недель.
3. Период, на который приходится промежуток между двумя тестированиями, т.е. события которые произошли в период между тестом и ретестом.
Несмотря на то, что оценка надежности с помощью параллельных форм и ретеста имеет серьезную теоретическую проработку, эти методы страдают от ряда практических трудностей, таких как, необходимость дважды пройти тестирование, а также удовлетворение некоторых условий чтобы коэффициенты корреляции полученные с их помощью могли считаться хорошими.