Значение и важность надежности по внутренней согласованности
Вербальные и невербальные методы психодиагностики.
различают вербальные и невербальные психодиагностические методики.
Первые так или иначе опосредованы речевой активностью обследуемых; составляющие эти методики задания апеллируют к памяти, воображению, системе убеждений в их опосредованной языком форме. Вторые включают речевую способность испытуемых только в плане понимания инструкций, само же выполнение задания опирается на невербальные способности — перцептивные, моторные.
Вербальные (от латинского verbalis - словесный) и невербальные тесты различаются по характеру стимульного материала.
В вербальных тестах от испытуемых требуется в том или ином виде работать со словами: производить операции с понятиями, мыслительные действия в словесной форме. Данные тесты очень чувствительны к различиям в языковой культуре, уровню образования, профессиональным особенностям. Можно даже выдвинуть такую максиму: если неверное понимание смысла слов может сказаться на результатах тестирования, значит этот тест вербальный. В самом деле, если испытуемый не понимает смысла слова "философия", то он не сможет ответить на вопрос вроде такого: "Вы любите читать книги по философии?"
Вербальный тип заданий распространен среди многих тестов интеллекта, тестов достижений, при оценке специальных способностей (например, творческих) и, разумеется, в опросниках.
Невербальные тесты (или невербальные типы заданий) - такой тип методик, в которых тестовый материал представлен в наглядной форме (в виде картинок, чертежей, графических изображений и т.п.). К сожалению, полностью избавиться от вербального компонента все равно не получится, потому что инструкцию все равно придется понимать. Однако само выполнение заданий опирается лишь на перцептивные, психомоторные функции, деятельность наглядного мышления.
Одним из самых известных невербальных тестов являются "Прогрессивные матрицы Равена". Невербальные тесты уменьшают влияние языковых и культурных различий на результат обследования. В тесте Равена задания имеют настолько абстрактный характер, что их сложно заподозрить хоть в какой-то связи с культурными особенностями.
Невербальные тесты также облегчают процедуру обследования испытуемых с нарушением речи, слуха или с низким уровнем образования. Они также широко используются при оценке пространственного и комбинаторного мышления.
В настоящее время невербальных тестов разрабатывается не так уж много. В основном невербальные задания включаются отдельными субтестами во многие тесты интеллекта, общих и специальных способностей, тесты достижений.
Дискриминативность тестовых баллов
ДИСКРИМИНАТИВНОСТЬ - это способность отдельных заданий теста и теста в целом дифференцировать обследуемых относительно “максимального” и “минимального” результатов теста. Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d = 1).
При разработке теста необходимо стремиться к тому, чтобы его задания как можно тоньше измеряли тестируемое свойство. Например, если в результате обследования почти все испытуемые получают примерно одинаковые результаты, то это означает, что тест измеряет очень грубо. Чем большее количество градаций результатов можно получить при помощи теста, тем выше его разрешающая способность. Мера тонкости измерения (или степень диффиренцируемости результатов) теста называется дискриминативностью. Дискриминативность теста измеряется показателем дельта Фергюсона:
,
где N – количество испытуемых , n – количество заданий, fi - частота встречаемости каждого показателя.
Наименьшая дискриминативность теста при δ = 0, наибольшая при δ = 1.
Значение и важность надежности по внутренней согласованности.
В психодиагностике стремятся разрабатывать тесты, являющиеся в высокой степени внутренне согласованными, по той очевидной причине, что если некоторая переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом оказывается, что для того, чтобы тест был валидным (то есть измерял именно то, для измерения чего он предназначен), он должен быть согласованным: общепринятая в психометрии точка зрения состоит именно в том, что высокая надежность является предпосылкой валидности.
Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения
Внутренняя согласованность(англ. - internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно "узкую" переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.
Для проверки внутренней согласованности применяются:
Метод расщепления или метод автономных частей
Метод эквивалентных бланков
Альфа Кронбаха
Метод расщепления (Split-half reliability)[править | править вики-текст]
Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.
Метод эквивалентных бланков[править | править вики-текст]
МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.
Метод альфа Кронбаха[править | править вики-текст]
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
Вычисление Кронбаха[править | править вики-текст]
Кронбаха определяется как
,
где - число элементов в шкале, - дисперсия общего тестового балла, и - дисперсия элемента .
Альтернативный способ вычисления выглядит следующим способом:
где N - число элементов в шкале, - средняя дисперсия для выборки, - среднее значение для всех ковариаций между компонентами выборки.
В настоящее время Кронбаха считают при помощи SPSS, STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel
Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным