Факторы, угрожающие внутренней и внешней валидности
Приводится 12 факторов, угрожающих валидности различных экспериментальных планов. Каждый фактор будет подробнее описан при обсуждении тех планов, в которых его действие проявляется наиболее отчетливо, и этот список будет завершен после обсуждения 10 из 16 планов. Основным при составлении этого списка было различение внутренней и внешней валидности.
Внутренняя валидность - это тот минимум, без которого не может быть интерпретирован ни один эксперимент: действительно ли именно это экспериментальное воздействие привело к изменениям в данном эксперименте? Внешняя валидность относится к возможности обобщения вывода: на какие популяции, ситуации, другие независимые переменные, параметры воздействия и переменные измерения могут быть распространены результаты эксперимента. Несомненно, что оба типа критериев являются важными, хотя часто они находятся в противоречии в том смысле, что увеличение валидности одного типа может угрожать валидности другого типа. Хотя внутренняя валидность есть условие sine qua non и хотя проблема внешней валидности, как и проблема индуктивного вывода, никогда не может быть полиостью решена, очевидно, что нашим идеалом является выбор таких экспериментальных планов, которые обеспечивают оба типа валидности. Это особенно важно для педагогических исследований, где весьма желательным является распространение данных на практические ситуации определенного характера. Различия и взаимоотношения между этими двумя видами валидности станут яснее после рассмотрения примеров при обсуждении конкретных типов эксперимента.
Далее будут представлены восемь различных классов внешних переменных, относящихся к внутренней валидности. Если эти переменные не контролируются в экспериментальном плане, то они могут дать эффекты, которые смешиваются с эффектом экспериментального воздействия. Эти переменные представляют влияние:
1) фона (history) — конкретных событий, которые происходят между первым и вторым измерением наряду с экспериментальным воздействием;
2) естественного развития (maturation) — изменений испытуемых, являющихся следствием течения времени per se (не связанных с конкретными событиями), например взросление, усиление голода, усталости и т. п.;
3) эффекта тестирования (testing) — влияния выполнения заданий, применяемых для измерения, на результаты повторного испытания;
4) инструментальной погрешности, нестабильности измерительного инструмента (instrumentation), при которой изменения в калибровке инструмента или изменения, характеризующие наблюдателя или оценочные показатели, могут вызвать изменения в результатах измерения;
5) статистической регрессии (statistical regression), имеющей место тогда, когда группы отбираются на основе крайних показателей и оценок;
6) отбора испытуемых (selection) — неэквивалентности групп по составу, вызывающей появление систематической ошибки в результатах;
7) отсева в ходе эксперимента (experimental mortality) — неравномерности выбывания испытуемых из сравниваемых групп;
8) взаимодействий фактора отбора с естественным развитием и др., которые в ряде квазиэкспериментальных планов с несколькими группами (таких, как план 10) ошибочно принимаются за эффект экспериментальной переменной.
К факторам, ставящим под угрозу внешнюю валидность, или репрезентативность эксперимента, относятся:
9) реактивный эффект, или эффект взаимодействия тестирования, — возможное уменьшение или увеличение сензитивности, или восприимчивости, испытуемых к экспериментальному воздействию под влиянием предварительного тестирования. Результаты лиц, прошедших предварительное тестирование, будут нерепрезентативны по отношению к тем, кто не подвергался предварительному тестированию, то есть тем, из кого состоит генеральная совокупность, из которых были отобраны испытуемые;
10) эффекты взаимодействия фактора отбора и экспериментального воздействия;
11) условия организации эксперимента, вызывающие реакцию испытуемых на эксперимент, которая не позволяет распространить полученные данные о влиянии экспериментальной переменной на лиц, подвергающихся такому же воздействию в неэкспериментальных условиях;
12) взаимная интерференция экспериментальных воздействий, нередко возникающая, когда одни и те же испытуемые подвергаются нескольким воздействиям, поскольку влияние более ранних воздействий, как правило, не исчезает. Это относится особенно к планам экспериментов с одной группой (планы типа 8 и 9).
Вопросы к письменной контрольной работе по итогам семинара.
Надежность теста.
Надежность теста - фундаментальная характеристика теста, которая показывает в какой степени стабильны результаты тестирования при неоднократном обследовании. Надежность теста может определяться путем повторного тестирования (через строго определенный отрезок времени) и вычисления коэффициента корреляции между результатами первого и повторного тестирования. Надежность теста может определяться и путем тестирования с помощью нескольких вариантов одного и того же теста, деления теста на две половины и т.д. Надежность результатов тестирования зависит не только от качества самого теста, но и от процедуры проведения тестирования (она должна быть абсолютно идентичной в первом и во втором случае), социально-психологической однородности выборки (н. т. будет различной для детей, мужчин, женщин, солдат первого года – службы, старослужащих солдат и т.д.). И может получиться, что будучи надежным для одной группы людей, тест окажется ненадежным для другой, результаты тестирования в последнем случае будут неверны. Таким образом, н.т., выражая степень неточности, возможность ошибки, возникающей неизбежно при любом тестировании, заставляет искать пути уменьшения этой ошибки, более конкретного, целеустремленного применения теста. Надежность лучших тестов составляет 0,8 - 0,9.
2. "Тест-ретест".
"Тест-ретест" показывает вероятность возникновения различных результатов при двух замерах одного и того же объекта одинаковым инструментом, но не дает никаких сведений об источнике ошибки. В частности, при повторном интервьюировании очень велика вероятность влияния первого замера на второй и последующие. Нормы морали предписывают держать свое слово, и те, у кого семь пятниц на неделе, не одобряются. Поэтому респондент склонен давать сходный ответ, если он запомнил его при первом опросе. В итоге оценка надежности инструмента будет явно завышена. На самом деле социологические признаки (особенно мнения и оценки) меняются. Если изменения будут зафиксированы, "тест-ретест" в данном случае покажет заниженную надежность.
3.Эквивалентные альтернативные формы (эквивалентные формы теста, equivalent forms of a test) являются подобными по цели и по существу, и для них полностью доказана статистическая однородность распределений вероятностей значений их показателей. В частности, для эквивалентных форм установлено, что средние, дисперсии (средние квадратические отклонения) однородны (для уровня значимости a ≤ 0,05, или то же что Q ≤ 5%), и установлено высокое значение коэффициента корреляции между ними (r ≥ 0,9 для уровня значимости a ≤ 0,05, или Q ≤ 5%).
Таким образом, деление на категории основано на степени доказанности однородности распределений вероятностей значений показателей альтернативных форм: (1) - однородность не доказана, (2) - однородность частично доказана, (3) - однородность доказана полностью.
Применение эквивалентных форм теста позволяет оценить вариативность исследуемой сущности или явления. При использовании в исследовании вероятностной методологии, когда предполагается, что вариативность сама является сущностным психофизиологическим показателем (Трифонов Е.В., 1962, ..., 2002), применение эквивалентных форм теста (или субтестов) является правилом.
4. Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).
5. Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.
Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности .
Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.
6. Виды валидности:
Очевидная (внешняя валидность) - отражает, насколько по внешнему впечатлению от методики можно определить её направленность.
Конкурентная валидность - характеризует, как результаты, полученные по данной методике, коррелируют с результатами по другим тестам.
Прогностическая валидность - отражает, как задания данной методики коррелируют с каким-либо поздним временным критерием.
Валидность по внешнему критерию - показывает, как задания методики коррелируют с каким-либо внешним критерием.
Содержательная валидность - определяет, насколько задания теста отражают все аспекты исследуемой области поведения.
Конструктная валидность.Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез.
7. Процедура эмпирической валидизации.
Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании достаточно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию. В результате применяется метод экстремальных (контрастных) групп. Коррелирование с суммарным баллом по тесту оценивается с помощью бисериального коэффициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x— сумма баллов по тесту, полученных «высокой» группой по критерию; - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.
8. Провести теоретическую валидизацию методики – это показать, действительно ли методика измеряет именно то свойство, качество, которое она, по замыслу исследователя, должна измерять. Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие школьников, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то другие особенности(например, личность, характер и т.п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психическими явлениями и их показателями, посредством которых эти психические явления пытаются познать. Она показывает, что замысел автора и результаты методики совпадают.
9. Приводится 12 факторов, угрожающих валидности различных экспериментальных планов. Каждый фактор будет подробнее описан при обсуждении тех планов, в которых его действие проявляется наиболее отчетливо, и этот список будет завершен после обсуждения 10 из 16 планов. Основным при составлении этого списка было различение внутренней и внешней валидности.
Внутренняя валидность - это тот минимум, без которого не может быть интерпретирован ни один эксперимент: действительно ли именно это экспериментальное воздействие привело к изменениям в данном эксперименте? Внешняя валидность относится к возможности обобщения вывода: на какие популяции, ситуации, другие независимые переменные, параметры воздействия и переменные измерения могут быть распространены результаты эксперимента. Несомненно, что оба типа критериев являются важными, хотя часто они находятся в противоречии в том смысле, что увеличение валидности одного типа может угрожать валидности другого типа. Хотя внутренняя валидность есть условие sine qua non и хотя проблема внешней валидности, как и проблема индуктивного вывода, никогда не может быть полиостью решена, очевидно, что нашим идеалом является выбор таких экспериментальных планов, которые обеспечивают оба типа валидности. Это особенно важно для педагогических исследований, где весьма желательным является распространение данных на практические ситуации определенного характера. Различия и взаимоотношения между этими двумя видами валидности станут яснее после рассмотрения примеров при обсуждении конкретных типов эксперимента.
Далее будут представлены восемь различных классов внешних переменных, относящихся к внутренней валидности. Если эти переменные не контролируются в экспериментальном плане, то они могут дать эффекты, которые смешиваются с эффектом экспериментального воздействия. Эти переменные представляют влияние:
1) фона (history) — конкретных событий, которые происходят между первым и вторым измерением наряду с экспериментальным воздействием;
2) естественного развития (maturation) — изменений испытуемых, являющихся следствием течения времени per se (не связанных с конкретными событиями), например взросление, усиление голода, усталости и т. п.;
3) эффекта тестирования (testing) — влияния выполнения заданий, применяемых для измерения, на результаты повторного испытания;
4) инструментальной погрешности, нестабильности измерительного инструмента (instrumentation), при которой изменения в калибровке инструмента или изменения, характеризующие наблюдателя или оценочные показатели, могут вызвать изменения в результатах измерения;
5) статистической регрессии (statistical regression), имеющей место тогда, когда группы отбираются на основе крайних показателей и оценок;
6) отбора испытуемых (selection) — неэквивалентности групп по составу, вызывающей появление систематической ошибки в результатах;
7) отсева в ходе эксперимента (experimental mortality) — неравномерности выбывания испытуемых из сравниваемых групп;
8) взаимодействий фактора отбора с естественным развитием и др., которые в ряде квазиэкспериментальных планов с несколькими группами (таких, как план 10) ошибочно принимаются за эффект экспериментальной переменной.
К факторам, ставящим под угрозу внешнюю валидность, или репрезентативность эксперимента, относятся:
9) реактивный эффект, или эффект взаимодействия тестирования, — возможное уменьшение или увеличение сензитивности, или восприимчивости, испытуемых к экспериментальному воздействию под влиянием предварительного тестирования. Результаты лиц, прошедших предварительное тестирование, будут нерепрезентативны по отношению к тем, кто не подвергался предварительному тестированию, то есть тем, из кого состоит генеральная совокупность, из которых были отобраны испытуемые;
10) эффекты взаимодействия фактора отбора и экспериментального воздействия;
11) условия организации эксперимента, вызывающие реакцию испытуемых на эксперимент, которая не позволяет распространить полученные данные о влиянии экспериментальной переменной на лиц, подвергающихся такому же воздействию в неэкспериментальных условиях;
12) взаимная интерференция экспериментальных воздействий, нередко возникающая, когда одни и те же испытуемые подвергаются нескольким воздействиям, поскольку влияние более ранних воздействий, как правило, не исчезает. Это относится особенно к планам экспериментов с одной группой (планы типа 8 и 9).
10. Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована.
10.Стандартизация (по Анастази) – это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний. Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.
11.Требования к проведению теста
1. инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же сло-вами, понятными для всех, в одинаковой манере;
2. ни одному испытуемому не следует давать никаких преимуществ перед другими;
3. в процессе теста не следует давать отдельным испытуемым дополнительные пояснения;
4. тест с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;
5. временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и так далее.
12. Отдельно следует остановиться на классификации диагностических процедур по такому критерию, как характер оценки. Совершенно естественно, что практически любой вид психологической диагностики можно рассматривать как процедуру экспертизы, то есть «рассмотрение какого-либо вопроса экспертами для вынесения заключения», «исследование какого-либо вопроса, требующего специальных знаний с представлением мотивированного заключения» (Толковый словарь русского языка, 1995).
Конечной целью любой экспертизы является ответ на поставленный заказчиком вопрос, который оформляется в виде экспертного заключения. Вопросы, решаемые экспертным исследованием, определяются на основе реальных потребностей практики. Основными форм
13. Выборка стандартизации - множество испытуемых, на котором собираются диагностические нормы и проводится стандартизация диагностической шкалы.
Всякая большая совокупность людей, которую хотели бы исследовать или относительно которых собираются делать выводы, называется генеральной совокупностью.
14. В общих чертах стандартизация диагностической методики, ориентированной на норму, осуществляется путем ее проведения на большой представительной выборке испытуемых, которая ничем не отличается от той, для которой данная методика предназначена. На этой группе испытуемых, называемой выборкой стандартизации, разрабатываются нормы, указывающие не только средний уровень выполнения, но и его относительную вариативность выше и ниже среднего уровня. В результате можно оценить разные степени успешности или неуспешности в выполнении диагностической пробы. Это позволяет определить положение конкретного испытуемого относительно выборки стандартизации.
Для вычисления статистической нормы психологи-диагносты обратились к давно применяемым в биологии приемам математической статистики.
Рассмотрим пример.
На призывной пункт явилось несколько тысяч молодых людей.
Допустим, что все они примерно одного возраста. Что мы получим при измерении их роста? Обычно оказывается, что большинство почти одного роста, совсем немного будет людей очень маленького и очень высокого роста. Остальные же распределятся симметрично, уменьшаясь по количеству от среднего максимума в ту и другую сторону. Распределение рассматриваемых величин — это нормальное распределение (или распределение по нормальному закону, кривая распределения Гаусса). Математики показали, что для описания такого распределения достаточно знать два показателя — среднюю арифметическую и так называемое стандартное отклонение, которое получается путем несложных вычислений. Назовем среднюю арифметическую х, а стандартное отклонение ? (сигма малая). При нормальном распределении все изучаемые величины практически находятся в пределах х + 5 ?.
Рассмотрим как определялась статистическая норма для тестов Стэн-форд-Бине. В группу испытуемых входили 4498 человек от 2,5 до 18 лет. Усилия стэнфордских психологов были направлены на то, чтобы распределение полученных по каждому возрасту данных о выполнении тестов было близко к нормальному. Этого результата удалось добиться далеко не сразу; в некоторых случаях ученым приходилось заменять одни задания другими. В конце концов эта работа была закончена, и были подготовлены тесты по каждому возрасту со средней арифметической, равной 100, и со стандартным отклонением, равным 16. Принимается, что результаты в пределах х ± ? показывают границы наиболее характерной, представительной части распределения, границы нормы для данного возраста. При ? = 16 и х = 100 эти границы нормы будут от 84 до 116. Интерпретируется это так: результаты испытуемых, которые не выходят за эти границы, находятся в пределах нормы. Те, чьи результаты менее 84, находятся ниже нормы, а те, чьи результаты более 116, — выше нормы. Нередко этот же прием применяют и для дальнейшей классификации. Тогда результаты в пределах от х - ? до х - 2 ? интерпретируются как «несколько ниже нормы», а от х - 2 ? до х - З ? — как «значительно ниже нормы». Соответственно классифицируются результаты, находящиеся выше нормы.
15. В психодиагностике существует и другой подход к оценке результатов диагностических испытаний. В нашей стране под руководством К. М. Гуревичаразрабатываются тесты, в которых в качестве точки отсчета выступает не статистическая норма, а независимый от результатов испытания, объективно заданный социально-психологический норматив.
Социально-психологический норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Все сопоставления индивидуальных или групповых результатов тестирования проводятся с тем максимумом, который представляется в тесте (а это полный набор знаний). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. Имеется разработанная схема представления групповых количественных данных.
Для анализа данных относительно их близости к социально-психологическому нормативу, условно рассматриваемому как 100 %-ное выполнение всего теста, все испытуемые подразделяются по результатам тестирования на 5 подгрупп:
1) наиболее успешные — 10%;
2) близкие к успешным — 20 %;
3) средние по успешности — 40 %;
4) мало успешные — 20 %;
5) наименее успешные — 10%.
Для каждой из подгрупп подсчитывается средний процент правильно выполненных заданий. Строится система координат, где по оси абсцисс идут номера подгрупп, по оси ординат — процент выполненных каждой из подгрупп заданий. После нанесения соответствующих точек вычерчивается график, отражающий приближение каждой из подгрупп к социально-психологическому нормативу. Такая обработка проводится по результатам как теста в целом, так и каждого субтеста в отдельности.