Оценка валидности методики может носить количественный и качественный характер.
Для вычисления количественного показателя — коэффициента валидности — сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200 Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20— 0,30, средним — 0,30—0,50 и высоким — свыше 0,60.
Но, как подчеркивают А. Анастази (1982), К.М. Гуревич (1970) и др , не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40% решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии Наглядный пример из монографии КМ Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью — это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.
Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так Ф Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешает им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.
Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель — клинические оценки. Это не что иное, как качественное описание сущности изучаемого
свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.
Существует несколько видов валидности,обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия Во многих работах (А Анастази, 1982; Л.Ф Бурлачук, СМ. Морозов, 1989; КМ. Гуревич, 1970; Б.В Кулагин, 1984; В Черны, 1983; "Общая психодиагностика", 1987 и др ) называются чаще всего следующие:
1. Валидность "по содержанию".Этот прием используется в основном в тестах
достижений. Обычно в тесты достижений включается не весь материал, который
прошли учащиеся, а какая-то его небольшая часть (3—4 вопроса). Можно ли быть
уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об
усвоении всего материала. На это и должна ответить проверка валидности по
содержанию. Для этого проводится сопоставление успешности по тесту с экспертными
оценками учителей (по данному материалу). Валидность "по содержанию" также
подходит к критериально-ориентированным тестам. Иногда этот прием называют
логической валидностью.
2. Валидность "по одновременности",или текущая валидность, определяется с
помощью внешнего критерия, по которому информация собирается одновременно с
экспериментами по проверяемой методике. Другими словами, собираются данные,
относящиеся к настоящему времени успеваемость в период испытания,
производительность в этот же период и т д. С ним коррелируют результаты успешности
по тесту.
3. "Предсказывающая" валидность(другое название — "прогностическая"
валидность). Определяется также по достаточно надежному внешнему критерию, но
информация по нему собирается некоторое время спустя после испытания. Внешним
критерием обычно бывает выраженная в каких-нибудь оценках способность человека к
тому виду деятельности, для которой он отбирался по результатам диагностических
испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик —
предсказанию будущей успешности, применять его очень трудно. Точность прогноза
находится в обратной зависимости от времени, заданного для такого прогнозирования.
Чем больше проходит времени после измерения, тем большее количество факторов
требуется учитывать при оценке прогностической значимости методики. Однако учесть
все факторы, влияющие на предсказание, практически невозможно.
4. "Ретроспективная" валидность.Она определяется на основе критерия,
отражающего события или состояние качества в прошлом. Может быть использована
для быстрого получения сведений о предсказательных возможностях методики. Так, для
проверки того, в какой мере хорошие результаты теста способностей соответствуют
быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые
экспертные заключения и т.д. у лиц с высокими и низкими на данный момент
диагностическими показателями.
При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, к
которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой — низкой. Поэтому если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.
Литература
Анастази А. Психологическое тестирование' В 2 кн. / Под ред. К.М. Гуре-вича, В И. Лубовского М., 1982. Кн 1.
Гуревич К.М О надежности психофизиологических показателей // Проблемы дифференциальной психофизиологии М., 1969 Т VI. С 266—275.
Гуревич К.М Надежность психологических тестов // Психологическая диагностика Ее проблемы и методы М , 1975 С 162—176.
Гуревич КМ Статистика — аппарат доказательства психологической диагностики//Проблемы психологической диагностики Таллин 1977. С 206—225
Гуревич К.МЧ^о такое психологическая диагностика М., 1985.
Глава IV
ДИАГНОСТИКА УМСТВЕННОГО РАЗВИТИЯ И ОБЩИХ СПОСОБНОСТЕЙ
§ 1. УМСТВЕННОЕ РАЗВИТИЕ И ИНТЕЛЛЕКТ
Умственное развитие характеризуется совокупностью знаний, умений и набором умственных действий, которые сформировались в процессе приобретения этих знаний. Таково общепринятое в отечественной психологии понимание умственного развития. По существу, умственное развитие — это характеристика способов, форм и содержания мышления человека.
Современная психология и педагогика убедительно доказывают, что уровень мыслительной деятельности определяется содержанием знаний и умений, которые учитель дает учащимся (М.Н. Шардаков, 1963, В.В. Давыдов, 1986). Важен не только объем, но и качество знаний, т.е их глубина, осмысленность, динамичность. Характер усвоенных знаний определяет и качество освоенных умственных действий. Уровень умственного развития является основой, базой для усвоения новых знаний и умений, возникновения и функционирования новых умственных действий. По мнению К.М. Гуревича и Е.И. Горбачевой (1991), одним из признаков умственного развития следует считать присущую ему качественную направленность, избирательность по отношению к различным областям теории и практики, что проявляется в развитии различных видов мышления — лингвистического, естественнонаучного, математического. Но наиболее общей характеристикой уровня умственного развития является все же подготовленность функционирования мышления в пределах возрастного социально-психологического норматива. Иначе говоря, уровень умственного развития должен в первую очередь отражать наиболее типичные, общие, характерные возрастные особенности мыслительной деятельности, касающиеся как объема и качества знаний и умений, так и запаса определенных умственных действий.
В этом плане проблема умственного развития смыкается с проблемой интеллекта, или общей умственной способности. Интеллект — не сумма знаний и умственных операций, а то, что способствует их успешному усвоению. Достигнутый индивидом уровень умственного развития зависит от его интеллектуальных способностей. Поэтому нельзя не согласиться со справедливым утверждением Н.С. Лейтеса, что "умственное развитие не является чем-то внешним по отношению к способностям. Внутренняя близость умственного развития и умственных способностей не могут вызывать сомнения" (Н.С. Лейтес, 1960).
Но несомненно и другое: уровень умственного развития зависит не только от интеллекта, он обусловлен многими факторами, такими, как условия жизни, особенности учебного заведения, методы обучения и пр. В отечественной психологии имеется целое направление исследований, показывающих тесную связь между уровнем умственного развития и содержанием обучения, а также характером воспитательных методов (В.В. Давыдов, 1972, 1986; А.З. Зак, 1979, 1984). Например, одни и те же знания могут обусловить разный тип мышления учащегося (эмпирический или теоретический), все зависит от организации учебного процесса (А.З. Зак, 1984).
О роли метода обучения в формировании мышления говорят исследования, связанные с теорией поэтапного формирования умственных действий. В работах, базирующихся на этой теории, представлены теоретически и методически разработанные способы планомерного и управляемого развития мышления (Н.Ф. Талызина, 1975).
Итак, если в прошлом мышлению не обучали или делали это более или менее бессознательно, нецеленаправленно, считая, что мышление либо есть, либо его нет, а уровень мыслительной деятельности не зависит от обучения, то сегодня прогрессивные психологи и педагоги показывают, что продуктивному мышлению можно научить.
В связи с этой проблемой естественно возникает вопрос о соотношении умственного развития с понятием "обучаемость". Какие психологические сущности отражают эти термины, одинаковые или разные?
Проблема обучаемости школьников детально изучалась в лаборатории Н.А. Менчинской. З.И. Калмыкова, выбрав в качестве основного показателя темп продвижения, нашла, что чем выше уровень развития, тем выше темп продвижения, т.е. обучаемость (1968). Позднее Калмыкова стала отождествлять ее с умственными способностями, что, на наш взгляд, является неправомерным, так как обучаемость слишком зависима от методов и средств обучения, личности учителя и пр. Более того, обучаемость нельзя отождествлять и с уровнем умственного развития. Н.С. Лейтес на основе собственных исследований пришел к выводу, что если уровень умственного развития школьников возрастает от младших классов к старшим, то обучаемость не прогрессирует аналогичным образом (1971). Напротив, обучаемость школьников младших классов в некоторых отношениях превосходит обучаемость школьников последующих классов. Поэтому нельзя оценивать уровень умственного развития ребенка на основе его обучаемости, не принимая во внимание возрастные особенности индивидов.
Из всего вышесказанного следует вывод о неправомерности отождествления понятий "уровень умственного развития", "интеллект" и "обучаемость". Диагностика этих психологических феноменов также должна быть различной.
Но практически диагностика умственного развития возникла как тестирование интеллекта и в этом русле развивалась на протяжении первой половины XX века. Интеллектуальные тесты явились продолжением шкал Бине—Симона, о которых шла речь в гл. I.
§ 2. ДИАГНОСТИКА ИНТЕЛЛЕКТУАЛЬНОГО УРОВНЯ ТЕСТ Д ВЕКСЛЕРА
Наиболее удачная и жизнеспособная адаптация тестов Бине—Симона, названная шкалами Стэнфорд—Бине, в течение многих лет служила единственным инструментом для измерения интеллектуальных способностей, а также использовалась в качестве критерия валидности новых интеллектуальных тестов. Этим в значительной степени объясняется тот факт, что IQ стал представляться символом интеллекта, а не показателем по определенному тесту. Сыграла свою роль и относительная стабильность IQ, установленная при повторных испытаниях одних и тех же групп индивидов через некоторый промежуток времени, о причине чего будет сказано позднее.
Остановимся на другом типе индивидуальных тестов, предназначенных для тех же целей, что и шкала Стэнфорд—Бине. В 1939 г. была опубликована первая форма шкал Дэвида Векслера, известная как шкала интеллекта Векслера—Белльвью. Она предназначалась для тестирования взрослых. Она имела ряд методических недостатков (это касалось величины и репрезентативности нормативной выборки и надежности субтестов) и позднее была переработана. В 1955 г. была опубликована одна из последних шкал интеллекта для взрослых (WAIS). Она содержала 11 субтестов. 6 субтестов составляли вербальную шкалу и 5 — шкалу действия. В вербальную шкалу входили субтесты на осведомленность, понимание, решение арифметических задач, нахождение сходства, запоминание цифр и определение словарного запаса. Шкала действия состояла из субтестов "Цифровые символы", "Завершение картинок", "Конструирование блоков", "Расположение картинок", "Сборка объектов".
При стандартизации шкалы Векслера нормативная выборка состояла из 1700 испытуемых с равным количеством мужчин и женщин. Испытуемые в возрасте от 16 до 64 лет были распределены по 7 возрастным уровням. При комплектовании выборки исследователи опирались на данные переписи населения США за 1950 г. Учитывалось пропорциональное распределение населения по географическим районам, принадлежность к городскому или сельскому населению, к белой или цветной расе, учитывались также уровень образования и профессия. На каждом возрастном уровне в выборку были введены один мужчина и одна женщина, находящиеся в учреждении для умственно отсталых.
Для пожилых людей были установлены дополнительные нормы путем тестирования выборки лиц пожилого возраста, состоящей из 475 человек в возрасте от 60 лет из типичного города среднего запада. Для каждого возраста были установлены стандартные IQ со средним значением 100 и а, равной 15. Показатели надежности шкалы высоки и расположены от 0,93 до 0,97 (в зависимости от шкал и отдельных субтестов). Валидность, установленная по корреляции с тестами Стэнфорд—Бине, около 0,87, а валидность по внешнему критерию (с оценками в колледже) порядка 0,40—0,50.
Помимо шкал для взрослых, Векслером были созданы шкалы для детей (от 6,0 до 15 лет 11 мес.). Последнее издание WISC было опубликовано в 1974 г. В него были включены 12 субтестов. По сравнению со шкалой для взрослых тест для детей включает еще один дополнительный субтест "Лабиринты".
Стандартизация проводилась на выборке, состоящей из 100 мальчиков и 100 девочек по каждому годовому интервалу; общая численность выборки равнялась 2200. Она подбиралась так же тщательно на основе переписи населения США 1970 года, как это было сделано и для взрослых. Среднее значение показателей для каждой из шкал и для полного теста — 100ио= 15.
Показателями валидности были коэффициенты корреляции, полученные в результате сопоставления с показателями выполнения теста Стэнфорд—Бине. Они находились в пределах от 0,6 до 0,73. Коэффициенты надежности по методу ретеста для вербальной шкалы равнялись 0,93, для шкалы действий — 0,90, для полной шкалы — 0,95.
Векслером была создана также шкала для дошкольников и младших школьников (для возраста от 4 до 6,5 лет). Эта шкала была опубликована в 1967 г. Она состоит из 11 субтестов, 8 из которых представляют собой облегченные и адаптированные варианты заданий WISC, а остальные 3 были разработаны в качестве замены непригодных по тем или иным причинам субтестов WISC. В вербальной шкале таким новым субтестом был субтест "Предложения" (тест на запоминание, в котором от ребенка требуется вслед за экспериментатором повторять каждое произносимое им предложение). Новый субтест "Дом животного" сходен с субтестом "Цифровые символы". Субтест "Геометрические схемы" требует от ребенка скопировать 10 простых чертежей.
Стандартизация проводилась так же тщательно, как и для других векслеровских шкал. Размер референтной выборки был 1200 детей.
Выборка была стратифицирована относительно переписи США 1960 г. Стандартный IQ имел среднее 100 и квадратичное отклонение 15. Коэффициенты надежности при повторном тестировании равнялись для вербальной шкалы 0,86, для шкалы действия 0,89, для полной шкалы — 0,92. Валидность определялась путем корреляции с тестом Стэнфорд—Бине; коэффициенты корреляции по вербальной шкале равнялись 0,76, для шкалы действия — 0,56. Коэффициент по полной шкале равен 0,75.
Итак, в настоящее время имеются три формы шкал Векслера. Все они характеризуются высокими формальными показателями. От тестов Стэнфорд—Бине эти шкалы отличаются некоторыми важными параметрами:
1) задания одного типа в этих тестах не сгруппированы по возрастным уровням, а
объединены в субтесты и расположены в порядке возрастающей трудности;
2) субтесты разделяются на вербальные (объединяемые в вербальную шкалу) и
действия (объединяемые в шкалу действия); для каждой шкалы в отдельности
вычисляется IQ.
Помимо использования шкал Векслера для измерения общего интеллекта они применяются и как вспомогательное средство психиатрического диагноза.
Рассмотрим еще один тест интеллекта, относимый к разряду групповых. § 3. ТЕСТ Р. АМТХАУЭРА
Один из известнейших групповых тестов, широко используемых в немецкоязычных странах, — Тест структуры интеллекта Рудольфа Амтхауэра. Он создан в 1953 г. (последняя редакция осуществлена в 1973 г) и предназначен для измерения уровня интеллектуального развития лиц в возрасте от 13 до 61 года.
Тест отличается хорошими методическими показателями: коэффициент ретестовой надежности (интервал 1 год) — 0,83—0,91; коэффициент параллельных форм — 0,95; надежности частей теста (по методу "расщепления") — 0,97. Валидность, определяемая по связи с успеваемостью, — 0,46; с экспертными оценками уровня интеллектуального развития — 0,62.
Стандартизация теста проводилась на выборке из 4076 испытуемых, средний показатель по сырым (первичным) баллам равнялся 82. После стандартизации новая средняя равнялась 100, о = 10.
Тест разрабатывался в первую очередь для диагностирования уровня общих способностей в связи с проблемами профессиональной психодиагностики. При его создании Р. Амтхауэр исходил из концепции, согласно которой интеллект является специализированной подструктурой в целостной структуре личности и тесно связан с другими компонентами личности, такими, как волевая и эмоциональная сферы, интересы и потребности.
Интеллект понимался Амтхауэром как единство некоторых психических способностей, проявляющихся в различных формах деятельности. В тест им были включены задания на диагностику следующих компонентов интеллекта: вербального, счетно-математического, пространственного, мнемического.
Тест состоит из девяти субтестов,каждый из которых направлен на измерение различных функций интеллекта. Шесть субтестов диагностируют вербальную сферу, два — пространственное воображение, один — память. Во всех группах заданий, за исключением 4—6 субтестов, используются задачи закрытого типа
Субтест 1.Логический отбор исследование индуктивного мышления, чутья языка. Задача испытуемого заключается в том, чтобы закончить предложение одним из приведенных слов. Пример задания: Противоположностью понятия "верность" является
а) любовь; б) ненависть; в) дружба; г) предательство; д) вражда.
Субтест2. Определение общих черт: исследование способности к абстрагированию, обобщению, оперированию вербальными понятиями В задачах предлагается пять,слов, из которых четыре объединены определенной смысловой связью, а одно лишнее. Это слово и следует выделить в ответе.
Пример: а) рисунок; б) картина; в) графика; г) скульптура; д) живопись.
Субтест 3.Аналогии: анализ комбинаторных способностей. В заданиях предлагаются три слова, между первым и вторым существует определенная связь. После третьего слова — прочерк. Из пяти прилагаемых к заданию вариантов необходимо выбрать такое слово, которое было бы связано с третьим таким же образом, как и первые два.
Пример: дерево — строгать, железо — ?
а) чеканить; б) сгибать; в) лить; г) шлифовать; д) ковать.
Субтест 4.Классификация: оценка способности выносить суждение, обобщать Испытуемый должен обозначить два слова общим понятием Пример дождь — снег Правильным ответом будет слово "осадки".
Субтест5. Задания на счет: оценка уровня развития практического математического мышления, сформированности математических навыков. Пример-Сколько километров пройдет товарный поезд за 7 часов, если его скорость 40 км/ч?
Субтест 6.Ряды чисел: анализ индуктивного мышления, способности оперировать числами. В заданиях требовалось установить закономерность числового ряда и продолжить его.
Пример- 6, 9, 12, 15, 18, 21, 24, ?
Субтест7. Выбор фигур: исследование пространственного воображения, комбинаторных способностей. В заданиях приводятся разделенные на части геометрические фигуры. При выборе ответа следует найти карточку с целой фигурой, которой соответствуют разделенные части.
Субтест 8.Задания с кубиками: исследуется то же, что и в 7-м субтесте. В заданиях предъявлялись изображения кубиков с различно обозначенными гранями. Кубики были определенным образом повернуты и перевернуты в пространстве, так что иногда появлялись новые, неизвестные испытуемому грани. Необходимо было определить, какой из пяти кубиков-образцов изображен на каждом рисунке.
Субтест 9.Задания на способность сосредоточить внимание и сохранить в памяти усвоенное. Предлагается запомнить ряд слов, которые объединены в таблице по определенным категориям, например, цветы: тюльпан, жасмин, гладиолус, гвоздика, ирис; или животные: зебра, уж, бык, хорек, тигр. Время заучивания — 3 минуты. Затем тетради с заданиями собираются, и испытуемым выдаются листы с вопросами такого типа: С буквы "б" начиналось слово:
а) растения; б) инструменты; в) птицы; г) произведения искусства; д) животные.
Общее время обследования (без подготовительных процедур и инструктажа испытуемых) — 90 минут. Время выполнения каждого субтеста ограничено и колеблется от 6 до 10 минут.
В нашей стране адаптированный вариант теста Амтхауэра был использован при обследовании учащихся 8—10 классов городских и сельских школ. Получены данные о достаточно высокой надежности и валидности этого теста (М.К. Акимова с соавторами, 1984).
Р. Амтхауэр при интерпретации результатов теста предполагал, что с его помощью можно судить о структуре интеллекта испытуемых (по успешности выполнения каждого субтеста). Для грубого анализа "умственного профиля" он предлагал подсчитать отдельно результаты по первым четырем и по следующим пяти субтестам. Если суммарная оценка первых четырех субтестов превышает суммарную оценку следующих пяти субтестов, значит у испытуемого больше развиты теоретические способности. Если наоборот, то практические способности.
При интерпретации полученных в отечественных исследованиях данных примененялся новый критерий, который был предложен К.М. Гуревичем и назван социально-психологическим нормативом (СПН). Социально-психологический норматив — это система требований, которые общность предъявляет каждому из своих членов и которым каждый должен соответствовать, если не хочет быть отторгнутым своей общностью. Оценка результатов тестирования в этом случае должна основываться на
степени близости к СПН, который дифференцируется в образовательно-возрастных группах. Использование в качестве критерия выполнения СПН выдвигает на первый план качественный анализ данных.
§ 4 НЕЯЗЫКОВЫЕ ТЕСТЫ, ТЕСТЫ ДЕЙСТВИЯ И СВОБОДНЫЕ ОТ ВЛИЯНИЯ КУЛЬТУРЫ ТЕСТЫ
Особо рассмотрим тесты интеллекта, разработанные для испытания людей, которых невозможно адекватно оценить с помощью вербальных тестов. Речь идет о младенцах, о детях с дефектами речи, с некоторыми психическими и физическими недостатками, о говорящих на иностранном языке, неграмотных, а также о лицах из неблагоприятной культурной среды и некоторых других. Для исследования этих групп испытуемых применяются либо тесты действия, либо неязыковые тесты, либо тесты, свободные от влияния культуры.
Одним из первых тестов действия, разработанных для испытания умственно отсталых детей, является тест воспроизведения прежнего порядка на доске. Созданный Э. Сегеном еще в 1866 г., он применяется и в настоящее время. Тест состоит в следующем. На доске расположены от 2 до 5 предметов; экспериментатор снимает их и складывает в определенном порядке. Испытуемый должен как можно быстрее вернуть предметы на прежнее место. Допускается три пробы; показателем по тесту является самое короткое время, необходимое для выполнения задания. Тесты, подобные этому, но большей трудности, применяются для испытания иностранцев. Широко применяется Лабиринтный тест Портеуса, разработанный в 1914 г. и усовершенствованный в 1959 г. Он состоит из серии изображенных линиями лабиринтов возрастающей трудности. От испытуемого требуется, не отрывая карандаша от бумаги, провести кратчайший путь от входа до выхода из лабиринта. Этот тест используется для исследования самых разных групп людей, включая умственно отсталых, правонарушителей и др.
Подобные тесты действия были объединены в шкалу тестов исполнения Артура в 1930 г., стандартизированную на единой выборке и единообразную по методу оценки каждого теста. Вторая форма этой шкалы была выпущена в 1947 г. Она состоит из 4 модифицированных старых тестов и одного нового, стандартизирована на новой выборке и применяется в качестве замены первой формы при повторном тестировании.
Несколько слов о тестировании младенцев и дошкольников (до 5 лет). Тестирование этого контингента испытуемых проходит индивидуально. Большинство тестов являются либо тестами действия, либо устными тестами; некоторые включают элементарные действия с карандашами и бумагой; часть тестов измеряет сенсорное и моторное развитие. Наиболее часто для тестирования младенцев применяется разработанная Р.Б. Кеттеллом Шкала интеллекта ребенка, охватывающая возрастные уровни от 2 до 30 месяцев. Н. Бейли была подготовлена. Шкала развития ребенка, предназначенная для детей от рождения до 15 месяцев. Шкала состоит из 3 частей: Умственная шкала направлена на оценку сенсорного развития, памяти, способности к научению, зачатков развития речи; Моторная шкала измеряет уровень развития мышечной координации и манипулирования; Запись о поведении ребенка предназначена для регистрации эмоциональных и социальных проявлений поведения, объема внимания, настойчивости и т д.
Шкалы Бейли нормированы на выборке из 1262 детей, имеют высокие показатели
надежности и валидности. По мнению видного тестолога А Анастази (1982), шкалы Бейли выгодно отличаются от других методик для детей раннего возраста и весьма полезны для раннего распознавания всякого рода нарушений и отклонений развития ребенка.
Обычно тесты для младенцев и дошкольников стандартизированы на выборках, меньших по величине и репрезентативности, чем нормативные выборки других тестов. Они менее надежны, чем тесты для старших возрастов. Определение валидности этих тестов затруднено из-за недостатка пригодных критериев. Валидность тестов для младенцев определяется, главным образом, по двум критериям: возрастные различия и предсказание последующего развития уровня интеллекта. С точки зрения первого критерия тесты для младенцев в целом показывают неплохую валидность. Однако их предсказательная валидность очень низка: так, корреляции показателей теста Кеттелла для детей в возрасте до года и теста Стэнфорд—Бине для детей трехлетнего возраста близки к 0.
Остановимся на некоторых важных проблемах, возникающих при тестировании представителей разных культурных групп. Изначальная связь тестирования интеллекта с культурой определенной социальной группы ограничивает сферу применения тестов. Они оказываются неадекватными для обследования лиц, принадлежащих к иной культуре, нежели та, в которой эти тесты создавались. Поэтому перед исследователями встала проблема создания таких интеллектуальных тестов, которые были бы свободны от влияния культуры. При создании таких тестов пытаются чаще всего исключить параметры, по которым эти культуры различаются.
Наиболее известный параметр — язык, другой параметр — скорость выполнения теста, еще одно различие — наличие информации, специфичной для некоторых культур. Эти типы различий между культурными группами привели к тому, что тесты для испытания представителей разных культур делают преимущественно неязыковыми, исключают влияние скорости выполнения, в них не используется информация, специфичная для некоторых культур.
Однако следует с полной определенностью сказать, что совершенно исключить влияние культурных различий на тестовые результаты не представляется возможным. Каждый тест, по мнению Анастази, благоприятен для лиц той культуры, в которой он был разработан. Важно отметить, что не только содержание теста, но также эмоциональные и мотивационные факторы ситуации опытов влияют на исполнение теста. Каждая культура стимулирует развитие одних способностей и образцов поведения и не поощряет, а подавляет развитие других. Поэтому по тестам, разработанным в американской культуре, американцы будут выгодно отличаться от других народов, а по результатам тестов, разработанных в другой культуре, не похожей на американскую, напротив, американцы, возможно, не будут соответствовать установленным нормам.
В отношении валидности тестов, разрабатываемых для сравнительного испытания представителей разных культур, сведения неутешительны. Эти тесты обладают малой валидностью в любой культуре, так как конструируются из элементов, равно знакомых (насколько возможно) во многих культурах, и, следовательно, измеряют тривиальные функции. По существу, устранение культурных различий из теста означает исключение из него интеллектуальных компонентов. "Свобода от культуры" есть просто "свобода от интеллекта" (Дж. Брунер, 1977).
Первым неязыковым групповым тестом был армейский тест "Бета", разработанный в период первой мировой войны (1918) для испытания солдат-иностранцев и неграмотных. В настоящее время используется переработанная и заново стандартизированная в 1946 г. форма этого теста. Она состоит из 6 субтестов, таких, как "Лабиринты", "Завершение картинок", "Нарисованные нелепости" и др.
В так называемых чистых, не тронутых культурой тестах стремятся исключить некоторые главные культурные различия не только в языке, но и в знаниях, интеллектуальных умениях. Пример такого рода тестов — Интеллектуальный тест, свободный от влияния культуры, разработанный Р.Б. Кеттеллом. Этот тест типа "карандаш—бумага", охватывающий 3 возрастных и интеллектуальных уровня: от 4 до 8 лет и умственно отсталых взрослых, от 8 до 13 лет и взрослых средних умственных способностей, от 10 до 16 лет и взрослых с высокими умственными способностями. Среди субтестов имеются такие, как "Выбор точки, завершающей серию", "Дополнение данной матрицы", "Лабиринты" и др. Данные о надежности и валидности этого теста неполны и получены на меньших, чем обычно принято, нормативных группах.
Интересным примером теста, "свободного от влияния культуры", является тест Гудинаф—Харриса, в котором испытуемому (старше 5 лет) дается задание "нарисовать мужчину" (первая форма) и "нарисовать женщину" (вторая форма). Надежность этого теста велика, порядка 0,90. Валидность, найденная по корреляции с показателями других тестов интеллекта, несколько превышает 0,50. Однако авторы этого теста, рассмотрев исследования, относящиеся к нему, пришли к выводу, что предложенный ими тест в большей степени зависит от различий в культурном окружении, чем это первоначально ожидалось. Нельзя не согласиться с высказанным ими мнением, что поиск свободного от культуры теста интеллекта — иллюзия.
Завершая обзор зарубежных интеллектуальных тестов, отметим, что для большинства из них характерен высокий методический уровень. В западной, главным образом американской, психологии созданы и продолжают создаваться и совершенствоваться методики с высокой надежностью, валидностью, а также репрезентативностью выборок, на которых эти показатели получены.
§ 5 ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТА
Итак, на протяжении длительного периода тесты интеллекта служили средством измерения, как предполагалось, некоторой психологической реальности, о сущности которой имелись весьма смутные представления. Сведение интеллектуальных различий к коэффициенту умственного уровня вытекало из представлений об интеллекте как общей врожденной способности, лежащей в основе всех наших достижений и измеряемой с помощью тестов Эти представления подтверждались относительной стабильностью IQ, установленной при повторных испытаниях одних и тех же групп индивидов через некоторый промежуток времени.
Существует, по крайней мере, две основные причины стабильности IQ Первая причина — это стабильность, относительная неизменность окружающей среды. В большинстве случаев дети остаются в том же самом окружении, на одном и том же социально-экономическом уровне, в той же культурной среде долгие годы. Поэтому любые недостатки или преимущества для интеллектуального развития, которые испытуемые имели на ранней стадии развития, сохраняются и в интервалах между повторными тестированиями.
Вторая причина относительной стабильности IQ заключается в том, что умения и навыки, полученные на ранних этапах развития, сохраняются и служат предпосылками для последующего обучения.
Однако относительная стабильность IQ носит статистический характер. Иначе говоря, лишь в групповых исследованиях могут быть получены достаточно высокие корреляции между повторными исследованиями. Изучение же отдельных индивидов обнаруживает большие сдвиги показателей IQ, полученных через временные интервалы. Тестология к настоящему времени накопила множество фактов, неопровержимо свидетельствующих об изменчивости того, что измеряется коэффициентом IQ. Исследования, в которых собраны эти факты, группируются по двум направлениям. Одно направление доказывает зависимость тестовых оценок от окружающей среды, которая включает в себя множество самых разных показателей (материальная обеспеченность и уровень образования родителей, характер работы отца, занятость матери, размер семьи, наличие домашней библиотеки и др ).
Другое направление исследований охватывает тестирование интеллекта в разных культурах и субкультурах. В работах этого направления неизменно обнаруживаются значительные различия по результатам тестовых испытаний между выборками, представляющими разные культуры. Предполагается, что влияние культуры сказывается как на различиях в условиях тестирования, так и главным образом н<