Для чего нужно распределение, близкое к нормальному?

Для того, чтобы классифицировать весь полученный при стандар­тизации по каждому возрасту материал, т. е. результаты тестирования. Для такой классификации используются стандартное отклонение а и среднее арифметическое х. Принимается, что результаты в пределах х± апоказывают границы наиболее характерной, представительной части распределения, границы нормы для данного возраста. При а = 16 и х = 100 границы нормы будут от 84 до 116. Интерпретируется это так: результаты испытуемых, которые не выходят за эти границы, на­ходятся в пределах нормы. Те, чьи результаты менее 84, находятся ниже нормы, а те, чьи результаты более 116, — выше нормы. Нередко этот же прием применяют и для дальнейшей классификации. Тогда результаты в пределах от х — а до х — 2 а интерпретируются как «не­сколько ниже нормы», а от х — 2сигма до х — З сигма — как «значительно ниже нормы». Соответственно классифицируются результаты, находящие­ся выше нормы.

Вернемся к результату, полученному ребенком шести лет, о кото­ром упоминалось выше. Его успешность по тесту равна 117. Этот ре­зультат выше нормы, но очень незначительно (верхняя граница нор­мы 116).

Кроме статистической нормы, основой для сравнения, интерпрета­ции результатов диагностических испытаний могут стать и такие по­казатели, как процентили.

Процентиль — это процентная доля индивидов из выборки стандар­тизации, первичный результат которых ниже данного первичного показателя. Например, если 28 % людей правильно решат не более 15 задач в арифметическом тесте, то первичному показателю 15 соот­ветствует 28-й процентиль (Р28). Процентили указывают на относи­тельное положение индивида в выборке стандартизации. Их также можно рассматривать как ранговые градации, общее число которых равно 100, с той лишь разницей, что при ранжировании принято начи­нать отсчет сверху, т. е. с лучшего члена группы, получающего ранг 1. В случае же процентилей отсчет ведется снизу, поэтому чем ниже про­центиль, тем хуже позиция индивида.

50-й процентиль (Р50) соответствует медиане — одному из показа­телей центральной тенденции. Процентили свыше 50 представляют показатели выше среднего, а те, которые лежат ниже 50, — сравнитель­но низкие показатели. 25-й и 75-й процентили известны также под названием 1-го и 3-го квартилей, поскольку они выделяют нижнюю и верхнюю четверти распределения. Как и медиана, они удобны для описания распределения показателей и сравнения с другими распре­делениями.

Процентили не следует смешивать с обычными процентными пока­зателями. Последние являются первичными показателями и представ­ляют собой процент правильно выполненных заданий, тогда как процентиль — это производный показатель, указывающий на долю от об­щего числа членов группы. Первичный результат, который ниже любо­го показателя, полученного в выборке стандартизации, имеет нулевой процентильный ранг (Ро). Результат, превышающий любой показатель в выборке стандартизации, получает процентильный ранг 100 (Р100). Эти процентили, однако, не означают нулевого или абсолютного ре­зультата выполнения теста.

Процентильные показатели обладают рядом достоинств, в частности:

1) их легко рассчитать и понять даже сравнительно неподготовлен­ному человеку;

2) их применение достаточно универсально и подходит к любому типу тестов.

Однако недостаток процентилей — это существенное неравенство единиц отсчета в том случае, когда анализируются крайние точки рас­пределения. При использовании процентилей (как уже отмечалось вы­ше) определяется только относительное положение индивидуальной оценки, но не величина различий между отдельными показателями.

В психодиагностике существует и другой подход к оценке результа­тов диагностических испытаний. В нашей стране под руководством К. М. Гуревича разрабатываются тесты, в которых в качестве точки отсчета выступает не статистическая норма, а не зависимый от резуль­татов испытания, объективно заданный социально-психологический норматив. Социально-психологический норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Все сопоставле­ния индивидуальных или групповых результатов тестирования про­водятся с тем максимумом, который представляется в тесте (а это пол­ный набор знаний). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. Имеется раз­работанная схема представления групповых количественных данных. Для анализа данных относительно их близости к социально-психологическому нормативу, условно рассматриваемому как 100 %-ное вы­полнение всего теста, все испытуемые подразделяются по результатам тестирования на пять подгрупп:

1) наиболее успешные — 10 %;

2) близкие к успешным — 20 %;

3) средние по успешности — 40 %;

4) мало успешные — 20 %;

5) наименее успешные — 10 %.

Для каждой из подгрупп подсчитывается средний процент правиль­но выполненных заданий. Далее строится система координат, где по оси абсцисс идут номера подгрупп, по оси ординат — процент выпол­ненных каждой из подгрупп заданий. После нанесения соответству­ющих точек вычерчивается график, отражающий приближение каж­дой из подгрупп к социально-психологическому нормативу. Такая обработка проводится по результатам как теста в целом, так и каждого субтеста в отдельности.

Выборка стандартизации

При разработке и применении любой точки отсчета следует обращать особое внимание на выборку испытуемых, на которой проводится стандартизация диагностической методики. В математической стати­стике принято различать такие понятия, как генеральная совокупность (популяция) и выборка.

Всякая большая совокупность людей, которую хотели бы иссле­довать или относительно которых собираются делать выводы, назы­вается генеральной совокупностью.

Выборка — это часть или подмножество совокупности.Проводить исследование всей популяции не принято. Обычно из нее выделя­ют группу людей — выборку стандартизации,— которая реально под­вергается тестированию, и с ее помощью оценивается генеральная со­вокупность. Чтобы оценки носили достоверный характер, выборка должна быть репрезентативна, представительнарассматриваемой по­пуляции, т. е. ее вероятностные свойства должны совпадать или быть близкими к свойствам генеральной совокупности.

А. Анастази приводит пример формирования репрезентативной вы­борки при стандартизации шкалы Векслера. Выборка включала 1700 человеке равным количеством мужчин и женщин. Испытуемые в возрасте от 16 до 64 лет были распределены по семи возрастным уровням. При формировании выборки исследователи опирались на данные последней переписи населения США. Учитывалось пропорцио­нальное распределение населения по географическим районам, при­надлежность к городскому и сельскому населению, принадлежность к белой или цветной расе, учитывались также уровень образования и профессия. На каждом возрастном уровне в выборку были введены один мужчина и одна женщина, находящиеся в учреждениях для умствен­но отсталых.

По мнению А. Анастази, подавляющее большинство диагности­ческих методик стандартизовано не для столь широких популяций, как многие полагают. Трудно рассчитывать, что по какому-либо те­сту имеются адекватные нормы для таких обширных популяций, как, например, «взрослые американцы-мужчины» или «американские де­ти 14-летнего возраста». Выборки, ориентированные на широкие по­пуляции, не всегда репрезентативны и чаще всего бывают смещены в тех или иных отношениях (т. е. некоторые подгруппы популяции могут быть представлены непропорционально своей численности).

Так, если определить популяцию как «14-летние дети», а выборку стандартизации составить из 14-летних школьников, то ее нельзя рас­сматривать в качестве репрезентативной, поскольку не все 14-летние дети являются школьниками. В этом случае лучше сузить определе­ние популяции (т. е. определить ее как «14-летние школьники»), чем переносить нормы, полученные на школьниках, на популяцию 14-лет­них детей.

Таким образом, одним из способов обеспечения репрезентативности выборки является ограничение популяции. Ограничить популяцию можно по разным признакам: по возрасту, полу, социальному проис­хождению, профессии, социально-экономическому статусу, здоровью и т. д. Такая популяция определяется как специфическая, и стандар­тизация диагностических методик осуществляется на узконаправ­ленных выборках, которые репрезентативны специфической попу­ляции. Создатель диагностической методики должен всегда сообщать, для какой специфической популяции были разработаны норматив­ные показатели.

Отбор испытуемых в выборку стандартизации осуществляется сле­дующим образом:

1) дается определение популяции с выделением в ее структуре пе­ременных, значимых и малозначимых для изучаемого психиче­ского явления (возраст, образование, профессия и т. д.);

2) популяция делится на части в соответствии со значимыми пере­менными;

3) испытуемые отбираются в случайном порядке и пропорциональ­но численности каждой значимой части совокупности.

Случайный отбор может осуществляться по алфавиту, по таблице случайных чисел или другим способом. Важно, чтобы у всех предста­вителей популяции были равные шансы попасть в выборку стандар­тизации. Это условие подразумевает, что каждый выбор не зависит от остальных.

Объем выборки может варьироваться в широких пределах, но ее минимальный порог, необходимый для получения достоверных ре­зультатов, — порядка 200 человек [34].

Вопрос № 3 Надежность

Прежде чем психодиагностические методики могут быть использо­ваны для практических целей, они должны пройти проверку по ряду формальных критериев, доказывающих их высокое качество и эффек­тивность. Эти требования в психодиагностике складывались годами в процессе работы над тестами и над их совершенствованием. В ре­зультате появилась возможность оградить психологию от всевозмож­ных безграмотных подделок, претендующих на то, чтобы называться диагностическими методиками.

К числу основных критериев оценки психодиагностических мето­дик относятся надежность и валидность.

Большой вклад в разработку этих понятий внесли зарубежные психологи (А. Анастази, Е. Гизелли, Дж. Гилфорд, Л. Кронбах, Р. Торндайк и Е. Хаген и др.). Ими были раз­работаны как формально-логический, так и математико-статистический аппарат (прежде всего корреляционный метод и факторный анализ) обоснования степени соответствия методик отмеченным критериям.

В психодиагностике проблемы надежности и валидности методик тесно взаимосвязаны, тем не менее существует традиция раздельного изложения этих важнейших характеристик. Следуя ей, начнем с рас­смотрения надежности методик.

Надежность

В традиционной тестологии термин «надежность» означает отно­сительное постоянство, устойчивость, согласованность результатов теста при первичном и повторном его применении на одних и тех же испытуемых.

Как пишет А. Анастази, вряд ли можно с доверием относиться к тесту интеллекта, если по нему в начале недели ребенок имел показатель, равный 110, а к концу — 80. Повторное применение надежных методик дает сходные оценки. При этом в определенной мере могут совпадать как сами результаты, так и порядковое место (ранг), занимаемое испытуемым в группе. И в том и в другом случае при повторении опыта возможны некоторые расхождения, но важно, чтобы они были незначительными, в пределах одной группы.

Таким образом, можно сказать, что надежность методики — это такой кри­терий, который говорит о точности психологических измерений, т. е. позволяет судить о том, насколько внушают доверие полученные ре­зультаты.

Степень надежности методик зависит от многих причин. Поэтому важной проблемой практической диагностики является выяснение факторов, снижающих точность измерений и их классификация.

Ана­лиз показывает, что среди них наиболее часто называют следующие: » нестабильность диагностируемого свойства;

♦ несовершенство диагностических методик (небрежно составле­на инструкция, задания по своему характеру разнородны, нечет­ко сформулированы указания, как методику предъявлять испы­туемым, и т. д.);

♦ меняющаяся ситуация обследования (разное время дня, когда проводятся эксперименты, разная освещенность помещения, на­личие или отсутствие посторонних шумов и т. д.);

♦ различия в манере поведения экспериментатора (от опыта к опы­ту по-разному предъявляет инструкции, по-разному стимулиру­ет выполнение заданий и т. д.);

♦ колебания в функциональном состоянии испытуемого (в одном эксперименте отмечается хорошее самочувствие, в другом — утом­ление и т. д.);

♦ элементы субъективности в способах оценки и интерпретации ре­зультатов (когда ведется протоколирование ответов испытуемых, оцениваются ответы по степени полноты, оригинальности и т. п.).

Если все эти факторы иметь в виду и постараться в каждом из них устранить условия, снижающие точность измерений, то можно до­биться приемлемого уровня надежности теста. Одним из важнейших средств повышения надежности психодиагностической методики яв­ляется единообразие процедуры обследования, его строгая регламента­ция:

- одинаковые для обследуемой выборки испытуемых обстановка и условия работы,

- однотипный характер инструкций,

- одинаковые для всех временные ограничения, способы и особенности контакта с ис­пытуемыми,

- порядок предъявления заданий и т. д.

При такой стандар­тизации процедуры исследования можно существенно уменьшить влияние посторонних случайных факторов на результаты теста и та­ким образом повысить их надежность.

На характеристику надежности методик большое влияние оказы­вает исследуемая выборка. Она может как снижать, так и завышать этот показатель.

Например, надежность может быть искусственно завышена, если в выбор­ке небольшой разброс результатов, т. е. если результаты по своим значе­ниям близки друг к другу. В этом случае при повторном обследовании новые результаты также расположатся тесной группой. Возможные изме­нения ранговых мест испытуемых будут незначительными, и, следователь­но, надежность методики будет высокой. Такое же неоправданное завышение надежности может возникнуть при анализе результатов выборки, состоящей из группы, имеющей очень высокие результаты, и из группы с очень низкими оценками по тесту. Тогда эти далеко отстоящие друг от дру­га результаты не будут перекрываться, даже если и вмешаются в условия эксперимента случайные факторы. Поэтому в руководстве обычно делает­ся описание выборки, на которой определялась надежность методики.

В настоящее время надежность все чаще определяется на наиболее однородных выборках, т. е. на выборках, схожих по полу, возрасту, уровню образования, профессиональной подготовке и т. п. Для каж­дой такой выборки приводятся свои коэффициенты этой характерис­тики. Приводимый показатель надежности применим только к группам, подобным тем, на которых он определялся. Если методика применяет­ся к выборке, отличающейся от той, на которой проверялась ее надеж­ность, то эта процедура должна быть проведена заново.

Как подчеркивают многие авторы, разновидностей надежности ме­тодик так же много, как и условий, влияющих на результаты диагнос­тических испытаний. Однако практическое применение находят лишь несколько ее видов.

Так как все виды надежности отражают степень согласованности двух независимо полученных рядов показателей, то основной математико-статистический прием, с помощью которого устанавливается на­дежность методики, — это корреляции(по Пирсону или Спирмену). Подробное описание вычислительной процедуры приводится в при­ложении 2. Надежность тем выше, чем ближе полученный коэффици­ент корреляции подходит к единице, и наоборот.

В данной лекции при описании видов надежности основной упор де­лается на работы К. М. Гуревича, который, проведя тщатель­ный анализ зарубежной литературы по этой проблеме, предложил тол­ковать надежность как:

♦ надежность самого измерительного инструмента;

♦ стабильность изучаемого признака;

♦ константность, т. е. относительную независимость результатов от личности экспериментатора.

Основные показатели он предложил обозначать следующим образом:

♦ показатель, характеризующий измерительный инструмент, пред­лагается называть коэффициентом надежности;

♦ показатель, характеризующий стабильность измеряемого свой­ства, — коэффициентом стабильности;

♦ показатель оценки влияния личности экспериментатора — коэф­фициентом константности.

Именно в таком порядке рекомендуется осуществлять проверку ме­тодики: целесообразно сначала проверить инструмент измерения. Если полученные данные удовлетворительны, то можно переходить к установлению меры стабильности измеряемого свойства, а уже пос­ле этого при необходимости заняться критерием константности.

Остановимся на более подробном рассмотрении этих показателей, характеризующих с разных сторон надежность психодиагностической методики.

Наши рекомендации