Оценка достоверности отличий
Оценка часто необходима при сравнительном анализе полярных групп. Эти группы можно выделить, учитывая различную выраженность определенного целевого признака (характеристики) изучаемого явления. Обычно анализ начинают с подсчета первичных статистик выделенных групп, затем оценивают достоверность отличий. Очень часто количественный анализ одним сравнением не ограничивается, появляется необходимость провести дополнительные сопоставления и выявить новые свидетельства. Выбор новых критериев наугад — дело неблагодарное. Лучше для этого использовать результаты корреляционного анализа.
Например, если вы исследуете личностную обусловленность желания принимать участие в экологическом движении, то признаком, по которому могут быть выделены полярные группы, могут выступить субъективные оценки испытуемых, экспертные оценки, некоторые поведенческие индикаторы, представленные в числовой форме. Если показатели интеллектуального развития имеют небольшую величину коэффициента корреляции (<0.35) с числовыми показателями названного желания, то выделение полярных групп по интеллектуальным параметрам вряд ли будет удачным. Скорее всего, значимых отличий между этими группами в выраженности желания участвовать в экологическом движении мы не обнаружим и не получим новых данных для выяснения закономерностей его личностного обусловливания.
Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя, или более, рядами значений. В математической статистике существует ряд способов для этого. Для использования большинства мощных критериев требуются дополнительные вычисления, обычно весьма развернутые.
Компьютерный вариант обработки данных стал в настоящее время наиболее распространенным. Во многих прикладных статистических программах есть процедуры оценки различий между параметрами одной выборки или разных выборок. При полностью компьютеризованной обработке материала нетрудно в нужный момент использовать соответствующую процедуру и оценить интересующие различия. Однако большинство психологов не имеют свободного и неограниченного доступа к работе с компьютером — либо недостаточен парк ЭВМ, либо психолог как пользователь ЭВМ не подготовлен и может проводить обработку только с помощью квалифицированного персонала. И в том, и в другом случае типичный сеанс работы с компьютером заканчивается тем, что психолог получает принтерные распечатки, содержащие подсчитанные первичные статистики, результаты корреляционного анализа, иногда и факторного (компонентного).
Основной анализ осуществляется позже, не в диалоге с ЭВМ. Исходя из этих рассуждений, будем считать, что перед психологом часто встает задача оценки достоверности различий с использованием ранее вычисленных статистик. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей — о достоверности (недостоверности) отклонений сигм (дисперсии) и коэффициентов вариации.
Достоверность различий средних арифметических можно оценить по достаточно эффективному параметрическому критерию Стьюдента. Он вычисляется по формуле
M1 – M2
t = ----------- ,
m1 + m2
где M1 и M2 — значения сравниваемых средних арифметических, m1 и m2 — соответствующие величины статистических ошибок средних арифметических. Знак вычисленной разности средних арифметических можно не учитывать, поскольку имеет значение только абсолютная величина критерия t.
Значения критерия Стьюдента t для трех уровней значимости (p) приведены в приложении 2. Число степеней свободы определяется по формуле d = n + n - 2, где n и n - объемы сравниваемых выборок. С уменьшением объемов выборок (n < 10) критерий Стьюдента становится чувствительным к форме распределения исследуемого признака в генеральной совокупности. Поэтому в сомнительных случаях рекомендуется использовать непараметрические методы или сравнивать полученные значения с критическими (приведенными в таблице) для более высокого уровня значимости.
Решение о достоверности различий принимается в том случае, если вычисленная величина t превышает табличное значение для данного числа степеней свободы. В тексте публикации или научного отчета указывают наиболее высокий уровень значимости из трех: 0.05, 0.01, 0.001. Если превышены 0.05 и 0.01, то пишут (обычно в скобках) Р=0.01 или p<0.01. Это означает, что оцениваемые различия все же случайны только с вероятностью не более 1 из 100 шансов. Если превышены табличные значения для всех трех уровней, то указывают Р=0.001 или p<0.001, что означает случайность выявленных различий между средними не более 1 из 1000 шансов.
Пример. M1 =113.3, m1 =2.4, n =13; M2 =103.3, m2 =2.6, n =16.
113.3 - 103.3
t = ---------------- = 2.83;
2.4 + 2.6
для d=13+16-2=27 вычисленная величина превышает табличную для вероятности Р=0.01. Вычисленное значение 2.83 больше табличного 2.77 для уровня значимости Р=0.01. Следовательно, различия между средними достоверны на уровне 0.01.
Приведенная формула проста. Используя ее, можно с помощью бытового калькулятора с памятью вычислить t критерий без промежуточных записей.
Следует помнить, что при любом численном значении критерия достоверности различия между средними этот показатель оценивает не степень выявленного различия (она оценивается по самой разности между средними), а лишь статистическую достоверность его, т.е. право распространять полученный на основе сопоставления выборок вывод о наличии разницы на все явление (весь процесс) в целом. Низкий вычисленный критерий различия не может служить доказательством отсутствия различия между двумя признаками (явлениями), ибо его значимость (степень вероятности) зависит не только от величины средних, но и от численности сравниваемых выборок. Он говорит не об отсутствии различия, а о том, что при данной величине выборок оно статистически недостоверно: слишком велик шанс, что разница при данных условиях определения случайна, слишком мала вероятность ее достоверности.
Степень, т.е. величину выявленного различия, желательно оценивать, опираясь на содержательные критерии. Вместе с тем, для психологического исследования весьма характерно наличие множества показателей, которые, по существу, являются условными баллами, и валидность оценивания с помощью них следует доказывать особо. Чтобы избежать большей произвольности, в таких случаях также приходится опираться на статистические параметры.
Пожалуй, наиболее распространено для этого использование сигмы. Разницу между двумя средними арифметическими в одну сигму и более можно считать достаточно выраженной. Если сигма подсчитана для ряда значений более 35, то достаточно выраженным можно считать различие 0.5 сигмы. Однако для ответственных выводов о том, насколько велика разница между значениями, лучше использовать строгие критерии.
Нормирование данных
Проиллюстрируем значение использования норм на примере широко известной методики К.Томаса. Напомним, что в ней вывод о доминирующей стратегии поведения в конфликтной ситуации делается с опорой на числовые данные. А именно, после подсчета суммарных баллов по каждой шкале, нужно выявить шкалу имеющую наибольший балл. Соответствующая шкале стратегия интерпретируется как доминирующая в конфликтной ситуации. Подсчитанные статистики показывают, что средние величины шкальных оценок по абсолютной величине различны. Они варьируют у мужчин от 5,25 балла до 7,25 балла и у женщин от 3,71 до 7,65 баллов (см. табл. 11).
Табл. 11. Первичные статистики шкальных оценок методики Томаса
Пол | Мужчины (n=56) | Женщины (n=71) | ||||||
Стратегия | Средн | -95% | +95% | Сигма | Средн | -95% | +95% | Сигма |
Напористость | 5,25 | 4,45 | 6,05 | 2,99 | 3,71 | 3,04 | 4,37 | 2,83 |
Сотрудничество | 6,29 | 5,64 | 6,93 | 2,41 | 6,24 | 5,74 | 6,74 | 2,11 |
Компромисс | 5,32 | 4,71 | 5,93 | 2,27 | 5,62 | 5,10 | 6,14 | 2,19 |
Избегание | 7,25 | 6,71 | 7,79 | 2,02 | 7,65 | 7,18 | 8,11 | 1,96 |
Уступчивость | 5,82 | 5,19 | 6,46 | 2,37 | 6,70 | 6,20 | 7,20 | 2,11 |
Примечание.
Средн. — средние величины;
-950% и +95.0% — доверительные интервалы средних величин;
Выделены наибольшие средние величины.
Таким образом, если не учитывать нормативные данные, полученные на российской выборке (или проверенные на российской выборке), то в интерпретации результатов можно придти к неверным выводам. В самом деле, мужчинам и женщинам свойственно предпочтение стратегии избегания. В руководстве к методике не говорится о том, что доминирование одной из пяти стратегий является транскультуральной характеристикой личности. По контексту можно понять, что автор исходит из предположения о равной вероятности предпочтения каждой из пяти стратегий. Поскольку между шкальными показателями существуют статистически значимые корреляционные связи, вряд ли можно говорить о равной вероятности следования каждой из пяти стратегий. В такой ситуации, когда отсутствуют нормативные данные и сведения о характере распределения величин, надежнее опираться на подсчитанные для своей выборки статистики. В частности — для оценки выраженности доминирования одной из стратегий использовать сигму и доверительные интервалы. Добавим, что нормы целесообразно рассчитать отдельно для мужчин и женщин. По представленным данным видно, что в двух шкалах из пяти показатели значимо различаются у разных полов. При сравнении групп или подгрупп, эта половая специфичность может оказаться переменной, влияние которой нельзя не учитывать.
Вычислять нормы целесообразно и в других случаях. Полученные при сборе данных начальные (первичные) оценки выполнения экспериментальных заданий далеко не всегда удобно использовать в дальнейшей работе. Их тем или иным способом преобразуют. Наиболее частыми преобразованиями являютсяцентрирование и нормированиесреднеквадратическими отклонениями. Под центрированием понимается линейная трансформация величин признака, при которой средняя величина распределения определенного признака становится равной нулю. Направление шкалы и ее единицы остаются при этом неизменными.
Суть нормирования состоит в переходе к другому масштабу — стандартизированным единицам измерения. При стандартизировании результатов тестовых испытаний нормирование чаще всего осуществляется с помощью среднеквадратических отклонений. Стандартизирование производится при нормальном распределении тестовых оценок или близком к нему по виду.
В психологии существует целый ряд шкал, основанных на нормальном распределении и имеющих разные значения М и s. Например, в шкале отклонений интеллекта IQ: М=100, s =15; в шкале Векслера М=10, s = 3. Распределения различных измеренных в эксперименте признаков имеют разные величины М и s . Переводя полученные первичные оценки разных признаков к распределению с одними и теми же М и s, мы получаем больше возможностей для оценки и сопоставления их варьирования. Сделать это нам позволяет использование нормированного отклонения. Нормированное отклонение показывает, на сколько сигм отклоняется та или иная варианта от среднего уровня варьирующего признака (средней арифметической), и выражается формулой:
V - M
t = -------
s
где V - значение признака (в начальных баллах).
С помощью нормированного отклонения можно оценить любое полученное значение по отношению к группе в целом, взвесить его отклонение и одновременно освободиться от именованных величин. Для того чтобы избавиться от отрицательных чисел к полученной величине t можно прибавить какую-либо константу. Удобно, если все числа, с которыми вы оперируете имеют одинаковое количество знаков. С учетом этих соображений весьма удобна шкала Т-оценок. Для этой шкалы принято нормальное распределение, имеющее М=0, s =10. Для пересчета берется константа равная 50. Формула преобразования начальных баллов в Т-оценки следующая:
V - M
t = 50 + 10 -------
s
Смысл процедуры нормирования рассмотрим на примере. Предположим, нас интересуют некоторые связи коммуникативной умелости продавцов с особенностями расположения магазина в крупном городе. Чтобы составить некоторую интегральную оценку коммуникативной умелости конкретного продавца, мы можем через наблюдение получить по каждому испытуемому ряд параметров, характеризующих его общение с покупателем. Например, мы можем измерить среднюю длительность контакта глазами, среднее количество улыбок в фиксированный интервал времени, количество грубых, неприветливых обращений и т.д. Можно охарактеризовать преимущества и недостатки расположения магазина в городе (насколько "бойкое место" и т.п.). Для этого можно подсчитать количество маршрутов городского транспорта, имеющих остановки в непосредственной близости от магазина, оценить его удаленность от станций метро, учесть число расположенных поблизости магазинов другого профиля и т.д.
Для того чтобы вывести некоторый обобщенный коммуникативный показатель невозможно складывать число улыбок с длительностью контакта глазами и вычитать из этой суммы количество выражений, свидетельствующих о низкой речевой культуре. Бессмысленно складывать число автобусных маршрутов с числом соседних магазинов и вычитать из суммы величину расстояния до ближайшего метро. Лучше собрать необходимый массив количественных данных, проводя исследование в ряде магазинов, подсчитать первичные статистики для всех этих показателей, а затем, после преобразования начальных данных, получить Т-баллы по каждому показателю.
При нормировании из каждого полученного при сборе данных значения в начальных единицах вычитают среднюю арифметическую, а разность делят на сигму. Полученную величину умножают на 10, затем прибавляют к 50 или вычитают из 50. Выбором последнего арифметического действия (сложение или вычитание) мы можем задать направление вклада, который делает этот параметр в высчитываемую интегральную оценку, т.е. можем задавать направленность преобразования, учитывая специфику данного параметра. Если конкретное значение в начальных единицах превышает среднюю арифметическую, мы можем нормированное отклонение (разность, деленную на сигму) приплюсовать к 50. Это будет соответствовать большей выраженности оцениваемого психического качества у данного испытуемого, чем в среднем по нашей выборке.
Например, большее у конкретного продавца количество улыбок на одну сигму (чем в среднем) количественно теперь будет выражено: 60 Т-баллами. Количественную оценку признаков высокой речевой культуры в нормированных отклонениях следует прибавлять к 50 Т-баллам, а низкой речевой культуры — вычитать из 50 Т-баллов. Если, например, количественная оценка некоторого признака отрицательной направленности (в начальных баллах), превышает среднюю величину на полсигмы, то в Т-баллах она будет равна 45. После такого рода преобразований, подсчитывая интегральный показатель коммуникативной умелости для конкретного испытуемого, мы можем прибавлять одни Т-баллы к другим.
Форму стандартизирования данных целесообразно выбирать с учетом размаха полученных начальных оценок и числа градаций. Если в начальных баллах число градаций 7-15, то могут оказаться вполне подходящими стенайны[2]. Если же число градаций достигает 30 и более при небольшой скошенности распределения (асимметрии), то переводя эти показатели в стенайны мы будем огрублять баллы, т.е. терять некоторую долю точности произведенного измерения. Если есть основания считать, что ваши измерения достаточно эффективны (например, есть данные о хорошей ретестовой надежности, обнаружены высокие корреляции полученных в измерениях показателей с ясными и надежными внешними критериями валидизации и т.д.), то оправданным будет использование стандартизированых единиц имеющее такое же или даже несколько большее число градаций.
Корреляционный анализ