Оценка достоверности отличий

Оценка часто необходима при сравнительном анализе полярных групп. Эти группы можно выделить, учитывая различную выраженность определенного целевого признака (характеристики) изучаемого явления. Обычно анализ начинают с подсчета первичных статистик выделенных групп, затем оценивают достоверность отличий. Очень часто количественный анализ одним сравнением не ограничивается, появляется необходимость провести дополнительные сопоставления и выявить новые свидетельства. Выбор новых критериев наугад — дело неблагодарное. Лучше для этого использовать результаты корреляционного анализа.

Например, если вы исследуете личностную обусловленность желания принимать участие в экологическом движении, то признаком, по которому могут быть выделены полярные группы, могут выступить субъективные оценки испытуемых, экспертные оценки, некоторые поведенческие индикаторы, представленные в числовой форме. Если показатели интеллектуального развития имеют небольшую величину коэффициента корреляции (<0.35) с числовыми показателями названного желания, то выделение полярных групп по интеллектуальным параметрам вряд ли будет удачным. Скорее всего, значимых отличий между этими группами в выраженности желания участвовать в экологическом движении мы не обнаружим и не получим новых данных для выяснения закономерностей его личностного обусловливания.

Одной из наиболее часто встречающихся задач при обработке данных является оценка достоверности отличий между двумя, или более, рядами значений. В математической статистике существует ряд способов для этого. Для использования большинства мощных критериев требуются дополнительные вычисления, обычно весьма развернутые.

Компьютерный вариант обработки данных стал в настоящее время наиболее распространенным. Во многих прикладных статистических программах есть процедуры оценки различий между параметрами одной выборки или разных выборок. При полностью компьютеризованной обработке материала нетрудно в нужный момент использовать соответствующую процедуру и оценить интересующие различия. Однако большинство психологов не имеют свободного и неограниченного доступа к работе с компьютером — либо недостаточен парк ЭВМ, либо психолог как пользователь ЭВМ не подготовлен и может проводить обработку только с помощью квалифицированного персонала. И в том, и в другом случае типичный сеанс работы с компьютером заканчивается тем, что психолог получает принтерные распечатки, содержащие подсчитанные первичные статистики, результаты корреляционного анализа, иногда и факторного (компонентного).

Основной анализ осуществляется позже, не в диалоге с ЭВМ. Исходя из этих рассуждений, будем считать, что перед психологом часто встает задача оценки достоверности различий с использованием ранее вычисленных статистик. При сравнении средних значений признака говорят о достоверности (недостоверности) отличий средних арифметических, а при сравнении изменчивости показателей — о достоверности (недостоверности) отклонений сигм (дисперсии) и коэффициентов вариации.

Достоверность различий средних арифметических можно оценить по достаточно эффективному параметрическому критерию Стьюдента. Он вычисляется по формуле

M1 – M2

t = ----------- ,

Оценка достоверности отличий - student2.ru m1 + m2

где M1 и M2 — значения сравниваемых средних арифметических, m1 и m2 — соответствующие величины статистических ошибок средних арифметических. Знак вычисленной разности средних арифметических можно не учитывать, поскольку имеет значение только абсолютная величина критерия t.

Значения критерия Стьюдента t для трех уровней значимости (p) приведены в приложении 2. Число степеней свободы определяется по формуле d = n + n - 2, где n и n - объемы сравниваемых выборок. С уменьшением объемов выборок (n < 10) критерий Стьюдента становится чувствительным к форме распределения исследуемого признака в генеральной совокупности. Поэтому в сомнительных случаях рекомендуется использовать непараметрические методы или сравнивать полученные значения с критическими (приведенными в таблице) для более высокого уровня значимости.

Решение о достоверности различий принимается в том случае, если вычисленная величина t превышает табличное значение для данного числа степеней свободы. В тексте публикации или научного отчета указывают наиболее высокий уровень значимости из трех: 0.05, 0.01, 0.001. Если превышены 0.05 и 0.01, то пишут (обычно в скобках) Р=0.01 или p<0.01. Это означает, что оцениваемые различия все же случайны только с вероятностью не более 1 из 100 шансов. Если превышены табличные значения для всех трех уровней, то указывают Р=0.001 или p<0.001, что означает случайность выявленных различий между средними не более 1 из 1000 шансов.

Пример. M1 =113.3, m1 =2.4, n =13; M2 =103.3, m2 =2.6, n =16.

113.3 - 103.3

t = ---------------- = 2.83;

Оценка достоверности отличий - student2.ru 2.4 + 2.6

для d=13+16-2=27 вычисленная величина превышает табличную для вероятности Р=0.01. Вычисленное значение 2.83 больше табличного 2.77 для уровня значимости Р=0.01. Следовательно, различия между средними достоверны на уровне 0.01.

Приведенная формула проста. Используя ее, можно с помощью бытового калькулятора с памятью вычислить t критерий без промежуточных записей.

Следует помнить, что при любом численном значении критерия достоверности различия между средними этот показатель оценивает не степень выявленного различия (она оценивается по самой разности между средними), а лишь статистическую достоверность его, т.е. право распространять полученный на основе сопоставления выборок вывод о наличии разницы на все явление (весь процесс) в целом. Низкий вычисленный критерий различия не может служить доказательством отсутствия различия между двумя признаками (явлениями), ибо его значимость (степень вероятности) зависит не только от величины средних, но и от численности сравниваемых выборок. Он говорит не об отсутствии различия, а о том, что при данной величине выборок оно статистически недостоверно: слишком велик шанс, что разница при данных условиях определения случайна, слишком мала вероятность ее достоверности.

Степень, т.е. величину выявленного различия, желательно оценивать, опираясь на содержательные критерии. Вместе с тем, для психологического исследования весьма характерно наличие множества показателей, которые, по существу, являются условными баллами, и валидность оценивания с помощью них следует доказывать особо. Чтобы избежать большей произвольности, в таких случаях также приходится опираться на статистические параметры.

Пожалуй, наиболее распространено для этого использование сигмы. Разницу между двумя средними арифметическими в одну сигму и более можно считать достаточно выраженной. Если сигма подсчитана для ряда значений более 35, то достаточно выраженным можно считать различие 0.5 сигмы. Однако для ответственных выводов о том, насколько велика разница между значениями, лучше использовать строгие критерии.

Нормирование данных

Проиллюстрируем значение использования норм на примере широко известной методики К.Томаса. Напомним, что в ней вывод о доминирующей стратегии поведения в конфликтной ситуации делается с опорой на числовые данные. А именно, после подсчета суммарных баллов по каждой шкале, нужно выявить шкалу имеющую наибольший балл. Соответствующая шкале стратегия интерпретируется как доминирующая в конфликтной ситуации. Подсчитанные статистики показывают, что средние величины шкальных оценок по абсолютной величине различны. Они варьируют у мужчин от 5,25 балла до 7,25 балла и у женщин от 3,71 до 7,65 баллов (см. табл. 11).

Табл. 11. Первичные статистики шкальных оценок методики Томаса

Пол Мужчины (n=56) Женщины (n=71)
Стратегия Средн -95% +95% Сигма Средн -95% +95% Сигма
Напористость 5,25 4,45 6,05 2,99 3,71 3,04 4,37 2,83
Сотрудничество 6,29 5,64 6,93 2,41 6,24 5,74 6,74 2,11
Компромисс 5,32 4,71 5,93 2,27 5,62 5,10 6,14 2,19
Избегание 7,25 6,71 7,79 2,02 7,65 7,18 8,11 1,96
Уступчивость 5,82 5,19 6,46 2,37 6,70 6,20 7,20 2,11

Примечание.

Средн. — средние величины;

-950% и +95.0% — доверительные интервалы средних величин;

Выделены наибольшие средние величины.

Таким образом, если не учитывать нормативные данные, полученные на российской выборке (или проверенные на российской выборке), то в интерпретации результатов можно придти к неверным выводам. В самом деле, мужчинам и женщинам свойственно предпочтение стратегии избегания. В руководстве к методике не говорится о том, что доминирование одной из пяти стратегий является транскультуральной характеристикой личности. По контексту можно понять, что автор исходит из предположения о равной вероятности предпочтения каждой из пяти стратегий. Поскольку между шкальными показателями существуют статистически значимые корреляционные связи, вряд ли можно говорить о равной вероятности следования каждой из пяти стратегий. В такой ситуации, когда отсутствуют нормативные данные и сведения о характере распределения величин, надежнее опираться на подсчитанные для своей выборки статистики. В частности — для оценки выраженности доминирования одной из стратегий использовать сигму и доверительные интервалы. Добавим, что нормы целесообразно рассчитать отдельно для мужчин и женщин. По представленным данным видно, что в двух шкалах из пяти показатели значимо различаются у разных полов. При сравнении групп или подгрупп, эта половая специфичность может оказаться переменной, влияние которой нельзя не учитывать.

Вычислять нормы целесообразно и в других случаях. Полученные при сборе данных начальные (первичные) оценки выполнения экспериментальных заданий далеко не всегда удобно использовать в дальнейшей работе. Их тем или иным способом преобразуют. Наиболее частыми преобразованиями являютсяцентрирование и нормированиесреднеквадратическими отклонениями. Под центрированием понимается линейная трансформация величин признака, при которой средняя величина распределения определенного признака становится равной нулю. Направление шкалы и ее единицы остаются при этом неизменными.

Суть нормирования состоит в переходе к другому масштабу — стандартизированным единицам измерения. При стандартизировании результатов тестовых испытаний нормирование чаще всего осуществляется с помощью среднеквадратических отклонений. Стандартизирование производится при нормальном распределении тестовых оценок или близком к нему по виду.

В психологии существует целый ряд шкал, основанных на нормальном распределении и имеющих разные значения М и s. Например, в шкале отклонений интеллекта IQ: М=100, s =15; в шкале Векслера М=10, s = 3. Распределения различных измеренных в эксперименте признаков имеют разные величины М и s . Переводя полученные первичные оценки разных признаков к распределению с одними и теми же М и s, мы получаем больше возможностей для оценки и сопоставления их варьирования. Сделать это нам позволяет использование нормированного отклонения. Нормированное отклонение показывает, на сколько сигм отклоняется та или иная варианта от среднего уровня варьирующего признака (средней арифметической), и выражается формулой:

V - M

t = -------

s

где V - значение признака (в начальных баллах).

С помощью нормированного отклонения можно оценить любое полученное значение по отношению к группе в целом, взвесить его отклонение и одновременно освободиться от именованных величин. Для того чтобы избавиться от отрицательных чисел к полученной величине t можно прибавить какую-либо константу. Удобно, если все числа, с которыми вы оперируете имеют одинаковое количество знаков. С учетом этих соображений весьма удобна шкала Т-оценок. Для этой шкалы принято нормальное распределение, имеющее М=0, s =10. Для пересчета берется константа равная 50. Формула преобразования начальных баллов в Т-оценки следующая:

V - M

t = 50 + 10 -------

s

Смысл процедуры нормирования рассмотрим на примере. Предположим, нас интересуют некоторые связи коммуникативной умелости продавцов с особенностями расположения магазина в крупном городе. Чтобы составить некоторую интегральную оценку коммуникативной умелости конкретного продавца, мы можем через наблюдение получить по каждому испытуемому ряд параметров, характеризующих его общение с покупателем. Например, мы можем измерить среднюю длительность контакта глазами, среднее количество улыбок в фиксированный интервал времени, количество грубых, неприветливых обращений и т.д. Можно охарактеризовать преимущества и недостатки расположения магазина в городе (насколько "бойкое место" и т.п.). Для этого можно подсчитать количество маршрутов городского транспорта, имеющих остановки в непосредственной близости от магазина, оценить его удаленность от станций метро, учесть число расположенных поблизости магазинов другого профиля и т.д.

Для того чтобы вывести некоторый обобщенный коммуникативный показатель невозможно складывать число улыбок с длительностью контакта глазами и вычитать из этой суммы количество выражений, свидетельствующих о низкой речевой культуре. Бессмысленно складывать число автобусных маршрутов с числом соседних магазинов и вычитать из суммы величину расстояния до ближайшего метро. Лучше собрать необходимый массив количественных данных, проводя исследование в ряде магазинов, подсчитать первичные статистики для всех этих показателей, а затем, после преобразования начальных данных, получить Т-баллы по каждому показателю.

При нормировании из каждого полученного при сборе данных значения в начальных единицах вычитают среднюю арифметическую, а разность делят на сигму. Полученную величину умножают на 10, затем прибавляют к 50 или вычитают из 50. Выбором последнего арифметического действия (сложение или вычитание) мы можем задать направление вклада, который делает этот параметр в высчитываемую интегральную оценку, т.е. можем задавать направленность преобразования, учитывая специфику данного параметра. Если конкретное значение в начальных единицах превышает среднюю арифметическую, мы можем нормированное отклонение (разность, деленную на сигму) приплюсовать к 50. Это будет соответствовать большей выраженности оцениваемого психического качества у данного испытуемого, чем в среднем по нашей выборке.

Например, большее у конкретного продавца количество улыбок на одну сигму (чем в среднем) количественно теперь будет выражено: 60 Т-баллами. Количественную оценку признаков высокой речевой культуры в нормированных отклонениях следует прибавлять к 50 Т-баллам, а низкой речевой культуры — вычитать из 50 Т-баллов. Если, например, количественная оценка некоторого признака отрицательной направленности (в начальных баллах), превышает среднюю величину на полсигмы, то в Т-баллах она будет равна 45. После такого рода преобразований, подсчитывая интегральный показатель коммуникативной умелости для конкретного испытуемого, мы можем прибавлять одни Т-баллы к другим.

Форму стандартизирования данных целесообразно выбирать с учетом размаха полученных начальных оценок и числа градаций. Если в начальных баллах число градаций 7-15, то могут оказаться вполне подходящими стенайны[2]. Если же число градаций достигает 30 и более при небольшой скошенности распределения (асимметрии), то переводя эти показатели в стенайны мы будем огрублять баллы, т.е. терять некоторую долю точности произведенного измерения. Если есть основания считать, что ваши измерения достаточно эффективны (например, есть данные о хорошей ретестовой надежности, обнаружены высокие корреляции полученных в измерениях показателей с ясными и надежными внешними критериями валидизации и т.д.), то оправданным будет использование стандартизированых единиц имеющее такое же или даже несколько большее число градаций.

Корреляционный анализ

Наши рекомендации