Разброс данных вокруг среднего
Разброс полученных данных в положительную и отрицательную сторону от средней величины обозначается буквой d, а вычисляется через отклонение каждого значения от средней ( ), затем вычисляют среднюю арифметическую всех этих отклонений. Чем она больше, тем больше разброс данных и тем более разнородна выборка. Если эта средняя невелика, то это свидетельствует в пользу того, что данные больше сконцентрированы относительно их среднего значения и выборка более однородна.
Вычисление среднего отклонения проводится следующим образом. Собрав все данные и расположив их в ряд– 3, 5, 6, 9, 11, 14,– находят среднюю арифметическую выборки:
Затем вычисляют отклонения каждого значения от средней и суммируют их:
-5 -3 -2 +1 +3 +6
(3-8) + (5-8) + (6-8) + (9-8) + (11-8) + (14-8).
Но во избежание взаимоуничтожения положительных и отрицательных значений в процессе суммирования общепринято прежде возводить все значения в квадрат, а затем делить всю сумму квадратов на число данных. В нашем примере это выглядит следующим образом:
В результате такого расчета получают так называемую дисперсию. Формула для вычисления дисперсии, таким образом, следующая:
.
После этого из дисперсии извлекается квадратный корень. При этом получается так называемое стандартное отклонение:
Стандартное отклонение =
В данном примере стандартное отклонение равно
Следует еще добавить, что для того, чтобы более точно оценить стандартное отклонение для малых выборок (с числом элементов менее 30), в знаменателе выражения под корнем надо использовать не , а n –1. Стандартное отклонение обозначается греческой буквой s (сигма):
Стандартное отклонение показывает, насколько далеко от средней разбросаны результаты в положительную и отрицательную стороны. Укладывается ли этот разброс результатов в стандартное отклонение, которое равно 68% популяции.
Итак, описательная статистика необходима для представления графической и количественной оценки степени разброса данных в том или ином распределении.
Индуктивная статистика
Статистические гипотезы. Статистической гипотезой называется предположение относительно сходства или различия функциональных и числовых характеристик случайных величин или событий.
Статистические гипотезы в педагогических исследованиях делят на четыре основные группы: гипотезы о типах вероятностных законов распределения случайных величин; гипотезы о свойствах тех или других числовых параметров; гипотезы о стохастической (вероятностной) зависимости двух или более признаков (факторов); гипотезы о равенстве или различии законов распределения случайных величин, характеризующих изучаемое свойство в двух или более совокупностях рассматриваемых явлений.
В математической статистике проверка гипотез о случайных величинах и событиях базируется на принципе так называемой практической невозможности событий. Сущность данного принципа в том, что задается заранее некоторая вероятность a (например, a = 0,1; a = 0,05), именуемая уровнем значимости. При этом случайные события, вероятность которых меньше или равна a, считаются практически невозможными, но если они происходят, то наступление этого рода событий следует рассматривать как неслучайное. Такое событие становится для нас значимым. Выявлена закономерность, согласно которой чем меньше расчетная вероятность осуществления события, тем больше его неслучайность и тем важнее раскрыть принципы этой закономерности. Уровень значимости, выраженный в процентах, показывает сколько раз в ста случаях мы можем ошибиться, объявив изучаемое событие неслучайным. В гуманитарных науках общепринят 5%-й уровень значимости, при котором допускается ошибка в пяти случаях из ста. При более высоком уровне значимости (10%-м) большее число событий нельзя рассматривать как неслучайные, но достоверность такого вывода будет ниже (90% против 95%). Наоборот, более низкий уровень значимости (1%-й; 0,999%-й) приводит к более осторожным, но и более достоверным выводам.
Статистическая гипотеза представляет утверждение, которое объективно может оказаться либо истинным, либо ложным. Следовательно, уже на этапе выдвижения гипотезы мы обязаны одновременно мыслить и ее отрицание в форме существования противоположной (альтернативной) гипотезы.
Подлежащую контролю гипотезу называют гипотезой частот и нулевой гипотезой и обозначают ее Но. Согласно нулевой гипотезе (Но) существует равенство теоретических вероятностей двух предположений Р1 и Р2. Справедливость гипотезы Но означает, что наблюдаемое различие частот объясняется чисто случайными причинами.
Нуль-гипотезе (Но) противопоставляется так называемая альтернативная гипотеза (Н1). Альтернативной гипотезой является рабочая гипотеза научного исследования, согласно которой наблюдаемое различие частот неслучайно, достаточно значимо, обусловлено влиянием независимой переменной. Основной принцип метода проверки гипотез заключается в том, что выдвигается нулевая гипотеза Но с тем, чтобы попытаться опровергнуть ее и тем самым подтвердить альтернативную гипотезу Н1. Соответствующими вычислениями при помощи статистических тестов определяют критерий значимости и по специальным таблицам – границу значимости, если результаты статистического теста, используемого для анализа разницы между средними, окажутся таковы, что позволят отбросить Но – будет означать, что верна Н1, то есть выдвинутая рабочая гипотеза подтверждается.
Для того, чтобы судить о том, какова вероятность ошибиться, принимая или отвергая нулевую гипотезу, применяют статистические методы, соответствующие особенностям выборки. Так, для количественных данных при распределениях, близких к нормальным, используют параметрические методы, основанные на таких показателях, как средняя и стандартное отклонение. В частности, для определения достоверности разницы средних двух выборок применяют критерий t-Стьюдента (Госсета), а для того, чтобы судить о различиях между тремя или большим числом выборок, тест F - Снедекора-Фишера, G - Кохрана, критерий Барлета, дисперсионный анализ и др.
Если же мы имеем дело с неколичественными данными или выборки слишком малы для уверенности в том, что популяции, из которых они взяты, подчиняются нормальному распределению, тогда используют непараметрические методы – критерий (хи-квадрат) К.Пирсона для качественных данных и критерии знаков, рангов, Манна-Уитни, Вилкоксона и др. для порядковых данных.
Кроме того, выбор статистического метода зависит от того, являются ли выборки, средние которых сравниваются, независимыми (т.е., например, взятыми из двух разных групп испытуемых) или зависимыми (т.е. отражающими результаты одной и той же группы испытуемых до и после воздействия или после двух различных воздействий).