Квартиль (Q) – значение признака, делящее ранжированную совокупность на четыре равновеликие части.
Нижний квартиль Q1 отделяет ¼ часть совокупности с наименьшими значениями признака (то есть 25% единиц будут иметь значения признака, меньшими по величине, чем Q1), а верхний Q3 отделяет ¼ часть совокупности с наибольшими значениями признака. Средний квартиль Q2 является медианой. Между Q1 и Q3 располагается 50% всех данных. Квартильный размах находится по формуле:
IQR = Q3 – Q1
Зачастую при анализе данных встречаются такие значения признака, которые значительно отличаются от основного массива данных – они носят название выбросов. Исследователь сам принимает решение о дальнейшей работе с ними; если выбросы оставляются, то проводят два исследования – с ними и без них, а результаты сопоставляются, если выбросы исключаются, то это действие должно быть аргументировано в отчете. Количественная оценка выбросов дается с помощью понятия квартиля.
Умеренные выбросы располагаются ниже первой квартили или выше третьей на расстояниях от 1,5 до 3 IQR. Экстремальные выбросы располагаются ниже первой квартили или выше третьей на расстояниях свыше 3 IQR .
При проведении анализа важное значение имеет графическое изображение медианы, максимального и минимального значений, что возможно продемонстрировать с помощью коробковой диаграммы, реализуемой в программе SPSS. По виду и размеру коробки можно также судить о том, где расположены 50% данных.
Пример: имеются данные о возрасте некоторого числа мужчин и женщин, работающих в сфере образования. Отчет в программе SPSS выглядит следующим образом:
Характеристика | Мужчины | Женщины |
Минимум | ||
Первая квартиль | ||
Медиана | ||
Третья квартиль | ||
Максимум | ||
Квартильный размах | ||
Среднее |
Данные таблицы позволяют отметить, что средний возраст мужчин выше, чем у женщин. 50% данных, как было указано выше, располагаются между первой и третьей квартилью, что для женщин составляет возраст между 30 и 41 годами, для мужчин – между 37 и 51 годами.
Ассиметрия.
Представляет собой характеристику распределения, позволяющую судить о том, насколько симметричны исследуемые данные относительно центральных мер тенденции (моды, медианы и среднего).
В практике исследования приходится иметь дело с самыми различными распределениями. Однородные совокупности характеризуются, как правило, одновершинными распределениями. Появление двух и более вершин свидетельствует о неоднородности изучаемой совокупности и необходимости перегруппировки данных с целью выделения более однородных групп. Выяснение общего характера распределения предполагает оценку степени его однородности, а также вычисление показателей асимметрии и эксцесса. Симметричным является распределение, в котором частоты любых двух вариантов, равно отстоящих в обе стороны от центра распределения, равны между собой. Для симметричных распределений имеет место равенство средней арифметической, моды и медианы. В связи с этим простейший показатель асимметрии основан на соотношении показателей центра распределения: чем больше разница между средним значением и модой, тем больше асимметрия ряда. Для сравнительного анализа степени асимметрии нескольких распределений рассчитывают коэффициент асимметрии, определяющий степень асимметрии может быть определена с помощью
Положительное значение этой величины указывает наличие правосторонней, а отрицательное – на наличие левосторонней асимметрии (левая ветвь вытянута больше, чем правая).
Симметричное (нормальное) распределение | Правосторонняя асимметрия | Левосторонняя асимметрия |
= Мо | > Мо | < Мо |
As = 0 | As > 0 | As < 0 |
Mo = Me = | Mo < Me < | Mo > Me > |
Коэффициент асимметрии может изменяться от —3 до +3. Принято считать, что асимметрия выше 0,5 (независимо от знака) значительна, меньше 0,25 — незначительна.
Нормальный закон распределения (закон Гаусса) имеет широкий круг приложений, а его главной особенностью является то, что он является предельным законом, к которому приближаются другие законы распределения при весьма часто встречающихся условиях. Доказано, что сумма большого числа независимых случайных величин, подчиненных каким-либо законам распределения, приближенно подчиняется нормальному закону, причем тем точнее, чем большее количество случайных величин суммируется. Такая закономерность проявляется во многих практических случаях. Например, еще Кетле обнаружил, что вариация в однородной группе характеризуется нормальной кривой. Так если построить эмпирическую кривую распределения людей одной нации, пола и возраста по росту или весу, то она напоминает кривую Гаусса-Лапласа. Нормальное распределение часто применяется в случаях, когда истинный закон распределения известен, но вычисления по этому закону затруднительны.