Тема 5. Свойства описательных статистик (Часть 2)
Глава 1. Основные понятия статистики и дескриптивный анализ.
Помимо мер центральной тенденции в психологии широко используются квантили
распределения, процентили, децили и квартили.
Одним из наиболее эффективных и полезных методов описания группы наблюдений является
описание с помощью квантилей. Квантиль - общее понятие, а процентили, децили и
квартили – три его примера.
Квантиль- это точка на числовой оси измеренного признака, которая делит всю совокупность
упорядоченных измерений на две группы с известным соотношением их численности. С одним
из квантилей уже знакомы - это медиана. Это значение признака, которое делит всю
совокупность измерений на две группы с равной численностью. Кроме медианы часто
используются процентили и квартили.
Процентили- это 99 точек - значений признака, которые делят упорядоченное (по
возрастанию) множество наблюдений на 100 частей, равных по численности. Определение
конкретного значения процентиля аналогично определению медианы. Например, при
определении 10-го процентиля, Р10, сначала все значения признака упорядочиваются по
возрастанию. Затем отсчитывается 10% испытуемых, имеющих наименьшую выраженность
признака. Р10 будет соответствовать тому значению признака, который отделяет эти 10%
испытуемых от остальных 90%.
На основе процентилей определяются процентильные баллы участников тестирования.
Децильхарактеризует распределение величин совокупности, при которой девять значений
дециля делят ее на десять равных частей. Любая из этих десяти частей составляет 1/10 всей
совокупности. Так, первый дециль отделяет 10 % наименьших величин, лежащих ниже дециля
от 90 % наибольших величин, лежащих выше дециля.
Квартили- это 3 точки - значения признака (Р25, Р50, Р75), которые делят упорядоченное (по
возрастанию) множество наблюдений на 4 равные по численности части. Первый квартиль
соответствует 25-му процентилю, второй - 50-му процентилю или медиане, третий квартиль
соответствует 75-му процентилю.
Интерквартильным размахом называется разность между третьей и первой квартилями, то есть
x0.75 − x0.25.
Интерквартильный размах является характеристикой разброса распределения величины и
является робастным аналогом дисперсии. Вместе, медиана и интерквартильный размах могут
быть использованы вместо математического ожидания и дисперсии в случае распределений с
большими выбросами, либо при невозможности вычисления последних.
Процентили и квартили используются для определения частоты встречаемости тех или иных
значений (или интервалов) измеренного признака или для выделения подгрупп и отдельных
испытуемых, наиболее типичных или нетипичных для данного множества наблюдений.
Тема 6. Меры изменчивости
Глава 1. Основные понятия статистики и дескриптивный анализ.
Меры центральной тенденции говорят нам о концентрации группы значений на числовой
шкале. Каждая мера дает такое значение, которое «представляет» в каком-то смысле все
оценки, группы. В этом случае пренебрегают различиями, существующими между отдельными
значениями. Для измерения вариации оценок внутри группы требуются другие описательные
статистики. В этом письме будет рассмотрено несколько статистических характеристик,
которые по-разному служат мерами изменчивости в группе данных.
Размахпросто измеряет на числовой шкале расстояние, в пределах которого
изменяются оценки. Поскольку существуют несколько иные определения размаха, то надо
разграничить два его типа: включающий и исключающий.
Исключающий размах - это разность максимального и минимального значении в группе.
ПРИМЕР: исключающий размах значений 0, 2 3 5, 8 равен 8-0 = 8; значений -0,2; 0,4; 0,8;
1,6 имеют исключающий размах, равный 1,6 - (-0,2) = 1,8.
Включающий размах - это разность между естественной верхней границей интервала,
содержащего максимальное значение, и естественной нижней границей интервала,
включающего минимальное значение.
ПРИМЕР: рост пяти мальчиков измеряется с точностью до ближайшего см. Получены
следующие значения: 150, 155, 157, 165, 168 см. Фактический рост самого низкого мальчика
находится где-то между 149,5 и 150 см и действительная нижняя граница равна 149,5 см.
Верхняя граница интервала, содержащего максимальное значение, составляет 168,5 см. Таким
образом, включающий размах равен разности 168,5 - 149,5 = 19, которая на единицу больше,
чем 168-150.
Размах является довольно грубой, но общераспространенной мерой изменчивости.
Размах представляет собой меру рассеяния, разброса, неоднородности или изменчивости,
которая возрастает с ростом рассеяния и уменьшением однородности. Необходимо заметить,
что, так же как и для моды и медианы, в ходе вычисления этой меры не учитывается каждое от-
дельное значение.
Теперь мы сталкиваемся с четвертой мерой, при вычислении которой, как и для среднего,
используется каждая оценка – дисперсия.
Дисперсия выборки, или выборочная дисперсия (термин впервые введен Фишером), мера
изменчивости для метрических данных, пропорциональная сумме квадратов отклонений
измеренных значений от их арифметического среднего. Чем больше изменчивость в данных,
тем больше отклонения значений от среднего, тем больше величина дисперсии.
Мерой изменчивости, тесно связанной с дисперсией, является стандартное отклонение.
Стандартное отклонение(сигма, среднеквадратическое отклонение) - положительное
значение квадратного корня из дисперсии. Использование сигмы необходимо при составлении
таблиц средних для ваших приложений или для таблиц непосредственно находящихся в «теле»
диплома, диссертации или статьи. Так как использование только среднего значения
некорректно, то принято обозначать так: 5.62±1.97, где 5.62 – среднее, а 1.97 – стандартное
отклонение от среднего или сигма.
Одно из наиболее важных свойств распределения частот - степень асимметрии. Практически
точно симметричные полигоны частот и гистограммы почти никогда не встречаются. Степень
асимметрии распределения частот для выборки называется просто его асимметрией.
Асимметрия, или коэффициент асимметрии, является мерой несимметричности
распределения, степень отклонения графика распределения частот от симметричного вида
относительно среднего значения. Если этот коэффициент значительно отличается от 0,
распределение является асимметричным (то есть несимметричным).
Для симметричного распределения асимметрия равна 0. Если чаще встречаются значения
меньше среднего, то говорят о левосторонней, или положительной асимметрии (Ас > 0). Если
же чаще встречаются значения больше среднего, то асимметрия - правосторонняя, или
отрицательная (Ас<0). Чем больше отклонение от нуля, тем больше асимметрия.
Иногда важно получить представление о том, являются ли полигон частот или гистограмма
островершинными или плоскими. Для этого используют эксцесс.
Эксцесс, или коэффициент эксцесса, измеряет остроту пика распределения, мера
плосковершинности или остроконечности графика распределения измеренного признака.
Островершинное распределение характеризуется положительным эксцессом (Ех> 0), а
плосковершинное - отрицательным (-3 < Ех< 0). «Средневершинное» (нормальное)
распределение имеет нулевой эксцесс (Ех = 0).