Первичный взгляд на данные. Графическая визуализация данных выборки. Диаграмма рассеяния.

Количественное описание выборочных данных.

Выборочное среднее значение

Описательная статистика

Первый раздел математической статистики – описательная статистика – предназначен для представления данных в удобном виде и описания информации в терминах математической статистики и теории вероятностей.

Основной величиной в статистических измерениях является единица статистической совокупности (например, любой из критериев оценки качества педагога-исследователя). Единица статистической совокупности характеризуется набором признаков или параметров. Значения каждого параметра или признака могут быть различными и в целом образовывать ряд случайных значений x1, х2, …, хn.

Переменная (variable) - это параметр измерения, который можно контролировать или которым можно манипулировать в исследовании. Так как значения переменных не постоянны, нужно научиться описывать их изменчивость.

Для этого придуманы описательные или дескриптивные статистики: минимум, максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, мода.

Относительное значение параметра - это отношение числа объектов, имеющих этот показатель, к величине выборки. Выражается относительным числом или в процентах (процентное значение).

Удельное значение данного признака - это расчетная величина, показывающая количество объектов с данным показателем, которое содержалось бы в условной выборке, состоящей из 10, или 100, 1000 и т. д. объектов.

Минимум и максимум – это минимальное и максимальное значения перемен­ной.

Среднее (оценка среднего, выборочное среднее) – сумма значений переменной, деленная на n (число значений перемен­ной). Если вы имеете значения Х(1), ..., X(N), то формула для выборочного среднего имеет вид:

`х = Первичный взгляд на данные. Графическая визуализация данных выборки. Диаграмма рассеяния. - student2.ru

Выборочное среднее является той точкой, сумма отклонений наблюдений от которой равна 0. Формально это записывается следующим образом:

(`х - х1) + (`х - х2) + ... + (`х - хn) =0

Для оценки степени разброса (отклонения) какого-то показателя от его среднего значения, наряду с максимальным и минимальным значениями, используются понятия дисперсии и стандартного отклонения.

Дисперсия выборки или выборочная дисперсия (от английского variance) – это мера изменчивости переменной. Термин впервые введен Фишером в 1918 году. Выборочная дисперсия вычисляется по формуле:

s2 = Первичный взгляд на данные. Графическая визуализация данных выборки. Диаграмма рассеяния. - student2.ru

где `х – выборочное среднее,

N – число наблюдений в выборке.

Дисперсия меняется от нуля до бесконечности. Крайнее значение 0 означает отсутствие изменчивости, когда значения переменной постоянны.

Стандартное отклонение, среднее квадратическое отклонение (от английского standard deviation) вычисляется как корень квадратный из дисперсии. Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего.

Первичный взгляд на данные. Графическая визуализация данных выборки. Диаграмма рассеяния. - student2.ru

Медиана разбивает выборку на две равные части. Половина значений переменной лежит ниже медианы, половина – выше. Медиана дает общее представление о том, где сосредоточены значения переменной, иными словами, где находится ее центр. В некоторых случаях, например при описании доходов населения, медиана более удобна, чем среднее.

Рассмотрим способы определения медианы при различных значениях N. Для нахождения медианы измерения записывают в ряд по возрастанию значений. Если число измерений N нечетное, то медиана численно равна значению этого ряда, стоящему точно в середине, или на (N+1)/2 месте. Например, медиана пяти измерений: 10, 17, 21, 24, 25 – равна 21 – значению, стоящему на третьем месте (N+1)/2=(5+1)/2=3.

Если число измерений четное, то медиана численно равна среднему арифметическому значений ряда, стоящих в середине, или на N/2 и N/2+1 местах. Например, медиана восьми измерений: 5, 5, 6, 7, 8, 8, 9, 9 – равна 7,5 (7+8)/2=7,5 – среднему арифметическому значений ряда, стоящих на четвертом и пятом местах (N/2=8/2=4 и N/2+1=4+1=5).

Квартили представляют собой значения, которые делят две половины выборки (разбитые медианой) еще раз пополам (от слова кварта – четверть).

Различают верхнюю квартиль, которая больше медианы и делит пополам верхнюю часть выборки (значения переменной больше медианы), и нижнюю квартиль, которая меньше медианы и делит пополам нижнюю часть выборки. Нижнюю квартиль часто обозначают символом 25%, это означает, что 25% значений переменной меньше нижней квартили. Верхнюю квартиль часто обозначают символом 75%, это означает, что 75% значений переменной меньше верхней квартили. Таким образом, три точки – нижняя квартиль, медиана и верхняя квартиль - делят выборку на 4 равные части. ¼ наблюдений лежит между минимальным значением и нижней квартилью, ¼ - между нижней квартилью и медианой, ¼ - между медианой и верхней квартилью, ¼ - между верхней квартилью и максимальным значением выборки.

Мода представляет собой максимально часто встречающееся значение переменной (иными словами, наиболее «модное» значение переменной), например, популярная передача на телевидении, модный цвет платья или марка автомобиля и т.д, Сложность в том, что редкая совокупность имеет единственную моду. (Например: 2, 6, 6, 8, 9, 9, 9, 10 – мода = 9).

Если распределение имеет несколько мод, то говорят, что оно мультимодально или многомодально (имеет два или более «пика»).

Ассиметрия – это свойство распределения выборки, которое характеризует несимметричность распределения СВ. На практике симметричные распределения встречаются редко и чтобы выявить и оценить степень асимметрии, вводят следующую меру:

Первичный взгляд на данные. Графическая визуализация данных выборки. Диаграмма рассеяния. - student2.ru

Асимметрия бывает положительной и отрицательной. Положительная сдвигается влево, а отрицательная – вправо.

Эксцесс – это мера крутости кривой распределения.

Эксцесс равен:

Первичный взгляд на данные. Графическая визуализация данных выборки. Диаграмма рассеяния. - student2.ru

Кривая распределения может быть островершинной, плосковершинной, средне вершинной. Эти четыре момента составляют набор особенностей распределения при анализе данных. Для нормального распределения А=0, Е=0.

Наши рекомендации