Практическое занятие №2. Вычисление характеристик эмпирических распределений (выборочных характеристик).
2.1 Основные понятия и определения
Для компактного описания совокупности наблюдений (результатов измерений характеристик) используют методы описательной статистики(описания результатов с помощью различных агрегированных показателей и графиков).
Показатели описательной статистики можно разбить на несколько групп:
1) показатели положения – описывают положение экспериментальных данных на числовой оси. К таким показателям относятся:
- max и min элементы выборки;
- среднее выборочное;
Пусть имеется ряд наблюдений х1 , х2, х3, ….хn непрерывно распределенной случайной величины, тогда среднее значение наблюдаемого признака (выборочное среднее) определяется по формуле:
, где (2.1)
хi - значение наблюдаемого признака;
n - объем выборки.
- медиана – значение исследуемого признака, справа и слева от которого находится одинаковое число упорядоченных элементов выборки.
Если объем выборки (n) – четное число, то медианой является среднее арифметическое двух центральных членов:
(2.2)
Если n - нечетное, то:
(2.3)
- мода – значение признака, которому соответствует наибольшая частота.
2) показатели разброса – описывают степень разброса данных относительно своего центра (среднего значения).
К ним относятся, например:
- размах, варьирование или интервал выборки – разность между max и min элементами выборки;
- выборочная дисперсия или дисперсия эмпирического распределения, рассчитывается как сумма квадратов разности между элементами выборки и средним значением:
, (2.4)
где - отклонение каждого наблюдения от среднего.
Дисперсия характеризует разброс элементов выборки вокруг среднего значения.
- среднеквадратические отклонения:
а) для дисперсии эмпирического распределения:
(2.5)
б) для несмещенной оценки дисперсии теоретического распределения σ2 (для генеральной совокупности):
, где (2.6)
Оценка называется несмещенной, если при любом числе наблюдений n ее математическое ожидание точно равно значению оцениваемого параметра.
- центральные моменты распределения – отклонение отдельных величин признака от его средней арифметической величины:
а) первый центральный момент равен:
(2.7)
б) второй центральный момент равен:
(2.8)
в) третий центральный момент равен:
(2.9)
г) четвертый центральный момент равен:
(2.10)
- и другие;
3) показатели асимметрии – положение медианы относительно среднего:
- коэффициент эксцесса, является характеристикой того, насколько кучно основная масса данных группируется около центра и является характеристикой поведения плотности (полигона) в районе её модального значения:
(2.11)
Для нормального распределения .
Аналогом отсчета в измерении степени островершинности служит нормальное распределение, для которого g2=0.
Для островершинных (по сравнению с нормальным распределением) g2>0, а для плосковершинного g2<0 .
- коэффициент асимметрии, характеризует асимметричность распределения;
Выборочный коэффициент асимметрии является характеристикой степени скошенности и подсчитывается с помощью второго и третьего выборочных центральных моментов:
(2.12)
Для симметричных распределений m3 = 0 и g = 0.
4) коэффициент вариации - является мерой относительной изменчивости наблюдаемой случайной величины:
(2.13)
Если коэффициент вариации υ<33%, то выборка подчиняется нормальному закону распределения.
5) гистограмма (и любые другие графики).
2.2 Вычисление выборочных характеристик на примере
Для выборки представленной в таблице 1.1 вычислить выборочные характеристики.
1 Вычислим среднее значение наблюдаемого признака (выборочное среднее) по формуле 2.1:
Данные для вычисления выборочных характеристик приведены в таблице 2.1.
Таблица 2.1 - Данные для вычисления выборочных характеристик
№ | |||||
9,81 | 5,734 | 32,879 | 188,528 | 1081,020 | |
2,34 | -1,736 | 3,014 | -5,232 | 9,082 | |
6,55 | 2,474 | 6,121 | 15,143 | 37,464 | |
0,15 | -3,926 | 15,413 | -60,513 | 237,575 | |
8,63 | 4,554 | 20,739 | 94,445 | 430,103 | |
7,11 | 3,034 | 9,205 | 27,928 | 84,735 | |
1,57 | -2,506 | 6,280 | -15,738 | 39,439 | |
2,34 | -1,736 | 3,014 | -5,232 | 9,082 | |
5,55 | 1,474 | 2,173 | 3,203 | 4,721 | |
0,99 | -3,086 | 9,523 | -29,389 | 90,695 | |
6,72 | 2,644 | 6,991 | 18,484 | 48,870 | |
5,15 | 1,074 | 1,154 | 1,239 | 1,331 | |
0,34 | -3,736 | 13,958 | -52,146 | 194,817 | |
2,23 | -1,846 | 3,408 | -6,291 | 11,613 | |
4,85 | 0,774 | 0,599 | 0,464 | 0,359 | |
5,01 | 0,934 | 0,872 | 0,815 | 0,761 | |
4,15 | 0,074 | 0,005 | 0,0004 | 0,00003 | |
1,11 | -2,966 | 8,797 | -26,092 | 77,390 | |
2,48 | -1,596 | 2,547 | -4,065 | 6,488 | |
4,44 | 0,364 | 0,132 | 0,048 | 0,0175 | |
∑ | 81,52 | 0,000 | 146,824 | 145,599 | 2365,617 |
2 Вычислим выборочную дисперсию или дисперсию эмпирического распределения по формуле 2.4:
3 Вычислим центральные моменты распределения по формулам 2.7 – 2.10:
4 Вычислим среднеквадратическое отклонение для дисперсии эмпирического распределения по формуле 2.5:
А для несмещенной оценки дисперсии теоретического распределения по формуле 2.6:
5 Вычислим коэффициент вариации по формуле 2.13:
Коэффициент вариации больше 33 %, значит выборка не подчиняется нормальному закону распределения.
7 Вычислим медиану по формуле 2.2 (объем выборки n=20 – четное число). Для этого необходимо представить выборку в виде вариационного ряда (таблица 1.2).
8 Вычислим моду - значение признака, которому соответствует наибольшая частота. Из таблицы 1.4 видно, что
9 Вычислим коэффициент эксцесса по формуле 2.11:
Так как g2 = - 0,96<0. Имеется небольшой эксцесс.
10 Вычислим коэффициент асимметрии по формуле 2.12:
Так как g1 = 0,36≠0. Следовательно некоторая ассиметрия имеет место.