Выполнение задания в ППП MS Excel. Необходимые характеристики должны быть рассчитаны как для исходного ряда значений каждого признака (с помощью функций MS Excel)
Необходимые характеристики должны быть рассчитаны как для исходного ряда значений каждого признака (с помощью функций MS Excel), так и для сгруппированных данных. При этом последние являются приближенными значениями искомых характеристик.
1. Характеристики центра и структуры распределения
Средняя величина - обобщающая количественная характеристика признака в статистической совокупности, отражающая типичный уровень этого признака в расчете на единицу совокупности.
Средняя величина для несгруппированных данных:
,
где xi – значение признака у i–ой единицы совокупности;
N - объем совокупности.
Среднее значение по исходным данным определяются с помощью функции СРЗНАЧ. Вызываем функцию (из категории «Статистические»):
= СРЗНАЧ(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее (выделить для первого аргумента столбец исходных значений признака).
Средняя величина для интервально сгруппированных данных:
,
где хнj, хвj - нижняя и верхняя граница j–ого интервала;
k – число групп;
fj – вес усреднения для j-ой группы (в качестве весов усреднения берут частоты/частости).
К структурным характеристикам ряда распределения относятся квантили распределения и мода.
Квантиль распределения(Qi) – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Основными квантильными характеристиками являются:
- медиана (Ме) - значение признака, приходящееся на середину упорядоченной совокупности,
- квартили (Q1/4, Q2/4=Ме, Q3/4) – значения признака, делящие упорядоченную совокупность на 4 равные (по числу единиц) части,
- децили (Q0,1,Q0,2,…,Q0,9) – значения признака, делящие упорядоченную совокупность на 10 равных частей.
Квантили для несгруппированных данных определяются по упорядоченным значениям механически, путем определения номера искомого наблюдения.
Квантили распределения по исходным данным определяются с помощью функций МЕДИАНА, КВАРТИЛЬ, ПРОЦЕНТИЛЬ. Вызываем необходимую функцию (из категории «Статистические»):
= МЕДИАНА(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется медиана (выделить для первого аргумента столбец исходных значений признака).
= КВАРТИЛЬ(массив;часть)
где массив – это столбец исходных значений признака, для которых определяется значение квартиля;
часть – это значение, определяющее уровень квартиля: для Q1/4 – 1, для Q3/4 - 3.
= ПРОЦЕНТИЛЬ(массив;К)
где массив – это столбец исходных значений признака, для которых определяется значение К-ого процентиля (может использоваться для определения квартилей и децилей);
К – это значение, определяющее уровень процентиля: для Q0,1 – 0.1, для Q0,9 – 0.9; для Q1/4 – 0.25, для Q3/4 – 0.75 .
Результаты расчета характеристик по функциям MS Excel:
Для сгруппированых данных предварительно определяется группа, которая содержит i-ый квантиль: та группа от начала ряда, в которой сумма накопленных частот равна или превышает N·i, где i- индекс квантиля.
Квантили для интервально сгруппированных данных:
где Xqi - нижняя граница интервала, в котором находится i - ый квантиль;
- величина интервала, в котором находится i - ый квантиль;
F(-1) – сумма накопленных частот интервалов, предшествующих интервалу, в котором находится i - ый квантиль;
Nqi – частота интервала, в котором находится i - ый квантиль.
Мода (Мо) – наиболее часто встречающееся значение признака в совокупности.
Для несгруппированных данных мода обычно не определяется. Если признак принимает ограниченное число значений и они повторяются, можно определить моду с помощью функции МОДА. Вызываем функцию (из категории «Статистические»):
= МОДА(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется мода (выделить для первого аргумента столбец исходных значений признака).
Для интервально сгруппированного ряда мода – это значение признака, которому соответствует наибольшая плотность распределения. Для сгруппированых данных предварительно определяется группа, которая содержит моду: та группа, которой соответствует максимальная частота/частость или плотность распределения (для неравноинтервальных – только по максимальной плотности). Далее значение моды уточняется по формуле:
где XMo - нижняя граница интервала, в котором находится мода;
- величина модального интервала;
NMо, NMо-1, NMо+1 – частоты, соответственно, модального, предшествующего и последующего интервалов.
Расчет моды по данной формуле предполагает, что модальный, предшествующий и последующий интервалы – это интервалы одинаковой длины.
Таблица 3. Расчет характеристик центра и структуры распределения
Границы интервала | Частота | Накопленная частота | Середина интервала | Сер. инт. × Частота | |
нижняя | верхняя | ||||
12 Мо | 12 Q1/4, Q1/10 | ||||
22 Ме | |||||
30 Q3/4 | |||||
39 Q9/10 | |||||
Итого | - | - |
Расчет характеристик (см. табл. 3):
Среднее: млн. у.е./год
Медиана: млн. у.е./год
1 квартиль: млн. у.е./год
3 квартиль: млн. у.е./год
1 дециль: млн. у.е./год
9 дециль: млн. у.е./год
Мода: млн. у.е./год
2. Характеристики вариации
Для измерения рассеяния (вариации) признака применяются различные абсолютные и относительные показатели вариации.
Абсолютные показатели вариации:
- Размах вариации, R - разность между максимальным и минимальным значениями признака в совокупности:
- Среднее линейное отклонение, d - средняя арифметическая абсолютных значений отклонений отдельных вариант от их средней арифметической. Для несгруппированных и сгруппированных данных, соответственно:
, ,
где N – объем совокупности;
k - число групп;
fj – частота/частость в j – ой группе.
- Среднее квадратическое отклонение, s - средняя квадратическая из отклонений отдельных вариант от их средней арифметической. Для несгруппированных и сгруппированных данных, соответственно:
, .
- Дисперсия, s2 - средний квадрат отклонений вариант от их средней величины (квадрат среднего квадратического отклонения). Может быть также вычислена, как разность среднего квадрата значения признака и квадрата среднего арифметического значения признака:
.
Абсолютные показатели вариации по исходным данным определяются с помощью функций СРОТКЛ, СТАНДОТКЛОН, ДИСП. Вызываем необходимую функцию (из категории «Статистические»):
= СРОТКЛ(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее линейное отклонение (выделить для первого аргумента столбец исходных значений признака).
= СТАНДОТКЛОН(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется среднее квадратическое отклонение (выделить для первого аргумента столбец исходных значений признака).
= ДИСП(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется дисперсия (выделить для первого аргумента столбец исходных значений признака).
Самым распространенным относительным показателем рассеяния является коэффициент вариации. Он представляет собой выраженное в процентах отношение среднего квадратического отклонения к средней арифметической:
.
Коэффициент вариации используют как характеристику однородности совокупности. Совокупность считается качественно однородной, если коэффициент вариации не превышает 33%.
Результаты расчета характеристик по функциям MS Excel:
Расчет характеристик (см. табл. 4):
Размах вариации: млн. у.е./год
Среднее линейное отклонение: млн. у.е./год
Среднее квадратическое отклонение: млн. у.е./год
Дисперсия: (млн. у.е./год)2
Коэффициент вариации:
Таблица 4. Расчет показателей вариации
Серед. инт. | Частота | (Серед. инт.-сред.) × Част. | ABS((Серед. инт.-сред.) × Част.) | (Серед. инт.-сред.)2 × Част. |
-1860 | ||||
-550 | ||||
Итого |
3. Характеристики формы распределения
Для характеристики однородности совокупности используют и показатели формы распределения: коэффициент асимметрии и эксцесс.
Коэффициент асимметрии, As-показатель симметричности распределения. Положительная величина показателя асимметрии указывает на правостороннюю асимметрию, отрицательная – на левостороннюю, близость нулю свидетельствует о симметричном распределении.
Способы расчета коэффициента асимметрии:
1. Коэффициент асимметрии Пирсона:
.
Величина As может изменяться от –1 до +1 (для одновершинных распределений). Чем ближе по модулю As к 1, тем асимметрия существеннее.
2. Показатель, основанный на определении центрального момента третьего порядка – М3:
.
В симметричном распределении его величина равна нулю. Для оценки существенности такого коэффициента вычисляется его средняя квадратическая ошибка:
,
где N - объем совокупности.
Если çAsç/sAs меньше 2, это свидетельствует о несущественном характере асимметрии.
Коэффициент эксцесса, Ex-показатель островершинности распределения. Он рассчитывается для симметричных распределений.Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. Показатель, использующий центральный момент четвертого порядка - М4:
.
Для нормального распределения эксцесс равен нулю. Положительный эксцесс означает, что распределение более островершинное чем нормальное; отрицательный эксцесс означает более плосковершинный характер распределения, чем у нормального Для оценки существенности такого коэффициента эксцесса вычисляется его средняя квадратическая ошибка:
,
где N - объем совокупности.
Если çExç/sEx меньше 2, это свидетельствует о несущественном характере эксцесса (близости распределения по характеру островершинности к нормальному).
По исходным данным характеристики формы распределения могут быть определены с помощью функций СКОС, ЭКСЦЕСС. Вызываем функцию (из категории «Статистические»):
= СКОС(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется асимметрия (выделить для первого аргумента столбец исходных значений признака).
= ЭКСЦЕСС(число_1;число_2…)
где число_1;число_2… – числовые аргументы, для которых вычисляется эксцесс распределения (выделить для первого аргумента столбец исходных значений признака).
Результаты расчета характеристик по функциям MS Excel:
Таблица 5. Расчет показателей формы распределения
Середина интервала | Частота | (Середина интервала -среднее)3× Частота |
-44686500 | ||
-1663750 | ||
Итого |
Расчет характеристик (см. табл. 5):
Асимметрия:
Так как данный ряд распределения явно несимметричен, расчет эксцесса не производится.