Средние показатели вариации
Среднее линейное отклонение определяется как средняя арифметическая из отклонений индивидуальных значений от средней, без учёта знака этих отклонений
.
Дисперсия s2 (средний квадрат отклонений) определяется по формуле:
,
Чем меньше дисперсия, тем лучше средняя арифметическая отражает собой всю представленную совокупность.
Среднее квадратическое отклонение s может быть найдено таким образом:
.
Дисперсия и среднее квадратическое (стандартное) отклонение позволяют оценить степень колебания данных вокруг среднего значения.
Интерпретация понятий
Дисперсия и среднее квадратическое (стандартное) отклонение позволяют оценить разброс данных вокруг среднего значения, т.е. сколько элементов выборки меньше среднего, а сколько – больше. Дисперсия обладает ценными математическими свойствами. Однако ее величина представляет собой квадрат единицы измерения (квадратный %, квадратный доллар и т.д.). Поэтому естественной оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерения - %, доллары …
Стандартное отклонение позволяет оценить величину колебания значений вокруг среднего значения. Практически во всех ситуациях наблюдаемые величины лежат в интервале плюс-минус одно стандартное отклонение от среднего значения. Поэтому, зная среднее арифметическое и среднее квадратическое (стандартное) отклонение можно определить интервал, которому принадлежит основная масса данных.
Суммируем вышесказанное
ü Чем больший разброс имеют данные, тем больше их размах, межквартильный размах, дисперсия и стандартное отклонение
ü Чем более сконцентрированы данные, или однородны, тем меньше их размах, межквартильный размах, дисперсия и стандартное отклонение
ü Если все элементы выборки равны между собой (т.е. разброс отсутствует), межквартильный размах, дисперсия и стандартное отклонение равны нулю.
ü Ни одна из оценок изменчивости данных (размах, межквартильный размах, дисперсия и стандартное отклонение) не может быть отрицательной.
- Показатели относительного рассеивания.
Коэффициент осцилляции К0 отражает относительные колебания крайних значений признака вокруг средней:
.
Относительное линейное отклонение Kd характеризует долю усреднённого значения абсолютных отклонений от средней величины.
.
Коэффициент вариации u определяют по формуле:
.
Коэффициент вариации измеряет рассеивание данных относительно среднего значения. Измеряется в %, а не в единицах измерения исходных данных.
Чем выше риск, тем больше относительный разброс доходности вокруг среднего значения. Фонды с низким и средним уровнями риска имеют более высокую среднюю доходность и меньший коэффициент вариации, чем фонды с высоким уровнем риска. Это означает, что эффективность фондов со средним уровнем риска выше, чем эффективность фондов с высоким уровнем риска.
Коэффициент вариации позволяет сравнить две выборки, элементы которых выражаются в разных единицах измерения.
Когда относительные показатели вариации не превышают 35%, то принято считать, что полученные средние (серединные) характеристики достаточно надежно характеризуют совокупность по варьирующему признаку, когда относительные показатели вариации больше 35% - то ненадежно. В этом случае варианты ряда распределения существенно отличаются от средних характеристик.
- Виды дисперсии.
Виды дисперсии – это показатель изменения признака в совокупности.
Определим три вида дисперсии:
общую дисперсию ,
межгрупповую дисперсию ,
среднюю внутригрупповых дисперсий .
Общая дисперсия характеризует вариацию признака, которая зависит от всех условий в данной совокупности.
где - общая средняя для всей изучаемой совокупности.
Межгрупповая дисперсия отражает вариацию изучаемого признака, которая возникает под влиянием признака фактора, положенного в основу группировки.
где - средняя по отдельным группам;
- средняя общая;
- численность отдельных групп.
Средняя внутригрупповых дисперсий характеризует случайную вариацию в каждой отдельной группе. Это вариация результативного признака, которая возникает под влиянием всех остальных факторов, кроме группировочного.
где - дисперсия в каждой группе.
Большую практическую значимость имеет правило сложения дисперсий:
.
Коэффициент детерминации h2 находят по формуле: .
Он характеризует долю вариации группировочного признака в общем объеме вариации или на сколько процентов уровень результативного признака определяется группировочным признаком.
Корень квадратный из коэффициента детерминации называется эмпирическим корреляционным отношением.
Это отношение характеризует тесноту связи между признаками, т.е. близость корреляционной (неполной) зависимости к функциональной (полной). Этот показатель изменяется от нуля до единицы. Точность его зависит от размеров совокупности: чем больше совокупность, тем он надежнее. Недостатки эмпирического корреляционного отношения: невозможность определить направление связи (прямая зависимость или обратная); невозможность определения формы связи.
- Анализ данных с помощью блочных диаграмм. Базовые показатели.
Вычисление показателей с помощью Пакета Анализа
Стандартная ошибка – стандартное отклонение деленное на квадратный корень объема выборки.
Ассиметричность характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением.
Эксцесс – это мера относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения; зависит от разностей между элементами выборки и средним значением, возведенными в четвертую степень.
Основные характеристики позволяют описать свойства данных и перейти к более глубоким исследованиям. Довольно часто для анализа данных применяется подход, основанный на пятерке базовых показателей и построении блочной диаграммы.
Блочная диаграмма представляет собой удобное средство для изображения пяти базовых показателей:
- Дисперсия альтернативного (качественного признака).
Альтернативные – это признаки, которыми обладают одни единицы совокупности и не обладают другие.
Наличие изучаемого признака обозначается 1, а его отсутствие 0.
Доля показателей, обладающих изучаемым признаком, обозначается – р, а доля значений, не обладающих признаком, обозначается q.
P + q = 1
Найдем их средние значения и дисперсию.
=
- Основная задача выборочного обследования.
Статистика не всегда имеет дело с данными сплошного наблюдения. Из всех видов несплошного наблюдения главным является выборочное наблюдение, т.к. только выборка позволяет распространить данные, полученные по части совокупности, на всю совокупность.
Под выборочным понимается метод статистического исследования, при котором обобщающие показатели изучаемой совокупности (генеральной совокупности) устанавливаются по некоторой её части (выборочной совокупности или просто выборке) на основе положений случайного отбора.
В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции (товара), если проверка производится с уничтожением или разложением на составные части обследуемых образцов.
Причины использования выборочного метода:
1) повышение точности данных
2) экономия материальных, трудовых, финансовых ресурсов и времени (аудиторские проверки крупных фирм; составление баланса денежных доходов и расходов населения)
3) без выборки не обойтись, когда наблюдение связано с порчей наблюдаемых объектов)
Далее будем использовать следующие понятия:
Генеральная совокупность – это подлежащая изучению статистическая совокупность, из которой производится отбор части единиц
Выборочная совокупность (выборка) – отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию.
Суть выборочного метода:
получение характеристик изучаемой совокупности (генеральной) по обследованию некоторой ее части (выборке).
Выборочный метод использует два основных вида обобщающих показателей:
- относительную величину альтернативного (качественного) признака;
Она характеризует долю (удельный вес) единиц в статистической совокупности, которые отличаются от других единиц только наличием изучаемого признака (доля нестандартных изделий во всей партии товара)
- среднюю величину количественного признака.
Это обобщающая характеристика варьирующего признака, который имеет различные значения у отдельных единиц статистической совокупности (средняя цена акции; средняя выработка; средняя оплата труда)
Определим следующие величины для генеральной совокупности:
- доля единиц с изучаемым признаком (генеральная доля) Р;
- средняя величина варьирующего признака (генеральная средняя)
для выборки:
- доля изучаемого признака (выборочная доля или частота) w;
- средняя величина в выборке (выборочная средняя).