Понятие вариации. Абсолютные и средние показатели вариации
Различие (степень колебания) отдельных значений характеризуют показатели вариации.
Вариация – количественное изменение величины исследуемого признака в пределах однородной совокупности, которое обусловлено перекрещивающимся влиянием действия различных факторов.
Степень близости данных отдельных единиц хi к средней измеряется рядом абсолютных, средних и относительных показателей.
Абсолютные показатели вариации:
- Размах вариации R - это разность между наибольшим и наименьшим значением вариантов.
Размах позволяет измерить общий разброс данных. Его слабость в том, что он никак не учитывает, как именно распределены данные между минимальным и максимальным элементами.
- Межквартильный размах (средний размах) – это разность между третьим и первым квартилями выборки.
Эта величина позволяет оценить разброс 50% элементов и не учитывать влияние экстремальных элементов.
Суммарные количественные характеристики, такие как медиана, первый и третий квартили, межквартильный размах, на которые не влияют выбросы, называются устойчивыми показателями.
Размах и межквартильный размах позволяют оценить общий и средний разброс значений, но они не учитывают как именно распределены данные. Дисперсия и стандартное (среднеквадратическое) отклонение лишены этого недостатка.
Средние показатели вариации:
- Среднее линейное отклонение определяется как средняя арифметическая из отклонений индивидуальных значений от средней, без учёта знака этих отклонений.
- Дисперсия (средний квадрат отклонений) определяется по формуле:
Чем меньше дисперсия, тем лучше средняя арифметическая отражает собой всю представленную совокупность.
Среднее квадратическое отклонение может быть найдено таким образом:
Дисперсия и среднее квадратическое (стандартное) отклонение позволяют оценить степень колебания данных вокруг среднего значения. Дисперсия и среднее квадратическое (стандартное) отклонение позволяют оценить разброс данных вокруг среднего значения, т.е. сколько элементов выборки меньше среднего, а сколько – больше. Дисперсия обладает ценными математическими свойствами. Однако ее величина представляет собой квадрат единицы измерения (квадратный %, квадратный доллар и т.д.). Поэтому естественной оценкой дисперсии является стандартное отклонение, которое выражается в обычных единицах измерения - %, доллары.
Стандартное отклонение позволяет оценить величину колебания значений вокруг среднего значения. Практически во всех ситуациях наблюдаемые величины лежат в интервале плюс-минус одно стандартное отклонение от среднего значения. Поэтому, зная среднее арифметическое и среднее квадратическое (стандартное) отклонение можно определить интервал, которому принадлежит основная масса данных.
Суммируем вышесказанное:
- Чем больший разброс имеют данные, тем больше их размах, межквартильный размах, дисперсия и стандартное отклонение
- Чем более сконцентрированы данные, или однородны, тем меньше их размах, межквартильный размах, дисперсия и стандартное отклонение
- Если все элементы выборки равны между собой (т.е. разброс отсутствует), межквартильный размах, дисперсия и стандартное отклонение равны нулю.
- Ни одна из оценок изменчивости данных (размах, межквартильный размах, дисперсия и стандартное отклонение) не может быть отрицательной.
Показатели относительного рассеивания.
Коэффициент осцилляции отражает относительные колебания крайних значений признака вокруг средней:
Относительное линейное отклонение характеризует долю усреднённого значения абсолютных отклонений от средней величины.
Коэффициент вариации определяют по формуле:
Коэффициент вариации измеряет рассеивание данных относительно среднего значения. Измеряется в %, а не в единицах измерения исходных данных.
Коэффициент вариации позволяет сравнить две выборки, элементы которых выражаются в разных единицах измерения.
Когда относительные показатели вариации не превышают 35%, то принято считать, что полученные средние (серединные) характеристики достаточно надежно характеризуют совокупность по варьирующему признаку, когда относительные показатели вариации больше 35% - то ненадежно. В этом случае варианты ряда распределения существенно отличаются от средних характеристик.
Дисперсия альтернативного (качественного признака).
Альтернативные – это признаки, которыми обладают одни единицы совокупности и не обладают другие.
Наличие изучаемого признака обозначается 1, а его отсутствие 0.
Доля показателей, обладающих изучаемым признаком, обозначается – р, а доля значений, не обладающих признаком, обозначается q.
P + q = 1
Найдем их средние значения и дисперсию.
Виды дисперсии.
Виды дисперсии – это показатель изменения признака в совокупности.
Три вида дисперсии:
- общая дисперсия ,
- межгрупповая дисперсия ,
- средняя внутригрупповая дисперсия .
Общая дисперсия характеризует вариацию признака, которая зависит от всех условий в данной совокупности.
где - общая средняя для всей изучаемой совокупности.
Межгрупповая дисперсия отражает вариацию изучаемого признака, которая возникает под влиянием признака фактора, положенного в основу группировки.
где - средняя по отдельным группам;
- средняя общая;
- численность отдельных групп.
Средняя внутригрупповых дисперсий характеризует случайную вариацию в каждой отдельной группе. Это вариация результативного признака, которая возникает под влиянием всех остальных факторов, кроме группировочного.
где - дисперсия в каждой группе.
Большую практическую значимость имеет правило сложения дисперсий:
Коэффициент детерминации находят по формуле: .
Он характеризует долю вариации группировочного признака в общем объеме вариации или на сколько процентов уровень результативного признака определяется группировочным признаком.
Корень квадратный из коэффициента детерминации называется эмпирическим корреляционным отношением.
Это отношение характеризует тесноту связи между признаками, т.е. близость корреляционной (неполной) зависимости к функциональной (полной). Этот показатель изменяется от нуля до единицы. Точность его зависит от размеров совокупности: чем больше совокупность, тем он надежнее. Недостатки эмпирического корреляционного отношения: невозможность определить направление связи (прямая зависимость или обратная); невозможность определения формы связи.