Анализ данных с помощью блочных диаграмм. Базовые показатели
Вычисление показателей с помощью Пакета Анализа.
Стандартная ошибка – стандартное отклонение деленное на квадратный корень объема выборки.
Ассиметричность характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением.
Эксцесс – это мера относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения; зависит от разностей между элементами выборки и средним значением, возведенными в четвертую степень.
Основные характеристики позволяют описать свойства данных и перейти к более глубоким исследованиям. Довольно часто для анализа данных применяется подход, основанный на пятерке базовых показателей и построении блочной диаграммы.
Блочная диаграмма представляет собой удобное средство для изображения пяти базовых показателей. Вертикальная линия, проведенная внутри прямоугольника, отмечает медиану. Левая сторона прямоугольника соответствует первому квартилю , а правая – третьему квартилю . Таким образом, прямоугольник содержит средние 50% элементов выборки. Младшие 25%данных изображаются в виде линии (так называемый ус), соединяющей левую сторону прямоугольника с наименьшим выборочным значением . Следовательно, старшим 25% данных соответствует линия, соединяющая правую сторону прямоугольника с наибольшим выборочным значением .
Основная задача выборочного обследования.
Статистика не всегда имеет дело с данными сплошного наблюдения. Из всех видов несплошного наблюдения главным является выборочное наблюдение, т.к. только выборка позволяет распространить данные, полученные по части совокупности, на всю совокупность. Выборочный метод – это метод статистического исследования, при котором обобщающие показатели изучаемой совокупности (генеральной совокупности) устанавливаются по некоторой её части (выборочной совокупности или просто выборке) на основе положений случайного отбора.
В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции (товара), если проверка производится с уничтожением или разложением на составные части обследуемых образцов.
Причины использования выборочного метода:
1) повышение точности данных
2) экономия материальных, трудовых, финансовых ресурсов и времени (аудиторские проверки крупных фирм; составление баланса денежных доходов и расходов населения)
3) без выборки не обойтись, когда наблюдение связано с порчей наблюдаемых объектов)
Далее будем использовать следующие понятия:
Генеральная совокупность – это подлежащая изучению статистическая совокупность, из которой производится отбор части единиц
Выборочная совокупность (выборка) – отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию.
Суть выборочного метода:
получение характеристик изучаемой совокупности (генеральной) по обследованию некоторой ее части (выборке).
Выборочный метод использует два основных вида обобщающих показателей:
- относительную величину альтернативного (качественного) признака. Она характеризует долю (удельный вес) единиц в статистической совокупности, которые отличаются от других единиц только наличием изучаемого признака (доля нестандартных изделий во всей партии товара)
- среднюю величину количественного признака. Это обобщающая характеристика варьирующего признака, который имеет различные значения у отдельных единиц статистической совокупности (средняя цена акции; средняя выработка; средняя оплата труда)
Определим следующие величины для генеральной совокупности:
- доля единиц с изучаемым признаком (генеральная доля) ;
- средняя величина варьирующего признака (генеральная средняя) .
Определим следующие величины для выборки:
- доля изучаемого признака (выборочная доля или частота) ;
- средняя величина в выборке (выборочная средняя) .
Определение оптимальной численности выборки.
Размер ошибки выборки прежде всего зависит от численности выборочной совокупности n. При доведении N до n ошибка выборки =0. Однако это требует увеличения объемов исследований, дополнительных затрат труда и материальных средств.
Определение оптимальной численности выборки основывается на формуле предельной ошибки выборки. Необходимая численность выборки (для среднего значения) и (для доли альтернативного признака) определяется как:
В случае бесповторного отбора величины (12) и (13) примут следующий вид:
Малая выборка.
Под малой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности.
К минимальному объему выборки прибегают, когда большая выборка невозможна, или экономически невыгодна (если проведение исследования связано с порчей или уничтожением обследуемых образцов).
Объем малой выборки обычно не превышает 30 единиц, но может быть до 4-5 единиц.
Первые работы в области теории малой выборки были выполнены английским статистиком В. Госсетом в 1908г. (псевдоним Стьюдент) и продолжены в исследованиях Р. Фишера.
Величина ошибки малой выборки определяется по формулам, отличным от формул выборочного наблюдения со сравнительно большим объемом выборки (n > 100). Средняя ошибка малой выборки исчисляется по формуле:
При малой выборке величина имеет существенной значение, поэтому вычисление дисперсии малой выборки проводится с учетом числа степеней свободы.
Число степеней свободы – это количество вариантов, которые могут принимать произвольные значения, не меняя величины средней.
При определении дисперсии число степеней свободы = n – 1, тогда дисперсия МВ находится по формуле:
Предельная ошибка малой выборки: .
При этом для малой выборки t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по таблицам Стьюдента, в которых даны распределения стандартизованных отклонений:
При увеличении n распределение Стьюдента приближается к нормальному и при n = 20 оно уже мало отличается от нормального распределения.
21. Ошибка выборки.
Ошибка выборки – это объективно возникающие расхождения между характеристиками выборки и генеральной совокупности.
В математической статистике доказывается, что среднее значение ошибки выборки определяется по формуле:
где - генеральная дисперсия; n – объем выборки.
Однако обычно неизвестно, наоборот, его как правило надо определить.
Поэтому используют соотношение:
где - дисперсия в выборочной совокупности.
Если n – велико, то стремится к 1.
Тогда
где - дисперсия в выборочной совокупности; n - объём выборки.
Формула (1) используется при повторном отборе.
При этом для показателя доли альтернативного признака w дисперсия в выборочной совокупности определяется по формуле:
где w=m/n и m – доля единиц с изучаемым признаком; n – объем выборки.
Для бесповторного отбора:
где N - численность генеральной совокупности.
Повторный отбор – каждая попавшая в выборку единица после фиксации значения изучаемого признака, должна быть возвращена в генеральную совокупность, где ей опять предоставляется равная возможность попасть в выборку. (Используется редко)
Возможные значения, в пределах которых может находиться доля единиц, обладающих изучаемым признаком, в генеральной совокупности определяется по формуле: .
Для средних значений в генеральной совокупности установлены следующие границы:
Формулы (3) и (4) гарантированы не с абсолютной достоверностью, а лишь с определённой степенью вероятности.
В математической статистике доказывается, что пределы значений характеристик генеральной совокупности (Р и ) отличаются от характеристик выборочной совокупности ( и ) на величину лишь с определенной вероятностью = 0,683. Т.е. в 317 случаях из 1000 значения могут выйти из этих пределов.
Эту вероятность можно увеличить, увеличив в t раз среднюю ошибку . Здесь t - коэффициент доверия.
При t =2 доверительная вероятность = 0,954
При t =3 доверительная вероятность = 0,997 (т.е. выход в 3-х случаях из 1000)
Величина коэффициента доверия t зависит о доверительной вероятности и определяется по специальным таблицам, исчисленным применительно к случаю нормально распределенной совокупности (таблицы интегральной функции Лапласа).
Тогда:
При изучении доли альтернативного признака показатели соотносятся следующим образом:
При изучении средней величины:
Ошибки репрезентативности выборочного наблюдения это разновидность случайных ошибок. Они появляются как результат неполноты наблюдения. Если провести несколько выборочных наблюдений по одной совокупности, то полученные расхождения между показателями выборочной и генеральной совокупностей (т.е. ошибки выборки) будут различны как по знаку, так и по величине. Вот почему с помощью теорем математической статистики определяется средняя из возможных ошибок.
Смысл средней ошибки выборки: средняя ошибка выборки, по существу, это средняя квадратическая величина из отдельных ошибок, взвешенная по вероятности их возникновения.
Предельная ошибка выборки находится следующим образом:
t- зависит от вероятности, с которой гарантируется величина предельной ошибки выборки.
Расчёт при бесповторном отборе может быть записан следующими алгоритмами:
- доля альтернативного признака
- средняя величина количественного признака
Если процент единиц, взятых в выборку небольшой (до 5 %) то и расчёт производится по формулам повторного отбора:
Однако в этом случае мы несколько преувеличиваем результаты выборки (т.е. немного повышается средняя ошибка выборки).