Анализ данных с помощью блочных диаграмм. Базовые показатели

Вычисление показателей с помощью Пакета Анализа.

Стандартная ошибка – стандартное отклонение деленное на квадратный корень объема выборки.

Ассиметричность характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением.

Эксцесс – это мера относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения; зависит от разностей между элементами выборки и средним значением, возведенными в четвертую степень.

Основные характеристики позволяют описать свойства данных и перейти к более глубоким исследованиям. Довольно часто для анализа данных применяется подход, основанный на пятерке базовых показателей и построении блочной диаграммы.

Блочная диаграмма представляет собой удобное средство для изображения пяти базовых показателей. Вертикальная линия, проведенная внутри прямоугольника, отмечает медиану. Левая сторона прямоугольника соответствует первому квартилю , а правая – третьему квартилю . Таким образом, прямоугольник содержит средние 50% элементов выборки. Младшие 25%данных изображаются в виде линии (так называемый ус), соединяющей левую сторону прямоугольника с наименьшим выборочным значением . Следовательно, старшим 25% данных соответствует линия, соединяющая правую сторону прямоугольника с наибольшим выборочным значением .

Основная задача выборочного обследования.

Статистика не всегда имеет дело с данными сплошного наблюдения. Из всех видов несплошного наблюдения главным является выборочное наблюдение, т.к. только выборка позволяет распространить данные, полученные по части совокупности, на всю совокупность. Выборочный метод – это метод статистического исследования, при котором обобщающие показатели изучаемой совокупности (генеральной совокупности) устанавливаются по некоторой её части (выборочной совокупности или просто выборке) на основе положений случайного отбора.

В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции (товара), если проверка производится с уничтожением или разложением на составные части обследуемых образцов.

Причины использования выборочного метода:

1) повышение точности данных

2) экономия материальных, трудовых, финансовых ресурсов и времени (аудиторские проверки крупных фирм; составление баланса денежных доходов и расходов населения)

3) без выборки не обойтись, когда наблюдение связано с порчей наблюдаемых объектов)

Далее будем использовать следующие понятия:

Генеральная совокупность – это подлежащая изучению статистическая совокупность, из которой производится отбор части единиц

Выборочная совокупность (выборка) – отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию.

Суть выборочного метода:

получение характеристик изучаемой совокупности (генеральной) по обследованию некоторой ее части (выборке).

Выборочный метод использует два основных вида обобщающих показателей:

- относительную величину альтернативного (качественного) признака. Она характеризует долю (удельный вес) единиц в статистической совокупности, которые отличаются от других единиц только наличием изучаемого признака (доля нестандартных изделий во всей партии товара)

- среднюю величину количественного признака. Это обобщающая характеристика варьирующего признака, который имеет различные значения у отдельных единиц статистической совокупности (средняя цена акции; средняя выработка; средняя оплата труда)

Определим следующие величины для генеральной совокупности:

- доля единиц с изучаемым признаком (генеральная доля) ;

- средняя величина варьирующего признака (генеральная средняя) .

Определим следующие величины для выборки:

- доля изучаемого признака (выборочная доля или частота) ;

- средняя величина в выборке (выборочная средняя) .

Определение оптимальной численности выборки.

Размер ошибки выборки прежде всего зависит от численности выборочной совокупности n. При доведении N до n ошибка выборки =0. Однако это требует увеличения объемов исследований, дополнительных затрат труда и материальных средств.

Определение оптимальной численности выборки основывается на формуле предельной ошибки выборки. Необходимая численность выборки (для среднего значения) и (для доли альтернативного признака) определяется как:

В случае бесповторного отбора величины (12) и (13) примут следующий вид:

Малая выборка.

Под малой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности.

К минимальному объему выборки прибегают, когда большая выборка невозможна, или экономически невыгодна (если проведение исследования связано с порчей или уничтожением обследуемых образцов).

Объем малой выборки обычно не превышает 30 единиц, но может быть до 4-5 единиц.

Первые работы в области теории малой выборки были выполнены английским статистиком В. Госсетом в 1908г. (псевдоним Стьюдент) и продолжены в исследованиях Р. Фишера.

Величина ошибки малой выборки определяется по формулам, отличным от формул выборочного наблюдения со сравнительно большим объемом выборки (n > 100). Средняя ошибка малой выборки исчисляется по формуле:

При малой выборке величина имеет существенной значение, поэтому вычисление дисперсии малой выборки проводится с учетом числа степеней свободы.

Число степеней свободы – это количество вариантов, которые могут принимать произвольные значения, не меняя величины средней.

При определении дисперсии число степеней свободы = n – 1, тогда дисперсия МВ находится по формуле:

Предельная ошибка малой выборки: .

При этом для малой выборки t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по таблицам Стьюдента, в которых даны распределения стандартизованных отклонений:

При увеличении n распределение Стьюдента приближается к нормальному и при n = 20 оно уже мало отличается от нормального распределения.

21. Ошибка выборки.

Ошибка выборки – это объективно возникающие расхождения между характеристиками выборки и генеральной совокупности.

В математической статистике доказывается, что среднее значение ошибки выборки определяется по формуле:

где - генеральная дисперсия; n – объем выборки.

Однако обычно неизвестно, наоборот, его как правило надо определить.

Поэтому используют соотношение:

где - дисперсия в выборочной совокупности.

Если n – велико, то стремится к 1.

Тогда

где - дисперсия в выборочной совокупности; n - объём выборки.

Формула (1) используется при повторном отборе.

При этом для показателя доли альтернативного признака w дисперсия в выборочной совокупности определяется по формуле:

где w=m/n и m – доля единиц с изучаемым признаком; n – объем выборки.

Для бесповторного отбора:

где N - численность генеральной совокупности.

Повторный отбор – каждая попавшая в выборку единица после фиксации значения изучаемого признака, должна быть возвращена в генеральную совокупность, где ей опять предоставляется равная возможность попасть в выборку. (Используется редко)

Возможные значения, в пределах которых может находиться доля единиц, обладающих изучаемым признаком, в генеральной совокупности определяется по формуле: .

Для средних значений в генеральной совокупности установлены следующие границы:

Формулы (3) и (4) гарантированы не с абсолютной достоверностью, а лишь с определённой степенью вероятности.

В математической статистике доказывается, что пределы значений характеристик генеральной совокупности (Р и ) отличаются от характеристик выборочной совокупности ( и ) на величину лишь с определенной вероятностью = 0,683. Т.е. в 317 случаях из 1000 значения могут выйти из этих пределов.

Эту вероятность можно увеличить, увеличив в t раз среднюю ошибку . Здесь t - коэффициент доверия.

При t =2 доверительная вероятность = 0,954

При t =3 доверительная вероятность = 0,997 (т.е. выход в 3-х случаях из 1000)

Величина коэффициента доверия t зависит о доверительной вероятности и определяется по специальным таблицам, исчисленным применительно к случаю нормально распределенной совокупности (таблицы интегральной функции Лапласа).

Тогда:

При изучении доли альтернативного признака показатели соотносятся следующим образом:

При изучении средней величины:

Ошибки репрезентативности выборочного наблюдения это разновидность случайных ошибок. Они появляются как результат неполноты наблюдения. Если провести несколько выборочных наблюдений по одной совокупности, то полученные расхождения между показателями выборочной и генеральной совокупностей (т.е. ошибки выборки) будут различны как по знаку, так и по величине. Вот почему с помощью теорем математической статистики определяется средняя из возможных ошибок.

Смысл средней ошибки выборки: средняя ошибка выборки, по существу, это средняя квадратическая величина из отдельных ошибок, взвешенная по вероятности их возникновения.

Предельная ошибка выборки находится следующим образом:

t- зависит от вероятности, с которой гарантируется величина предельной ошибки выборки.

Расчёт при бесповторном отборе может быть записан следующими алгоритмами:

- доля альтернативного признака

- средняя величина количественного признака

Если процент единиц, взятых в выборку небольшой (до 5 %) то и расчёт производится по формулам повторного отбора:

Однако в этом случае мы несколько преувеличиваем результаты выборки (т.е. немного повышается средняя ошибка выборки).

Наши рекомендации