Среднее квадратическое отклонение оценок характеристик генеральной совокупности по выборке
1. Для оценки среднего значения генеральной совокупности по выборке
,
где sx – среднее квадратическое отклонение для самих данных;
n − количество элементов в выборке.
2. Для оценки доли в генеральной совокупности по выборке
,
где p – доля объектов, обладающих признаком, в генеральной
совокупности.
В приведенных формулах sx и p являются характеристиками генеральной совокупности, которые при выборочном наблюдении неизвестны. Поэтому их заменяют аналогичными характеристиками выборочной совокупности − и w.
Тогда
,
.
При бесповторном отборе подкоренное выражение умножается на величину
,
где N – объем генеральной совокупности.
При n<<N выборку можно считать повторной.
Предельные ошибки оценок характеристик генеральной совокупности
Для решения практических задач необходимо знать не только среднюю квадратическую, но и предельную ошибку с гарантирующим ее уровнем доверительной вероятности. Формулы для определения предельной ошибки D приведены в таблице.
Метод отбора | Для средней | Для доли |
Повторный | ||
Бесповторный |
Величина t зависит от требуемого уровня доверительной вероятности и определяется по таблицам функции Лапласа.
Например, при Р = 0,95 t = 1,96, а при Р = 0,997 t = 3.
Определение численности выборки
Разрабатывая программу выборочного наблюдения, задают величину допустимой ошибки D и доверительную вероятность Р. Неизвестным является тот минимальный объем выборки n, который должен обеспечить заданную точность.
Формулы для определения численности выборки приведены в таблице
Метод отбора | Для средней | Для доли |
Повторный | ||
Бесповторный |
Величины , w оцениваются по выборке меньшего размера. Часто в качестве w выбирается 0,5 (по наихудшему случаю).
Пример.
Рассмотрим пример оценки доли полезного использования рабочего времени на предприятии (генеральной совокупности). Допустим, что предварительных данных об использовании рабочего времени нет. Допустимую ошибку установим в размере 0,05, а уровень значимости 0,05 (доверительная вероятность равна 0,95). Тогда необходимое число наблюдений составит
наблюдений.
Допустим, что по данным 1000 наблюдений получено, что время полезной работы наблюдается в 90 % наблюдений. Используя приведенную выше формулу, можно определить среднеквадратичную ошибку оценки доли полезного времени
.
Предельная ошибка выборочной доли составляет 0,02. Поэтому с вероятностью 0,95 можно утверждать, что истинное значение доли полезно используемого рабочего времени находится в диапазоне (0,88 – 0,92), т. е. составляет от 88 до 92 %.
Задание 4.
Результаты моментного наблюдения за поведением покупателей в магазине самообслуживания приведены в таблице.
Код действия покупателя | |||||||
Количество покупателей |
1 − ищут нужный отдел;
2 − подходят к прилавку;
3 − изучают ассортимент товаров и их цены;
4 − выбирают необходимый товар;
5 − переносят товар к кассе;
6 − оплачивают товар;
7 − выходят из магазина.
Найти выборочную долю покупателей, которые в момент обследования совершают действие, которое указано в таблице в соответствии с номером варианта задания.
Вариант | Код действия | Вариант | Код действия |
3 или 4 | |||
5 или 6 | |||
1 или 2 |
и предельную ошибку для оценки доли в генеральной совокупности с доверительной вероятностью Р = 0,95.
9. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ
Во многих науках (физика, экономика и т. д.) используются модели, в которых некоторые переменные (не случайные) связаны функциональной зависимостью. Примером таких зависимостей является закон Бойля-Мариотта или формула Ф. Котлера.
При статистической зависимости переменные (случайные величины) не связаны функционально. Однако закон распределения одной из них зависит от того, какое значение приняла другая случайная величина. Поэтому речь идет об условном распределении Y при заданном х.
В частности, можно рассматривать M(Y/x) как некоторую функцию х (регрессия).
При исследовании статистической зависимости между признаками пытаются ответить на следующие вопросы:
- существует ли статистическая связь между признаками;
- какова степень этой связи;
- какова форма связи.
Первые два вопроса решаются на основании корреляционного анализа. В качестве меры тесноты связи обычно используется коэффициент корреляции - . При связь становится функциональной.
Выборочный коэффициент корреляции r рассчитывается по формуле
.
На практике используются следующие формулы для «ручных» вычислений
;
;
.
После того, как вычислен выборочный коэффициент корреляции r следует проверить гипотезу об отсутствии корреляционной связи для генеральной совокупности Н0: .
Для этого вычисляется критерий
и сравнивается с табличным значением критерия Стьюдента с степенями свободы уровня значимости .
Если , то с надежностью можно отвергнуть гипотезу Н0 и считать, что корреляция имеется.
Для измерения тесноты связи используется не только коэффициент корреляции, но и корреляционное отношение.
Рассмотрим аналитическую группировку. Имеет место следующее соотношение
,
где − полная дисперсия признака-результата;
− внутригрупповая дисперсия;
− межгрупповая дисперсия.
Внутригрупповая дисперсия характеризует ту часть дисперсии признака-результата, которая не зависит от признака-фактора. Ее оценка определяется по формуле
,
где - оценка дисперсии признака – результата в пределах отдельной
группы по признаку-фактору;
ni – численность i-й группы.
Межгрупповая дисперсия отражает ту часть общей дисперсии признака-результата, которая объясняется влиянием признака-фактора. Ее оценка определяется по формуле
,
где − групповое среднее i-й группы.
Коэффициент детерминации определяет долю объясненной дисперсии в общей дисперсии признака-результата
.
Корреляционное отношение определяется как
.
Оно является мерой тесноты связи при любой форме зависимости, а не только линейной, как коэффициент корреляции.
Парная линейная регрессия
Следующий этап исследования корреляционной связи заключается в том, чтобы описать зависимость признака-результата от признака-фактора некоторым аналитическим выражением.
,
где − средний уровень показателя y при данном значении x.
Если рассчитан коэффициент корреляции r , то коэффициенты a0 и a1 могут быть определены следующим образом
, .
В общем случае такая задача может решаться с помощью метода наименьших квадратов (МНК).
Рассмотрим использование метода наименьших квадратов для оценки параметров регрессии .
На практике имеется серия наблюдений (xi;yi) (i=1,..,n).
Будем считать, что
.
Тогда
.
Продифференцировав Q по a0 и a1 и приравняв частные производные нулю, получим следующую систему уравнений
;
,
решая которую получим оценки и
,
.
Основное назначение регрессионной модели – использование ее для прогноза экономического показателя y. Прогноз осуществляется подстановкой значения фактора в оценку детерминированной составляющей:
Чтобы определить точность этой оценки и построить доверительный интервал необходимо найти дисперсию оценки .
На практике для оценки дисперсии ошибки прогноза можно пользоваться следующим выражением
.
Из этого выражения следует, что с ростом дисперсия ошибки прогноза увеличивается.
Пример.
Исследуем зависимость розничного товарооборота магазинов (млрд р.) от среднесписочного числа работников. Обозначим:
x – число работников;
y – товарооборот.
Исходные данные и результаты расчетов приведены в таблице
Номер магазина | |||||
0,5 | 39,5 | 6 241 | 0,25 | ||
0,7 | 59,5 | 7 225 | 0,49 | ||
0,9 | 91,8 | 10 404 | 0,81 | ||
1,1 | 126,5 | 13 225 | 1,21 | ||
1,4 | 170,8 | 14 884 | 1,96 | ||
1,4 | 176,4 | 15 876 | 1,96 | ||
1,7 | 227,8 | 17 956 | 2,89 | ||
1,9 | 279,3 | 21 609 | 3,61 | ||
Итого | 9,6 | 1171,6 | 107 420 | 13,18 |
;
; ;
;
Вычислим выборочный коэффициент корреляции:
;
;
.
Тогда
Проверим значимость выборочного коэффициента корреляции. Для этого вычислим статистику t:
Табличное значение критерия Стьюдента для = n-2 = 6 и
Так как 15,65 > 2,45 , то полученный коэффициент статистически значим.
Найдем коэффициенты парной линейной регрессии:
;
и регрессия имеет вид
.
Прогнозное значение розничного товарооборота при составит
Задание 5. С помощью корреляционного и регрессионного анализа изучить связь между показателями, указанными в Вашем варианте.
1. Рассчитать значение коэффициента корреляции для несгруппированных данных табл. 1.
2. По данным аналитической группировки (задание 1) найти межгрупповую дисперсию признака-результата и с учетом полной дисперсии (задание 2) определить коэффициент детерминации и корреляционное отношение.
1. Сделать вывод о тесноте и форме статистической связи.
2. Найти коэффициенты парной линейной регрессии и сделать прогноз признака-результата, если признак-фактор принимает свое среднее значение.
3. На одном рисунке изобразить эмпирическую (по данным аналитической группировки) и теоретическую регрессии. Провести анализ степени их совпадения.