Квадратическая взвешенная
Средняя квадратическая взвешенная равна:
В статистике могут применяться также степенные средние 3-го и более высоких порядков.
38. Среднее линейное отклонение.
Среднее линейное отклонение
Показатель размаха вариации дает обобщающую характеристику только размаху (амплитуде) значений признака, но не вариации отклонений. Распределение отклонений можно уловить, исчислив отклонения всех вариантов от средней. Для того чтобы дать им обобщающую характеристику, необходимо вычислить среднюю из этих отклонений, т.е. разностей между значениями признака и средней арифметической в данной совокупности единиц.
Из свойства средней арифметической (см. выражение (5.2)) известно, что сумма отклонений значений признака от нес всегда равна нулю, так как сумма положительных отклонений всегда равна сумме отрицательных отклонений. Следовательно, чтобы вычислить среднюю арифметическую из отклонений, нужно условно допустить, что все отклонения, положительные и отрицательные, имеют одинаковый знак. Тогда, если взять сумму всех отклонений, условно принятых с одинаковым знаком, и разделить на их число, то полученный показатель вариации будет называться средним линейным отклонением (с!), т.е. это средняя арифметическая из абсолютных значений отклонений отдельных вариантов от их средней арифметической.
Если каждый вариант в ряду распределения повторяется один раз, то среднее линейное отклонение определяется по формуле
где | х. -х | — абсолютные значения отклонений отдельных вариантов от их средней величины, т.е. в виде абсолютных значений по модулю; п — число членов ряда.
Для вариационного ряда с неравными частотами формула имеет следующий вид:
где — сумма частот вариационного ряда.
На основе данных дискретного ряда распределения (табл. 6.1) рассчитаем размах вариации и среднее линейное отклонение.
Таблица 6.1. Распределение сотрудников фирм по стажу работы
Вычислим размах вариации стажа работы, лет: Д=12-8 = 4.
Определим среднее линейное отклонение по формуле (6.1). Результаты вспомогательных расчетов даны в графах 3, 4 табл. 6.1.
Средний стаж работы сотрудников, лет, вычислим по формуле средней арифметической взвешенной (графа 2)
Отклонения индивидуальных значений стажа от средней с учетом и без учета знака содержатся в графах 3 и 4, а произведения отклонений по модулю на соответствующие частоты даны в графе 5.
Среднее линейное отклонение стажа работы сотрудников коммерческого банка составит, лет:
т.е. конкретные значения стажа работы одного сотрудника в среднем отклоняются от среднего значения признака на 0,96 года.
Среднее линейное отклонение обладает большим преимуществом перед размахом вариации в отношении полноты характеристики колеблемости признака. Однако при этом нарушается элементарное правило математики, так как отклонение от среднего значения признака складывается без учета знаков. Это обстоятельство вынуждает искать такой показатель вариации, который был бы лишен и этого недостатка. Хотя в некоторых случаях, суммирование показателей без учета знаков имеет экономический смысл. Например, в практической статистике оборот внешней торговли страны определяется как сумма экспорта и импорта, общий оборот рабочей силы — как сумма принятых и уволенных.
Отмеченный выше недостаток среднего линейного отклонения может быть устранен путем возведения в квадрат отклонений вариантов от средней величины.
Дисперсия
Таким путем приходим к новому показателю вариации — дисперсии — это средний квадрат отклонения значений признака от их средней величины. Порядок вычисления дисперсии можно выразить следующими формулами.
Если каждый вариант повторяется один раз, то дисперсию определяют по формуле
Для вариационного ряда с неравными частотами формула примет следующий вид:
39. Дисперсия и ее свойства.
40. Виды дисперсии.
41. Мода.
Мода(Мо) – это варианта, которая чаще всего встречается в изучаемой совокупности. Мода не зависит от крайних значений вариант и может применяется для характеристики центра в рядах распределения с неопределенными границами.
В дискретном вариационном ряду мода определяется визуально и равна варианте с наибольшей частотой или частостью. Данные распределения рабочих по стажу работы (см. лекцию «Сводка и группировка статистических данных») показывают, что наибольшее рабочих имеют стаж работы 4 года, т.е. варианта, равная 4, является модой признака. Мо = 4.
В интервальных рядах распределения для нахождения моды сначала по наибольшей частоте определяют модальный интервал, т.е. интервал, содержащий моду, а затем приблизительно рассчитывают ее по формуле:
,
где – нижняя граница модального интервала;
– величина модального интервала;
– частоты соответственно в предыдущем и следующим за модальным интервалах.
Встречаются ряды, которые имеют две моды (бимодальный ряд) или несколько (полимодальный).
Рассчитаем моду интервального ряда распределения рабочих по размеру заработной платы (см. лекцию «Сводка и группировка статистических данных»).
В этом вариационном ряду интервал 900-1000 грн., в который попало максимальное количество рабочих (9 чел.), является модальным.
грн.
Полученное значение моды свидетельствует о том, что в рассматриваемой совокупности наиболее типичной является заработная плата 914,29 грн., что выше ранее рассчитанной средней зарплаты (870 грн.).
Для ряда с неравными интервалами модальный интервал определяется по наибольшей плотности распределения, а в расчетной формуле моды вместо частот используют абсолютные плотности распределения.
Для интервальных вариационных рядов с равными интервалами моду можно приближенно определить графически.
Для этого на гистограмме этого ряда (см. гистограмму в лекции «Сводка и группировка статистических данных») выбирают самый высокий прямоугольник, который и является модальным. Далее правую верхнюю вершину прямоугольника, предшествующего модальному (частота fMо-1), соединяют с правой верхней вершиной модального прямоугольника (частота fMо), а левую верхнюю вершину этого прямоугольника – с левой верхней вершиной прямоугольника, следующего за модальным (частота fMо+1). Из точки пересечения опускают перпендикуляр на горизонтальную ось. Основание перпендикуляра покажет значение моды Мо. Точность определения зависит от масштаба графика.
42. Медиана.
Медианой Меназывают такое значение признака, которое приходится на середину ранжированного ряда и делит его на две равные по числу единиц части. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая – меньше медианы.
Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.
Вдискретном вариационном ряду, содержащем нечетное число единиц, медиана равна варианте признака, имеющей номер :
,
где N – число единиц совокупности.
В дискретном ряду, состоящем из четного числа единиц совокупности, медиана определяется как средняя из вариант, имеющих номера и :
.
В распределении рабочих по стажу работы медиана равна средней из вариант, имеющих в ранжированном ряду номера 10 : 2 = 5 и 10 : 2 + 1 = 6. Варианты пятого и шестого признака равны 4 годам, таким образом
года
При вычислении медианы в интервальном ряду сначала находят медианный интервал, (т. е. содержащий медиану), для чего используют накопленные частоты или частости. Медианным является интервал, накопленная частота которого равна или превышает половину всего объема совокупности. Затем значение медианы рассчитывается по формуле:
,
где – нижняя граница медианного интервала;
– ширина медианного интервала;
– накопленная частота интервала, предшествующего медианному;
– частота медианного интервала.
Рассчитаем медиану ряда распределения рабочих по размеру зарплаты (см. лекцию «Сводка и группировка статистических данных»).
Медианным является интервал заработной платы 800-900 грн., поскольку его кумулятивная частота равна 17, что превышает половину суммы всех частот ( ). Тогда
Ме=800+100 грн.
Полученное значение говорит о том, половина рабочих имеют заработную плату ниже 875 грн., но это выше среднего ее размера.
Для определения медианы можно вместо кумулятивных частот использовать кумулятивные частости .
Медиана, как и мода, не зависит от крайних значений вариант, поэтому также применяется для характеристики центра в рядах распределения с неопределенными границами.
Свойство медианы:сумма абсолютных величин отклонений вариант от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):
Это свойство медианы используется на транспорте при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок, сборочных пунктов и т..д.
43. Коэффициент вариации
Коэффициент вариации используют для сравнения рассеивания двух и более признаков, имеющих различные единицы измерения. Коэффициент вариации представляет собой относительную меру рассеивания, выраженную в процентах. Он вычисляется по формуле:
,
где - искомый показатель, - среднее квадратичное отклонение, - средняя величина.
Пример:Определяется воспроизводимость двух методов измерения СОЭ. Первый метод (модифицированный метод Вестергрина) дал величину = 1,0 мм при = 10 мм, а второй (метод Линсенмайера) - =15 минут и = 180 минут.
Непосредственное сравнение средних квадратичных отклонений не дает ответа, так как речь идет о двух величинах, выраженных в разных единицах измерения. Следовательно, необходимо прибегнуть к коэффициенту вариации: V1=(1/10)*100=10%; V2=(15/180)*100=8,33%.
Воспроизводимость первого проверяемого метода ниже по сравнению со вторым (10% > 8,33%).
44. Понятие выборочного наблюдения.
Выборочное наблюдение - метод статистического исследования, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой ее части на основе положений случайного отбора.
При выборочном методе обследованию подвергается небольшая часть всей изучаемой совокупности (обычно до 5 — 10%, реже до 15 — 25%). При этом подлежащая изучению статистическая совокупность, из которой производится отбор части единиц, называется генеральной совокупностью.Отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию, называется выборочной совокупностьюили просто выборкой.
Значение выборочного метода состоит в том, что при минимальной численности обследуемых единиц проведение исследования осуществляется в более короткие сроки и с минимальными затратами труда и средств. Это повышает оперативность статистической информации, уменьшает ошибки регистрации.
В генеральной совокупности доля единиц, обладающих изучаемым признаком, называется генеральной долей (обозначается р), а средняя величина изучаемого варьирующего признака — генеральной средней(обозначается ).
В выборочной совокупности долю изучаемого признака называют выборочной долей, или частостью (обозначается ), а среднюю величину в выборке — выборочной средней (обозначается ).
Выборочная доля, или частость, определяется из отношения единиц, обладающих изучаемым признаком m, к общей численности единиц выборочной совокупности n:
Ошибка выборки— это объективно возникающее расхождение между характеристиками выборки и генеральной совокупности. Она зависит от ряда факторов: степени вариации изучаемого признака, численности выборки, метода отбора единиц в выборочную совокупность, принятого уровня достоверности результата исследования.
Ошибки выборки подразделяются на:
• ошибки регистрации, возникающие из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т. д.
• ошибки репрезентативности, которые могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки — принцип случайности. Случайные ошибки репрезентативности означают, что несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности является основной задачей выборочного метода.
45. Генеральная и выборочная совокупности, их характеристики.
Генеральной совокупностью называется множество всех мыслимо возможных наблюдений, которые могли бы быть сделаны при данном реальном комплексе условий или более строго: генеральной совокупностью называется случайная величина x и связанное с ней вероятностное пространство {W,Á,Р}.
Распределение случайной величины x называют распределением генеральной совокупности (говорят, например, о нормально распределенной или просто нормальной генеральной совокупности).
Например, если производится ряд независимых измерений случайной величины x,то генеральная совокупность теоретически бесконечна (т.е. генеральная совокупность - абстрактное, условно - математическое понятие); если же проверяется число дефектных изделий в партии из N изделий, то эту партию рассматривают как конечную генеральную совокупность объема N. В случае социально-экономических исследований генеральной совокупностью объема N может быть население какого-то города, региона или страны, а измеряемыми признаками – доходы, расходы или объем сбережений отдельно взятого человека. Если какой-то признак имеет качественный характер (например, пол, национальность, социальное положение, род деятельности и т.п.), но принадлежит к конечному множеству вариантов, то он может быть также закодирован числом (как это часто делают в анкетах).
Если число объектов N достаточно велико, то провести сплошное обследование затруднительно, а иногда физически невозможно (например, проверить качество всех патронов). Тогда случайным образом отбирают из всей генеральной совокупности ограниченное число объектов и подвергают их изучению.
Выборочной совокупностью или просто выборкой объема n называется последовательность х1, х2, …, хn независимых одинаково распределенных случайных величин, распределение каждой из которых совпадает с распределением случайной величины x.
Например, результаты n первых измерений случайной величины x принято рассматривать как выборку объема n из бесконечной генеральной совокупности. Полученные данные называют наблюдениями случайной величины x, а также говорят, что случайная величина x "принимает значения" х1, х2, …, хn.
46. Способы отбора единиц из генеральной совокупности.
В статистике используются различные способы формирования выборочных совокупностей, что обуславливается задачами исследования и зависит от специфики объекта изучения.
Основным условием проведения выборочного обследования является предупреждение возникновения систематических ошибок, возникающих вследствие нарушения принципа равных возможностей попадания в выборку каждой единицы генеральной совокупности.
Предупреждение систематических ошибок достигается в результате применения научно обоснованных способов отбора единиц из генеральной совокупности:
1 – индивидуальный отбор – в выборку отбираются отдельные единицы;
2 – групповой отбор – в выборку попадают качественно однородные группы или серии изучаемых единиц;
3 – комбинированный отбор – как комбинация индивидуального и группового отбора.
В статистике различают так же одноступенчатый и многоступенчатый способы отбора единиц в выборочную совокупность:
- при одноступенчатой выборке каждая отобранная единица сразу же подвергается изучению по заданному признаку. (собственно-случайная и серийная выборки)
- при многоступенчатой выборке производят отбор из генеральной совокупности отдельных групп, а из групп выбираются отдельные единицы. (типическая выборка с механическим способом отбора единиц в выборочную совокупность)
Способы отбора определяются правилами формирования выборочной совокупности. Выборка может быть:
1. Собственно случайная. Состоит в том, что выборочная совокупность образуется в результате случайного (непреднамеренного) отбора отдельных единиц из генеральной совокупности. При этом количество отобранных единиц обычно определяется исходя из принятой доли выборки (К):
Важным условием репрезентативности собственно-случайной выборки является то, что каждой единице генеральной совокупности предоставляется равная возможность попасть в выборочную совокупность. (проведение тиражей выигрышей денежно-вещевой лотереи)
2. Механическая. Заключается в том, сто отбор единиц в выборочную совокупность производится из генеральной совокупности, разбитой на равные интервалы. При этом размер интервала в генеральной совокупности равен обратной величине доли выборки. Для обеспечения репрезентативности выборки все единицы генеральной совокупности должны располагаться в определенном порядке.
3. Типическая. При подобной выборке генеральная совокупность вначале расчленяется на однородные типические группы. Затем из каждой группы собственно-случайной или механической выборкой производится индивидуальный отбор единиц в выборочную совокупность. Репрезентативность типической выборки обеспечивается расчленением генеральной совокупности, что обуславливает представительство в выборке каждой типологической группы.
4. Серийная (гнездовая). Заключается в том, что из генеральной совокупности отбираются не отдельные единицы, а целые их серии (гнезда). Внутри же каждой из попавшей в выборку серии исследуются все без исключения единицы, то есть применяется сплошное наблюдение. Отбор отдельный серий в выборочную совокупность осуществляется либо собственно-случайной выборкой или механическим отбором.
5. Комбинированная. Может быть двухступенчатой. При этом генеральная совокупность сначала разбивается на группы, затем производят отбор групп, а внутри последних осуществляется отбор отдельных единиц. Может быть многоступенчатой.
Таким образом, способы формирования выборочной совокупности выступают в качестве важнейшего фактора, который определяет репрезентативность выборочного обследования.
47. Погрешности выборочного наблюдения.
48. Предельная погрешность выборочного наблюдения.
49. Доверительные интервалы для среднего и доли.
Теорема. Вероятность того, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превзойдёт по абсолютной величине число , равна:
, ;
, . -
формулы доверительной вероятности для средней и доли.
Где - функция Лапласа, и - среднеквадратические отклонения выборочной средней и выборочной доли или среднеквадратические ошибки выборки (собственно случайная повторная выборка). Если выборка бесповторная, то среднеквадратические отклонения выборочной средней и выборочной доли - и .
Повторная выборка | Бесповторная выборка | |
Средняя | ||
Доля |
Формулы для нахождения среднеквадратических ошибок выборки запишем в таблицу.
При малом объеме выборки величина , поэтому значения для среднеквадратических ошибок при повторной и бесповторной выборке приблизительно равны между собой.
Следствия теоремы:
1) при заданной доверительной вероятности предельная ошибка выборки
,
, где .
2) доверительные интервалы для генеральной средней и генеральной доли могут быть найдены по формулам
,
.
50. Понятие рядов динамики.
Одной из важнейших задач статистики является изучение изменений анализируемых показателей во времени, то есть их динамика. Эта задача решается при помощи анализа рядов динамики (временных рядов).
Ряд динамики (или временной ряд) – это числовые значения определенного статистического показателя в последовательные моменты или периоды времени (т.е. расположенные в хронологическом порядке).
Числовые значения того или иного статистического показателя, составляющего ряд динамики, называют уровнями ряда и обычно обозначают буквой y. Первый член ряда y1 называют начальным или базисным уровнем, а последнийyn – конечным. Моменты или периоды времени, к которым относятся уровни, обозначают через t.
Ряды динамики, как правило, представляют в виде таблицы или графика, причем по оси абсцисс строится шкала времени t, а по оси ординат – шкала уровней ряда y.
Пример ряда динамики
Таблица. Число жителей России в 2004-2009 гг. в млн.чел, на 1 января
Год | ||||||
Число жителей | 144,2 | 143,5 | 142,8 | 142,2 | 142,0 | 141,9 |