Квартили, децили, перцентили. квадратильные и децильные коэффициенты
Абсолютные и относительные величины
1. СТП, определяющие уровень, объём, численность общественных явлений (капи-тал фирмы на н.г., посевная площадь с/х культуры на данный момент времени); наименование числа в натуральных единицах, трудовых, стоимостных.
2. СТП, обобщающие количественные показатели, которые выражают соотношение сравниваемых абсолютных единиц.
Логическая формула относительной величины - это дробь:
Относительная величина =
В зависимости от своих функций относительные показатели классифицируются на относительные показатели динамики (темпы роста).
Относительные величины структуры характеризуют состав, структуру совокуп-ности по признаку и показывают вклад в общую массу совокупности.
Относительные показатели координации дают соотношение разных структурных единиц самой совокупности показывает, сколько единиц одной части совокупности приходится на 1,100, 1000 и больше единиц другой, взятой за базу сравнения.
Относительный показатель степени выполнения плана – отношение фактически достигнутого уровня к плановому заданию.
ОТНОСИТЕЛЬНЫЕ ПОКАЗАТЕЛИ СРАВНЕНИЯ:• пространственного сравнения– например, сопоставление уровней расходов город-ского и сельского населения; средняя про-должительность жизни мужчин и женщин и др.
• .Относительная величина сравнения со стандартом (эталоном)6выполнение договорных обязательств, использование производственных мощностей. Для выполнения обязательств фирме надо 120 тыс. д.е. Фактически в обороте 108 тыс. д.е., что составляет от потребности 90% (108:120)т.е. это может привести к банкротству.
Относительные величины интенсивности- характеризуют отношение разноимённых величин, связанных между собой, например, плотность населения на 1 кв. км; производство электроэнергии на душу населения и т.д.
Учебник: с. 63-68.
ВАРИАЦИЯ
Вариацией называется отличие в численных значениях признаков единиц совокупности и их колебанияоколо средней величины, что будет характеризовать совокупность. Чем меньше вариация, тем более однородна совокупность и более типична (надёжна) средняя величина.
Показатели вариации:
- размах вариации,
- среднее линейное отклонение,
- дисперсия - средняя арифметическая квадратов отклонений индивидуальных значений признака;
- среднее квадратическое отклонение (показывает, на сколько в среднем отклоняются индивидуальные значения признака от их среднего значения);
- к-т вариации (%-ное отношение среднего квадратического отклонения к средней арифметической величине). Чем больше к-т, тем менее однородна данная совокупность и менее типична средняя. Установлено, что совокупность количественно однородна, если к-т вариации не превышает 33%.
Дисперсия используется в дисперсном анализе (Правило сложения дисперсий).
Задание на дом.
Вариация, учебник с. 76-80.
Квартили распределения (с.102, 2005.И.И. Елисеева, М.М. Юзбашев)
КВАРТИЛИ, ДЕЦИЛИ, ПЕРЦЕНТИЛИ. КВАДРАТИЛЬНЫЕ И ДЕЦИЛЬНЫЕ КОЭФФИЦИЕНТЫ
В дискретном вариационном ряду медиана (Ме) превышает половину численности совокупности. Мода (Мо )делит совокупность на две равные части.
Аналогично Ме вычисляются значения признака, делящие совокупность на 4 равные по числу единиц части, КВАРТИЛИ-Q1 ( 1,2,3-номера квартиля). Q2 совпадает с Ме.
Формулы для 1 и 3 квартилей:
k
Q1=X0 + { (∑ fj | 4 )- f΄Q1- 1 } / f Q1 *i ;
J=1
k
Q3 = X0 + {( 3 ∑ fj |4 )- f΄Q1-1 / f Q3 } * i .
J=1
Значения признака, делящие ряд на 5 равных частей – квинтилями,
на 10 частей – децилями, на 100 частей - перцентилями.
Мода и процентили
Наряду со средними для характеристики распределения применяют такие показатели как мода и процентили, которые дополняют характеристику (обобщающую) и позволяют сравнивать между собой и находить различия в рядах с одинаковыми средними.
Мода – это наиболее часто встречающийся вариант ряда. В дискретных рядах распределения модой является вариант, имеющий максимальную частотную характе-ристику.
В интервальных рядах мода определяется в два этапа:
1- определяется интервал, содержащий моду ( модальный интервал ),
2- рассчитывается значение моды по формуле:
fMo - fMo-1
Mo = XMo + ___________________________ * i .
(fMo – f Mo-1) + (fMo – fMo+1)
Где X Mo - нижняя граница модального интервала, i – величина этого интервала,
fMo, fMo-1, fMo+1 - частоты модального, предшествующего ему и следующего за ним интервалов.
Медиана (вид процентиля), который занимает серединное положение в ряду распре-деления. Медиана определяется по формуле:
0,5 ∑ fMе - SMе-1
Mе = XMе + ________________ * i .
fMе
где Хме – нижняя граница медианного интервала, содержащего медиану;
i – ширина медианного интервала;
0,5 ∑fMе - половина суммы накопленных частот интервального ряда;
SMe-1 - сумма накопленных частот перед медианным интервалом;
fMе - частота медианного интервала.
Интервал определяется по накопленной частоте: первой, превышающей 50% суммы частот, (в дальнейшем для квартилей, децилей – 25%, 75%; 10%,20% и т.д.)
Поскольку медиана разновидность процентиля, то данная формула носит универсальный характер. Она может применяться для определения квартилей (Q) и децилей (d).
Квартили (четверти) отсекают от совокупности соответственно 25%, 50% и 75%; децили отсекают от совокупности соответственно 10%, 20%, 30% и т.д.
Расчёт моды и процентилей на примере группировки магазинов по сумме товарооборота.
Группы магазинов с торговой площадью, кв. м | Число магазинов, | Накопленная частота / частости (%) |
до 100 | 6 / 8,45 | |
100 - 200 | 18 / 25,35 | |
200 - 300 | 45 / 63, 38 | |
300 - 400 | 58 / 81,69 | |
400 - 500 | 66 / 92,96 | |
свыше 500 | 71 / 100,0 | |
Итого | - |
.
Накопленная частота для данного интервала (нижний квартиль- Q3) – это сумма, предшествующих ему частот, т.е. (6+18+45) 69 магазинов.
Четверть всех магазинов (верхний квартиль – Q1)) имеет площадь менее 200 кв. м, а остальные 75% имеют торговую площадь более 200 кв. м.
Три четверти магазинов имеют торговые площади не превышающие 353,8 кв. м., а остальные больше.
5. Степенные средние
Средняя арифметическая величина является частным случаем, который называ-ется степенной средней.
Последовательно придавая k дискретное значение 0, 1, 2, 3, … и т.д. получим различные виды средних . Если k = -1 степенные средние приобретают вид средней гармонической .
Пример.
В течение рабочей смены 3 рабочих изготовляли детали. 1й рабочий затрачивал на изготовление 1 детали – 6 мин., 2й– 8 мин., 3й– 7,5 мин. Определить средние затраты времени на изготовление 1 детали.
Среднюю арифметическую взвешенную нельзя использовать для расчета, так как каждый из рабочих изготавливал за смену разное количество деталей.
В числителе формулы отражается количество человеко - силы, а в знаменателе условное количество деталей, изготавливаемых за смену.
Пример: Продавец в течении нескольких дней продавал на рынке морковь. В первые 4 дня цена составляла 6 руб./кг, в последние 5 дней цена поднялась до 7 руб., а оставшаяся морковь была продана за 4,50 руб./кг. Поскольку данные о товарообороте отсутствуют, то для решения задачи применяется средняя гармоническая взвешенная:
При этом число дней продаж моркови по различным ценам рассматривается как показатель условного товарооборота.
Средняя гармоническая применяется в тех случаях, когда частоты ряда выражены в неявном виде.
Если величина k=0 , то степенная средняя приобретает вид средней геометрической .
Средняя геометрическая применяется в тех случаях, когда отдельные варианты ряда резко отличаются от остальных.
Наиболее часто формулу средней геометрической используют для определения средних валютных курсов, эффективности валютных курсов, реальной эффективности валютных курсов (международная финансовая статистика).
Если k=1 степенная средняя принимает вид средней арифметической, взвешенной и невзвешенной.
Если k=2 , средняя квадратическая. Результаты статистического исследования зависят от того, насколько верно избран вид средней. Расчет средних, выполненных на основе одних и тех же данных разными способами дает различные результаты.
В курсе математической статистики доказано, что чем ниже степень средней, тем меньше ее величина. Это называется правилом мажорантности средней.
k | -1 | 0 | 1 | 2 |
к | < | - | < | < |
Доказано так же, что чем интенсивней колеблются значения вариантов ряда, тем больше разница между ними.
5. Понятие и виды статистических таблиц
Статистическая таблица – наиболее рациональная и распространенная форма представления статистических данных. Существует примерно 300 лет.
Любая статистическая таблица состоит из ряда элементов.
Пересечение строк и столбцов называется скелетом таблицы . Если включить в скелет таблицы заголовки граф и строк, получим макет таблицы , который отражает основную цель ее построения. Макеты таблиц обязательно составляются на этапе подготовки программы статистической сводки, для уточнения программ и схемы обработки собранной информации. По аналогии с грамматикой, содержание таблицы делится на подлежащее и сказуемое. Подлежащим таблицы считается объект исследования, сказуемым – перечень признаков, характеризующих объект исследования.
В зависимости от характера разработки подлежащего таблицы делятся на:
Простые таблицы;
Групповые таблицы;
Комбинационные таблицы.
В подлежащем простых таблиц содержатся либо перечень единиц наблюдений, либо показатели времени, либо отдельные территории. В зависимости от этого различают: перечневые простые таблицы; хронологические простые таблицы;
территориальные простые таблицы.
Подлежащее групповых таблиц содержит группировку по одному признаку, а комбинационных по нескольким признакам.
Сказуемое таблица может быть: простым – содержит перечень признаков, характеризующих подлежащее;
Комбинированным – содержит группировку признаков, характеризующих подлежащее.
При составлении таблиц рекомендуется соблюдать ряд общепринятых требований:
1. Таблица не должна быть слишком громоздкой, перенасыщенной показателями, лучше построить 2-3 простых таблиц;
2. Общий заголовок таблицы должен лаконично отображать ее содержание, определять место и время, к которому относятся статистические данные;
3. Территориальные единицы в подлежащем даются в алфавитном порядке, а даты в хронологическом порядке;
4. Кратко формулируются заголовки граф и строк, и в них указываются единицы измерения. Общая единица измерения указывается в общем заголовке;
5. Все показатели таблицы даются с одинаковой точностью, если значение показателя не имеет смысла ставится «х», если отсутствует «-», если данные не известны «….», если величина очень мала «0,0…»;
6. Таблицы могут сопровождаться примечаниями со ссылками на источники информации и методы расчета данных.
3. Свойства средней арифметической величины.
Средние величины
1. Понятие средней величины.
2. Средняя арифметическая величина и ее расчет прямым способом.
4. Практическое использование свойств средней арифметической.
5. Степенные средние.
6. Мода и процентили.
1. Понятие средней величины.
Уровень любого показателя формируется под воздействием существенных закономерных для данного явления, а так случайных причин. Поскольку случайных причин множество и их действия носят стихийный разнонаправленный характер, необходимо нивелировать (устранить) результат такого воздействия, для того чтобы определить типичный закономерный для данных условий места и времени уровень показателей. Таким уровнем является средняя величина .
Средняя – это обобщающая характеристика количественно и качественно однородной совокупности в определенных условиях. Среднее определяется по какому-либо признаку. Среднее проявляется в результате действия закона больших чисел, когда в массовых совокупностях индивидуальные отклонения от типичного уровня взаимопогашаются. Среднее позволяет заменить множество значений показателей одним типичным, что значительно упрощает последующий анализ явлений.
Средняя является объективной характеристикой только для однородных явлений. Средние для неоднородных совокупностей называются огульными и могут применяться только в сочетании с частными средними однородных совокупностей.
Средняя применяется в статистических исследованиях для оценки сложившегося уровня явления, для сравнения между собой нескольких совокупностей по одному и тому же признаку, для исследования динамики развития изучаемого явления во времени, для изучения взаимосвязей явлений.
Средние широко применяются в различных плановых, прогнозных, финансовых расчетах.
2. Средняя арифметическая величина и ее расчет прямым способом
Средняя арифметическая – наиболее распространенный на практике вид средних. Различают 2 вида арифметических средних:
Невзвешенную (простую);
Взвешенную.
Средняя арифметическая невзвешенная рассчитывается для несгруппированных данных по формуле:
, где
-сумма вариантов, N – их число – применяется обычно для совокупностей численностью N15.
Для массовых статистических совокупностей рассчитывается взвешенная средняя арифметическая по формуле:
Пример: Расчет средней выработки рабочими токарного цеха.
Количество деталей, изготовленных рабочим за смену, шт. | Число рабочих, чел., | Объем производства, шт. | |
До 300 | 3 | 290 | 870 |
300-320 | 9 | 310 | 2790 |
320-340 | 15 | 330 | 4950 |
340-360 | 12 | 350 | 4200 |
360-380 | 6 | 370 | 2220 |
Свыше 380 | 6 | 390 | 2340 |
Итого | 51 | ||
Из таблицы:
1. Средняя величина всегда тяготеет к вариантам с наибольшими частотами.
2. Средняя величина может не совпадать ни с одним из вариантов дискретного ряда.
3. Средняя величина находится внутри интервала значений вариантов ряда.
Сумма помимо чисто математического, как правило, имеет смысловое значение, наличие смыслового значения – один из способов проверки правильности выбора средней.
Даже если варианты ряда представлены целыми числами, среднее может быть смешанны
числом, иногда такой результат логически неправомерен. В этом случае его надо округлять, переводить в проценты или в промили.
3. Свойства средней арифметической величины.
Свойства средней важны для понимания механизма расчета этого показателя, а так же для разработки ряда более сложных статистических методик.
Свойства :
1. Если из всех вариантов ряда вычесть или ко всем вариантам добавить постоянное число, то средняя арифметическая соответственно уменьшится или увеличится на это число.
.
2. Если все варианты ряда умножить или разделить на постоянное число, то средняя арифметическая соответственно увеличится или уменьшится в это число раз.
.
3. Если все частоты увеличить или уменьшить в постоянное число раз, то средняя от этого не изменится.
.
4. Сумма отклонений всех вариантов ряда от средней арифметической равна 0. (Нулевое свойство средней).
.
5. Общая средняя совокупности равна средней арифметической из частных средне взвешенных по объемам частных совокупностей.
, где
- средняя арифметическая частных групп,
- численность соответствующих групп,
- общая средняя.
6. Сумма квадратов отклонений всех вариантов ряда от средней арифметической меньше суммы квадратов их отклонений от любого другого постоянного числа.
Средний квадрат отклонений вариантов ряда от произвольного числа А равен дисперсии плюс квадрат разности между средней и этим числом А.
Данное свойство положено в основу метода наименьших квадратов, который широко применяется в исследовании статистических взаимосвязей.
4. Практическое использование свойств средней арифметической.
Свойства средней арифметической используются так же для упрощения методики ее расчета. В условиях малопроизводительной вычислительной техники эта методика обеспечивала значительную экономию времени и труда. В настоящее время данная методика служит наглядным образцом иллюстрации свойств средней.
3 | -40 | -2 | 1 | -2 | |
310 | 9 | -20 | -1 | 3 | -3 |
330 | 15 | 0 | 0 | 5 | 0 |
350 | 12 | 20 | 1 | 4 | 4 |
370 | 6 | 40 | 2 | 2 | 4 |
390 | 6 | 60 | 3 | 2 | 6 |
9 |
Упрощенная методика расчета средней арифметической ( по данным о выработке рабочих токарей)
Выборочный метод. 1. Сущность выборочного метода и его практическое значение. 2. Ошибка выборки. 3. Малая выборка. 4. Определение оптимальной численности выборки. 5. Распространение результатов выборочного распределения на генеральную совокупность. 6. Классификация способов отбора. 7. Организация отбора различными способами и оценка надежности полученных результатов. 8. Моментное выборочное наблюдение. 1. Сущность выборочного метода и его практическое значение. Выборочный метод – это основной способ сбора информации в условиях развитой рыночной экономики. Выборка – разновидность несплошного наблюдения, позволяющего определить показатели всей совокупности (генеральной совокупности) на основе изучения ее части. При этом отобранная часть формируется с учетом положений теории вероятности и математической статистики. Выборка имеет многовековую историю, но ее математическая составляющая получила развитие во 2йполовине 19-20 века. Значительный вклад в формирование теории выборки внесли русские статистики. В СССР господствовало сплошное статистическое наблюдение в виде отчетности. Выборка охватывала только: Оценку качества продукции; Наблюдение за ценами на городских колхозных рынках; Наблюдение за семейными бюджетами; Изучение спроса. За рубежом в то время преобладало выборочное обследование. Сплошное наблюдение охватывало только таможенную статистику, налогообложение и периодически проводимые переписи населения, и промышленные цензы. Достоинства выборки При правильно организованном выборочном обследовании изучается не более 20-25% совокупности, обычно 10% и то много. На лицо огромная экономия времени и средств. При этом благодаря работе статистиков – профессионалов значительно повышается точность наблюдений (нередко она выше, чем при сплошном наблюдении). Однако, параметры выборки в силу объективных причин могут отличаться от соответствующих параметров генеральной совокупности, поэтому результаты выборочного исследования распространяются на генеральную совокупность с определенной вероятностью. Не всякое несплошное наблюдение – это научно-обоснованная выборка. Для получения надежных результатов необходимо тщательно готовить выборку. Подготовка включает следующие этапы : 1. Обоснование целесообразности проведения выборки; 2. Подготовка программы выборки; 3. Решение организационных вопросов выборки; 4. Определение способа отбора и численности выборки, обеспечивающих репрезультативность ее результатов. 5. Проведение отбора единиц генеральной совокупности. 6. Сводка полученных результатов и расчет параметров выборки. 7. Определение ошибок выборки. 8. Распространение параметров выборки на генеральную совокупность. Главная задача выборки : Вычисление ожидаемой ошибки выборки, то есть разницы между одноименными характеристиками выборочной и генеральной совокупности; Определение доверительной вероятности того, что ошибка репрезультативности не превысит некоторого заранее заданного значения; Расчет численности выборки, обеспечивающей с заданной вероятностью необходимую точность исследований. 2. Ошибка выборки Возникает из-за различий в вариации значений изучаемого признака у единиц выборочной и генеральной совокупности. Поскольку при соблюдении требований случайного отбора все единицы генеральной совокупности имеют равные шансы попасть в выборку, состав выборки может значительно изменяться при повторении испытаний. Соответственно будут меняться параметры выборки, и возникать ошибки выборки. Ошибки выборки неизбежны, они вытекают из сути метода. Ошибки выборки не могут быть постоянными при повторении отбора. Ошибка выборки в статистике - это некоторая средняя величина или обобщающая характеристика, ошибок полученных при многократном повторении испытаний. W - P - ошибка выборки; - выборочная средняя; - генеральная средняя; W – доля единиц, обладающих изучаемым признаком в выборочной совокупности (выборочная доля); P - доля единиц, обладающих изучаемым признаком в генеральной совокупности. Величина ошибок зависит от способа отбора. В математической статистике доказано, что средняя ошибка выборки (математическое ожидание средней ошибки выборки) – это среднеквадратическое отклонение распределения выборочной средней величины. Ошибка выборки определяется: В математической статистике доказано, что средняя ошибка собственно случайного повторного отбор рассчитывается: , где - средняя ошибка выборки; - дисперсия генеральной совокупности; - численность выборки. Если исследуется выборочная доля при повторном отборе , где -дисперсия биномиального распределения. Результаты повторного отбора подчиняются закону биномиального распределения. При бесповторном отборе результаты многократной выборки и распределения ошибок подчиняются гипергеометрическому распределению, и формула средней ошибки имеет вид: При выборках большой численности, когда из массовых генеральных совокупностей для расчета ошибок выборки можно использовать формулу повторного отбора. В формулах средней ошибки выборки присутствует генеральная дисперсия. Однако, она, как правило, неизвестна. Если мы проводим выборку для того, чтобы изучить только часть совокупности, мы не можем знать генеральную дисперсию. Исключение составляют только выборки, проводимые для контроля результата сплошного наблюдения. Однако, математической статистикой доказано, что если выборка производится из нормального распределения совокупности генеральная и выборочная дисперсия связаны между собой следующим образом: Из формулы видно, что достаточно большой выборке (n-1) ®n, а , откуда s2»S2. Поэтому для расчета средних ошибок выборки на практике используют выборочные дисперсии . Если многократно проводить выборки из одной и той же генеральной совокупности, то конкретному размеру ошибки выборки будет соответствовать та или иная статистическая вероятность ее появления. Вероятности конкретного размера ошибок подсчитать невозможно (нецелесообразно), гораздо важнее знать, что ошибка наблюдений не выйдет за определенные пределы. p – вероятность того, что абсолютная величина ошибки выборки не превысит некоторого предела (tm) больше чем ; t – доверительный коэффициент (>1); tm=D- предельная ошибка выборки (допустимый предел ошибки) Суть предельной теоремы : Чебышев доказал, что средняя арифметическая величина достаточно большого числа независимых случайных величин, дисперсии которых ограничены некоторой постоянной, становится фактически независимой от игры случая. t=1, 2, 3 По формуле Чебышева, если t=1rі 0 t=2rі 0,75 t=3rі 0,89 Эта формула для условий повторного отбора. Академик Марков доказал, что предельная теорема справедлива и для бесповторного отбора. Академик Ляпунов доказал, что вероятности предельных ошибок многочисленных выборок подчиняются закону нормального распределения, следовательно, для определения вероятностей нахождения ошибки выборки в заданных пределах можно использовать интегральную формулу Лапласа. Площадь кривой ±s 0,6827 2s 0,9545 3s 0,9973 Отсюда, если доверительный коэффициент t=1, то вероятность того, что предельная ошибка выборки не будет больше, чем средняя ошибка, которая составляет 0,683. Вероятный интервал изменения генеральной средней или доли в статистике принято называть доверительным интервалом . Пример: Для анализа жирности молока из партии в 1000 фляг было отобрано и проверено 30. Средний процент жирности в проверенных флягах составил 3,51%, при среднеквадратическом отклонении 0,35. С вероятностью 0,954 определить доверительный интервал средней жирности партии молока (если выборка бесповторная). N=1000 n=30 =3,51% S=0,35% Если мы расширим допустимые пределы точности, то вероятностная надежность результата будет выше, а точность ниже. Если p=0,997 то t=3, аD=0,19 тогда ожидаемая жирность молока в генеральной совокупности должна составить 3. Малая выборка В процессе статистических исследований нередко приходится ограничивать объем выборки, особенно в тех случаях, когда исследования единиц совокупности приводит к их разрушению. В статистике доказано, что даже в выборке весьма малого объема (20-30, а иногда 4-5 единиц) позволяют получить приемлемые для анализа результаты. Проблема малых выборок была решена в 1908г. английским статистиком У.Гассетом (псевдоним Студент). Он сумел определить зависимость между величиной доверительного коэффициента t, а так же численностью малой выборки n с одной стороны, и вероятностью нахождения ошибки выборки в заданных пределах с другой стороны. Эта зависимость получила название – распределение Стьюдента . Для упрощения расчетов имеются специальные таблицы значений критериев Стьюдента (стр. 372 «Практикума по теории статистики»). n=n-1 – число степеней свободы. Малая выборка определяется по формуле Средняя ошибка малой выборки Дисперсия малой выборки - число степеней свободы. Пример: Ежедневные затраты времени 15 работников на поездки туда и обратно составляют в среднем 1,7 часа. Определить пределы, в которых находится среднее время поездки на работу и обратно. n=15 =1,7 часа S2=0,134 P=0,95 |
4. Определение оптимальной численности выборки
Трудовые и материальные затраты на проведение выборки напрямую зависят от ее численности, поэтому чрезвычайно важно до оптимума сохранить численность выборки, так чтобы не утратить ее точность.
Поиск оптимальной численности выборки удобно осуществлять на основе формул средней и предельной ошибок. Из формулы средней ошибки случайного повторного отбора видно, что величина средней ошибки обратно пропорциональна квадратному корню из численности выборки (
). Чтобы сократить среднюю ошибку в 2 раза, нужно численность выборки увеличить в 4 раза. Используя формулу предельной ошибки выборки
можно найти численность
. Это оптимальная численность выборки для случайного повторного отбора .
Пример: Для определения среднего размера банковского вклада сроком на 91 день необходимо провести повторный отбор из совокупности в 2500 договоров. Какое количество договоров необходимо отобрать, чтобы с вероятностью 0,954 предельная ошибка выборки не превысила 25 руб.
N=2500
p=0,954
D=25 руб.
n-?
s2=8900
Наличие в формуле оптимальной численности генеральной дисперсииприводит на первый взгляд к парадоксу: зачем нам проводить выборку, если известна генеральная дисперсия (а, следовательно, и генеральная средняя). Однако на практике генеральная дисперсия обычно не известна, вместо нее используют выборочную дисперсию предыдущего обследования, так как дисперсия как показатель является более устойчивой, чем сами варианты, на основе которых она рассчитана.
Если отбор осуществляется бесповторно , то численность выборки для такого отбора рассчитывается по формуле:
Для предыдущего примера:
Результаты близки, так как очень велика генеральная совокупность.
Если в условиях задачи присутствует предельная ошибка выборочной доли , то формула:
- для повторного отбора;
- для бесповторного отбора.
Пример: В целях изучения спроса на спортивную обувь периодически проводился опрос 1500 спортсменов. Какова должна быть численность случайного бесповторного отбора, чтобы с p=0,954 ошибка выборки доли спортсменов, предпочитающих обувь с верхом из натуральной кожи, не превысила 0,05, если известно, что ранее этой обуви отдавали предпочтение 65% спортсменов.
N=1500
p=0,954 (t=2)
D=0,05
w=65%=0,65
n-?
5. Распространение результатов выборочного распределения на генеральную совокупность.
Для этих целей используется два метода:
§Метод прямого пересчета;
§Метод поправочных коэффициентов.
Метод прямого пересчета применяется для определения по данным о выборочной доле величины интервала, в пределах которого в генеральной совокупности с заданной вероятностью находится число единиц, обладающих изучаемым признаком.
Пример: По данным выборочного контроля в партии яблок весом 20 тонн доля стандарта составила 97,5%. Предельная ошибка выборки с p=0,954 равнялась 0,5%. Определить вес стандартных яблок во всей партии.
w=0,975 (97,5%)
p=0,954
D=0,005 (0,5%)
Основное назначение метода поправочных коэффициентов – уточнение данных сплошного массового наблюдения посредством выборочных проверок. Обычно такие проверки осуществляются инструкторами-контролерами по результатам проведенных переписей.
Пример: По результатам контрольного обхода счетного участка инструктором-контролером получены уточненные сведения о численности населения 589 человек вместо 572 зарегистрированных счетчиков. Всего на территории инструкторского участка по данным переписи проживало 3893 человека.
- скорректированная численность.
6. Классификация способов отбора.
Методология и результаты расчета основных параметров выборки непосредственно зависят от способа отбора единиц из генеральной совокупности.
Способ отбора – это определенная система организации выборочного исследования. Применение того или иного способа зависит от цели исследования условий выборки, специфики объекта исследования, необходимой точности и оперативности результатов и от средств выделенных на исследования.
Все способы отбора разделяются на 3 вида:
Индивидуальный;
Групповой;
Комбинированный.
При индивидуальном виде отбирают отдельные единицы совокупности.
При групповом виде отбирают группы, серии единиц совокупности (например: выбрали из контейнера несколько ящиков и все их проверили).
Комбинированный способ сочетает индивидуальный и групповой.
Если выборочная совокупность получена сразу, отбор называют одноступенчатым .
При наличии нескольких последовательных этапов отбора – выборка считается многоступенчатой .
Единица отбора меняется на каждой ступени. В отличии от многоступенчатой – многофазная выборка сохраняет одну и ту же единицу на всех стадиях отбора. Однако программа наблюдения постепенно расширяется
В зависимости от применяемой схемы отбора различают:
Повторный;
Бесповторный.
Каждый из видов отбора может осуществляться следующими способами:
1. Собственно случайным;
2. Механическим;
3. Типическим (стратефицированным);
4. Серийным (гнездовым);
5. Комбинированным.
7. Организация отбора различными способами и оценка надежности полученных результатов.
Различные способы отбора отличаются неодинаковой методикой формирования выборки и различными алгоритмами расчета ошибок репрезентативности.
Собственно случайный отборорганизуется таким образом, чтобы у всех единиц генеральной совокупности были равные возможности попасть в выборку. Это обеспечивается отбором по жребию, по таблицам случайных чисел или с помощью генераторов случайных чисел. Независимо от того, как будут отбирать единицы, их обязательно нумеруют. При отборе по жребию эти номера наносятся на карточки, шары и т.п., которые затем тщательно перемешиваются и из них наугад отбирается количество карточек, равное численности отбора.
Таблица случайных чисел это матрица 4 или 5 чисел, каждая цифра которой не зависит от остальных цифр данного числа и других чисел. В зависимости от численности выборки из таблицы выбираются одно, двух, трех или четырехзначное число. Числа можно отбирать по столбцам или строкам таблицы (начиная с любой строки или столбца) заранее заданным алгоритмом отбора.
В компьютерах и некоторых калькуляторах имеется генератор случайных чисел, который выводит на экран случайные числа.
Средняя ошибка собственно случайного повторного или бесповторного отбора определяется по формуле: см. пункт (2).
Механический отборэто направленная выборка из совокупности, предварительно упорядоченной по существующему или несуществующему признаку.
На первом этапе генеральная совокупность упорядочивается по какому-либо признаку. Независимо от признака при механическом отборе устанавливается пропорция отбора по формуле: N/n.
Если совокупность сгруппирована по несущественному признаку, то безразлично, с какой единицы начинать отбор.
Если совокупность сгруппирована или упорядочена по существенному признаку, то отбор следует начинать с середины первой группы.
Средняя ошибка механического отбора рассчитывается по формулам для случайного отбора. Это справедливо, когда отбор производился из совокупности, упорядоченной по несущественному признаку.
Если же совокупность была упорядочена по существенному признаку, то такой способ расчета несколько завышает среднюю ошибку выборки.
В данном случае можно было использовать среднюю из внутригрупповых дисперсий, а не общую дисперсию.
Типическая выборка (стратефицированная). При этой выборке генеральная совокупность вначале разбивается на типичные группы (страты), из которых производится случайный отбор единиц. Такая выборка гарантирует представительство всех типичных групп выборочной совокупности, что снижает ошибку выборки. Существуют пропорциональный и непропорциональный способы типического отбора.
При пропорциональном способе из каждой группы отбирается число единиц пропорциональное либо численности группы, либо внутригрупповой вариации изучаемого признака.
При типическом повторном отборе пропорциональном численности групповая средняя ошибка выборки определяется по формуле:
- средняя из внутригрупповых дисперсий;
- внутригрупповая дисперсия;
nj- численность соответствующих типических групп.
- средняя ошибка выборки для бесповторного отбора;
Если исследуется доля единиц совокупности, обладающих изучаемым признаком, то средние ошибки и дисперсия:
- для повторного отбора;
- для бесповторного отбора.
Пример: Для изучения средних цен одного блюда в предприятии общественного питания произведена 10% выборка пропорциональная численности групп.
Предприятия | Численность выборки, | Средняя цена, | Внутригрупповая дисперсия, | ||
Закусочные | 21 | 19,3 | 68,2 | 405,3 | 1432,2 |
Кафе | 24 | 42,5 | 151,45 | 1020 | 3634,8 |
Рестораны | 15 | 63,2 | 342,5 | 948 | 5137,5 |
60 | 39,56 | 2373,3 | 10204,5 |
Для расчетов нужно рассчитать среднюю из внутригрупповых дисперсий:
Предельная ошибка типической выборки с p=0,954
Доверительный интервал средней цены блюда
В 954 случаях из 1000 средняя цена блюда в генеральной совокупности будет не ниже 36 руб. 36 коп. и не выше 42 руб. 76 коп.
Оптимальная численность типической выборки пропорциональна численности групп, определяется по формулам:
- для повторного отбора;
- для бесповторного отбора.
Каковая должна быть численность выборки, чтобы с p=0,954 можно было бы утверждать, что предельная ошибка не превысит 3 руб. 50 коп.
Численность, подлежащая отбору из отдельных типических групп, рассчитывается по формуле:
Из 600 предприятий – 210 закусочных, 240 кафе, 150 ресторанов.
Наиболее из точных пропорциональных способов типического отбора является отбор пропорциональной вариации значений признака в группах. Данный отбор целесообразен при наличии генеральных внутригрупповых дисперсий. Это возможно, когда выборка осуществляется для контроля данных сплошного наблюдения или когда имеются данные предшествующего сплошного наблюдения.
Численность выборочных групп определяется по формуле:
- численность выборки из j-й типической группы;
- генеральная внутригрупповая дисперсия;
- численность составляющих типических групп в генеральной совокупности.
Средняя ошибка выборки бесповторного типического отбора пропорциональна вариации признака в группах. Определяется по формуле:
Данный способ отбора дает ошибку меньшую, чем отбор пропорциональный численности групп.
Наиболее общим случаем является непропорциональный типический отбор. При произвольных пропорциях формирования типических выборочных групп средняя ошибка выборки рассчитывается по формуле:
- средние ошибки выборки в каждой типической группе;
- численность соответствующих типических групп.
При этом, ошибки средние выборки по группам определяются по формулам:
- внутригрупповая дисперсия.
- для повторного отбора;
- для бесповторного отбора.
Серийный или гнездовой отбор – это случайный выбор групп единиц с последующим сплошным наблюдением внутри отобранных серий. Данная выборка применяется преимущественно для контроля качества товаров, когда целесообразно вскрывать и исследовать отдельные упаковки. Это разновидность направленного отбора, способствующего снижению ошибки выборки. Благодаря сплошному исследованию гнезд частные дисперсии не оказывают влияние на ошибку репрезентативности, которая зависит только от вариации серийных средних, то есть от межгрупповой дисперсии, определяется по формуле:
- частная выборочная дисперсия;
- общая средняя серийной выборки;
- число отобранных серий.
Средняя ошибка серийной выборки определяется по формулам:
- для повторного отбора;
- для бесповторного отбора.
Комбинированная выборка – это сочетание группового и индивидуального отбора единиц наблюдения. Чаще всего сочетается серийный и собственно случайный отбор.
Ошибка выборки комбинированного отбора складывается из ошибок выборки ожидаемых по каждому способу отбора, входящему в комбинацию. Обычно применяют бесповторную комбинированную выборку, хотя теоретически возможен повторный комбинированный отбор. Комбинированная выборка по своей природе является многоступенчатой. Несмотря на простоту методологии многоступенчатого отбора, расчет его ошибки достаточно сложен и определяется по формуле:
для равночисленного отбора на каждой ступени.
- средние ошибки выборок на каждой из ступеней отбора;
- численность ступеней отбора.
8. Способ моментных наблюдений
Метод моментных (мгновенных) наблюдений разработан в 1938 году английским статистиком Типлетом для выборочного изучения производственного процесса. Метод применяется для групповых фотографий затрат рабочего времени и времени работы оборудования, когда наблюдатель периодически обходя рабочие места по заранее установленному маршруту регистрирует в специальном бланке, чем занят рабочий в конкретный момент времени, работает он в данный момент или отдыхает.
Метод моментных наблюдений – это выборка во времени, где генеральной совокупностью является фонд рабочего времени объекта наблюдения, то есть коллектива работников или группы единиц оборудования. Выборочная совокупность складывается из периодов времени регистрации состояния объекта исследования.
Групповые фотографии обеспечивают многократное снижение затрат по сравнению с индивидуальными фотографиями, так как не требуют постоянного присутствия наблюдателя на каждом рабочем месте в течении всего рабочего дня. Метод эффективен для оценки труда коллектива работников, выполняющих однородные операции.
Первым этапом организации мгновенных наблюдений является определение численности выборки, то есть необходимого числа момента регистрации.
- доверительный коэффициент;
- выборочная доля единиц, обладающих изучаемым признаком;
- предельная ошибка выборки, выраженная в процентах.
Пример: для изучения использования рабочего времени 20 официантов методом мгновенных наблюдений проводится групповая фотография рабочего времени. По норме время работы должно составлять 8/10 установленной продолжительности рабочего дня ( ). Допустимый предел отклонений
. Вероятностная надежность 0,954. Надо определить доверительный интервал доли времени работы в установленной продолжительности рабочего дня.
Если становится задача с вероятностью 0,954 определить число стандартных пар обуви в коробе и доверительные интервалы доли стандартной обуви в партии, то предельная ошибка выборки
. Доверительный интервал числа пар в генеральной совокупности определяется по формуле:
Комбинированная выборка – это сочетание группового и индивидуального отбора единиц наблюдения. Чаще всего сочетается серийный и собственно случайный отбор.
Ошибка выборки комбинированного отбора складывается из ошибок выборки ожидаемых по каждому способу отбора, входящему в комбинацию. Обычно применяют бесповторную комбинированную выборку, хотя теоретически возможен повторный комбинированный отбор. Комбинированная выборка по своей природе является многоступенчатой. Несмотря на простоту методологии многоступенчатого отбора, расчет его ошибки достаточно сложен и определяется по формуле:
для равночисленного отбора на каждой ступени.
- средние ошибки выборок на каждой из ступеней отбора;
- численность ступеней отбора.