Понятие о статистических рядах распределения
Раздел 13 . Математическая статистика.
1. Выборочный метод.
2. Понятие о статистических рядах распределения.
3. Графическое изображение вариационных рядов.
4. Статистические характеристики вариационных рядов.
5. Гипотетическая интерпретация выборочных данных (ГИВД). Точечное оценивание параметров распределений. Требования к точечнымоценкам.
6. Интервальные оценки параметров генеральной совокупности. Доверительные интервалы. Некоторые распределения математической статистики
7. Построение доверительного интервала для неизвестного математического ожидания нормальной генеральной совокупности при известной дисперсии.
8. Построение доверительного интервала для неизвестной дисперсии нормальной генеральной совокупности с помощью выборочной исправленной дисперсии.
9. Дисперсионный анализ. Задача однофакторного дисперсионного анализа.
10. Понятие о регрессионно - корреляционном анализе.
11. Отыскание параметров уравнения прямой регрессии.
12. Выборочный коэффициент корреляции.
13. Пример нахождения уравнения прямой регрессии.
14. Пример нахождения выборочного уравнения прямой регрессии по несгруппированным данным.
1. Выборочный метод.
В энциклопедии дано следующее определение предмета математической статистики: «математическая статистика-раздел математики, посвященный математическим методам систематизации, обработки и использования данных для научных и практических выводов. Предметом математической статистики является формальная математическая сторона статистических методов исследования, безразличная к специфической природе изучаемых объектов.»
Задачи математической статистики в известной мере обратны задачам теории вероятностей. Если в теории вероятностей мы считаем известной математическую модель случайного явления и производим по этой модели расчет возможного реального течения этого явления, то в математической статистике мы располагаем известными реализациями случайного явления, так называемыми статистическими данными, которые имеют обычно числовой характер, т.е. простой набор чисел. Таким образом, единственное, что мы можем делать при изучении случайных явлений, -это ставить опыты и получать числовые данные. Всю информацию об исследуемых случайных величинах (в математической статистике их называют признаками) мы должны получать из опытов. По этим данным требуется подобрать подходящую теоретико-вероятностную модель, т.е. разработать методы получения научно обоснованных выводов о вероятностях, законах распределения, числовых характеристиках и т.п.
Таким образом, основными задачами математической статистики являются следующие:
1. Оценка неизвестной функции распределения;
2. Оценка неизвестных параметров распределения;
3. Статистическая проверка гипотез. Под статистической гипотезой понимается всякое высказывание о случайной величине (признаке), проверяемое по статистическим данным. Статистические гипотезы классифицируют на гипотезы о законах распределения и гипотезы о параметрах распределения.
При изучении качественного или количественного признака, характеризующего некоторую совокупность объектов, не всегда имеется возможность обследовать каждый объект совокупности. Например, пусть электрическая лампочка считается стандартной, если продолжительность ее горения не менее 1200 часов. Исследовать каждую лампочку на продолжительность горения (т.е. до ее перегорания) лишено здравого смысла. Как же получить представление о качестве изготовляемой продукции? Для этого получают точные данные о качестве лампочек не всей партии, а только небольшой ее части, отобранной случайным образом. По продолжительности горения отобранных лампочек предполагается судить о качестве всей партии.
Определение. Вся подлежащая изучению совокупность объектов называется генеральной совокупностью. Та часть объектов, которая попала на проверку, называется выборочной совокупностью (или просто выборкой). Число элементов в генеральной совокупности и выборке называется их объемами.
Генеральная совокупность может иметь как конечный, так и бесконечный объем.
Выборка должна достаточно полно отражать особенности объектов генеральной совокупности, иначе выводы, сделанные на основании выборочных данных, могут оказаться неверными для генеральной совокупности. Это требование формулируют так: выборка должна быть репрезентативной, т.е. представительной. Главное условие, которое должно быть выполнено при образовании выборки, чтобы она была репрезентативной, заключается в соблюдении случайности попадания элементов в выборку. Существуют различные способы образования выборок: собственно-случайный отбор; механический; типический; серийный и другие. В дальнейшем будем считать всякий раз, что требование случайности образования выборки соблюдено.
Понятие о статистических рядах распределения.
Установление закономерностей, которым подчиняется изучаемый признак, основано на изучении статистических данных, т.е. сведений о том, какие значение принял в результате наблюдений интересующий нас признак. Признаки обычно обозначаются буквами Х, У и т.д. Различные значения признака Х, наблюдающиеся в результате опытов, обозначаются и называются вариантами признака. Числа , показывающие сколько раз встречается каждый вариант признака, называются частотами вариантов.
Приступая к статистической обработке исходных данных, исследователь в первую очередь ставит перед собой задачу добиться удобной лаконичности в описании свойств исследуемой совокупности. Все варианты располагают в некотором порядке. Обычно значения признака располагаются в возрастающем порядке. Эта операция называется ранжированием статистических данных- в результате получаем ранжированный ряд. Если это оформить в виде таблицы, в верхней строке которой стоят значения признака, а в нижней- соответствующие им частоты, то такая таблица называется вариационным рядом частот.
Изменение значений признака называется его вариацией. Вариация может быть дискретной или непрерывной. Соответственно этому вариационные ряды бывают дискретными или непрерывными. Если признак таков, что различные его значения не могут отличаться друг от друга меньше чем на некоторую конечную величину, то это дискретно варьирующий признак. Если значения признака могут отличаться на сколь угодно малую величину и принимать любое значение в некотором интервале, то это непрерывно варьирующий признак.
Пример.1. Имеются данные о тарифном разряде 100 рабочих механического цеха.
5,1,4,5,3,5,5,2,5,6,4,3,1,5,2,5,5,5,3,3,3,6,6,5,6,5,3,4,5,4,6,6,5,2,1,5,4,5,5,3,6,4,5,5,4,3,5,5,5,4,5,6,1,5,2,6,4,4,3,5,6,3,5,6,2,5,4,5,5,4,6,5,2,5,3,4,5,6,5,5,3,5,4,6,6,5,5,4,5,5,6,5,6,5,5,6,5,5.
Построить вариационный ряд.
В данном примере признак Х=(тарифный разряд рабочих механического цеха). Он принимает целые значения от1 до 6, т.е. является дискретным. Если значения признака ранжировать, то окажется, что первый разряд имеют 4 рабочих, второй-6, третий-12, четвертый-16, пятый-44, шестой-18. Таким образом, получаем вариационный ряд частот.( таблица 1).
Таблица 1. Вариационный ряд частот тарифного разряда рабочих.
Тарифный разряд Х | ||||||
число рабочих |
Очевидно, сумма чисел в нижней строке равна объёму выборки. Если же рассматривается непрерывно варьирующий признак, и поскольку признак может принимать любые значения, то среди исходных данных совпадающих, как правило, мало. По этой причине построение дискретного вариационного ряда неэффективно для непрерывно варьирующего признака. В этом случае строят интервальный вариационный ряд следующим образом: значения признака разбивают на интервалы и подсчитываются соответствующие частоты, т.е. число значений признака, принадлежащих каждому интервалу.
Разбиение на интервалы часто определяется соображениями удобства вычислений, традицией и т.д. В качестве ориентации для определения такой длины h интервала разбиения, при котором построенный интервальный вариационный ряд не был бы слишком громоздким и в то же время отражал характерные черты исследуемого признака, можно использовать формулу Стэрджеса: h=R(1+3,3 lg ), где R= - размах вариации признака Х; - максимальное и минимальное значения признака. Если h -дробное число, то за величину интервала следует взять либо ближайшее целое число, удобное для вычисления, либо ближайшую несложную дробь. За начало 1-го интервала рекомендуется брать число h/2 , за конец последнего - число +h2. Обычно число интервалов оказывается от 5 до 12. Можно ориентироваться на формулу Террела – Скотта, по которой h
Пример 2. Изучая выработку на одного рабочего цеха в отчетном году в процентах к предыдущему году, получены следующие данные (округленные до целых процентов) по 117 рабочим
111,85,95,91,101,109,86,102,111,98,105,85,112,98,112,113,87,109,115,99,105,111,94,107,99,107,125,89,104,113,96,103,145,104,105,88,103,97,115,109,89,108,107,97,106,107,96,109,116,109,117,108,109,139,116,117,103,127,119,118,125,105,116,117,106,101,113,107,105,119,107,119,111,112,129,113,106,104,106,98,123,108,93,105,106,139,108,109,93,107,117,107,118,99,108,108,119,98,108,101,109,109,128,128,127,121,118,122,116,124,125,114,126,131,141,143.
Построить вариационный ряд.
В этом примере исследуемый признак Х=(выработка рабочих в отчетном году в процентах к предыдущему году) - непрерывный. Здесь R=145-85=60. По формуле Стэрджеса получим h 7,6%, по формуле Террела – Скотта h В соответствии с традицией и ради удобства вычислений возьмем h=10%, начало первого интервала равным 80%. Получим интервальный вариационный ряд (таблица 2.).
Таблица 2.Интервальный вариационный ряд выработки на одного рабочего
цеха в процентах к предыдущему году.
Значения признака Х(%) | 80-90 | 90-100 | 100-110 | 110-120 | 120-130 | 130-140 | 140-150 |
частоты | |||||||
Относительные частоты | 0,07 | 0,13 | 0,39 | 0,25 | 0,11 | 0,025 | 0,025 |
Сумма чисел в нижней строке равняется единице.