Конспект 2. Элементы математической статистики
Конспект 2. Элементы математической статистики
Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов Статистическими данными называют сведения об объектах достаточно большой совокупности, обладающих определенными признаками.
Основы выборочного метода
Генеральная совокупность и выборка
Установление статистических закономерностей, присущих массовым случайным явлениям, основано на изучении статистических данных – сведений о том, какие значения принял в результате наблюдений интересующий нас признак (случайная величина Х).
Пусть требуется изучить множество однородных объектов (это множество называется статистической совокупностью) относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным – контролируемый размер детали.
Лучше всего произвести сплошное обследование, т.е. изучить каждый объект. Однако в большинстве случаев по разным причинам это сделать невозможно. Препятствовать сплошному обследованию может большое число объектов, их недоступность, существенные материальные затраты. Если, например, нужно знать среднюю глубину воронки при взрыве снаряда из опытной партии, то, производя сплошное обследование, мы уничтожим всю партию.
Если сплошное обследование невозможно, то из всей совокупности выбирают для изучения часть объектов.
Определение 6.1.1. Статистическая совокупность, состоящая из всех объектов, которые (по крайней мере, теоретически) подлежат обследованию, называется генеральной совокупностью.
Например, множество всех студентов 1-го курса высших учебных заведений страны представляет собой генеральную совокупность. Однако если нас интересует распределение такого признака, как, например, рост студентов, то, очевидно, крайне затруднительно (если вообще возможно) провести измерение роста всех студентов и обработать эти результаты. Реальными являются отбор некоторого ограниченного числа студентов из их общего количества, измерение их роста и обработка полученных результатов.
Определение 6.1.2.Множество объектов, случайным образом отобранных из генеральной совокупности, называется выборкой.
Случайность отбора необходима для того, чтобы свойства объектов выборки наилучшим образом отражали соответствующие свойства генеральной совокупности или, как говорят, выборка должна быть репрезентативной (представительной). Считается, что выборка репрезентативна, если все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку, т.е. отбор производится случайно. Например, если в предыдущем примере вся выборка будет сделана из студентов одного вуза, то она не будет репрезентативной. Репрезентативная выборка в данном случае должна состоять из случайно выбранных студентов, случайно отобранных вузов страны.
Определение 6.1.3.Число объектов генеральной совокупности и выборки называются соответственно объемом генеральной совокупности и объемом выборки.
Если выборку отбирают по одному объекту, который обследуют и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной. На практике чаще встречается бесповоротная выборка. Если объем выборки составляет небольшую долю объема генеральной совокупности, то разница между повторной и бесповоротной выборками незначительна.
Средние величины
Средние величины характеризуют значения признака, вокруг которого концентрируются наблюдения или, как говорят, центральную тенденцию распределения.
Определение 6.1.7. Средней арифметической или выборочной средней статистического ряда распределения называется сумма произведений всех вариант на соответствующие частоты, деленная на сумму частот:
|
где хi – варианты дискретного ряда или середины интервалов статистического интервального ряда распределения; ni – соответствующие им частоты; m – число неповторяющихся вариантов или число интервалов; – объем выборки.
Пример 6.1.3. Выборочным путем были получены следующие данные о массе 20 изделий (в г): 30, 30, 25, 32, 30, 25, 33, 32, 29, 28, 27, 36, 31, 34, 30, 23, 28, 31, 36, 30. Найти выборочную среднюю .
○ По данным задачи составим статистический ряд распределения:
Х | |||||||||||
ni |
Отсюда, согласно формуле (6.1.1.) имеем:
Итак, средний вес изделий по данным выборки г. ●
Определение 6.1.8. Медианой статистического ряда распределения называется значение признака, приходящееся на середину ранжированного ряда наблюдений.
Для статистического дискретного ряда распределения с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов.
Для статистического интервального ряда распределения находится медианный интервал, на который приходится середина ряда, а значение медианы на этом интервале может быть приближенно найдено с помощью кумуляты как значение признака, для которого или .
Достоинство медианы как меры центральной тенденции заключается в том, что на нее не влияет изменение крайних членов статистического ряда распределения, если любой из них, меньший медианы, остается меньше нее, а любой, больший медианы, продолжает быть больше ее. Медиана предпочтительнее средней арифметической для ряда, у которого крайние варианты чрезмерно велики или малы по сравнению с остальными.
Определение 6.1.9. Модой статистического ряда распределения называется вариант, которому соответствует наибольшая частота.
Для статистического интервального ряда находится модальный интервал, имеющий наибольшую частоту, а значение моды на этом интервале может быть приближенно определено графическим путем с помощью гистограммы.
Особенность моды как меры центральной тенденции заключается в том, что она не изменяется при изменении крайних членов ряда, т.е. обладает определенной устойчивостью к вариации признака.
Пример 6.1.4. Найти моду и медиану распределения диаметра деталей в выборке по данным примера 6.1.1.
○ 1) п=20 – четное, следовательно, серединных вариантов два: х10=10 и х11=10. Поэтому .
2) Наибольшая частота пi=6 соответствует варианту 10, поэтому, по определению, . ●
Пример 6.1.5. Найти моду и медиану распределения роста студентов по данным примера6.1.2.
○ 1) Медиану распределения найдем, проведя горизонтальную прямую , до ее пересечения с кумулятой, изображенной на рисунке 6.7. Абсцисса точки пересечения и будет медианой статистического ряда распределения: (рис. 6.8).
2) Для нахождения моды на гистограмме распределения находим прямоугольник с наибольшей частотой (частостью) (рис. 6.6). Соединяя отрезками прямых вершины этого прямоугольника с соответствующими вершинами двух соседних прямоугольников (рис. 6.9), получим точку пересечения этих отрезков (диагоналей), абсцисса которой и будет модой вариационного ряда: .
Рис. 6.8
Рис. 6.9
●
Показатели вариации
Поскольку рассмотренные средние величины не отражают изменчивости (вариации) значений признака, введем следующие понятия.
Определение 6.1.10. Простейшим (и весьма приближенным) показателем вариации является вариационный размах R, равный разности между наибольшим и наименьшим вариантами ряда:
R=xmax – xmin.
Наибольший интерес представляют меры вариации (рассеяния) наблюдений вокруг средних величин, в частности, вокруг средней арифметической.
Определение 6.1.11. Дисперсией статистического ряда распределения называется средняя арифметическая квадратов отклонений вариант от их средней арифметической:
|
Дисперсию часто называют эмпирической или выборочной, подчеркивая, что она (в отличие от дисперсии случайной величины) находится по опытным или статистическим данным.
Определение 6.1.12. Среднее квадратическое отклонение вычисляется как корень квадратный из дисперсии:
|
Среднее квадратическое отклонение используют, когда в качестве меры вариации (рассеяния) желательно иметь характеристику, выраженную в тех же единицах, что и значения признака.
Определение 6.1.13. Коэффициент вариации равен процентному отношению среднего квадратического отклонения к средней арифметической:
|
Пример 6.1.6. Вычислить дисперсию, среднее квадратическое отклонение и коэффициент вариации распределения массы изделий по данным примера 6.1.3.
○ В примере 6.1.3. было найдено , поэтому, по определению дисперсии:
Среднее квадратическое отклонение будем искать по формуле (6.1.3): .
Коэффициент вариации по формуле (6.1.4) равен:
. ●
Конспект 2. Элементы математической статистики
Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использования статистических данных для научных и практических выводов Статистическими данными называют сведения об объектах достаточно большой совокупности, обладающих определенными признаками.
Основы выборочного метода