Выборочные характеристики распределения
Пусть имеется генеральная совокупность, каждый объект которой наделен количественным признаком Х. При случайном извлечении объекта из генеральной совокупности становится известным значение х признака Х этого объекта. Таким образом, извлечение объекта из генеральной совокупности можно рассматривать как испытание, Х – как случайную величину, а х – как одно из возможных значений Х.
Допустим, из теоретических соображений удалось установить, к какому типу распределений относится признак Х. Естественно, возникает задача оценки (приближенного нахождения) параметров, которыми определяется это распределение. Например, если известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить, т.е. приближенно найти математическое ожидание и среднее квадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение (аналогично, для других распределений).
Таким образом, задачей выборочного метода является оценка параметров (характеристик) генеральной совокупности по данным выборки.
Теоретическую основу применимости выборочного метода составляет закон больших чисел, согласно которому при неограниченном увеличении объема выборки практически достоверно, что случайные выборочные характеристики как угодно близко приближаются к определенным параметрам генеральной совокупности.
Средние величины
Средние величины характеризуют значения признака, вокруг которого концентрируются наблюдения или, как говорят, центральную тенденцию распределения.
Определение 6.1.7. Средней арифметической или выборочной средней статистического ряда распределения называется сумма произведений всех вариант на соответствующие частоты, деленная на сумму частот:
|
где хi – варианты дискретного ряда или середины интервалов статистического интервального ряда распределения; ni – соответствующие им частоты; m – число неповторяющихся вариантов или число интервалов; – объем выборки.
Пример 6.1.3. Выборочным путем были получены следующие данные о массе 20 изделий (в г): 30, 30, 25, 32, 30, 25, 33, 32, 29, 28, 27, 36, 31, 34, 30, 23, 28, 31, 36, 30. Найти выборочную среднюю .
○ По данным задачи составим статистический ряд распределения:
Х | |||||||||||
ni |
Отсюда, согласно формуле (6.1.1.) имеем:
Итак, средний вес изделий по данным выборки г. ●
Определение 6.1.8. Медианой статистического ряда распределения называется значение признака, приходящееся на середину ранжированного ряда наблюдений.
Для статистического дискретного ряда распределения с нечетным числом членов медиана равна серединному варианту, а для ряда с четным числом членов – полусумме двух серединных вариантов.
Для статистического интервального ряда распределения находится медианный интервал, на который приходится середина ряда, а значение медианы на этом интервале может быть приближенно найдено с помощью кумуляты как значение признака, для которого или .
Достоинство медианы как меры центральной тенденции заключается в том, что на нее не влияет изменение крайних членов статистического ряда распределения, если любой из них, меньший медианы, остается меньше нее, а любой, больший медианы, продолжает быть больше ее. Медиана предпочтительнее средней арифметической для ряда, у которого крайние варианты чрезмерно велики или малы по сравнению с остальными.
Определение 6.1.9. Модой статистического ряда распределения называется вариант, которому соответствует наибольшая частота.
Для статистического интервального ряда находится модальный интервал, имеющий наибольшую частоту, а значение моды на этом интервале может быть приближенно определено графическим путем с помощью гистограммы.
Особенность моды как меры центральной тенденции заключается в том, что она не изменяется при изменении крайних членов ряда, т.е. обладает определенной устойчивостью к вариации признака.
Пример 6.1.4. Найти моду и медиану распределения диаметра деталей в выборке по данным примера 6.1.1.
○ 1) п=20 – четное, следовательно, серединных вариантов два: х10=10 и х11=10. Поэтому .
2) Наибольшая частота пi=6 соответствует варианту 10, поэтому, по определению, . ●
Пример 6.1.5. Найти моду и медиану распределения роста студентов по данным примера6.1.2.
○ 1) Медиану распределения найдем, проведя горизонтальную прямую , до ее пересечения с кумулятой, изображенной на рисунке 6.7. Абсцисса точки пересечения и будет медианой статистического ряда распределения: (рис. 6.8).
2) Для нахождения моды на гистограмме распределения находим прямоугольник с наибольшей частотой (частостью) (рис. 6.6). Соединяя отрезками прямых вершины этого прямоугольника с соответствующими вершинами двух соседних прямоугольников (рис. 6.9), получим точку пересечения этих отрезков (диагоналей), абсцисса которой и будет модой вариационного ряда: .
Рис. 6.8
Рис. 6.9
●
Показатели вариации
Поскольку рассмотренные средние величины не отражают изменчивости (вариации) значений признака, введем следующие понятия.
Определение 6.1.10. Простейшим (и весьма приближенным) показателем вариации является вариационный размах R, равный разности между наибольшим и наименьшим вариантами ряда:
R=xmax – xmin.
Наибольший интерес представляют меры вариации (рассеяния) наблюдений вокруг средних величин, в частности, вокруг средней арифметической.
Определение 6.1.11. Дисперсией статистического ряда распределения называется средняя арифметическая квадратов отклонений вариант от их средней арифметической:
|
Дисперсию часто называют эмпирической или выборочной, подчеркивая, что она (в отличие от дисперсии случайной величины) находится по опытным или статистическим данным.
Определение 6.1.12. Среднее квадратическое отклонение вычисляется как корень квадратный из дисперсии:
|
Среднее квадратическое отклонение используют, когда в качестве меры вариации (рассеяния) желательно иметь характеристику, выраженную в тех же единицах, что и значения признака.
Определение 6.1.13. Коэффициент вариации равен процентному отношению среднего квадратического отклонения к средней арифметической:
|
Пример 6.1.6. Вычислить дисперсию, среднее квадратическое отклонение и коэффициент вариации распределения массы изделий по данным примера 6.1.3.
○ В примере 6.1.3. было найдено , поэтому, по определению дисперсии:
Среднее квадратическое отклонение будем искать по формуле (6.1.3): .
Коэффициент вариации по формуле (6.1.4) равен:
. ●