Методические указания к решению задач
Статистика изучает количественную сторону массовых явлений и процессов в неразрывной связи с их качественным содержанием. Она служит основой для принятия соответствующих управленческих решений.
Математическая статистика занимается обработкой результатов экспериментов. Она тесно связана с теорией вероятностей.
К основным задачам статистики относятся:
§ организация сбора и группировки статистических экспериментальных данных;
§ оценка неизвестных вероятности события и функции распределения, параметров распределения;
§ оценка зависимости между случайными величинами;
§ проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.
Для получения статистических данных из всех изучаемых объектов (образующих генеральную или статистическую совокупность) отбирается для наблюдения выборочная совокупность (выборка). Количество объектов в ней – объём выборки (n). Полученные в ходе измерений значения изучаемой величины называются вариантами (xi). Число вариант, имеющих одинаковое значение xi, – (абсолютная) частота данного значения (mi). Величина называется относительной частотой (иногда её называют частостью).
Для предварительной обработки результатов наблюдения создают вариационный ряд (ряд распределения), для чего варианты выстраивают в порядке возрастания вместе с их абсолютными частотами (иногда и относительными частотами). Различают дискретный и интервальный вариационные ряды. В дискретном ряду перечисляются все значения вариант; в интервальном ряду данные группируются в интервалы (как правило, равномерные); интервальный ряд создают обычно, если объём выборки велик, а исследуемая величина является непрерывной. Количество интервалов рекомендуется находить по формуле Стерджесса:
k = 1 + log2n = 1 + 3,322×lgn. (1)
При этом результат округляется в большую сторону.
Графическое представление дискретного ряда называется полигоном (многоугольником) абсолютных или относительных частот, интервального ряда – гистограммой. Аналитически вариационный ряд описывается эмпирической функцией распределения: . Иногда вместо графика эмпирической функции распределения строят непрерывную ломаную линию – кумуляту или кумулятивную кривую.
Зачастую исследователь знает вид распределения, которому удовлетворяют собранные экспериментальные данные, но ему неизвестны параметры этого распределения. Тогда по выборке можно попытаться оценить эти параметры. К статистическим оценкам числовых характеристик распределения предъявляются некоторые требования. Если Q – какая-то числовая характеристика, а Q* – её оценка, то эта оценка должна быть:
состоятельной, т.е. (при объёме выборки, стремящемся к бесконечности, статистическая оценка параметра распределения стремится к его настоящему значению);
несмещённой, т.е. M(Q*) = Q;
эффективной, т.е. дисперсия данной оценки D(Q*) должна быть как можно меньше.
Оценкой математического ожидания (генерального среднего) чаще всего является выборочное среднее (среднее арифметическое)
, (2)
где n – объём выборки, k – число различающихся вариант. Данная оценка является состоятельной, несмещённой и наиболее эффективной (последнее – для нормально распределённой случайной величины).
Оценкой генеральной дисперсии D является выборочная дисперсия
. (3)
Но выборочная дисперсия является оценкой смещённой (т.е. M(Dв) ¹ D), поэтому вводится ещё исправленная дисперсия:
, (4)
которая является состоятельной, несмещённой и эффективной (для нормально распределённой случайной величины) оценкой дисперсии.
Соответственно этому существуют выборочное и исправленное средние квадратические отклонения:
(5)
Выборочной модой Мо называют варианту, имеющую наибольшую частоту. Выборочной медианой Ме называют варианту, которая делит вариационный ряд на две равные по числу вариант части.
Кроме рассмотренных выше основных статистических оценок применяют и некоторые другие. Например, характеристиками вариации (рассеяния) исследуемой величины кроме дисперсии и среднего квадратического отклонения являются:
§ размах варьирования – разность между наибольшим и наименьшим значениями вариант R = xmax – xmin; (6)
§ среднее абсолютное (линейное) отклонение
; (7)
§ коэффициент вариации ; (8)
§ линейный коэффициент вариации ; (9)
§ коэффициент осцилляции . (10)
Наряду с точечными оценками (которые определяются одним числом и были рассмотрены выше) в математической статистике используются и интервальные оценки параметров распределения (они определяются двумя числами – концами интервала).
Для математического ожидания нормально распределённой случайной величины доверительный интервал равен , полуширина интервала с доверительной вероятностью (надёжностью) g вычисляется по формуле
, (11)
где параметр tg при известной дисперсии распределения или при большом объёме выборки находится из таблицы функции Лапласа (Приложение 1) по уравнению F(tg) = 0,5g, а при малой выборке и неизвестной дисперсии – из распределения Стьюдента (Приложение 2), при этом число степеней свободы данного распределения f = n – 1, уровень значимости a = 1 – g.
В статистических исследованиях важное место занимает вопрос о взаимосвязи между различными рассматриваемыми явлениями. При изучении двух (и более) случайных величин, характеризующих свойства объектов некоторой генеральной совокупности, особый интерес представляет вопрос о зависимости между этими величинами.
Две случайные величины называются независимыми, если закон распределения любой из них не зависит от того, какие возможные значения принимает другая величина. В противном случае эти две величины называются статистически (или стохастически) зависимыми. Предельным случаем статистической является функциональная зависимость, при которой значения одной случайной величины однозначно вычисляются через значения другой величины. В этом случае, зная закон распределения одной из них, можно найти закон распределения и другой случайной величины.
Частным (и наиболее интересным) случаем статистической является корреляционная зависимость. При этом виде зависимости условное математическое ожидание одной случайной величины определяется значением другой. Условное математическое ожидание величины Х находится по формуле
,
где p(xi, y) – вероятность того, что значение случайной величины X равно xi, а Y – y. Как видно из приведённого выражения, условное математическое ожидание одной величины является функцией от другой:
Mx(Y) = f(x), My(X) = g(y).
Эти выражения называют уравнениями регрессии (прямой и обратной, соответственно). В случае линейной регрессии они обычно записывают в виде
Mx(Y) = ryxx + b, My(X) = rxyy + d,
где ryx и rxy – коэффициенты регрессии:
.
Величина
называется коэффициентом корреляции. Можно показать, что -1 £ r £ +1. Для независимых случайных величин r = 0. При линейной регрессионной зависимости случайных величин коэффициент корреляции указывает на тесноту их связи, он тем больше по абсолютной величине, чем больше эти величины связаны друг с другом. Для линейной функциональной зависимости |r| = 1.
Отметим ещё следующие формулы, связывающие коэффициенты корреляции и регрессии:
. (12)
При обработке экспериментальных данных с двумерными случайными величинами находятся выборочные уравнения регрессии
,
где и - условные средние. В случае линейной регрессии
или
. (13)
Выборочные коэффициенты регрессии и корреляции находятся по формулам
. (14)
На основе собранных в статистических исследованиях данных после их обработки делаются выводы об изучаемых явлениях. Эти выводы делаются путём выдвижения и проверки статистических гипотез. Статистической гипотезой называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Статистические гипотезы проверяются статистическими методами.
Проверяемая гипотеза называется основной (нулевой) и обозначается Н0. Кроме нулевой выдвигается ещё и альтернативная (конкурирующая) гипотеза Н1,отрицающая основную. Таким образом, в результате проверки будет принята одна и только одна из гипотез, а вторая будет отвергнута.
Выдвинутая гипотеза проверяется на основании исследования выборки, полученной из генеральной совокупности. Из-за случайности выборки в результате проверки не всегда делается правильный вывод. При этом могут возникать следующие ситуации:
1. Основная гипотеза верна и она принимается.
2. Основная гипотеза верна, но она отвергается.
3. Основная гипотеза не верна и она отвергается.
4. Основная гипотеза не верна, но она принимается.
Во случае 2 говорят об ошибке первого рода, в последнем случае речь идёт об ошибке второго рода.
Таким образом, по одним выборкам принимается правильное решение, а по другим – неправильное. Решение принимается по значению некоторой функции выборки, называемой статистической характеристикой, статистическим критерием или просто статистикой. Множество значений этой статистики можно разделить на два непересекающихся подмножества:
§ подмножество значений статистики, при которых гипотеза Н0принимается (не отклоняется), называется областью принятия гипотезы (допустимой областью);
§ подмножество значений статистики, при которых гипотеза Н0 отвергается (отклоняется) и принимается гипотеза Н1,называется критической областью.
Основная гипотеза Н0 о значении неизвестного параметра q распределения обычно выглядит так:
Н0: q = q0.
Конкурирующая гипотеза Н1может при этом иметь следующий вид:
Н1: q < q0, Н1: q > q0 или Н1: q ¹ q0.
Соответственно получается левосторонняя, правосторонняя или двусторонняя критические области. Граничные точки критических областей (критические точки) определяют по таблицам распределения соответствующей статистики.
При проверке гипотезы разумно уменьшить вероятность принятия неправильных решений. Допустимая вероятность ошибки первого рода обозначается обычно a и называется уровнем значимости. Его значение, как правило, мало (0,1, 0,05, 0,01, 0,001…). Но уменьшение вероятности ошибки первого рода приводит к увеличению вероятности ошибки второго рода (b), т.е. стремление принимать только верные гипотезы вызывает возрастание числа отброшенных правильных гипотез. Поэтому выбор уровня значимости определяется важностью поставленной проблемы и тяжестью последствий неверно принятого решения.
Проверка статистической гипотезы состоит из следующих этапов:
1) определение гипотез Н0и Н1;
2) выбор статистики и задание уровня значимости;
3) определение критических точек Ккр и критической области;
4) вычисление по выборке значения статистики Кэкс;
5) сравнение значения статистики с критической областью (Ккр и Кэкс);
6) принятие решения: если значение статистики не входит в критическую область, то принимается гипотеза Н0 и отвергается гипотеза H1, а если входит в критическую область, то отвергается гипотеза Н0 и принимается гипотеза Н1. При этом, результаты проверки статистической гипотезы нужно интерпретировать так: если приняли гипотезу Н1, то можно считать её доказанной, а если принялигипотезу Н0, то признали, что она не противоречит результатам наблюдений.Однако этим свойством наряду с Н0могут обладать и другие гипотезы.
Рассмотрим далее несколько различных статистических гипотез и механизмов их проверки.
I). Гипотеза о генеральном среднем значении нормального распределения при неизвестной дисперсии. Предполагаем, что генеральная совокупность имеет нормальное распределение, её среднее и дисперсия неизвестны, но есть основания полагать, что генеральное среднее равно а. При уровне значимости a нужно проверить гипотезу Н0: . В качестве альтернативной можно использовать одну из трёх рассмотренных выше гипотез. В данном случае статистикой служит случайная величина
,
имеющая распределение Стьюдента с n – 1 степенями свободы. Определяется соответствующее экспериментальное (наблюдаемое) значение tэкс. Из таблицы критических точек распределения Стьюдента находится критическое значение tкр. При альтернативной гипотезе Н1: оно находится по уровню значимости a и числу степеней свободы n – 1. Если tэкс < tкр, то нулевая гипотеза принимается, в противоположном случае – отвергается. При альтернативной гипотезе Н1: критическое значение находится по уровню значимости и том же числе степеней свободы. Нулевая гипотеза принимается, если |tэкс| < tкр.
II)Гипотеза о равенстве двух средних значений произвольно распределённых генеральных совокупностей (большие независимые выборки). При уровне значимости a нужно проверить гипотезу Н0: . Если объём обеих выборок велик, то можно считать, что выборочные средние имеют нормальное распределение, а их дисперсии известны. В этом случае в качестве статистики можно использовать случайную величину
,
имеющую нормальное распределение, причём M(Z) = 0, D(Z) = 1. Определяется соответствующее экспериментальное значение zэкс. Из таблицы функции Лапласа находится критическое значение zкр. При альтернативной гипотезе Н1: оно находится из условия F(zкр) = 0,5 – a. Если zэкс < zкр, то нулевая гипотеза принимается, в противоположном случае – отвергается. При альтернативной гипотезе Н1: критическое значение находится из условия F(zкр) = 0,5×(1 – a). Нулевая гипотеза принимается, если |zэкс| < zкр.
III)Гипотеза о равенстве двух средних значений нормально распределённых генеральных совокупностей, дисперсии которых неизвестны и одинаковы (малые независимые выборки). При уровне значимости a нужно проверить основную гипотезу Н0: . В качестве статистики используем случайную величину
,
имеющую распределение Стьюдента с (nх + nу – 2) степенями свободы. Определяется соответствующее экспериментальное значение tэкс. Из таблицы критических точек распределения Стьюдента находится критическое значение tкр. Всё решается аналогично гипотезе (I).
IV)Гипотеза о равенстве двух дисперсий нормально распределённых генеральных совокупностей. В данном случае при уровне значимости a нужно проверить гипотезу Н0: D(Х) = D(Y). Статистикой служит случайная величина
,
имеющая распределение Фишера – Снедекора с f1 = nб – 1 и f2 = nм – 1 степенями свободы ( – большая дисперсия, объём её выборки nб). Определяется соответствующее экспериментальное (наблюдаемое) значение Fэкс. Критическое значение Fкр при альтернативной гипотезе Н1: D(Х) > D(Y) находится из таблицы критических точек распределения Фишера – Снедекора по уровню значимости a и числу степеней свободы f1 и f2. Нулевая гипотеза принимается, если Fэкс < Fкр.
V)Гипотеза о равенстве нескольких дисперсий нормально распределённых генеральных совокупностей по выборкам одинакового объёма. В данном случае при уровне значимости a нужно проверить гипотезу Н0: D(Х1) = D(Х2) = …= D(Хl). Статистикой служит случайная величина
,
имеющая распределение Кочрена со степенями свободы f = n – 1 и l (n – объём каждой выборки, l – количество выборок). Проверка этой гипотезы проводится так же, как и предыдущей. Используется таблица критических точек распределения Кочрена.
VI)Гипотеза о существенности корреляционной связи. В данном случае при уровне значимости a нужно проверить гипотезу Н0: r = 0. (Если коэффициент корреляции равен нулю, то соответствующие величины не связаны друг с другом). Статистикой в данном случае служит случайная величина
,
имеющая распределение Стьюдента с f = n – 2 числом степеней свободы. Проверка этой гипотезы проводится аналогично проверке гипотезы (I).
VII)Гипотеза о значении вероятности появления события. Проведено достаточно большое количество n независимых испытаний, в которых событие А произошло m раз. Есть основания полагать, что вероятность наступления данного события в одном испытании равна р0. Требуется при уровне значимости a проверить гипотезу о том, что вероятность события А равна гипотетической вероятности р0. (Т.к. вероятность оценивается по относительной частоте, то проверяемую гипотезу можно сформулировать и иначе: значимо или нет различаются наблюдаемая относительная частота и гипотетическая вероятность).
Количество испытаний достаточно велико, поэтому относительная частота события А распределена по нормальному закону. Если нулевая гипотеза верна, то её математическое ожидание равно р0, а дисперсия . В соответствии с этим в качестве статистики выберем случайную величину
,
которая распределена приближённо по нормальному закону с нулевым математическим ожиданием и единичной дисперсией. Проверка данной гипотезы осуществляется точно так же, как и в случае (I).
VIII)Гипотеза о виде распределения генеральной совокупности. Критерий согласия Пирсона. На основании выборки из генеральной совокупности или из каких-то иных соображений выдвигается нулевая гипотеза о конкретном распределении генеральной совокупности, выраженной через функцию распределения F(x). Это распределение назовём теоретическим.
По выборке находится эмпирическая функция распределения F*(x). Гипотеза Н0 о распределении генеральной совокупности принимается, если эмпирическое распределение хорошо согласуется с теоретическим. Для проверки таких гипотез разработаны несколько критериев согласия. Здесь рассматривается c2-критерий согласия Пирсона.
При его использовании вся область изменения генеральной совокупности делится на несколько интервалов, которые могут иметь различную длину. По выборке составляют вариационный ряд с использованием этих же интервалов. Если в некотором интервале частота, слишком мала (меньше 4), то этот интервал объединяют с соседним.
По выборке вычисляют оценки параметров теоретического распределения. Тем самым теоретическое распределение будет полностью определено. Далее по теоретическому распределению находятся вероятности того, что случайная величина принимает значение из каждого интервала. После чего вычисляются теоретические частоты (произведения найденной вероятности на объём выборки).
Нулевая гипотеза принимается, если теоретические и эмпирические частоты мало отличаются друг от друга. При этом в качестве статистики рассматривается случайная величина
,
где mi – эмпирические, а mi’ – теоретические частоты, l – количество интервалов. Эта величина имеет распределение c2 с l – p – 1 степенями свободы (где р – число подбираемых параметров распределения). Основная гипотеза о виде распределения принимается, если .
Тесно связан с задачами статистической проверки статистических гипотез дисперсионный анализ, в котором проверяется гипотеза о равенстве нескольких генеральных средних Н0: М(Х1) = М(Х2) = … М(Хl). При этом предполагаемое различие генеральных средних обусловлено действием некоторого фактора. А рассматриваемые генеральные совокупности (группы) отличаются значением данного действующего фактора (эти значения называют в дисперсионном анализе уровнями или градациями и они могут быть как количественными, так и качественными). Поэтому, подтверждение в результате проверки различия генеральных средних будет одновременно и доказательством действия данного фактора.
Различия вариант в группах обуславливаются как естественным разбросом данной величины, так и действием исследуемого фактора. Поэтому в рассмотрение вводятся две дисперсии: остаточная или внутригрупповая (она отражает естественный разброс вариант) и факторная или межгрупповая (характеризует разброс, вызванный действием фактора). Эти дисперсии сравниваются по критерию Фишера. Их различие означает и различие генеральных средних, а поэтому и действие фактора. И наоборот.
В дисперсионном анализе предполагается равенство групповых дисперсий. Поэтому перед его проведением желательно проверить их равенство; например, по критерию Кочрена или Бартлетта.
Факторная и остаточная дисперсии находятся по формулам
, (15)
где . В этих формулах n – общее количество всех вариант, l – число уровней фактора, qi – количество вариант на i-том уровне, xij – значение варианты, – общее среднее, – среднее на i-том уровне. Легко видеть, что при отсутствии влияния фактора обе эти дисперсии являются несмещёнными оценками генеральной дисперсии. При проверке критерия Фишера число степеней свободы f1 = l – 1, f2 = n – l.
Кроме рассмотренного сейчас однофакторного дисперсионного анализа часто применяется и многофакторный анализ. При этом исследуется влияние на изучаемый признак сразу нескольких внешних причин. В отличие от однофакторного анализа в многофакторном применяются только равномерные выборки. Причём, обычно используются полные планы (должны быть задействованы все комбинации уровней факторов).
Для двухфакторного дисперсионного анализа факторные и остаточная дисперсии находятся по формулам:
(16)
где – дисперсии факторов A, B и их комбинации (взаимодействия), lA, lB – число уровней факторов A и B, а остальные величины находятся по следующим формулам:
(17)
Число степеней свободы для фактора А fA = lA – 1, фактора В fB = lB – 1, их совместного влияния fAB = (lA – 1)(lB – 1), f2 = lAlB(q – 1).
Примеры решения задач
Задание 1. В лабораторной работе по физике «Определение вязкости жидкости методом Стокса», проводимой со студентами фармацевтической академии, используется свинцовая дробь. Для изучения распределения массы дробинок (в миллиграммах) была образована следующая выборка:
17, 49, 79, 44, 82, 65, 109, 77, 107, 88, 62, 64, 79, 55, 44, 53, 140, 50, 67, 85, 64, 94, 41, 38, 62, 77, 154, 52, 56, 80, 49, 80, 79, 52, 65, 52, 127, 49, 73, 43, 95, 65, 83, 85, 111, 95, 112, 64, 94, 86, 34, 62, 101, 67, 59, 103, 67, 47, 65, 79, 64, 77, 32, 68, 145, 56, 172, 79, 67, 53, 35, 79, 70, 88, 137, 49, 125, 37, 65, 71, 35, 50, 37, 171, 139, 88, 137, 71, 77, 34, 62, 64, 79, 95, 124, 50, 127, 67, 67, 82, 14, 136, 76, 122, 82, 67, 111, 67, 70, 94, 73, 95, 94, 65, 80, 94, 160, 140, 95, 89, 65, 79, 80, 112, 35, 80, 109, 148, 127, 124, 68, 49, 70, 125, 88, 77, 119, 64, 148, 71.
По выборке объёма n = 140 составьте интервальный ряд распределения. Количество интервалов найдите по формуле Стерджесса, ширину интервала округлите до 10 мг (в большую сторону), левую границу первого интервала также округлите до 10 мг (в меньшую сторону). Постройте гистограмму относительных частот и кумулятивную кривую.
Найдите среднее значение, выборочные дисперсию и среднее квадратическое отклонение. При доверительной вероятности g = 0,95 определите доверительный интервал для генеральной средней.
Проверьте гипотезу о нормальном распределении массы дробинок таблеток по данной выборке. Уровень значимости a = 0,05.
Решение. Из приведённых данных видно, что массы дробинок лежат в диапазоне от 14 до 172 мг. По формуле Стерджесса (1) находим количество интервалов:
k = 1 + 3,322×lgn = 1 + 3,322×lg140 = 1 + 3,322×2,146 = 8,129.
Округляем (в большую сторону): k = 9. Находим ширину интервалов:
.
В соответствие с условием задачи округляем это значение до 20 мг (с точностью до 10 мг в большую сторону). В качестве левой границы первого интервала выбираем значение 10 мг (округлив в меньшую сторону самое маленькое значение xmin = 14 мг).
Разбиваем диапазон данных на интервалы равной ширины. Находим абсолютные частоты для всех интервалов (подсчитываем, сколько значений массы дробинок попадает в каждый промежуток). Заносим данные в таблицу 1. Рассчитываем по формуле значения относительных частот и по формуле значения эмпирической функции распределения (накопленные частоты).
Таблица 1
Интервал (мг) xi | 10-30 | 30-50 | 50-70 | 70-90 | 90-110 | 110-130 | 130-150 | 150-170 | 170-190 |
Абсолютная частота mi | |||||||||
Относительная частота wi | 0,0143 | 0,1357 | 0,3000 | 0,2571 | 0,1071 | 0,0929 | 0,0643 | 0,0143 | 0,0143 |
Эмпирическая функция распределения F*(x) | 0,0143 | 0,1500 | 0,4500 | 0,7071 | 0,8143 | 0,9071 | 0,9714 | 0,9857 | 1,0000 |
Строим гистограмму относительных частот (рис. 1) и кумуляту (рис. 2).
После этого по формуле (2) вычисляем среднее выборочное массы дробинок:
(в качестве значения массы xi взята середина соответствующего интервала).
По формулам (3) и (5) определяем выборочную дисперсию и выборочное среднее квадратическое отклонение:
.
Т.к. объём выборки велик (n = 140), то исправленную дисперсию можно не вычислять.
Полуширина доверительного интервала для математического ожидания по формуле (11) равна
,
где коэффициент tg взят из таблицы функции Лапласа (Приложение 1) из условия Ф(tg) = 0,5g = 0,5∙0,95 = 0,475. Тогда с вероятностью g = 0,95 генеральное среднее массы дробинок лежит в интервале = (80,0 ± 5,4) мг или (74,6 < < 85,4) мг.
В заключении проверим гипотезу о том, что распределение масс является нормальным:
H0: распределение масс является нормальным;
H1: распределение масс не является нормальным.
Прежде всего, объединяем крайние интервалы с соседними (см. таблицу 1), т.к. их эмпирические частоты mi меньше 4. Данные заносим в таблицу 2 (столбец mi), причём первый интервал начинаем с –¥, а последний интервал заканчиваем +¥.
Считая, что данное распределение является нормальным с математическим ожиданием 80,0 мг и средним квадратическим отклонением 32,34 мг, с помощью Приложения 1 вычисляем вероятности попадания в соответствующий интервал pi:
;
.
Умножаем эти вероятности на объём выборки (n = 140) и получаем теоретические частоты (mi’).
Заполняем два оставшихся столбца и находим суммы по столбцам.
Таблица 2
Интервал, мг | mi | pi | mi’ | mi – mi’ | |
(–¥, 50) | 0,1762 | 24,67 | -3,67 | 0,55 | |
(50, 70) | 0,2021 | 28,29 | 13,71 | 6,64 | |
(70, 90) | 0,2434 | 34,08 | 1,92 | 0,11 | |
(90, 110) | 0,2021 | 28,29 | -13,29 | 6,25 | |
(110, 130) | 0,1156 | 16,18 | -3,18 | 0,63 | |
(130, 150) | 0,0452 | 6,33 | 2,67 | 1,13 | |
(150, +¥) | 0,0154 | 2,16 | 1,84 | 1,58 | |
S | 16,87 |
Последняя сумма соответствует искомому критерию .
Данная выборка разбита на l = 7 интервалов. В нормальном распределении р = 2 подбираемых параметра (математическое ожидание и среднее квадратическое отклонение). Поэтому число степеней свободы в данном случае k = l - p - 1 = 7 - 2 - 1 = 4. При уровне значимости a = 0,05 и найденному числу степеней свободы из таблицы критических точек распределения c2 находим значение критерия (Приложение 3).
Т.к. , то нулевая гипотеза отвергается: распределение масс корзинок ромашки не является нормальным.
Задание 2а. На массовых соревнованиях спортсмены-стрелки производят по 6 выстрелов. Ниже приведены их результаты (количество попаданий по мишени):
6; 6; 3; 5; 4; 6; 6; 6; 6; 5; 6; 6; 4; 6; 4; 6; 5; 3; 4; 5; 3; 6; 4; 6; 6; 3; 4; 4; 5; 3; 4; 3; 4; 5; 4; 5; 6; 5; 5; 6; 5; 5; 6; 6; 6; 6; 5; 5; 6; 6; 4; 5; 5; 6; 6; 4; 5; 6; 6; 5; 4; 4; 4; 2; 4; 5; 4; 3; 4; 4; 5; 4; 5; 5; 5; 6; 6; 6; 4; 5; 4; 3; 5; 5; 6; 6; 4; 6; 4; 6; 5; 4; 5; 4; 5; 5; 4; 6; 5; 4; 4; 4; 5; 6; 5; 5; 2; 5; 6; 3; 6; 5; 4; 5; 6; 6; 4; 3; 5; 5; 4; 3; 2; 4; 4; 5; 5; 6; 5; 6; 6; 6; 5; 4; 6; 5; 4; 5; 5; 3; 5; 4; 6; 5; 5; 4; 4; 1; 6; 6; 5; 5; 4; 5; 5; 6; 3; 6; 6; 4.
По выборке объёма n = 160 составьте дискретный ряд распределения количества попаданий. Постройте полигон частот.
Найдите среднее значение, выборочные дисперсию, среднее квадратическое отклонение, моду и медиану. При доверительной вероятности g = 0,99 определите доверительный интервал для генеральной средней.
Проверьте гипотезу о биномиальном распределении количества попаданий по данной выборке. Уровень значимости a = 0,05.
Решение. Данная случайная величина (количество попаданий) принимает значения от 1 до 6.
Находим абсолютные частоты для всех этих значений (подсчитываем, сколько стрелков имеют 1, 2, 3, 4, 5 и 6 попаданий в мишень). Заносим данные в таблицу 3. Рассчитываем по формуле значения относительных частот и по формуле значения эмпирической функции распределения (накопленные частоты).
Таблица 3
xi | ||||||
Абсолютная частота mi | ||||||
Относительная частота wi | 0,00625 | 0,01875 | 0,08125 | 0,2625 | 0,325 | 0,30625 |
Эмпирическая функция распределения F*(x) | 0,00625 | 0,025 | 0,10625 | 0,36875 | 0,69375 |
Построим полигон частот (рис. 3).
После этого по формуле (2) вычисляем среднее выборочное числа попаданий:
.
По формулам (3) и (5) определяем выборочную дисперсию и выборочное среднее квадратическое отклонение:
.
Т.к. объём выборки велик (n = 160), то исправленную дисперсию можно не вычислять.
Выборочная мода – это значение случайной величины, имеющее наибольшую частоту; в данном случае Mo = 5 (частота этого значения 52). Выборочная медиана – срединное значение выборки; Me = 5 (если все 160 значений случайной величины расположить в порядке возрастания, то в середине будет находиться именно это значение).
Полуширина доверительного интервала для математического ожидания по формуле (11) равна
,
где коэффициент tg взят из таблицы функции Лапласа (Приложение 1) из условия Ф(tg) = 0,5g = 0,5∙0,99 = 0,495. Тогда с вероятностью g = 0,99 генеральное среднее числа попаданий стрелков лежит в интервале = (4,8 ± 0,22) или (4,58 < < 5,02).
В заключении проверим гипотезу о том, что распределение числа попаданий является биномиальным:
H0: распределение числа попаданий является биномиальным;
H1: распределение числа попаданий не является биномиальным.
Прежде всего, объединяем два первых интервала, добавив туда же значение числа попаданий, равное 0 (см. таблицу 3), т.к. их эмпирические частоты mi меньше 4. Данные заносим в таблицу 4 (столбец mi).
Считаем, что данное распределение является биномиальным с математическим ожиданием 4,80. Т.к. при биномиальном распределении M(X) = np, то вероятность попадания при одном выстреле будет равна . Тогда по формуле Бернулли находим вероятности 0, 1, 2, 3, 4, 5 и 6 попаданий:
;
;
;
;
;
;
.
Умножаем эти вероятности на объём выборки (n = 160) и получаем теоретические частоты (mi’).
Заполняем два оставшихся столбца и находим суммы по столбцам.
Таблица 4
xi | mi | pi | mi’ | mi – mi’ | |
0, 1, 2 | 0,01696 | 2,7136 | 1,2864 | 0,609826 | |
0,081920 | 13,1072 | -0,1072 | 0,000877 | ||
0,245760 | 39,3216 | 2,6784 | 0,18244 | ||
0,393216 | 62,91456 | -10,9146 | 1,893483 | ||
0,262144 | 41,94304 | 7,05696 | 1,187341 | ||
S | 3,874 |
Последняя сумма соответствует искомому критерию .
Данная выборка разбита на l = 7 интервалов. В биномиальном распределении р = 1 подбираемых параметра (вероятность появления события при одном испытании). Поэтому число степеней свободы в данном случае k = l - p - 1 = 7 - 1 - 1 = 5. При уровне значимости a = 0,05 и найденному числу степеней свободы из таблицы критических точек распределения c2 находим значение критерия (Приложение 3).
Т.к. , то нулевая гипотеза принимается: выборочные данные не противоречат тому, что распределение числа попаданий является биномиальным.
Задание 2б. В учётном журнале фиксируются вызовы ремонтной бригады. Студент-практикант построил вариационный ряд количества вызовов за смену:
xi | |||||||||
mi |
Проверьте гипотезу о том, что количества вызовов за смену имеют распределение Пуассона. Уровень значимости a = 0,1.
Решение. По формуле (2) вычисляем среднее выборочное числа вызовов:
.
После этого проверим гипотезу о том, что количества вызовов за смену имеют распределение Пуассона:
H0: число вызовов имеют распределение Пуассона;
H1: число вызовов не имеют распределение Пуассона.
Прежде всего, объединяем последние интервалы, т.к. их эмпирические частоты mi меньше 4. Данные заносим в таблицу 5 (столбец mi).
Считаем, что данное распределение является пуассоновским с математическим ожиданием 2,46. Тогда по формуле Пуассона находим вероятности нужного числа вызовов:
; ;
; ;
; .
Тогда вероятность того, что будет более 5 вызовов равна
P(>5) = 1 – (P(0) + P(1) + P(2) + P(3) + P(4) + P(5)) =
= 1 – (0,0854 + 0,2102 + 0,2585 + 0,2120 + 0,1304 + 0,0641) = 0,0394.
Умножаем эти вероятности на объём выборки (n = 160) и получаем теоретические частоты (mi’).
Заполняем два оставшихся столбца и находим суммы по столбцам.
Таблица 5
xi | mi | pi | mi’ | mi – mi’ | |
0,0854 | 12,81 | -0,81 | 0,051218 | ||
0,2102 | 31,53 | -3,53 | 0,395208 | ||
0,2585 | 38,775 | 4,225 | 0,460364 | ||
0,2120 | 31,8 | 6,2 | 1,208805 | ||
0,1304 | 19,56 | -4,56 | 1,063067 | ||
0,0641 | 9,615 | -3,615 | 1,35915 | ||
>5 | 0,0394 | 5,91 | 2,09 | 0,739103 | |
S | 5,277 |
Последняя сумма соответствует искомому критерию .
Данная выборка разбита на l = 7 интервалов. В распределении Пуассона р = 1 подбираемых параметра (математическое ожидание). Поэтому число степеней свободы в данном случае k = l - p - 1 = 7 - 1 - 1 = 5. При уровне значимости a = 0,1 и найденному числу степеней свободы из таблицы критических точек распределения c2 находим значение критерия (Приложение 3).
Т.к. , то нулевая гипотеза принимается: выборочные данные не противоречат тому, что распределение числа вызовов является пуассоновским.
Задание 2в. Для статистического анализа некоторой случайной величины был построен вариационный ряд:
xi | |||||||
mi |
Проверьте гипотезу о том, что данная случайная величина имеет равномерное дискретное распределение. Уровень значимости a = 0,1.
Решение. Выдвигаем основную и альтернативную гипотезы:
H0: данная случайная величина имеет равномерное дискретное распределение;
H1: данная случайная величина не имеет равномерное дискретное распределение.
Считаем, что данное распределение является равномерным дискретным. Тогда вероятности всех значений этой величины одинаковы и равны (k – количество значений случайной величины). Умножаем эту вероятности на объём выборки (n = 180) и получаем теоретические частоты mi’ = 0,1429×180 = 25,714 (они также будут все одинаковыми).
Заполняем два оставшихся столбца и находим суммы по столбцам.
Таблица 6
xi | mi | pi | mi’ | mi – mi’ | |
0,1429 | 25,714 | 0,286 | 0,003181 | ||
0,1429 | 25,714 | -4,714 | 0,864191 | ||
0,1429 | 25,714 | -7,714 | 2,31414 | ||
0,1429 | 25,714 | 6,286 | 1,536665 | ||
0,1429 | 25,714 | 0,286 | 0,003181 | ||
0,1429 | 25,714 | 0,286 | 0,003181 | ||
0,1429 | 25,714 | 5,286 | 1,086637 | ||
S | 5,811 |
Последняя сумма соответствует искомому критерию .
Данная выборка разбита на l = 7 интервалов. Для дискретного равномерного распределения р = 0 (подбираемых параметра нет). Поэтому число степеней свободы в данном случае k = l - p - 1 = 7 - 0 - 1 = 6. При уровне значимости a = 0,1 и найденному числу степеней свободы из таблицы критических точек распределения c2 находим значение критерия (Приложение 3).
Т.к. , то нулевая гипотеза принимается: выборочные данные не противоречат тому, что распределение данной случайной величины является равномерным дискретным.
Задание 3. Из первого нарезного оружия было произведено 8 выстрелов. При этом измерялись начальные скорости пуль. Получены следующие результаты: 902,4; 901,3; 898,4; 903,5; 901,1; 900,4; 899,7 и 900,3 (м/с). Из второго оружия было произведено 7 выстрелов. Скорости вылета пуль оказались равны 905,5; 910,3; 903,8; 902,4; 899,9; 903,3 и 905,6 (м/с).
Для обеих выборок вычислите среднее, исправленную дисперсию и среднее квадратическое отклонение. Найдите размах варьирования, среднее абсолютное (линейное) отклонение, коэффициент вариации, линейный коэффициент вариации, коэффициент осцилляции.
Предполагая, что данная случайная величина имеет нормальное распределение, определите доверительный интервал для генеральной средней (в обоих случаях).
По критерию Фишера проверьте гипотезу о равенстве генеральных дисперсий. По критерию Стьюдента проверьте гипотезу о равенстве генеральных средних (альтернативная гипотеза – об их неравенстве).
Во всех расчётах уровень значимости a = 0,05.
Решение. По формулам (2-5) для первого оружия вычислим среднее значение, исправленную дисперсию и исправленное среднее квадратическое отклонение:
, .
По формулам (6-5) для первого оружия находим другие характеристики вариации:
§ размах варьирования R = xmax – xmin = 903,5 – 898,4 = 5,1;
§ среднее абсолютное (линейное) отклонение
§ коэффициент вариации ;
§ линейный коэффициент вариации
;
§ коэффициент осцилляции .
Для доверительной вероятности g = 0,95 (уровень значимости a = 0,05) по таблице критических точек распределения Стьюдента (Приложение 2) при f = 8 – 1 = 7 степенях свободы находим значение коэффициента tg = 2,36. Тогда полуширина доверительного интервала
.
И с вероятностью g = 0,95 генеральное среднее начальной скорости пули лежит в интервале (900,76 ± 1,24) м/с или (899,52; 902,00) м/с.
Повторим все расчёты для второго оружия:
, .
R = ymax – ymin = 905,5 – 899,9 = 5,6;
; ;
.
Для доверительной вероятности g = 0,95 (уровень значимости a = 0,05) по таблице критических точек распределения Стьюдента (Приложение 2) при f = 7 – 1 = 6 степенях свободы находим значение коэффициента tg = 2,45. Тогда полуширина доверительного интервала
.
И с вероятностью g = 0,95 генеральное среднее начальной скорости пули лежит в интервале (902,69 ± 1,63) м/с или (901,03; 904,32) м/с.
Проводим проверку гипотезы о равенстве дисперсий:
H0: Dx = Dy;
H1: Dx < Dy.
Найдём наблюдаемое значение критерия Фишера
.
f1 = nб – 1 = nу – 1 = 7 – 1 = 6 и f2 = nм – 1 = nх – 1 = 8 – 1 = 7 (числа степеней свободы). По таблице критических точек распределения Фишера – Снедекора (Приложение 4) при уровне значимости a = 0,05 и данным числам степеней свободы находим Fкр = 3,87. Т.к. Fэкс < Fкр, то нет оснований отвергать нулевую гипотезу (т.е. можно считать, что дисперсии двух выборок равны).
Проводим проверку гипотезы о равенстве генеральных средних:
H0: ;
H1: .
Найдём экспериментальное значение критерия Стьюдента
Число степеней свободы f = nх + nу – 2 = 8 + 7 – 2 = 13. По таблице критических точек распределения Стьюдента (Приложение 2) при уровне значимости a = 0,05 и данному числу степеней свободы находим tкр = 2,16. Т.к. tэкс > tкр, то нулевая гипотеза отвергается, генеральные средние двух выборок не равны.
Задание 4. Во всех школах района проводилось тестирование старшеклассников по литературе и математике. Каждому ученику по обоим предметам выставлялись баллы. В районном отделе образования результаты были сведены в корреляционную таблицу:
Таблица 7
x \ y | 0 – 20 | 20 – 40 | 40 – 60 | 60 – 80 | 80 – 100 |
0 – 20 | |||||
20 – 40 | |||||
40 – 60 | |||||
60 – 80 | |||||
80 – 100 |
Здесь x – количество набранных баллов по математике, y – по литературе.
Напишите уравнения прямой и обратной регрессий для данных величин. Постройте соответствующие графики. Найдите коэффициент корреляции рассматриваемых величин. По критерию Стьюдента проверьте гипотезу о существенности корреляционной связи, уровень значимости a = 0,01.
Решение. Снизу дополним исходную корреляционную таблицу 7 ещё одной строкой, в которой просуммируем значения по столбцам; аналогично, добавим справа столбец, где вычислим суммы по строкам (таблица 8).
Таблица 8