Статистическая проверка гипотез
Статистической гипотезой называется предположение, которое можно проверить, опираясь на первичные статистические данные.
Статистические гипотезы, как правило, рассматриваются попарно и называются нулевой (H0) и альтернативной (Ha или H1). Нулевая гипотеза – это простая гипотеза, в ней говорится о конкретных значениях параметров, о конкретных предположениях (о виде закона распределения, о форме зависимости и т.д.). Альтернативная гипотеза сложная, в ней рассматриваются различные варианты возможностей. Например, нулевая гипотеза: средняя величина генеральной совокупности равна числу а. Коротко это записывается так:
Возможные альтернативные гипотезы:
1) ;
2) ;
3) .
Статистическим критерием называют определенное правило, устанавливающее условия, при которых проверяемую нулевую гипотезу следует либо отклонить, либо принять.
Если в результате проверки отвергается H0, то принимается альтернативная гипотеза H1.
Проверка статистической гипотезы состоит из следующих процедур:
1) формулируются гипотезы H0 и H1;
2) выбирается уровень значимости a, определяющий границу маловероятного или невозможного результата при истинности выдвинутой нулевой гипотезой (обычно a = 0,05 или 0,01, т.е. вероятность ошибки 5% или 1%);
3) определяются область допустимых значений и критическая область;
4) по эмпирическим (первичным) данным вычисляется фактическое значение критерия;
5) по специальной таблице определяется табличное значение статистического критерия для принятого a;
6) на основе сравнения фактического и табличного значений критерия H0 принимается либо отвергается.
При проверке гипотез по тому или иному критерию возможны две ошибки:
а) неправильное отклонение H0 (ошибка 1-го рода);
б) неправильное принятие H0 (ошибка 2-го рода).
Обычно гипотезы H0 и H1 формулируются так, чтобы минимизировать ошибки первого и второго рода.
Критической областью называется область, попадание значения статистического критерия в которую приводит к отклонению H0.
Область допустимых значений дополняет критическую область. В сумме эти области охватывают все множество значений проверяемой гипотезы.
Точки, разделяющие критическую область и область допустимых значений, называются критическими точками (критическими значениями и границами критической области).
Проверка гипотезы о средних величинах. Испытание гипотезы проводится с помощью t-критерия. При большом числе наблюдений критическое значение критерия определяется по таблице значений функции Лапласа, при малом – по таблице распределения Стьюдента с заданным уровнем значимости и числом степеней свободы n-1.
Если tфакт < tкрит , то H0 принимается, а если tфакт > tкрит , то H0 откланяется.
Проблема может состоять в проверке гипотезы:
1) о значении средней;
2) о равенстве средних двух совокупностей (наблюдений);
3) о величине средней генеральной совокупности.
Проверка гипотезы о принадлежности генеральной совокупности (выделяющихся) единиц. В составе первичных данных могут встречаться единицы совокупности, у которых зарегистрированные значения признака заметно отличают от других.
Проверка этой гипотезы состоит в том, что Xн или X1 сравнивается по величине с некоторой критической границей Х. Если выделяющимся значением является наибольшее значение, то Xн сравнивается с верхней допустимой границей с учетом уровня значимости, т.е.
.
Если же выделяющимся значением является наименьшее значение (X1), то это значение сравнивается с нижней допустимой границей, которую принимают равной . Если же испытанию одновременно подлежат оба крайних значения признака, то нулевая гипотеза будет иметь вид
.
Гипотеза H0 бракуется, если испытуемое значение (значения) превосходит указанную границу, т.е. попадает в критическую область.
Если параметры генеральной совокупности и не известны, то используют параметры выборочной совокупности. При больших выборках табличное значение tтабл определяется по таблице нормированной функции Лапласа, а при малых выборках по таблице распределения Стьюдента с заданным уровнем значимости a и числом степеней свободы n-1.
Для отбрасывания (или включения в анализ) выделяющихся значений признака по данным малой выборки можно использовать и критерий К, предложенный Ф. Груббсом, и критерий l, предложенный Дж. Ирвином.
Проверка гипотезы о нормальном законе распределения. Для этой цели могут применяться различные критерии согласия. Одним из наиболее часто употребляемых критериев согласия является критерий «хи-квадрат»:
,
где и - соответственно частоты эмпирического и теоретического распределения в i-м интервале;
k-количество интервалов.
Если > , то гипотеза о близости эмпирического распределения к нормальному отвергается.
При расчете критерия нужно соблюдать условия:
1) число наблюдений должно быть достаточно велико (n>=50);
2) эмпирические частоты по каждой группе должны быть не меньше 5 (fi >=5).
Табличное значение критерия определяется при фиксированном уровне значимости и соответствующем числе степеней свободы (k-3) по специальной таблице закона - распределения.
Проверка гипотезы о линейной зависимости. Для проверки этой гипотезы целесообразно использовать величину w2:
,
где - корреляционные отношения, r – коэффициент линейной (парной) корреляции;
n – число наблюдений (т.е. число единиц совокупности, охваченных наблюдением);
k – количество групп.
Величина w2 подчиняется закону F – распределения.
При заданном уровне значимости a и при числе степеней свободы числителя r1=k-2 и числе степеней свободы знаменателя r2=n-k определяется Fтабл. Если w2 > Fтабл гипотеза о линейном виде зависимости между признаками отвергается.
Проверка гипотезы о существовании линейного (парного) коэффициента корреляции. Доверительная область (доверительный интервал) для коэффициента корреляции записывается так:
,
где r – коэффициент парной корреляции;
t – коэффициент кратности (зависит от уровня значимости a или уровня доверия p=1-a);
sr - среднеквадратическая ошибка (отклонение) для коэффициента корреляции.
Средняя квадратическая ошибка коэффициента корреляции определяется по формуле
а) для больших выборок: ;
б) для малых выборок: .
Таким образом данная гипотеза может проверяться с использованием t-критерия. Для больших выборок определяется по формуле
,
а для малых выборок – по формуле
.
При больших выборках табличное значение tтабл определяется по таблице функции Лапласа, а при малых выборках по таблице распределения Стьюдента с заданным уровнем значимости a и числом степеней свободы n-2.
Задача № 1. На станке–автомате должны изготовляться детали с номинальным контролируемым размером а=12 мм. Были измерены размеры 36 случайно отобранных деталей. Среднее значение контролируемого размера оказалось равным =11,7 мм, а выборочное среднее квадратическое отклонение оказалось равным =0,5 мм. Распределение контролируемого размера является нормальным. Можно ли считать, что станок–автомат изготавливает детали уменьшенного размера и следовательно, требует наладки?
Сформулировать H0 и H1, построить критическую область и область допустимых значений, проверить H0 при a=0,05 и принять решение.
Справочно: =2,02, при k=n-1=36-1 и a=0,05.
Задача № 2. Часовая выработка рабочего производственного участка по норме составляет 400 деталей. Фактическая выработка примерно соответствовала норме. При переходе на новый технологический процесс условия работы усложнились в связи с повышенными требованиями к качеству. Для проверки обоснованности нормы в новых условиях был проведен учет работы 9 рабочих данного участка: их средняя часовая выработка составила 388 деталей с дисперсией, равной =171. Нужно ли пересматривать норму выработки.
Сформулировать H0 и испытайте эту гипотезу на 5 %-ном уровне значимости. По таблице распределения Стьюдента при доверительной вероятности 0,95 или (1 – 0,05) и числе степеней свободы k=n-1=8 критическое значение составит tкрит=2,3.
Задача № 3. Средний расход сырья на единицу продукции при существующем технологическом процессе составляет 2,8 условных единиц. После внесения изменений в существующую технологию по результатам проверки достаточно большой партии изделий средний расход сырья на единицу продукции составил 2,6 условные единицы. Средняя ошибка выборки оказалось равной 0,1. Возникает вопрос, действительно ли применение измененной технологии приводит к снижению материалоемкости продукции?
Сформулировать H0 и H1 (в двух вариантах). Проверить H0 при уровне значимости a=0,05. По таблице функции Лапласа коэффициент доверия t=1,96.
Задача № 4. Известны следующие данные
Количество единиц совокупности | Минимальные значения | Максимальные значения | Разность смежных значений | Среднее значение | Среднеквадратическое отклонение s | |||
X1 | X2 | Xn-1 | Xn | X2- X1 | Xn-Xn-1 | |||
57,3 | 35,3 |
Сформулировать H0 и H1, построить критическую область и область допустимых значений. Проверить, принадлежит ли выделяющееся значение Хn к рассматриваемой совокупности или его можно отнести к ошибке наблюдения.
Справочно: при уровне значимости a=0,01 по таблице нормированной функции Лапласа =2,33.
Задача № 5. По данным некоторой групповой таблицы (5 групп) вычислены корреляционное отношение (h=0,819) и коэффициент парной корреляции по этим несгруппированным данным (n=20) (r=0.8105).
Проверить гипотезу о линейной зависимости.
Справочно: при a=0,05 и числе степеней свободы по числителю k1=5-2=3 и числе степеней свободы по знаменателю k2=20-5=15 Fтабл=3,29.
Задача № 6. По условию задачи 5 проверить гипотезу о значимости коэффициента корреляции при 1) a=0,05, 2) a=0,01.
Задача № 7. По приведенным частотам эмпирического и теоретического распределения проверить гипотезу о нормальном типе распределения данного признака.
Номер интервалов | Итого | |||||||
Эмпирические частоты | ||||||||
Теоретические частоты |
Справочно: при уровне значимости a=0,05 и числе степеней свободы 4 =9,5.
Задача № 8. Заказчику необходимы валы с допустимым отклонением диаметра от номинального размера мкм. Прежде чем покупать партию из 2000 валов, он приобрел партию из 200 валов, чтобы оценить ожидаемую долю неподходящих ему изделий. Результаты измерений дали следующие результаты:
Середина интервала | -0,14 | -0,12 | -0,10 | -0,08 | -0,06 | -0,04 | -0,02 |
Частота | |||||||
Середина интервала | 0,00 | 0,02 | 0,04 | 0,06 | 0,08 | 0,10 | 0,12 |
Частота |
1. Построить гистограмму отклонений диаметра вала от номинального и обосновать гипотезу о законе распределения.
2. По критерию проверить гипотезу о нормальном законе распределения, если теоретические частоты имеют следующие значения (9, 12, 20, 27, 31, 31, 27, 20, 12, 9).
Задача № 9. Имеются следующие данные о распределении сельскохозяйственных предприятий региона по урожайности зерновых культур.
Урожайность, ц/га | 10-15 | 15-20 | 20-25 | 25-30 | 30-35 | 35-40 | 40-45 | 45-50 | 50-55 | Итого |
Число хозяйств (эмпирические частоты) | ||||||||||
Теоретические частоты |
Проверить, соответствует ли данное распределение нормальному закону. Теоретическое значение для при степени свободы 9 соответствует 16,92, при степени свободы 6 =12,59 и при степени свободы 4 .
Задача № 10. По выборке объемом 32 единицы получен парный коэффициент корреляции r = -0,359. при уровне значимости критическое значение составляет r = 0,349.
Определить: а) чему равнялось число степеней свободы и обосновать ответ; б) нулевая гипотеза о связи признаков принимается или отвергается; в) можно ли считать, что наличие связи надежно доказано, если НО принимается; г) можно ли считать, что отсутствие связи надежно доказано, если НО отклоняется; д) как бы сформулировали ответы на вопросы «г» и «д», если эти результаты базируются на данных большой выборки.
Контрольные вопросы
1. Что такое статистическая гипотеза?
2. Дайте понятие нулевой и альтернативной (конкурирующей, противоположной) гипотез.
3. В чем состоит сущность статистического критерия при проверке гипотезы?
4. Раскройте последовательность проверки статистических гипотез.
5. Какие методы можно использовать для исключения из дальнейшего анализа выделяющихся значений признака?
6. Раскройте сущность и назначение критерия согласия.
7. Как оценить наличие и существенность корреляционной связи между признаками?
8. Как осуществляется проверка гипотезы о средней?
9. Как осуществляется проверка гипотезы о форме связи?
10. Постройте критические области и напишите нулевые гипотезы для рассмотренных гипотез.
ЛИТЕРАТУРА
1. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник / Под ред. И.И. Елисеевой. – 5-е изд., перераб. и доп. – М.: Финансы и статистика, 2004.
2. Ефимова М.Р., Рябцев В.М. Общая теория статистики: Учеб. для инж.-экон. спец. вузов. – М.: Финансы и статистика, 1994.
3. Курс социально-экономической статистики /Под ред. И.Г. Назарова. – М.: Финстатинформ, 2002.
4. Общая теория статистики / Под ред. А.А. Спирина, О.Э. Батиной. – М.: Финансы и статистика, 1994.
5. Палий И.А. Прикладная статистика: Учеб. Пособие для вузов. – М.: Высш. шк., 2004.
6. Практикум по общей теории статистики: Учебное пособие / Ефиллова М.Р., Ганченко О.И., Петрова Е.В. – М.: Финансы и статистика, 2004.
7. Практикум по теории статистики: Учебное пособие / Шмойлова Р.А., Минашкин В.Г., Садовникова Н.А. – М.: Финансы и статистика, 2004.
8. Ряузов Н.Н. Общая теория статистики. – М.: Финансы и статистика, 1984.
9. Сборник задач по общей теории статистики: Учеб. пособие / В.Е. Овсиенко, Н.В. Голованова, Ю.Г. Королев и др. – 2-е изд., перераб. и доп. – М.: Финансы и статистика, 1986.
10. Статистический словарь / Под ред. М.А. Корелева. 2-е изд. – М.: Финансы и статистика, 1989.
11. Теория статистики: Учебник для вузов /Под ред. Р.А. Шмойловой. М.: Финансы и статистика, 1996.
СОДЕРЖАНИЕ
Введение……………………………………………………………………….3
1. Статистическое наблюдение……………………………………………...3
2. Группировка и сводка статистических данных. Статистические таблицы……………………………………………………………………………………..8
3. Абсолютные и относительные статистические величины……………15
4. Ряды распределения……………………………………………………..19
5. Средние величины и показатели вариации…………………………….25
6. Ряды динамики…………………………………………………………..34
7. Индексы…………………………………………………………………..42
8. Графические изображения в статистике……………………………….51
9. Выборочное наблюдение………………………………………………..58
10. Изучение взаимосвязи явлений…………………………………………64
11. Статистическая проверка гипотез………………………………………70
Литература…………………………………………………………………...78
Св. план 2004, поз.
Учебное издание