Рямые методы построения регрессионных моделей.

При предположениях о линейной регрессионной зависимости и нормальном законе условного распределения рямые методы построения регрессионных моделей. - student2.ru эмпирическое уравнение регрессии можно написать без использования какого-либо критерия близости точек к кривой рямые методы построения регрессионных моделей. - student2.ru .

В корреляционноманализе вычисляют сначала средние арифметические, несмещенные оценки средних квадратических отклонений и коэффициентов корреляции: рямые методы построения регрессионных моделей. - student2.ru Тогда эмпирическое уравнение регрессии записывается следующим образом: рямые методы построения регрессионных моделей. - student2.ru

Оно имеет тот же вид, что и само уравнение регрессии для двумерного нормального распределения. Поскольку X и Y – обе случайные величины, то можно записать еще одно эмпирическое уравнение регрессии:

рямые методы построения регрессионных моделей. - student2.ru

В регрессионном анализе может быть использован тот же метод, только вычисляемые значения нельзя трактовать как оценки параметров распределения. Но лучше записывать эмпирическое уравнение регрессии в виде:

рямые методы построения регрессионных моделей. - student2.ru ,

где рямые методы построения регрессионных моделей. - student2.ru

Доверительный интервал для условного математического ожидания имеет вид, приведенный при изложении метода наименьших квадратов. Оценку среднего квадратического отклонения условного распределения можно вычислять по более простой формуле:

рямые методы построения регрессионных моделей. - student2.ru

4.3. Использование регрессионных моделей

Пусть получена модель рямые методы построения регрессионных моделей. - student2.ru , причем найдены оценки: рямые методы построения регрессионных моделей. - student2.ru , рямые методы построения регрессионных моделей. - student2.ru ,

где рямые методы построения регрессионных моделей. - student2.ru имеет смысл оценки дисперсии только в корреляционном анализе, т.е. когда проводится пассивный эксперимент.

Прежде всего, оценивается величина, называемая выборочным коэффициентом детерминации, а часто просто коэффициентом детерминации и характеризующая степень тесноты детерминированной связи:

рямые методы построения регрессионных моделей. - student2.ru

Чем ближе к единице этот коэффициент, тем ближе статистическая зависимость между y и x к функциональной (детерминированной), если, конечно, в качестве функции рямые методы построения регрессионных моделей. - student2.ru не взят, вопреки здравому смыслу, полином n–ой степени, проходящий через все точки рямые методы построения регрессионных моделей. - student2.ru .

Находится оценка корреляционного отношения:

рямые методы построения регрессионных моделей. - student2.ru

В случае линейной регрессии и при нормальном законе рямые методы построения регрессионных моделей. - student2.ru выполняется равенство: рямые методы построения регрессионных моделей. - student2.ru . Если эту формулу подставить в предыдущую, в которой принять l=2, то получим: рямые методы построения регрессионных моделей. - student2.ru = рямые методы построения регрессионных моделей. - student2.ru . Если при предположении нелинейной регрессии величина рямые методы построения регрессионных моделей. - student2.ru оказалась близкой к рямые методы построения регрессионных моделей. - student2.ru , значит, в качестве рямые методы построения регрессионных моделей. - student2.ru можно брать линейную функцию. Нетрудно убедиться, что всегда рямые методы построения регрессионных моделей. - student2.ru .

Регрессионная модель используется для косвенного оценивания значения рямые методы построения регрессионных моделей. - student2.ru по вновь полученной информации только о значении рямые методы построения регрессионных моделей. - student2.ru , если, конечно, можно считать неизменными условия наблюдений. Подставляя рямые методы построения регрессионных моделей. - student2.ru в выражение для рямые методы построения регрессионных моделей. - student2.ru , мы оценим только среднее значение величины y с некоторым доверительным интервалом (для линейной регрессии он приведен выше). При больших значениях n величиной доверительного интервала можно пренебречь. Тогда оценку индивидуального значения рямые методы построения регрессионных моделей. - student2.ru мы можем написать в виде интервала, в который с заданной вероятностью p попадет это значение:

рямые методы построения регрессионных моделей. - student2.ru ,

где рямые методы построения регрессионных моделей. - student2.ru и рямые методы построения регрессионных моделей. - student2.ru – нижний и верхний квантили распределения случайной величины рямые методы построения регрессионных моделей. - student2.ru (в случае нормального распределения рямые методы построения регрессионных моделей. - student2.ru = – рямые методы построения регрессионных моделей. - student2.ru ). При малых n или значениях рямые методы построения регрессионных моделей. - student2.ru , далеко отстоящих от рямые методы построения регрессионных моделей. - student2.ru , надо пользоваться толерантным интервалом, который получается путем расширения приведенного выше интервала с каждой стороны на половину длины доверительного интервала.

В частности, для нормального условного распределения рямые методы построения регрессионных моделей. - student2.ru и при рямые методы построения регрессионных моделей. - student2.ru можно приблизительно с вероятностью p = 0,95 утверждать, что рямые методы построения регрессионных моделей. - student2.ru будет находиться в интервале

рямые методы построения регрессионных моделей. - student2.ru .

В случае, когда параметр рямые методы построения регрессионных моделей. - student2.ru – время (в частном случае, когда t=1,2,3,…, регрессионная модель называется трендовой), косвенное оценивание обычно представляет собой прогнозирование. Однако регрессионные модели для прогнозирования надо использовать очень осторожно.

Во-первых, прогноз можно осуществлять, как правило, лишь на небольшую глубину в стабильной обстановке, т.е. при предположении о неизменности основных условий протекания процессов.

Во-вторых, регрессионная модель в случаях, когда рямые методы построения регрессионных моделей. - student2.ru , не учитывает инерционность системы, она допускает возможность резких изменений величины y через малое время рямые методы построения регрессионных моделей. - student2.ru .

Эти же замечания можно сделать и по отношению к пространственному параметру x, представляющему собой, например, расстояние.

В таких случаях лучше использовать (желательно в сочетании с экспертными методами) модели случайных процессов, учитывающих автокорреляцию: марковских, полумарковских, процессов с независимыми приращениями, т.е. рямые методы построения регрессионных моделей. - student2.ru должна быть не случайной величиной, а случайным процессом.

Прогнозирование на основе регрессионных моделей можно осуществлять и когда x не является параметром времени, но значения рямые методы построения регрессионных моделей. - student2.ru по сравнению с рямые методы построения регрессионных моделей. - student2.ru сдвинуты во времени, т.е. имеют временной лаг, который можно принять за глубину прогноза.

Косвенное оценивание по регрессионным моделям часто позволяет значительно сэкономить ресурсы.

Кроме косвенного оценивания регрессионные модели могут служить эталоном нормально протекающих процессов в природе или человеческой деятельности. Например, между средней зарплатой и количеством автомобилей в регионе (в частности, районе области) имеется определенная статистическая зависимость. Однако некоторые регионы могут иметь низкую среднюю заработную плату и в то же время большое число автомобилей на душу населения. Это наводит на мысль о наличии очень развитой теневой экономики в регионе.

Задача. На предприятии ведется учет числа рекламаций, получаемых от потребителей. Пусть детали типа A отправляются одному потребителю, а детали типа B – другому. Ежемесячное число рекламаций x и y по деталям типа A и B соответственно представлено в таблице:

Месяцы
x
y

Провести корреляционный анализ на наличие временного лага l рямые методы построения регрессионных моделей. - student2.ru между значениями параметров, построить регрессионную модель и предложить метод прогноза числа рекламаций.

При l = 0 для статистической обработки надо брать пары: (105;68); (102;71) и т.д.

При l = 1 – пары (105;71); (102;69) и т.д. (этих пар будет только 11).

При l = –1 – пары (102;68); (100;71) и т.д.

Пусть сначала l = 0 . Находим:

рямые методы построения регрессионных моделей. - student2.ru

Вычислим несмещенные оценки дисперсий. Это легче сделать по следующим формулам:

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

Находим оценки средних квадратических отклонений:

рямые методы построения регрессионных моделей. - student2.ru

Определим несмещенную оценку ковариации:

рямые методы построения регрессионных моделей. - student2.ru

Наконец, вычисляем оценку коэффициента корреляции:

рямые методы построения регрессионных моделей. - student2.ru

Отсюда следует, что при l = 0 величины X и Y практически некоррелированы.

Пусть теперь l = 2. Находим

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

Оценка коэффициента корреляции при l = 2 оказалась близкой к 1, что означает наличие почти детерминированной зависимости между x и y. В этом можно убедиться, если точки рямые методы построения регрессионных моделей. - student2.ru нанести на координатную плоскость (x,y).

Можно также самостоятельно убедиться в том, что при других l оценки коэффициента корреляции будут меньше 0,993. Значит, в статистических данных исходной таблицы имеется лаг l=2. Это означает, что, получив число рекламаций, поступивших, например, за январь по деталям типа A, можно довольно точно спрогнозировать число рекламаций по деталям типа B, которое будет в марте. Прогнозирование надо осуществлять на основе уравнения регрессии:

рямые методы построения регрессионных моделей. - student2.ru

В частности, при x = 125 получим рямые методы построения регрессионных моделей. - student2.ru . Это число мало отличается от числа y = 82 (см. таблицу). Но это – прогноз в среднем.

Точность индивидуального прогноза определяется, во-первых, естественным разбросом, т.е. дисперсией условного распределения рямые методы построения регрессионных моделей. - student2.ru , а во-вторых, ограниченностью выборки, т.е. доверительным интервалом для величины рямые методы построения регрессионных моделей. - student2.ru , который зависит от x.

Определим оценку среднего квадратического отклонения условного распределения по более простой формуле: рямые методы построения регрессионных моделей. - student2.ru . С целью определения доверительного интервала для условного математического ожидания рямые методы построения регрессионных моделей. - student2.ru при рямые методы построения регрессионных моделей. - student2.ru зададимся значением рямые методы построения регрессионных моделей. - student2.ru . Из табл. 3П Приложения находим квантиль рямые методы построения регрессионных моделей. - student2.ru распределения Стьюдента с (n–2) степенями свободы, т.е. при k = 8. Тогда, учитывая, что рямые методы построения регрессионных моделей. - student2.ru рямые методы построения регрессионных моделей. - student2.ru , находим:

рямые методы построения регрессионных моделей. - student2.ru .

Доверительный интервал имеет вид: рямые методы построения регрессионных моделей. - student2.ru ,

т.е. рямые методы построения регрессионных моделей. - student2.ru

Зададим вероятность p = 0,95 попадания индивидуального значения рямые методы построения регрессионных моделей. - student2.ru в искомый интервал при предположении, что математическое ожидание рямые методы построения регрессионных моделей. - student2.ru известно точно. Из табл. 1П Приложения найдем квантиль рямые методы построения регрессионных моделей. - student2.ru =1,96. Тогда этот интервал имеет вид:

рямые методы построения регрессионных моделей. - student2.ru

или: рямые методы построения регрессионных моделей. - student2.ru

Объединяя полученные два интервала, запишем интервал для индивидуального прогноза величины рямые методы построения регрессионных моделей. - student2.ru :

рямые методы построения регрессионных моделей. - student2.ru или: рямые методы построения регрессионных моделей. - student2.ru

Этот интервал зависит от двух вероятностей: рямые методы построения регрессионных моделей. - student2.ru и p.

5. Проверка статистических гипотез

5.1. Основные понятия

Определение. Статистическая гипотеза (или просто – гипотеза) – это некоторое предположение относительно характеристик генеральной(-ых) совокупности(-ей), выдвигаемое на основе выборки(-ок).

Гипотез может быть несколько (например, в задачах классификации, распознавания образов), но обычно их число равно двум. При этом выделяют основную гипотезу, соответствующую наиболее вероятному состоянию некоторой системы или наиболее вероятному виду объекта, подлежащего распознаванию. Ее обозначают H0. Наряду с основной гипотезой часто рассматривают альтернативную – Н1. Например, в технологической системе, производящей продукцию, обычно выделяют исправное и неисправное состояния. Числовые характеристики (математическое ожидание, дисперсия или вероятность попадания случайных величин в заданную область, т.е. процент годных единиц продукции) генеральных совокупностей, соответствующих продукции, выпущенной исправной и неисправной технологической системой, имеют разные значения. Распознать состояние технологической системы можно на основе информации о выборке из генеральной совокупности, если заранее провести необходимые исследования.

Задачи проверки гипотез относят к задачам статистического анализа. Различают параметрические и непараметрические гипотезы, простые и сложные.

Непараметрическая гипотеза – гипотеза о характере распределения (-ий). Различают три вида гипотез: 1) гипотеза о виде распределения, выдвигаемая на основе одной выборки (например, распределение является нормальным); 2) гипотеза о равенстве (об одинаковости) распределений, выдвигаемая на основе выборок, извлекаемых из разных генеральных совокупностей или слоев; 3) гипотеза об одинаковости видов распределений, выдвигаемая на основе выборок, извлекаемых из разных генеральных совокупностей или слоев.

Параметрическая гипотеза – гипотеза о значениях параметров распределения(-ий) известного вида или числовых характеристик случайной величины.

Параметр распределения или числовую характеристику случайной величины будем обозначать h. Это может быть и вектор. Проверка параметрических гипотез применяется для двух типов задач: сравнение оценки числовой характеристики (математического ожидания, вероятности успеха и пр.) с конкретным числом либо сравнение между собой оценок, полученных по нескольким выборкам, взятым из разных генеральных совокупностей или различных слоев.

Задачи I типа применяются для обоснования принятия решений при выборочном контроле качества продукции, распознавании образов, обработке результатов тестирования, контроле состояния или умонастроений различных слоев общества, контроле окружающей среды, контроле истинного экономического состояния предприятий, и т.д.

Задачи II типа применяются с целью решения вопроса о возможном объединении генеральных совокупностей в одну, для оценки возможности применения к разным генеральным совокупностям одной и той же методики выборочного контроля, для сравнительной оценки эффективности различных способов деятельности и т.д. Эти задачи составляют основу дисперсионного анализа.

Проверка параметрических гипотез для задач I типа осуществляется с применением различных критериев оптимальности принимаемых решений: Неймана-Пирсона, Байеса, Вальда (минимаксного или максиминного критерия), Гурвица и др. Задачи I типа часто успешнее решаются в рамках теории исследования операций методами теории статистических решений (ее называют также статистическими играми или играми с природой), более общей по сравнению с теорией проверки гипотез.

Простая гипотеза – параметрическая гипотеза о значении параметра (одномерного или многомерного). Обычно пишут: Н0: h= h0, Н1: h = h1.

Сложная гипотеза – параметрическая гипотеза о совокупности значений параметра. Гипотезы Н1: h ¹ h0 и Н1: h < h0, являются сложными. Сложной может быть и Н0. Области S0 и S1 значений параметра h, соответствующие сложным гипотезам Н0 и Н1, могут не пересекаться, а могут иметь и общие элементы.

Правило, по которому принимают или отвергают гипотезу H0, называют критерием. Правило зависит от вида альтернативной гипотезы. Оно определяет границу в пространстве выборки x =(x1, x2, …, xn), где n – объем выборки, или в пространстве так называемых тестовых статистик t, являющихся функциями от x1, …, xn. Тестовыми статистиками обычно являются точечные оценки числовых характеристик и функции от них. Граница отделяет области принятия R (или G) и отклонения рямые методы построения регрессионных моделей. - student2.ru (или рямые методы построения регрессионных моделей. - student2.ru ) гипотезы H0, где R соответствует пространству выборки, а G – пространству тестовых статистик. Принятие или отклонение гипотезы H0 влечет за собой принятие некоторого решения в процессе управления, основанного на выборочных исследованиях (в том числе – неточных измерениях). Критерием часто называют саму тестовую статистику.

Ввиду случайности выборки возможны ошибки в принятии или отклонении гипотезы H0: ошибкой I рода называют отклонение гипотезы H0 в то время, когда она верна, ошибкой II рода называют принятие гипотезы H0 в то время, когда верна альтернативная гипотеза H1. Значит, можно говорить и о вероятностях ошибок I и II рода. Как правило, ими называют условные вероятности ошибок, предполагая, что H0 и H1 – простые гипотезы.

Вероятностью ошибки первого рода называют условную вероятность отклонения гипотезы H0 (при условии, что она верна):

рямые методы построения регрессионных моделей. - student2.ru

Вероятностью ошибки второго рода называют условную вероятность принятия гипотезы H0 (при условии, что верна альтернативная гипотеза H1):

рямые методы построения регрессионных моделей. - student2.ru

Вероятности a и b называют также условными рисками или просто рисками. Их выбирают обычно из ряда: 0,1; 0,05; 0,01; 0,005; 0,001. Вероятность a называют еще и уровнем значимости, а вероятность 1-b – мощностью критерия.

Если отклонение гипотезы H0 означает автоматическое принятие гипотезы H1, то a – условная вероятность принятия гипотезы H1. Но в результате отклонения гипотезы H0 могут приниматься и другие решения. Чаще всего – это получение дополнительной информации: берется еще одна выборка, уточняются предположения относительно вида закона распределения и пр.

Если известны априорные вероятности p и q гипотез H0 и H1 соответственно, то вводят в рассмотрение безусловные вероятности ошибок I и II рода (безусловные риски): aб=р∙a, bб=q∙b. Это – вероятности произведения событий.

В случае сложных гипотез H0 (если h рямые методы построения регрессионных моделей. - student2.ru S0) и H1 (если h рямые методы построения регрессионных моделей. - student2.ru S1) условные риски a и b зависят от значения параметра h. Тогда вместо них рассматривают полные условные вероятности ошибок:

aп.y= рямые методы построения регрессионных моделей. - student2.ru , bп.y= рямые методы построения регрессионных моделей. - student2.ru ,

где w0(h) и w1 (h) – плотности вероятностей параметра h, при условии, что справедлива гипотеза H0 или H1 соответственно.

В распространенном частном случае, когда альтернативная сложная гипотеза H1 есть логическое отрицание основной сложной гипотезы H0 и известны априорные вероятности p и q=1-p гипотез H0 и H1 соответственно, априорное распределение параметра h, согласно модифицированной формуле полной вероятности, можно представить в виде:

w(h)=pw0(h)+ qw1(h)

В этом случае часто бывает легче оценить сначала w(h). Тогда

p= рямые методы построения регрессионных моделей. - student2.ru , q= рямые методы построения регрессионных моделей. - student2.ru ,

w0(h)= рямые методы построения регрессионных моделей. - student2.ru , w1(h)= рямые методы построения регрессионных моделей. - student2.ru

Рассматривают также полные безусловные вероятности ошибок:

aп.б=paп.y = рямые методы построения регрессионных моделей. - student2.ru , bп.б =qbп.y = рямые методы построения регрессионных моделей. - student2.ru

В зависимости от задачи может использоваться только одна вероятность ошибки I рода или обе. В случае, когда гипотеза H0 – простая, а альтернативная гипотеза H1 – сложная, обычно используют только один условный риск a.

При практическом применении теории проверки гипотез в задачах принятия решений в условиях неопределенности часто возникают трудности с определением границ между сложными гипотезами H0 и H1. Например, какие партии продукции, подлежащие выборочному контролю, считать приемлемыми, а какие неприемлемыми или какие предприятия, подлежащие выборочному инспектированию, считать злостными нарушителями законов? Такие задачи можно решать методами теории статистических решений, которая в таких случаях может обходиться без термина “гипотеза”. Для их решения используется также сравнительно недавно созданный аппарат теории расплывчатых множеств, однако при правильном его применении результаты решения задач совпадают с результатами, получаемыми на основе использования теории вероятностей и математической статистики.

5.2. Проверка непараметрических гипотез

Проверка основана на использовании только основной гипотезы H0 (альтернативная совпадает с ее логическим отрицанием). В этом случае имеет смысл вводить в рассмотрение только одну вероятность ошибки первого рода a.

Рассмотрим только первый вид непараметрической гипотезы из трех, упомянутых выше. Иначе говоря, рассмотрим только задачи одного типа. Это задачи подбора теоретического распределения (экспоненциального, нормального и т.д.) на основе выборки из генеральной совокупности. Применяются, например, при периодическом контроле процесса изготовления партий продукции, методика контроля качества которых основана на предположении о нормальном распределении параметра изделия внутри партии.

Проверка непараметрических гипотез для этих задач осуществляется на основе некоторого критерия согласия, который основан на использовании меры расхождения между теоретическим распределением и результатами обработки информации о выборке. Обычно используют критерии Пирсона, Колмогорова. Здесь рассмотрим только один – критерий Пирсона. Он наиболее распространен.

Критерий согласия Пирсона (критерий c2) относительно закона распределения

Основан на использовании тестовой статистики t≡u, являющейся мерой расхождения между теоретическим и эмпирическим распределениями:

рямые методы построения регрессионных моделей. - student2.ru

где r – количество интервалов разбиения области значений параметра x при построении гистограммы или эмпирической функции распределения;

mi (i=1, …, r) – количество значений параметра x ввыборке, оказавшихся в i-оминтервале [bi-1, bi);

рямые методы построения регрессионных моделей. - student2.ru – эмпирические вероятности попадания X в интервал [bi-1, bi):

рямые методы построения регрессионных моделей. - student2.ru – вероятности попадания случайной величины X в интервал [bi-1, bi):

рямые методы построения регрессионных моделей. - student2.ru

Закон распределения случайной величины U при увеличении n приближается к распределению c2 с (r-l-1) степенями свободы, где l– число неизвестных параметров распределения.

Из двух гипотетических теоретических распределений лучше согласуется с выборочными данными то, при котором величина u окажется меньше.

На практике процедуру подбора теоретического распределения осуществляют следующим образом. Исходя из построенной гистограммы, делают предположение о виде закона распределения, в качестве значений параметров которого принимают точечные оценки, вычисляемые по выборке, например, методом максимального правдоподобия или методом моментов. Затем по приведенным выше формулам определяют вероятности pi и величину u.

Критерий согласия состоит в следующем. Если окажется, что u< рямые методы построения регрессионных моделей. - student2.ru , где рямые методы построения регрессионных моделей. - student2.ru – квантиль распределения c2, определяемый из соответствующей таблицы при p=a и k=n–l–1, то гипотезу Н0 о законе распределения принимают, в противном случае – отвергают. При использовании такого правила вероятность отвергнуть гипотезу Н0 при условии, что она справедлива, равна a.

Задача. Проверить гипотезу о нормальном распределении величины X заработной платы работников определенной отрасли или предприятия на уровне значимости a = 0,05 по выборке объема n=100 человек. Результаты выборочного обследования приведены в табл.7 (интервалы заработной платы – в долларах).

аблица 7

i [bi-1;bi) mi FN(bi-1) FN(bi) pi= FN(bi)- -FN(bi-1) npi рямые методы построения регрессионных моделей. - student2.ru
[190;192) 0,0014 0,1611 0,1597 15,97 0,059
[192;194)
[194;196)
[196;198) 0,1611 0,3745 0,2134 21,34 0,020
[198;200) 0,3745 0,6366 0,2621 26,21 0,122
[200;202) 0,6366 0,8437 0,2071 20,71 0,141
[202;204) 0,8437 0,9987 0,1550 15,5 0,016
[204;206)
[206;208)
å 0,9973 99,73 0,358

Таблица дополнена вычислениями, производимыми в следующем порядке. Вычисляем оценки математического ожидания и дисперсии по формулам:

рямые методы построения регрессионных моделей. - student2.ru рямые методы построения регрессионных моделей. - student2.ru

где рямые методы построения регрессионных моделей. - student2.ru – середина i-го интервала r=9 - количество интервалов,

рямые методы построения регрессионных моделей. - student2.ru – поправка Шеппарда, Dx = 2.

Получаем рямые методы построения регрессионных моделей. - student2.ru , рямые методы построения регрессионных моделей. - student2.ru , рямые методы построения регрессионных моделей. - student2.ru 3

Для облегчения вычисления величины u объединяем первые три интервала и последние три. Определяем значения функции распределения нормированной случайной величины, используя таблицы функции Лапласа:

рямые методы построения регрессионных моделей. - student2.ru (i=0,1,…,5)

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru

Заполняем всю таблицу и получаем:

рямые методы построения регрессионных моделей. - student2.ru

По таблицам для распределения c2 при p=a=0,05 и k=5-2-1=2 определяем рямые методы построения регрессионных моделей. - student2.ru . Так как 0,358<5,99, то гипотезу о нормальном распределении зарплаты принимаем, причем в качестве параметров этого распределения берем: а=198,96 и s =3.

5.3. Проверка простых параметрических гипотез

5.3.1. Критерий Неймана-Пирсона для двух простых гипотез

Критерий основан на использовании отношения правдоподобия, которое для непрерывных и независимых случайных величин Х1, Х2, …, Хn имеет вид:

рямые методы построения регрессионных моделей. - student2.ru

где f0(x) и f1(x) – плотности вероятности, соответствующие гипотезам Н0 и Н1

Если l <1, то более правдоподобна гипотеза Н0 , а при l >1- гипотеза Н1

Однако решения принимаются не только исходя из того, какая гипотеза более правдоподобна, но и из других соображений, например, с учетом того, какой экономический ущерб может быть при совершении ошибок в принятии решений. Этот ущерб может быть учтен путем задания значения величины a.

Пусть L0(x1,…,xn) рямые методы построения регрессионных моделей. - student2.ru 0. Тогда для заданного a существует такая константа c= с(a), что условная вероятность Р((l(x1,…,xn) > c)/Н0) = a.

Область рямые методы построения регрессионных моделей. - student2.ru в пространстве х1,…,xn , выражаемая неравенством l(х1,…,xn)>c(a), называется критической областью.

Критерий Неймана-Пирсона в общем случае состоит в следующем. Если выборка x1,x2,…,xn такова что l(х1,…,xn) < с(a), то гипотеза Н0 принимается, в противном случае – отвергается.

Критерий Неймана-Пирсона при заданной вероятности a минимизирует вероятность ошибки второго рода b, которая зависит от гипотезы Н1. Этот критерий положен, в частности, в основу международных и отечественных стандартов по методам статистического контроля качества продукции.

Пример 1. Пусть имеется выборка х1,…,xn из генеральной совокупности, причем известно, что Х~N(a,s2), т.е. Х распределена по нормальному закону с математическим ожиданием а и дисперсией s2. Пусть s известна, основная гипотеза Н0: а =а0, а альтернативная Н1: а=а1, причем а1 > a0. Функция правдоподобия для гипотез Н0 и Н1 имеет вид (см. п. 3.3.5.2):

рямые методы построения регрессионных моделей. - student2.ru где j=0;1

Отношение правдоподобия (после преобразований):

рямые методы построения регрессионных моделей. - student2.ru

где рямые методы построения регрессионных моделей. - student2.ru – тестовая статистика.

Неравенство l >с равносильно неравенству рямые методы построения регрессионных моделей. - student2.rua , где ca рямые методы построения регрессионных моделей. - student2.ru – некоторая константа, так как l( рямые методы построения регрессионных моделей. - student2.ru ) – монотонно возрастающая функция ввиду того, что а10, так что рямые методы построения регрессионных моделей. - student2.ru

Известно, что если Х~N(a,s2), то рямые методы построения регрессионных моделей. - student2.ru Значит

рямые методы построения регрессионных моделей. - student2.ru

где рямые методы построения регрессионных моделей. - student2.ru – условная плотность вероятности величины рямые методы построения регрессионных моделей. - student2.ru (см. рис.18).

рямые методы построения регрессионных моделей. - student2.ru

рямые методы построения регрессионных моделей. - student2.ru рис. 17

Обозначим рямые методы построения регрессионных моделей. - student2.ru . Тогда имеем следующее уравнение:

рямые методы построения регрессионных моделей. - student2.ru

Квантиль u2α при заданном a находится из таблиц функции Лапласа. И тогда

рямые методы построения регрессионных моделей. - student2.ru

Заметим, что выражение для D совпадает с выражением для половины длины доверительного интервала при доверительной вероятности, равной 1-2a (см. п. 3.4.1).

Правило принятия решения будет следующим: если рямые методы построения регрессионных моделей. - student2.ru то гипотезу H0 принимают, если рямые методы построения регрессионных моделей. - student2.ru то ее отклоняют.

Вероятность ошибки второго рода (см. рис.18):

рямые методы построения регрессионных моделей. - student2.ru

Отсюда можно сделать выводы:

1) величина b уменьшается с ростом a при n=const и с ростом n при a=const

2) при заданных a, b, a0, a1 объем выборки находится из условия:

рямые методы построения регрессионных моделей. - student2.ru

Пример 2.Пусть в примере 1 вместо гипотезы H1: a=a1 (a1>a0) рассматривается сложная гипотеза H1: a1¹a0. Тогда гипотезу H0 следует принимать, если:

рямые методы построения регрессионных моделей. - student2.ru

Запишем это выражение иначе:

рямые методы построения регрессионных моделей. - student2.ru

Но рямые методы построения регрессионных моделей. - student2.ru – не что иное, как доверительный интервал для математического ожидания MX при доверительной вероятности 1-a. Значит, правило принятия решения можно сформулировать иначе: если величина a0 окажется в пределах построенного доверительного интервала, то H0 принимают, в противном случае – отклоняют.

Здесь использование вероятности b бессмысленно, так как при a1¹a0, сколь угодно близком к a0, получаем b=1–a/2, т.е. слишком большое число.

Пример 3. Пусть имеется выборка х1,…,xn, где xi=0 или xi=1 при любом i, причем все Хi независимы и имеют распределение Бернулли с одной и той же вероятностью p = P(Xi=1). Пусть гипотезы H0: p=p0, H1: p=p1, причем p1>p0.

Функции правдоподобия для гипотез H0 и H1 имеют вид:

рямые методы построения регрессионных моделей. - student2.ru если в выборке m единиц (остальные – нули).

Отношение правдоподобия:

рямые методы построения регрессионных моделей. - student2.ru

Неравенство l>c можно заменить неравенством m>ca, так как l(m) – возрастающая функция, так что

рямые методы построения регрессионных моделей. - student2.ru

Величина m распределена по биномиальному закону:

рямые методы построения регрессионных моделей. - student2.ru

Поэтому рямые методы построения регрессионных моделей. - student2.ru

Искомая величина ca является корнем этого уравнения. Но поскольку ca=0,1,2,…, то может оказаться, что это равенство, строго говоря, не выполняется. Тогда надо брать такое рямые методы построения регрессионных моделей. - student2.ru , при котором правая часть уравнения окажется меньше заданного a, при условии, что при ca= рямые методы построения регрессионных моделей. - student2.ru -1 правая часть больше a. Величина рямые методы построения регрессионных моделей. - student2.ru определяется численными методами.

Если заданы величины p0, p1, a, b, то объем выборки n и границу рямые методы построения регрессионных моделей. - student2.ru находят из системы уравнений:

рямые методы построения регрессионных моделей. - student2.ru

В литературе, международных и отечественных стандартах по методам статистического контроля качества продукции приведены таблицы для определения n и рямые методы построения регрессионных моделей. - student2.ru . Там p – доля дефектных изделий в партии, рямые методы построения регрессионных моделей. - student2.ru – контрольный норматив (приемочное число), a и b называют рисками поставщика и потребителя соответственно, p0 и p1 – соответственно приемочным и браковочным уровнями дефектности. Если число дефектных изделий в выборке m£ рямые методы построения регрессионных моделей. - student2.ru , партию продукцию принимают, в противном случае бракуют.

В социологических исследованиях для решения задач проверки гипотез относительно вероятности p0 часто используют вместо биномиального распределения величины m нормальное с математическим ожиданием np0 и дисперсией np0(1-p0). Однако такую замену можно осуществлять только при np0(1-p0)>9.

адача 1.

В функции налоговой инспекции входит проверка закрепленных за ней предприятий с целью выявления фактов сокрытия доходов от налогообложения. Предположим, ни один такой факт не является допустимым и при тотальной проверке предприятия можно вскрыть все факты сокрытия доходов. Однако налоговая инспекция предпочитает производить сначала выборочные проверки: из N осуществленных торговых сделок проверять только п, причем п<0,1·N. По результатам выборочной проверки может быть принято одно из двух решений: проверку прекратить (если не установлено ни одного факта сокрытия доходов) или произвести тотальную проверку.

Пусть налоговая инспекция считает не допустимым, чтобы уходили от ответственности предприятия, осуществляющие не менее 20% своих торговых сделок с сокрытием доходов. Необходимо:

а) определить при п=8 и п=16 вероятности ошибок при принятии решений:

a – вероятность перехода к тотальной проверке законопослушного предприятия,

b – вероятность не разоблачения предприятия, осуществляющего 20% своих торговых сделок с сокрытием доходов от налогообложения;

б) определить объем выборки n при заданном b=0,1.

Переведем эту задачу на язык задачи проверки гипотез (см. пример 3). У нас р - доля торговых сделок с сокрытием доходов. Гипотезы: Н0 – предприятие законопослушное, Н1 – предприятие скрывает доходы, причем Н0: р=р0=0, Н1: р=р1=0,2. Тестовая статистика m – число сделок (в выборке объема n) с сокрытием доходов. Решения четко соответствуют принятию или отклонению гипотезы Н0, т.е. правило принятия гипотезы Н0 (ввиду того, что р0=0) очевидно: при m=0 Н0 принимается, а при m>0 – отклоняется. Иначе говоря, ca=0. И тогда очевидно, что a=Р((m>0)/H0)=0. Остается одна вероятность b.

Тестовая статистика, как случайная величина, распределена приблизительно по биномиальному закону. Значит:

b = (1-р1)n = 0,8n

Отсюда можно определить b при заданном n либо n при заданном b:

n = log0,8b = lgb / lg0,8

а) При п=8 имеем b=0,88=0,168, при п=16 b=0,816=0,028.

б) При b=0,1 имеем п=lg0,1/ lg0,8 = -1/ -0,097 » 10,3

Округляем n в сторону увеличения, чтобы обеспечить b<0,1. Тогда п=11, b(11)=0,811=0,086.

Таким образом, если брать выборку п=11, то примерно каждые 9 предприятий из 100, осуществляющих 20% своих сделок с сокрытием доходов, не будут разоблачены.

адача 2.

Внесем небольшое изменение в условие задачи 1. Предположим, налоговая инспекция считает допустимым, что не более 2% сделок на предприятии осуществляется с сокрытием доходов от налогообложения. Возьмем р0=0,02. По-прежнему ca=0. Вычислим a для п=8 и п=11.

Очевидно a=1-(1-р0)n =1-0,98n

При п=8 имеем a=1-0,988=0,15, при п=11 a=1-0,9811=0,20

Таким образом, при объеме выборки n=11 в среднем каждое пятое законопослушное, но работающее на грани дозволенного предприятие будет подвергаться тотальной проверке.

5.3.2. Критерий Байеса для двух простых гипотез и другие критерии

Критерий Байеса основан на предположениях, что гипотезы являются случайными событиями и известны априорные вероятности гипотез: p0=P(H0), p1=P(H1)=1-p0 (не путать с обозначениями в предыдущем примере 3), а также известна матрица потерь (ее называют платежной матрицей):

рямые методы построения регрессионных моделей. - student2.ru

где cij – потери (обычно, экономические) в результате принятия гипотезы Hi в то время как справедлива гипотеза Hj. Потери c00 и c11 от принятия правильных решений обычно имеют знак минус. Их модуль равен выигрышу (доходу).

В соответствии с критерием Байеса, при получении значения тестовой статистики t (в частности, t – среднее арифметическое), определяемой по выборке объема n, необходимо принимать гипотезу H0, если выполняется неравенство:

рямые методы построения регрессионных моделей. - student2.ru или g(t)≡ рямые методы построения регрессионных моделей. - student2.ru <0,

где рямые методы построения регрессионных моделей. - student2.ru – апостериорные средние потери в случае принятия гипотезы Hi (i=0;1):

рямые методы построения регрессионных моделей. - student2.ru

g(t)=0 – граница, отделяющая области принятия G и отклонения рямые методы построения регрессионных моделей. - student2.ru гипотезы Н0, рямые методы построения регрессионных моделей. - student2.ru – апостериорная вероятность гипотезы Hi, определяемая по формуле Байеса, которая для непрерывной тестовой статистики имеет вид:

рямые методы построения регрессионных моделей. - student2.ru i=0;1,

где рямые методы построения регрессионных моделей. - student2.ru – условная плотность вероятности тестовой статистики T (при условии справедливости гипотезы Hi), вид и параметры которой определяются через информацию о плотностях рямые методы построения регрессионных моделей. - student2.ru ≡ fi (x).

Условие принятия гипотезы Н0 после подстановки формул имеет вид:

рямые методы построения регрессионных моделей. - student2.ru или рямые методы построения регрессионных моделей. - student2.ru .

Для дискретной случайной величины Т в формулах должна стоять вероятность рямые методы построения регрессионных моделей. - student2.ru вместо рямые методы построения регрессионных моделей. - student2.ru .

Потери сij , вообще говоря, часто зависят от t, но, как правило, такая зависимость слабая, поэтому их обычно считают величинами постоянными.

Все формулы справедливы, если под t понимать вектор тестовых статистик, например, среднее арифметическое рямые методы построения регрессионных моделей. - student2.ru и оценку среднего квадратического отклонения – s. Тогда рямые методы построения регрессионных моделей. - student2.ru рямые методы построения регрессионных моделей. - student2.ru – многомерная плотность вероятности.

Вычисление величин потерь требует выбора начала отсчета. Поэтому иногда выбирают c00=0 и c11=0, а c10 и c01 оценивают относительно c00 и c11 соответственно. Все рямые методы построения регрессионных моделей. - student2.ru следует оценивать из анализа планируемых решений после принятия гипотез, а также возможных последствий. Потери рямые методы построения регрессионных моделей. - student2.ru часто вычисляют как математические ожидания в других вероятностных пространствах.

При c00=0, c11=0, c10=c01 условие принятия гипотезы Н0 имеем вид:

рямые методы построения регрессионных моделей. - student2.ru .

Этот критерий равносилен критерию максимума апостериорной вероятности

рямые методы построения регрессионных моделей. - student2.ru ,

в соответствии с которым принимается та гипотеза, апостериорная вероятность которой больше.

Если к тому же р10 , то получим неравенство, равносильное критерию максимума правдоподобия l <1 (см. п. 5.3.1.), при условии, что вектор тестовых статистик t является исчерпывающим для видов распределений fi (x) (i=0;1).

Вместо матрицы потерь часто используют матрицу выигрышей: рямые методы построения регрессионных моделей. - student2.ru

Тогда правило принятия гипотезы Н0: рямые методы построения регрессионных моделей. - student2.ru

Для конкретных видов распределений fi(x) все эти правила можно получить в более простом виде. В частности, если распределения нормальные с известными дисперсиями, то тестовой статистикой t будет среднее арифметическое рямые методы построения регрессионных моделей. - student2.ru и правило принятия гипотезы Н0 запишется в виде квадратного неравенства. Один или два корня квадратного уравнения будут границами области G.

Критерий Байеса, вообще говоря, – это критерий минимума средних потерь (или максимума среднего выигрыша), т.е. математического ожидания потерь. В задачах проверки простых гипотез он выглядит следующим образом:

рямые методы построения регрессионных моделей. - student2.ru

Иначе говоря, граница g(t)=0 между областями принятия и отклонения гипотезы H0 должна задаваться таким образом, чтобы суммарные средние потери от принятия решений (если предположить, что аналогичные ситуации будут повторяться) были минимальны. Произведем в данном выражении замену:

рямые методы построения регрессионных моделей. - student2.ru , 1–a= рямые методы построения регрессионных моделей. - student2.ru , b= рямые методы построения регрессионных моделей. - student2.ru , 1–b= рямые методы построения регрессионных моделей. - student2.ru .

Заметим, что условные вероятности ошибок I и II рода a и b в общем случае являются функциями от функции g(t), т.е. функционалами. После преобразований и отбрасывания постоянных величин критерий Байеса может быть записан в виде так называемого критерия минимума среднего риска (средних потерь по сравнению с правильными решениями):

рямые методы построения регрессионных моделей. - student2.ru

Величины p0×a=aб и p1×b=bб называют безусловными вероятностями ошибок первого и второго рода.

Заменяя в этом выражении

рямые методы построения регрессионных моделей. - student2.ru рямые методы построения регрессионных моделей. - student2.ru

и отбрасывая постоянную, получим:

рямые методы построения регрессионных моделей. - student2.ru

Минимум этого функционала достигается в случае, если подынтегральное выражение меньше нуля, т.е. рямые методы построения регрессионных моделей. - student2.ru

Получили условие принятия гипотезы Н0 , выведенное прежде.

Замечание. Использование простых гипотез во многих практических ситуациях приводит к слишком грубым правилам принятия решений. Причина состоит в том, что порой трудно решить, каким состояниям системы должны соответствовать гипотезы H0 и H1. Например, при какой доле дефектных изделий партию продукции следует считать удовлетворительного качества, а при какой – неудовлетворительного? А условные плотности вероятности тестовой статистики T, а значит, и правило принятия решений, сильно зависят от того, что принять за H0 и H1. В таких ситуациях можно перейти к использованию сложных гипотез, т.е. к непрерывным множествам возможных состояний системы. Тогда область возможных значений параметра h можно разбить на две области S0 и S1, одна из которых соответствует гипотезе H0, другая – гипотезе H1 (область S1 в случае двухстороннего ограничения на значения параметра будет неодносвязанной). Можно выделить и три односвязанные области. Вместо вероятностей рямые методы построения регрессионных моделей. - student2.ru должны быть известны плотности распределения wi(h).

Однако применение сложных гипотез далеко не всегда позволяет улучшить правила принятия решений. Потери сij от принятия гипотезы Hi в то время как справедлива гипотеза Hj часто получаются слишком усредненными. Применение теории проверки гипотез не позволяет учитывать потери как функцию от h. В распространенном частном случае, как уже отмечалось в подразделе 5.1., когда альтернативная сложная гипотеза H1 есть логическое отрицание основной сложной гипотезы H0, легче бывает оценить априорное распределение w(h) параметра h, чем распределения w0(h) и w1(h). Аналогично обстоит дело и в том случае, если имеется 3 гипотезы, составляющее полную группу событий, или более. Тогда надо вообще отказаться от применения теории проверки гипотез и для решения практической задачи использовать теорию статистических решений.

5.4. Дисперсионный анализ

Дисперсионный анализ является одним из методов статистического анализа и используется для выявления влияния факторов, являющихся качественными признаками (т.е. параметрами, измеряемыми в шкале наименований), на характеристики некоторой случайной величины Y. Например, – для выявления влияния способа рекламирования товара на объем его продаж; места торговой точки на цену продукции; технологии производства продукции или услуг на некоторый показатель качества продукции или услуг. В этом случае будет иметь место однофакторный дисперсионный анализ. Если же изучается, например, не только влияние технологии, но и уровень квалификации персонала, то будет иметь место двухфакторный дисперсионный анализ.

В дисперсионном анализе имеют дело со сгруппированными данными (см. п.п. 3.3.2.; 3.3.3.), точнее – с расслоенной выборкой. При этом каждый слой соответствует определенному значению некоторого качественного признака j (j=1,2,3,…,d). Качественный признак называется фактором, а его значение – уровнем фактора. Таким образом, расслоенная выборка – это совокупность всех случайных выборок, каждая из которых получена при определенном (фиксированном) значении уровня фактора. При однофакторном анализе выборка является расслоенной по одному фактору. При двухфакторном – по двум, т.е. имеется два способа расслоения. Однофакторный анализ используется для двух ситуаций. В первой уровни фактора фиксируются заранее (например, способ рекламирования товара). Во второй ситуации уровни фактора являются случайной выборкой из генеральной совокупности уровней фактора (например, мест торговли). Двухфакторный анализ кроме этих двух ситуаций используется еще и в смешанной ситуации.

Оценка влияния фактора на характеристики случайной величины Y производится методами проверки параметрических гипотез, когда альтернативная гипотеза H1 является логическим отрицанием основной простой гипотезы H0, т.е. H1= рямые методы построения регрессионных моделей. - student2.ru . При этом вводится в рассмотрение только условная вероятность ошибки первого рода a. Гипотезы проверяются по отношению как к дисперсиям, так и к математическим ожиданиям случайной величины Y внутри каждого слоя. В результате обычно получают ответ на главный вопрос: можно ли рассматривать (и насколько уверенно) все выборки из слоев как случайные выборки из одной генеральной совокупности значений случайной величины Y. Если можно, то это как раз и означает, что влиянием факторов можно пренебречь. В противном случае оценивают степень влияния каждого фактора.

Здесь рассмотрим только однофакторный дисперсионный анализ. Сначала рассмотрим первую ситуацию. Пусть фактор j имеет d уровней. Уровень j (j=1,2,3,…d) будем характеризовать величиной смещения ∆jj–MY, где аj≡MYj и MY –математические ожидания случайных величин Yj и Y в j-м слое и во всей генеральной совокупности соответственно, а также дисперсией рямые методы построения регрессионных моделей. - student2.ru случайной величины Yj в j-м слое. Тогда модель зависимости между случайной величиной Y и фактором j можно записать в виде:

Наши рекомендации