Параметрический дисперсионный анализ
Математическая сущность дисперсионного анализа заключается в сопоставлении двух оценок дисперсии s2. Одна из них действует вне зависимости от того, верна гипотеза или нет, другая использует это предположение.
Поскольку оценку s2 дает каждая однородная выборка выборочная сумма квадратов отклонений от среднего арифметического должна быть вычислена по каждому столбцу.
Положим:
, (27)
j=1,…, k, и далее получим:
, (28)
Вклад в общую сумму квадратов, вызванный случайной изменчивостью данных внутри выборок можно рассчитать по формуле:
, (29)
Объединенная сумма квадратов (5.7) имеет распределение σ2χ2 с числом степеней свободы df=N-k.
Отсюда получим первую (основную) оценку s2 – нормированный средний квадрат внутри выборок:
(30)
Вклад в общую сумму квадратов, обусловленный различиями между выборками имеет вид:
, (31)
где:
, (32)
При выполнении гипотезы H0 значение выражения характеризуется распределением σ2χ2 с числом степеней свободы df=k-1.
Вторая оценка для s2 – нормированный средний квадрат между выборками:
(33)
Так как мы имеем для s2 две независимые оценки, имеющие при гипотезе H0 распределение хи-квадрат, их частное
F = MSмежду выборками/MSвнутри выборок , (34)
или:
(35)
должно иметь F-распределение Фишера с (k-1, N-k) степенями свободы. Как следует из свойств MSмежду выборками, дробь получает тем большую тенденцию к возрастанию, чем сильнее нарушается гипотеза . Поэтому против гипотезы H0 говорят неправдоподобно большие значения F, рассчитанные по наблюдениям – Fнабл.. Гипотезу об однородности данных следует отвергнуть, если вероятность P(F³Fнабл.) – мала. [10 ]
Двухфакторный анализ
Непараметрические критерии проверки однородности
Наиболее распространенными на практике многовыборочными непараметрическими статистиками двухфакторного анализа являются:
- Критерий Фридмана (произвольные альтернативы). Основан на сравнении средних значений рангов по столбцу j (см. табл. 5.9) и общего среднего ранга всей совокупности данных. Применим при любом числе равных по объему выборок.
- Критерий Пейджа (альтернативы с упорядочением). Построен на оценке:
, (36)
здесь – сумма рангов величин хij по j-му столбцу табл. Для больших рядов в отношении статистики Пейджа действует нормальная аппроксимация.
Параметрический дисперсионный анализ
В задаче двухфакторного анализа как и однофакторного проверка гипотезы Н0 основывается на сравнении двух независимых оценок s2.
Предварительно введем следующие величины:
- среднее значений наблюдений в столбце:
, (37)
- среднее значений наблюдений в строке:
, (38)
- среднее значение по всей совокупности:
, (39)
Тогда вклад в общую сумму квадратов, вызванный случайной изменчивостью данных можно рассчитать по формуле:
, (40)
Объединенная сумма квадратов имеет распределение σ2χ2 с числом степеней свободы df=(n-1)(k-1).
Отсюда получим первую (основную) оценку s2:
, (41)
Выражение дает несмещенную оценку s2, которая справедлива как при выполнении гипотезы Н0, так и при ее нарушении.
Вклад в общую сумму квадратов, обусловленный различиями между строками совокупности данных имеет вид:
, (42)
При выполнении гипотезы H0 значение выражения имеет распределение σ2χ2 с числом степеней свободы df=n-1.
Отсюда находим вторую оценку для s2 – нормированный средний квадрат для первого фактора:
, (43)
Вклад в общую сумму квадратов, обусловленный различиями между столбцами совокупности данных имеет вид:
, (44)
При выполнении гипотезы H0 значение выражения имеет распределение σ2χ2 с числом степеней свободы df=k-1.
Отсюда находим вторую оценку для s2 – нормированный средний квадрат для второго фактора:
, (45)
Критерии для проверки гипотезы однородности имеют вид:
, (46)
, (47)
В случае Н0 величина Fфактор №1 имеет F-распределение с числом степеней свободы (n-1) и (n-1)(k-1), а Fфактор №2 – (k-1) и (n-1)(k-1). При проверке однородности данных необходимо:
- отвергнуть гипотезу Н0 для данного фактора на уровне значимости a, если F³F1-a;
- не отвергнуть гипотезу Н0 для данного фактора на уровне значимости a, если F<F1-a.
Здесь F1-a обозначает квантиль уровня 1-a распределения Фишера.
Контрольные вопросы:
1.Перечислите методы расчёта надежности оборудования
2. Из чего состоит временный ряд наработок на отказ? В чем разница между циклической и сезонной компонентой?
3. Что такое корреляция величин?
4. Назовите основополагающие факторы возможного влияния на эксплуатацию оборудования?
5. Что такое непараметрические критерии? Какова их функция?
6. Что такое дисперсионный анализ?
7. Перечислите и охарактеризуйте виды распределений характерные для параметрического подхода для анализа данных о надежности. [ 11]
Глава 3.