Однофакторний дисперсійний аналіз. Однофакторна дисперсійна модель має вигляд:
Однофакторна дисперсійна модель має вигляд: ,
де - значення досліджуваної змінної, отриманої на i-му рівні чинника (i=1,2,.., m) з j-им порядковим номером (j=1,2,.., n);
- ефект, обумовлений впливом i-го рівня чинника;
- випадкова компонента, або збурення, викликане впливом неконтрольованих чинників, тобто варіацією змінної в середині окремого рівня.
Під рівнем чинника розуміється деяка його міра або стан, наприклад, кількість добрив, що вносяться, вид плавки металу або номер партії деталей і тому подібне.
Основні передумови дисперсійного аналізу :
1. Математичне очікування збурення дорівнює нулю для будь-яких i, тобто: . (5.1)
2. Збурення взаємно незалежні.
3. Дисперсія збурення (чи змінної ) постійна для будь-кого i, j,
тобто: (5.2)
4. Збурення (чи змінна ) має нормальний закон розподілу .
Вплив рівнів чинника може бути як фіксованим, або систематичним (модель I), так і випадковим (модель II).
Нехай, наприклад, необхідно з'ясувати, чи є суттєві відмінності між партіями виробів по деякому показнику якості, тобто перевірити вплив на якість одного чинника - партії виробів. Якщо включити в дослідження усі партії сировини, то вплив рівня такого чинника систематичний (модель I), а отримані висновки можуть бути застосовані тільки до тих окремих партій, які розглядалися при дослідженні; якщо ж включити тільки відібрану випадково частину партій, то вплив чинника випадковий (модель II). У багатофакторних комплексах можлива змішана модель III, в якій одні чинники мають випадкові рівні, а інші - фіксовані.
Розглянемо це завдання детальніше. Нехай є m партій виробів. З кожної партії відібрано відповідно , ,.., виробів (для простоти вважаємо, що = =..= = ). Значення показника якості цих виробів представимо у вигляді матриці спостережень
Необхідно перевірити істотність впливу партій виробів на їх якість.
Якщо вважати, що елементи рядків матриці спостережень - це чисельні значення (реалізації) випадкових величин , що виражають якість виробів, і мають нормальний закон розподілу з математичними сподіванням відповідно і однаковими дисперсіями , то це завдання зводиться до перевірки нульової гіпотези , що здійснюється в дисперсійному аналізі.
Позначимо усереднення по якому-небудь індексу зірочкою замість індексу, тоді середній показник якості виробів i-ї партії, або групове середнє для i-го рівня фактора, набере вигляду:
, (5.3)
а загальне середнє – (5.4)
Розглянемо суму квадратів відхилень спостережень від загального середнього :
(5.5)
або Останній доданок
оскільки сума відхилень значень змінної від її середнього, тобто дорівнює нулю. Перший доданок можна записати у вигляді:
. (5.6)
В результаті отримаємо наступну тотожність: , де (5.7)
- загальна, або повна, сума квадратів відхилень;
- сума квадратів відхилень групових середніх від загального середнього, або міжгрупова (факторна) сума квадратів відхилень;
- сума квадратів відхилень спостережень від групо-
вих середніх, або внутрішньогрупова (залишкова) сума квадратів відхилень.
У розкладі (5.7) знаходиться о с н о в н а і д е я дисперсійного аналізу. Якщо поділити обидві частини рівності (5.7) на число спостережень, то отримаємо правило складання дисперсій (1.12). Застосована до даної задачі рівність (5.7) показує, що загальна варіація показника якості, виміряна сумою Q, складається з двох компонент - Q1 і Q2, що характеризують мінливість цього показника між партіями (Q1) і мінливість "в середині" партії (Q2), характеризують однакову (за умовою) для усіх партій варіацію під впливом неврахованих чинників.
У дисперсійному аналізі аналізуються не самі суми квадратів відхилень, а так звані середні квадрати, що є незміщеними оцінками відповідних дисперсій, які знаходяться діленням сум квадратів відхилень на відповідне число степенів вільності.
Нагадаємо, що число степенів вільності визначається як загальне число спостережень мінус число рівнянь, що їх зв'язують. Тому для середнього квадрата , що є незміщеною оцінкою міжгрупової дисперсії, число степенів вільності , оскільки при його розрахунку використовуються m групових середніх, пов'язаних між собою одним рівнянням (5.4). А для середнього квадрата , що є незміщеною оцінкою внутрішньогрупової дисперсії, число степенів вільності , бо при її розрахунку використовуються усі mn спостережень, пов'язаних між собою m рівняннями (5.3). Таким чином, Знайдемо математичні сподівання середніх квадратів і , підставивши в їх формули вираз (5.1) через параметри моделі.
(5.8)
(бо з урахуванням властивостей
математичного сподівання, а
(5.9)
Схему дисперсійного аналізу представимо у вигляді таблиці 5.1.
Для моделі I, із фіксованими рівнями фактора, - величини невипадкові, тому Гіпотеза набуде вигляду , тобто вплив усіх рівнів чинника один і той самий. У разі справедливості цієї гіпотези .
Для випадкової моделі II доданок у виразі (5.1) - величина випадкова. Позначивши її дисперсію отримаємо з (5.8) (5.10) і, як і в моделі I, .
Таблиця 5.1
Компоненти дисперсії | Сума квадратів | Число степенів вільності | Середній квадрат | Математичне очікування середнього квадрату |
Між групова | ||||
Внутрішньо групова | ||||
Загальна |
У разі справедливості нульової гіпотези , яка для моделі II набирає вигляду , маємо: .
Отже, у разі однофакторного комплексу як для моделі I, так і моделі II середні квадрати і є незміщеними і незалежними оцінками однієї і тієї ж дисперсії . Перевірка нульової гіпотези звелася до перевірки відмінності незміщених вибіркових оцінок і дисперсії , розглянутій в розділі 3. Гіпотеза відкидається, якщо фактично обчислене значення статистики більше критичного , визначеного на рівні значущості при числі степенів вільності , і приймається, якщо . Стосовно цього завдання спростування гіпотези означає наявність істотних відмінностей в якості виробів з різних партій на даному рівні значущості.
Зауваження. Для обчислення сум квадратів часто буває зручно використовувати наступні формули:
(5.11)
(5.12)
(5.13)
тобто самі середні, взагалі кажучи, знаходити не обов'язково.
◄Приклад 5.1 Є чотири партії сировини для текстильної промисловості. З кожної партії відібрано по п'ять зразків і проведені випробування на визначення величини розривного навантаження. Результати випробувань приведені в таблиці. 5.2. Необхідно з'ясувати, чи істотний вплив різних партій сировини на величину розривного навантаження. Прийняти = 0,05.
Таблиця 5.2
Номер партії | Розривне навантаження (кг/см) | ||||
Розв’язання. Маємо m=4, n=5. Знайдемо середні значення розривно-
го навантаження для кожної партії по формулі (5.3) :
і, аналогічно
, і .
Середнє значення розривного навантаження всіх відібраних зразків за формулою (5.4):
.
Або, інакше, через групові середні:
.
Обчислимо суми квадратів відхилень за формулами (5.5), (5.6):
Відповідне число степенів вільності для цих сум m-1 = 3; mn-m = 5 · 4 - 4 = 16; mn-1 = 5 · 4-1 = 19. Результати зведемо в табл. 5.3.
Фактичне значення статистики
Таблиця 5.3
Компоненти дисперсії | Суми квадратів | Число степенів вільності | Середні квадрати |
Міжгрупова | 1660,0 | ||
Внутрішньогрупова | 454,4 | ||
Загальна |
За таблицею критичне значення F – критерію Фішера –Снедекора на рівні значущості = 0,05 при = 3 і = 16 степенях вільності . Оскільки то нульова гіпотеза відкидається, тобто на рівні значущості = 0,05 (з надійністю 0,95) відмінність між партіями сировини істотно впливає на величину розривного навантаження. ►
Зауваження. З точки зору техніки обчислень сум простіше
скористатися формулами (5.11) - (5.13), що не вимагають обчислення середніх. Так, обчисливши
Знайдемо
за(5.11)
за (5.12)
і за (5.13)