Виконання в пакеті STATiSTICA
Будемо виконувати в модулі Basic Statistics and Tables (можна виконувати також в модулі ANOVA/MANOVA). Створимо таблицю з двома стовпцями Р і Т і 30 рядочками; в Р занесемо дані по продуктивності, в Т - рівні Т: технології Т0, Т1, Т2. Дальше виконаємо:
One - Way ANOVA (Analys Of Variances) - Analysis: Detailed Analysis Of Individual tables, Variabbles: Grouping variabbles (групуючі змінні): T, Dependent variabbles (залежні змінні - відгуки): P - OK - OK - відмітивши Statistics: Number of observations (кількість спостережень), Standart deviations (стандартні відхилення) і Variances (дисперсії), отримаємо Summary table of means (таблицю средніх); видно, як відрізняються середні в кожній з груп (при фіксованому рівні фактора Т) - Повертаємося у вікно Descriptive Stats and ... Results і виконуємо Analysis of Variance - Спостерігаємо таблицю: в стовпці SS (Sum of Squares) Effect вказана сума квадратів (4), помножена на (k - 1), df = 2 = k - 1 - число ступенів свободи, MS (Mean Square) = 839.0 - оцінка (4), SS = 2711 - сума квадратів (3), помножена на (N - k), df = 27 = N - k, Ms Error = 100.4 - оцінка (3), F = 8.35 - значення статистики (5), p = 0.0015 - ймовірність в (7); остання дуже мала, щоб повірити в істинність гіпотези Н про відсутність впливу фактора Т. Висновок: фактор Т (технологія) впливає на Р (продуктивність).
Виникає питання: які технології можна прочитати значущо різними? Для відповіді на це питання повертаємося у вікно Descriptive Stats and ... Results і виконуємо Post - hoc comparasion of means (порівняння середніх) по методу Шеффе Sheffe test. Спостерігаємо таблицю, в якій вказані рівні значущості гіпотез про рівність середніх для всіх пар рівнів фактора Т; бачимо, що технології Т0 і Т1 слід вважати відмінними (ймовірність 0.0015 занадто мала, щоби повірити в равність середніх по Т0 і Т1).
Двохфакторний дисперсійний аналіз
Основні співвідношення. Вивчається вплив, який створюють дві якісні ознаки (фактори A і B ) на деякий кількісний результат (відгук). Дуже типова ситуація, коли другий фактор (фактор B) заважає: він включається в розгляд із тієї причини, що заважає знайти і оцінити вплив фактора A.
Нехай фактор A має k рівнів A1, ..., Ak , а фактор B - n рівнів B1,...,Bn . Вважається, що величина x що вимірюється є результатом дії факторів A і B і випадкової складової e :
Приймається аддитивна і незалежна модель дії факторів:
, (6.10)
причому
, . (6.11)
Останні дві умови завжди можна виконати суміщенням величин aj і bi і зміною величини c; величини aj і bi називаються вкладами факторів. Отже, передбачається, що є сукупність спостережень
xij=c+aj+bi+eij , i=1, ..., n; j =1, ..., k, (6.12)
eij - незалежні, нормально N(0,s2) розподілені випадкові величини. Спостереження можна представити у вигляді таблиці 6.2 (в даному випадку – найпростішій, оскільки кожному поєднанню (Aj, Bi) рівні факторів, тобто одній клітинці таблиці, відповідає одне спостереження; в загальному випадку декількох спостережень при аналізі виникають незначні ускладнення.
В таблиці ( )^ означає оцінку. По наявних спостереженнях вимагається перевірити припущення про відсутність впливу фактора A (чи B) на результат вимірювання, тобто перевірити гіпотезу
HA: a1= a2 = . . . = ak = 0 (6.13)
Основою процедури перевірки гіпотези є порівняння двох статистично незалежних оцінок дисперсії s2 . Одна із них, s2*оцінює дисперсію незалежно від того, вірна чи ні HA. Друга, s2**оцінює дисперсію, якщо HA вірна; якщо ж HA не вірна, то вона має тенденцію приймати збільшені значення.
Таблиця 6.2
Фактор B | Фактор A A1 A2 ... Ak | Середні по рядках (оцінки вкладів B) |
B1 B2 Bn | x1 x12 ... x1k x21 x22 ... x2k xn1 xn2 ... xnk | x1·=(c+b1)^ x2·=(c+b2)^ xn·=(c+bn)^ |
Середні по стовпцях (оцінки вкладів A) | x·1= x·2= x·k= (c+a1)^ (c+a2)^ c+ak)^ | x··=c^ |
Побудова процедури перевірки гіпотези.Оптимальна в класі незміщених оцінок оцінка s2* може бути отримана за допомогою метода найменших квадратів. Оцінимо c, bi, aj мінімізацією суми
(6.14)
при умові , . Оцінки
, , (6.15)
Остаточна сума квадратів
як відомо, розподілена по закону хі-квадрат (з точністю до множителя s2) з числом степенів r = nk - (n-1) - (k-1) -1= (n-1)(k-1). Оцінка
(6.17)
Для отримання другої оцінки, незалежної від s2*, розглянемо x·1,...,x·k - k незалежних випадкових величин, де x·j розподілена по N(c+aj, s2/n). Якщо HA вірна, то ці випадкові величини розподілено одинаково по N(cj, s2/n), і незміщеною оцінкою для дисперсії s2/n є
, .
Якщо позначити
(6.18)
- суму квадратів різниці “між стовпцями”, тобто по рівнях фактора A (розсіювання по фактору A), то
, (6.19)
причому розподілена по закону хі-квадрат з (k-1) ступенями свободи; відповідно QA ~ s2c2k - 1. Якщо HA не вірна, то, як неважко показати, QA/s2має нецентральне розоділення хі-квадрат з (k -1) степенями свободи і параметром нецентральності .
Якщо гіпотеза HA вірна, то відношення
має F - розподіл Фішера з (k -1) і r степенями свободи. Якщо
FA ³ F1-a , (6.20)
де F1-a - квантиль цього розподілу порядку 1-a, a - вибраний рівень значимості, то гіпотеза HA відхиляється. Замість (20) можна використовувати еквівалентну процедуру: гіпотеза HA відхиляється, якщо
P{ F ³ FA } £ a;(6.21)
P{ F ³ FA } - ймовірність при справедливості HA отримає значення FA чи більше; F - випадкова величина, що має розподіл Фішера.