Основы дисперсионного анализа
Дисперсионный анализ, предложенный Р. Фишером, является статистическим методом, предназначенным для выявления влияния ряда отдельных факторов на результаты экспериментов.
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные), а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Основной целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.
Поэтому в статистических научных исследованиях для измерения вариации чаще всего применяют показатель дисперсии.
Дисперсия признака (s2) определяется на основе квадратической степенной средней:
.
Показатель s, равный , называется средним квадратическим отклонением.
В общей теории статистики показатель дисперсии является оценкой одноименного показателя теории вероятностей и (как сумма квадратов отклонений) оценкой дисперсии в математической статистике, что позволяет использовать положения этих теоретических дисциплин для анализа социально-экономических процессов.
Если вариация оценивается по небольшому числу наблюдений, взятых из неограниченной генеральной совокупности, то и среднее значение признака определяется с некоторой погрешностью. Расчетная величина дисперсии оказывается смещенной в сторону уменьшения. Для получения несмещенной оценки выборочную дисперсию, полученную по приведенным ранее формулам, надо умножить на величину n / (n - 1). В итоге при малом числе наблюдений (< 30) дисперсию признака рекомендуется вычислять по формуле
Обычно уже при n > (15?20) расхождение смещенной и несмещенной оценок становится несущественным. По этой же причине обычно не учитывают смещенность и в формуле сложения дисперсий.
Если из генеральной совокупности сделать несколько выборок и каждый раз при этом определять среднее значение признака, то возникает задача оценки колеблемости средних. Оценить дисперсию среднего значения можно и на основе всего одного выборочного наблюдения по формуле
где n - объем выборки; s2 - дисперсия признака, рассчитанная по данным выборки.
Величина носит название средней ошибки выборки и является характеристикой отклонения выборочного среднего значения признака Х от его истинной средней величины. Показатель средней ошибки используется при оценке достоверности результатов выборочного наблюдения.