Проверка гипотез о коэффициенте линейной регрессии
Непараметрические критерии
Группа статистических критериев, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами.
· Q-критерий Розенбаума
· U-критерий Манна-Уитни
· Критерий Уилкоксона
· Критерий Пирсона
· Критерий Колмогорова-Смирнова
Параметрические критерии
Группа статистических критериев, которые включают в расчет параметры вероятностного распределения признака (средние и дисперсии).
· t-критерий Стьюдента
· Критерий Фишера
· Критерий отношения правдоподобия
· Критерий Романовского
1.t-критерий Стьюдента
t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.
t-статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе — выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещенной оценки дисперсии.
История
Данный критерий был разработан Уильямом Госсетом для оценки качества пива в компании Гиннесс. В связи с обязательствами перед компанией по неразглашениюкоммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсета вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
Требования к данным
Для применения данного критерия необходимо, чтобы исходные данные имели нормальное распределение. В случае применения двухвыборочного критерия длянезависимых выборок также необходимо соблюдение условия равенства дисперсий. Существуют, однако, альтернативы критерию Стьюдента для ситуации с неравными дисперсиями.
Требование нормальности распределения данных является необходимым для точного -теста. Однако, даже при других распределениях данных возможно использование -статистики. Во многих случаях эта статистика асимптотически имеет стандартное нормальное распределение — , поэтому можно использовать квантили этого распределения. Однако, часто даже в этом случае используют квантили не стандартного нормального распределения, а соответствующего распределения Стьюдента, как в точном -тесте. Асимптотически они эквивалентны, однако на малых выборках доверительные интервалы распределения Стьюдента шире и надежнее.
Одновыборочный t-критерий
Применяется для проверки нулевой гипотезы о равенстве математического ожидания некоторому известному значению .
Очевидно, при выполнении нулевой гипотезы . С учётом предполагаемой независимости наблюдений . Используя несмещенную оценку дисперсии получаем следующую t-статистику:
При нулевой гипотезе распределение этой статистики . Следовательно, при превышении критического значения нулевая гипотеза отвергается.
Двухвыборочный t-критерий для независимых выборок
Пусть имеются две независимые выборки объемами нормально распределенных случайных величин . Необходимо проверить по выборочным данным нулевую гипотезу равенства математических ожиданий этих случайных величин .
Рассмотрим разность выборочных средних . Очевидно, если нулевая гипотеза выполнена . Дисперсия этой разности равна исходя из независимости выборок: . Тогда используя несмещенную оценку дисперсии получаем несмещенную оценку дисперсии разности выборочных средних: . Следовательно, t-статистика для проверки нулевой гипотезы равна
Эта статистика при справедливости нулевой гипотезы имеет распределение , где
Случай одинаковой дисперсии
В случае, если дисперсии выборок предполагаются одинаковыми, то
Тогда t-статистика равна:
Эта статистика имеет распределение
Двухвыборочный t-критерий для зависимых выборок
Для вычисления эмпирического значения t-критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется следующая формула:
где — средняя разность значений, — стандартное отклонение разностей, а n — количество наблюдений
Эта статистика имеет распределение .
Проверка линейного ограничения на параметры линейной регрессии
С помощью t-теста можно также проверить произвольное (одно) линейное ограничение на параметры линейной регрессии, оцененной обычным методом наименьших квадратов. Пусть необходимо проверить гипотезу . Очевидно, при выполнении нулевой гипотезы . Здесь использовано свойство несмещенности МНК-оценок параметров модели . Кроме того, . Используя вместо неизвестной дисперсии ее несмещенную оценку получаем следующую t-статистику:
Эта статистика при выполнении нулевой гипотезы имеет распределение , поэтому если значение статистики выше критического, то нулевая гипотеза о линейном ограничении отклоняется.
Замечание
Одновыборочный тест для математических ожиданий можно свести к проверке линейного ограничения на параметры линейной регрессии. В одновыборочном тесте это «регрессия» на константу. Поэтому регрессии это и есть выборочная оценка дисперсии изучаемой случайной величины, матрица равна , а оценка «коэффициента» модели равна выборочному среднему. Отсюда и получаем выражение для t-статистики, приведенное выше для общего случая.
Аналогично можно показать, что двухвыборочный тест при равенстве дисперсий выборок также сводится к проверке линейных ограничений. В двухвыборочном тесте это «регрессия» на константу и фиктивную переменную, идентифицирующую подвыборку в зависимости от значения (0 или 1): . Гипотеза о равенстве математических ожиданий выборок может быть сформулирована как гипотеза о равенстве коэффициента b этой модели нулю. Можно показать, что соответствующая t-статистика для проверки этой гипотезы равна t-статистике, приведенной для двухвыборочного теста.
Также к проверке линейного ограничения можно свести и в случае разных дисперсий. В этом случае дисперсия ошибок модели принимает два значения. Исходя из этого можно также получить t-статистику, аналогичную приведенной для двухвыборочного теста.
2.F-тестом или критерием Фишера (F-критерием, φ*-критерием) — называют любой статистический критерий, тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F-распределение).
Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на «степени свободы»). Чтобы статистика имела распределение Фишера необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат. Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.
Тест проводится путем сравнения значения статистики с критическим значением соответствующего распределения Фишера при заданном уровне значимости. Известно, что если , то . Кроме того, квантили распределения Фишера обладают свойством . Поэтому обычно на практике в числителе участвует потенциально большая величина, в знаменателе — меньшая и сравнение осуществляется с «правой» квантилью распределения. Тем не менее тест может быть и двусторонним и односторонним. В первом случае при уровне значимости используется квантиль , а при одностороннем тесте [1].
Более удобный способ проверки гипотез — с помощью p-значения — вероятностью того, что случайная величина с данным распределением Фишера превысит данное значение статистики. Если (для двустороннего теста — )) меньше уровня значимости , то нулевая гипотеза отвергается, в противном случае принимается.
Примеры F-тестов
Две выборки
Пусть имеются две выборки объемом m и n соответственно случайных величин X и Y, имеющих нормальное распределение. Необходимо проверить равенство их дисперсий. Статистика теста
где — выборочная дисперсия.
Если статистика больше критического, то дисперсии не одинаковы, в противном случае дисперсии выборок одинаковы
Несколько выборок
Пусть выборка объемом N случайной величины X разделена на k групп с количеством наблюдений в i-ой группе.
Межгрупповая («объясненная») дисперсия:
Внутригрупповая («необъясненная») дисперсия:
Данный тест можно свести к тестированию значимости регрессии переменной X на фиктивные переменные-индикаторы групп. Если статистика превышает критическое значение, то гипотеза о равенстве дисперсий в выборках отвергается, в противном случае дисперсии можно считать одинаковыми.
Замечание
Описанный выше F-тест является точным в случае нормального распределения случайных ошибок модели. Однако F-тест можно применить и в более общем случае. В этом случае он является асимптотическим. Соответствующую F-статистику можно рассчитать на основе статистик других асимптотических тестов — теста Вальда(W), теста множителей Лагранжа(LM) и теста отношения правдоподобия (LR) — следующим образом:
Все эти статистики асимптотически имеют распределение F(q, n-k), несмотря на то, что их значения на малых выборках могут различаться.
Пример
Пусть оценивается линейная регрессия доли расходов на питание в общей сумме расходов на константу, логарифм совокупных расходов, количество взрослых членов семьи и количество детей до 11 лет. То есть всего в модели 4 оцениваемых параметра (k=4). Пусть по результатам оценки регрессии получен коэффициент детерминации . По вышеприведенной формуле рассчитаем значение F-статистики в случае, если регрессия оценена по данным 34 наблюдений и по данным 64 наблюдений:
Критическое значение статистики при 1 % уровне значимости (в Excel функция FРАСПОБР) в первом случае равно , а во втором случае . В обоих случаях регрессия признается значимой при заданном уровне значимости. В первом случае P-значение равно 0,1 %, а во втором — 0,00005 %. Таким образом, во втором случае уверенность в значимости регрессии существенно выше (существенно меньше вероятность ошибки в случае признания модели значимой).
Простой пример
Пусть дана независимая выборка , где . Пусть есть две простые гипотезы:
Тогда можно определить следующий статистический критерий:
где - выборочное среднее.
Литература
1.Р 50.1.037-2002. Рекомендации по стандартизации. Прикладная статистика: Правила проверки согласия опытного распределения с теоретическим. Часть II: Непараметрические критерии. — М.: Госстандарт РФ, 2002. Электронная версия.
2.Методика и техника статистической обработки первичной социологической информации. Отв. ред. Г.В. Осипов. М., "Наука", 1968.
3.Начинская С.В. Основы спортивной статистики. - К.: Вища шк., 1987. - 189 с.
4.Толоконцев Н.А. Вычисление среднего квадратического отклонения по размаху. Сравнение с общепринятым методом. Тезисы докладов третьего совещания по применению математических методов в биологии. ЛГУ, 1961, стр.83 - 85.
1.
Непараметрические критерии
Группа статистических критериев, которые не включают в расчёт параметры вероятностного распределения и основаны на оперировании частотами или рангами.
· Q-критерий Розенбаума
· U-критерий Манна-Уитни
· Критерий Уилкоксона
· Критерий Пирсона
· Критерий Колмогорова-Смирнова
Параметрические критерии
Группа статистических критериев, которые включают в расчет параметры вероятностного распределения признака (средние и дисперсии).
· t-критерий Стьюдента
· Критерий Фишера
· Критерий отношения правдоподобия
· Критерий Романовского
1.t-критерий Стьюдента
t-критерий Стьюдента — общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.
t-статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе — выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещенной оценки дисперсии.
История
Данный критерий был разработан Уильямом Госсетом для оценки качества пива в компании Гиннесс. В связи с обязательствами перед компанией по неразглашениюкоммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсета вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
Требования к данным
Для применения данного критерия необходимо, чтобы исходные данные имели нормальное распределение. В случае применения двухвыборочного критерия длянезависимых выборок также необходимо соблюдение условия равенства дисперсий. Существуют, однако, альтернативы критерию Стьюдента для ситуации с неравными дисперсиями.
Требование нормальности распределения данных является необходимым для точного -теста. Однако, даже при других распределениях данных возможно использование -статистики. Во многих случаях эта статистика асимптотически имеет стандартное нормальное распределение — , поэтому можно использовать квантили этого распределения. Однако, часто даже в этом случае используют квантили не стандартного нормального распределения, а соответствующего распределения Стьюдента, как в точном -тесте. Асимптотически они эквивалентны, однако на малых выборках доверительные интервалы распределения Стьюдента шире и надежнее.
Одновыборочный t-критерий
Применяется для проверки нулевой гипотезы о равенстве математического ожидания некоторому известному значению .
Очевидно, при выполнении нулевой гипотезы . С учётом предполагаемой независимости наблюдений . Используя несмещенную оценку дисперсии получаем следующую t-статистику:
При нулевой гипотезе распределение этой статистики . Следовательно, при превышении критического значения нулевая гипотеза отвергается.
Двухвыборочный t-критерий для независимых выборок
Пусть имеются две независимые выборки объемами нормально распределенных случайных величин . Необходимо проверить по выборочным данным нулевую гипотезу равенства математических ожиданий этих случайных величин .
Рассмотрим разность выборочных средних . Очевидно, если нулевая гипотеза выполнена . Дисперсия этой разности равна исходя из независимости выборок: . Тогда используя несмещенную оценку дисперсии получаем несмещенную оценку дисперсии разности выборочных средних: . Следовательно, t-статистика для проверки нулевой гипотезы равна
Эта статистика при справедливости нулевой гипотезы имеет распределение , где
Случай одинаковой дисперсии
В случае, если дисперсии выборок предполагаются одинаковыми, то
Тогда t-статистика равна:
Эта статистика имеет распределение
Двухвыборочный t-критерий для зависимых выборок
Для вычисления эмпирического значения t-критерия в ситуации проверки гипотезы о различиях между двумя зависимыми выборками (например, двумя пробами одного и того же теста с временным интервалом) применяется следующая формула:
где — средняя разность значений, — стандартное отклонение разностей, а n — количество наблюдений
Эта статистика имеет распределение .
Проверка линейного ограничения на параметры линейной регрессии
С помощью t-теста можно также проверить произвольное (одно) линейное ограничение на параметры линейной регрессии, оцененной обычным методом наименьших квадратов. Пусть необходимо проверить гипотезу . Очевидно, при выполнении нулевой гипотезы . Здесь использовано свойство несмещенности МНК-оценок параметров модели . Кроме того, . Используя вместо неизвестной дисперсии ее несмещенную оценку получаем следующую t-статистику:
Эта статистика при выполнении нулевой гипотезы имеет распределение , поэтому если значение статистики выше критического, то нулевая гипотеза о линейном ограничении отклоняется.
Проверка гипотез о коэффициенте линейной регрессии
Частным случаем линейного ограничения является проверка гипотезы о равенстве коэффициента регрессии некоторому значению . В этом случае соответстующая t-статистика равна:
где — стандартная ошибка оценки коэффициента — квадратный корень из соответствующего диагонального элемента ковариационной матрицы оценок коэффициентов.
При справедливости нулевой гипотезы распределение этой статистики — . Если значение статистики выше критического значения, то отличие коэффициента от является статистически значимым (неслучайным), в противном случае — незначимым (случайным, то есть истинный коэффициент вероятно равен или очень близок к предполагаемому значению )
Замечание
Одновыборочный тест для математических ожиданий можно свести к проверке линейного ограничения на параметры линейной регрессии. В одновыборочном тесте это «регрессия» на константу. Поэтому регрессии это и есть выборочная оценка дисперсии изучаемой случайной величины, матрица равна , а оценка «коэффициента» модели равна выборочному среднему. Отсюда и получаем выражение для t-статистики, приведенное выше для общего случая.
Аналогично можно показать, что двухвыборочный тест при равенстве дисперсий выборок также сводится к проверке линейных ограничений. В двухвыборочном тесте это «регрессия» на константу и фиктивную переменную, идентифицирующую подвыборку в зависимости от значения (0 или 1): . Гипотеза о равенстве математических ожиданий выборок может быть сформулирована как гипотеза о равенстве коэффициента b этой модели нулю. Можно показать, что соответствующая t-статистика для проверки этой гипотезы равна t-статистике, приведенной для двухвыборочного теста.
Также к проверке линейного ограничения можно свести и в случае разных дисперсий. В этом случае дисперсия ошибок модели принимает два значения. Исходя из этого можно также получить t-статистику, аналогичную приведенной для двухвыборочного теста.
2.F-тестом или критерием Фишера (F-критерием, φ*-критерием) — называют любой статистический критерий, тестовая статистика которого при выполнении нулевой гипотезы имеет распределение Фишера (F-распределение).
Статистика теста так или иначе сводится к отношению выборочных дисперсий (сумм квадратов, деленных на «степени свободы»). Чтобы статистика имела распределение Фишера необходимо, чтобы числитель и знаменатель были независимыми случайными величинами и соответствующие суммы квадратов имели распределение Хи-квадрат. Для этого требуется, чтобы данные имели нормальное распределение. Кроме того, предполагается, что дисперсия случайных величин, квадраты которых суммируются, одинакова.
Тест проводится путем сравнения значения статистики с критическим значением соответствующего распределения Фишера при заданном уровне значимости. Известно, что если , то . Кроме того, квантили распределения Фишера обладают свойством . Поэтому обычно на практике в числителе участвует потенциально большая величина, в знаменателе — меньшая и сравнение осуществляется с «правой» квантилью распределения. Тем не менее тест может быть и двусторонним и односторонним. В первом случае при уровне значимости используется квантиль , а при одностороннем тесте [1].
Более удобный способ проверки гипотез — с помощью p-значения — вероятностью того, что случайная величина с данным распределением Фишера превысит данное значение статистики. Если (для двустороннего теста — )) меньше уровня значимости , то нулевая гипотеза отвергается, в противном случае принимается.
Примеры F-тестов