Способы оценки полученных моделей регрессии

Регрессионный анализ раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по статистическим данным. Цель Р. а. состоит в определении общего вида уравнения регрессии, построении оценок неизвестных параметров, входящих в уравнение регрессии, и проверке статистических гипотез о регрессии. При изучении связи между двумя величинами по результатам наблюдений (x₁, y₁), ..., (x_n, y_n) в соответствии с теорией регрессии предполагается, что одна из них Y имеет некоторое распределение вероятностей при фиксированном значении х другой, так что

Е(Y | х)= g(x, β) и D(Y | х) = σ²h²(x),

где β обозначает совокупность неизвестных параметров, определяющих функцию g(х), a h(x) есть известная функция х (в частности, тождественно равная 1). Выбор модели регрессии определяется предположениями о форме зависимости g(х, β) от х и β. Наиболее естественной с точки зрения единого метода оценки неизвестных параметров β является модель регрессии, линейная относительно β:

g(x, β) = β₀g₀(x) + ... + β_kg_k(x).

Относительно значений переменной х возможны различные предположения в зависимости от характера наблюдений и целей анализа. Для установления связи между величинами в эксперименте используется модель, основанная на упрощённых, но правдоподобных допущениях: величина х является контролируемой величиной, значения которой заранее задаются при планировании эксперимента, а наблюдаемые значения у представимы в виде

y_i = g(x_i, β) + ε_i, i = 1, ..., k,

где величины ε_iхарактеризуют ошибки, независимые при различных измерениях и одинаково распределённые с нулевым средним и постоянной дисперсией σ². Случай неконтролируемой переменной х отличается тем, что результаты наблюдений (x_i, y_i), ..., (x_n, y_n) представляют собой выборку из некоторой двумерной совокупности. И в том, и в другом случае Р. а. производится одним и тем же способом, однако интерпретация результатов существенно различается (если обе исследуемые величины случайны, то связь между ними изучается методами корреляционного анализа).

Предварительное представление о форме графика зависимости g(x) от х можно получить по расположению на диаграмме рассеяния (называемой также корреляционным полем, если обе переменные случайные) точек (x_i, y̅(x_i)), где y̅(x_i) — средние арифметические тех значений у,которые соответствуют фиксированному значению x_i. Например, если расположение этих точек близко к прямолинейному, то допустимо использовать в качестве приближения линейную регрессию. Стандартный метод оценки линии регрессии основан на использовании полиномиальной модели (m ≥ 1)

y(x, β) = β₀ + β₁x + ... + β_mx^m

(этот выбор отчасти объясняется тем, что всякую непрерывную на некотором отрезке функцию можно приблизить полиномом с любой наперёд заданной степенью точности). Оценка неизвестных коэффициентов регрессии β₀, ..., β_m и неизвестной дисперсии σ² осуществляется Наименьших квадратов методом. Оценки Способы оценки полученных моделей регрессии - student2.ru 0, ..., β_m, полученные этим методом, называются выборочными коэффициентами регрессии, а уравнение

Способы оценки полученных моделей регрессии - student2.ru

определяет т. н. эмпирическую линию регрессии. Этот метод в предположении нормальной распределённости результатов наблюдений приводит к оценкам для β₀, ..., β_m и σ², совпадающим с оценками наибольшего правдоподобия .Оценки, полученные этим методом, оказываются в некотором смысле наилучшими и в случае отклонения от нормальности. Так, если проверяется гипотеза о линейной регрессии, то

Способы оценки полученных моделей регрессии - student2.ru

где Способы оценки полученных моделей регрессии - student2.ru x_i и y_i, и оценка g(х), а её дисперсия будет меньше, чемдисперсия любой другой линейной оценки. При допущении, что величины y_i нормально распределены, наиболее эффективно осуществляется проверка точности построенной эмпирической регрессионной зависимости и проверка гипотез о параметрах регрессионной модели. В этом случае построение доверительных интервалов для истинных коэффициентов регрессии β₀, ..., β_m и проверка гипотезы об отсутствии регрессионной связи β_i = 0, i = 1, ..., m) производится с помощью Стьюдента распределения.

В более общей ситуации результаты наблюдений y₁, ..., y_n рассматриваются как независимые случайные величины с одинаковыми дисперсиями и математическими ожиданиями

Ey_i, = β₁ x_1i+ ... + β_kx_ki, i = 1, ..., n,

где значения x_ji, j = 1, ..., k предполагаются известными. Эта форма линейной модели регрессии является общей в том смысле, что к ней сводятся модели более высоких порядков по переменным x₁, ..., x_k. Кроме того, некоторые нелинейные относительно параметров β_i; модели подходящим преобразованием также сводятся к указанной линейной форме.

Наши рекомендации

Метод наименьших квадратов для моделей регрессии, нелинейных по оцениваемым коэффициентам

Идентификация и верификация моделей парной регрессии

Критерии для оценки полученных данных

Интервальные оценки коэффициентов регрессии

Спецификация моделей регрессии

Типы моделей и переменных, применяемых в эконометрике. Чем регрессионная модель отличается от функции регрессии?

Регрессионный анализ. Ошибки оценок коэффициентов регрессии. Проверка гипотез о значимости коэффициентов регрессии и уравнения регрессии в целом.

Идентификация и верификация моделей парной регрессии

На основе моделей множественной регрессии

Спецификация модели. Основные положения построения моделей регрессии

← Предыдущая страница | Следующая страница →