Линейный парный регрессионный анализ
Все существующие связи между признаками классифицируют по степени тесноты, направлению, форме, числу факторов.
По степени тесноты связи делят на статистические и функциональные.
Статистическая связь - это такая связь между признаками, при которой для каждого значения признака-фактора Xпризнак-результат может в определенных пределах принимать любые значения с некоторыми вероятностями; при этом его статистические (массовые) характеристики (например, среднее значение) изменяются по определенному закону.
Статистическая связь обусловлена тем, что:
1) на результативный признак оказывают влияние не только факторы, учтенные в модели (которые мы исследуем), но и неучтенные или неконтролируемые факторы;
2) неизбежностью ошибок измерения значений признаков.
Модель статистической связи может быть представлена в общем виде уравнением:
где - зависимая переменная (предиктор, результативный признак), фактическое значение результативного признака;
Х – независимая переменная (регрессор);
- детерминированная составляющая - часть результативного признака, сформировавшаяся под воздействием учтенных известных факторных признаков;
U – случайная составляющая (случайный остаток).
Противоположной статистической связи является функциональная. Функциональной называется такая связь, когда каждому возможному значению признака-фактора соответствует одно или несколько строго определенных значений результативного признака . Определение функциональной связи может быть легко обобщено для случая многих признаков – Модель функциональной связи в общем виде можно представить уравнением:
По направлению изменений результативного и факторного признаков связи делят на прямые и обратные.
По форме связи (виду функции f) связи делят на прямолинейные (линейные) и криволинейные (нелинейные).
По количеству факторов в модели связи подразделяют на однофакторные (парные) и многофакторные.
Одним из методов изучения стохастических связей между признаками является регрессионный анализ.
Регрессионный анализ представляет собой установление аналитической зависимости между признаками. Он включает следующие этапы:
1) выбор формы связи (вида аналитического уравнения регрессии);
2) оценка параметров уравнения;
3) оценка качества аналитического уравнения регрессии.
Наиболее часто для описания статистической связи признаков используется линейная форма. Внимание к линейной связи объясняется четкой экономической интерпретацией ее параметров, ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму.
Линейная парная регрессия сводится к нахождению уравнения вида:
где и – параметры уравнения регрессии;
- часть результативного признака, сформировавшаяся под воздействием неконтролируемых или неучтенных факторов, а также ошибок измерения признаков.
Оценка параметров линейной регрессии проводиться по пространственной выборки (Yi Хi) . Для получения оценок наиболее часто используют метод наименьших квадратов (МНК).
Метод наименьших квадратов дает наилучшие (эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена и независимой переменной .
МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака Y – от расчетных (теоретических) значений —Ŷ минимальна:
S=Σ(Y-Ŷ)2 → min.
Проиллюстрируем суть данного метода графически. Для этого построим точечный график по данным наблюдений в прямоугольной системе координат (такой точечный график называют корреляционным полем). Попытаемся подобрать прямую линию, которая ближе всего расположена к точкам корреляционного поля. Согласно методу наименьших квадратов линия выбирается так, чтобы сумма квадратов расстояний по вертикали между точками корреляционного поля и этой линией была бы минимальной.
|
Рисунок 1 - Корреляционное поле зависимости между X и Y.
В случае линейной парной зависимости:
.
Значения и нам известны, это данные наблюдений. В функции S они представляют собой константы. Переменными в данной функции являются искомые оценки параметров – и . Чтобы найти минимум функции двух переменных необходимо вычислить частные производные данной функции по каждому из параметров и приравнять их к нулю, т.е.
В результате получим систему из 2-ух нормальных линейных уравнений:
или
Решая данную систему, найдем искомые оценки параметров:
,
,
где , и - средние значения факторов Х, Y и их произведения.
В системе нормальных уравнений индексы опущены для облегчения запоминания .
Правильность расчета параметров уравнения регрессии может быть проверена сравнением сумм ΣY=ΣŶ (при этом возможно некоторое расхождение из-за округления расчетов).
Знак коэффициента регрессии указывает направление связи (если , связь прямая, если , то связь обратная). Величина показывает, на сколько единиц изменится в среднем признак-результат –Y при изменении признака-фактора – Х на1 единицу своего измерения.
Формально значение параметра - среднее значение Y при Xравном нулю. Если признак-фактор не имеет и не может иметь нулевого значения, то вышеуказанная трактовка параметра не имеет смысла.
Оценка тесноты связи между признакамиосуществляется с помощью коэффициента линейной парной корреляции - . Он может быть рассчитан по формуле: ,
Для качественной оценки тесноты связи можно использовать следующую классификацию:
0.1- 0.3- слабая связь
0.3-0.5 – умеренная связь
0.5-0.7- заметная связь
0.7-0.9- тесная связь
0.9-0.99- весьма тесная (Здесь значения взять по модулю).
где - среднее квадратическое отклонение факторного признака, которое определяется по формуле:
.
- среднее квадратическое отклонение результативного признака, которое определяется по формуле:
.
Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии .
Область допустимых значений линейного коэффициента парной корреляции от -1 до +1. Знак коэффициента корреляции указывает направление связи. Если , то связь прямая; если , то связь обратная.
Если данный коэффициент по модулю близок к единице, то связь между признаками может быть интерпретирована как довольно тесная линейная. Если его модуль равен единице , то связь между признаками функциональная линейная. Если признаки X и Y линейно независимы, то близок к 0.
Дляоценки качестваполученного уравнения регрессиирассчитывают теоретический коэффициент детерминации - . Коэффициент детерминации характеризует долю вариации (дисперсии) результативного признака Y,объясняемую регрессией (а, следовательно, и фактором Х), в общей вариации (дисперсии) Y. Коэффициент детерминации принимает значения от 0 до 1. Соответственно величина характеризует долю дисперсии Y, вызванную влиянием прочих неучтенных в модели факторов и ошибками спецификации.
δ2 Σ(Ŷ- )2
R2yx= ____ = _____________
σ2y Σ(Y- )2
где - объясненная уравнением регрессии дисперсия Y;
- общая (полная) дисперсия Y.
В силу теоремы о сложении дисперсий общая дисперсия результативного признака равна сумме объясненной уравнением регрессии и остаточной (необъясненной) дисперсий:
.
Поэтому коэффициент детерминации может быть рассчитан через остаточную и общую дисперсии:
ε2 Σ(Y-Ŷ)2
R2=1- ____ = 1 - _____________
σ2y Σ(Y- )2
где - остаточная (необъясненная уравнением регрессии) дисперсия Y.
При парной линейной регрессии .