Понятие стохастической связи и задачи корреляционно - регрессионного анализа
На практикечасто встречаются зависимости между показателями, которые носят вероятностный, не полностью определенный характер. При стохастической зависимостикаждой величине факторного показателя может соответствовать несколько значений результативного показателя (например, при изменении цены изделия объем реализации в натуральном выражении может снизиться, не изменится или увеличиться). Это объясняется комплексным воздействием большого числа факторов. Таким образом,стохастическая связь – неполная вероятностная зависимость между показателями, которая проявляется только при большом числе наблюдений.
Для определения наличия и направления стохастической зависимости между показателями используются такие способы анализа, как аналитические группировки, сравнение параллельных временных рядов данных, аналитические группировки, построение корреляционных полей или диаграмм разброса. Все перечисленные методы позволяют визуально определить наличие связи.
Для определения силы зависимости и степени влияния каждого фактора на уровень результативного показателя используют корреляционный анализ, т.е. исчисление различных коэффициентов корреляции.
Применение корреляционного анализа позволяет решить следующие задачи:
1. определить наличие и направление зависимости между показателями;
2. оценить степень или силу зависимости между показателями.
Различают парную и множественную зависимость (корреляцию) между показателями.
Парная корреляция – это связь между двумя показателями, один из которых является факторным, другой – результативным. Множественная корреляция возникает от взаимодействия нескольких факторов с результативным показателем.
Зная вид зависимости между показателями, можно предсказывать значения одной переменной на основании значений других переменных. Для этих целей используют регрессионный анализ.
Цель регрессионного анализа – разработать статистическую модель, позволяющую предсказывать значения зависимой (результативной) переменной по значениям, по крайней мере, одной независимой (факторной) переменной. Такие модели называют регрессионными моделями или уравнениями регрессии:
,
,
где - зависимая переменная, - независимые переменные, - неизвестные параметры, - случайное отклонение или погрешность. Первое соотношение называют моделью парной регрессии, второе соотношение – моделью множественной регрессии.
Основными задачами регрессионного анализа являются:
- определение вида зависимости в параметрическом виде (спецификация модели);
- определение оценок неизвестных параметров равнения регрессии (параметризация модели);
- оценка качества построенного уравнения регрессии (верификация модели).
1.6.2 Изучение стохастических зависимостей в случае парной корреляции
Для достижения целей корреляционного анализа, прежде всего, выясняют наличие и силу зависимости между изучаемыми показателями. Для этого вычисляют коэффициенты корреляции.
Коэффициент парной линейной корреляциихарактеризует тесноту и направление связи между двумя количественными признаками:
.
Если , то связь между показателями прямая, т.е. показатели либо возрастают, либо уменьшаются. Если , то связь между показателями обратная, т.е. показатели изменяются в различном напралении. Если , то связь между признаками отсутствует. Если 0< 0.3, то связь между признаками слабая. Если 0.3< 0.7, то связь – умеренная. Если 0.7 1, то связь – сильная.
Значимость линейного коэффициента корреляции проверяется на основе t-статистики (критерий Стьюдента), при этом выдвигается и проверяется гипотеза о равенстве коэффициента корреляции нулю. Для проверки этой гипотезы используется статистика:
,
которая имеет распределение Стьюдента с числом степеней свободы ν=п-2.
Если установлено наличие статистически значимой зависимости между показателями, то проводят регрессионный анализ.
Определение вида зависимости проводится по расположению точек наблюдений ( ) (i =1, 2, ..., n) на корреляционном поле или диаграмме разброса. Наиболее распространенным видом зависимости является линейная зависимость.
Модель парной линейной регрессии имеет вид:
или , (i =1, 2, ..., n).
Здесь Y – результативный показатель, Х – факторный показатель; – постоянная величина, которая не связана с изменением фактора; - величина, характеризующая изменение результативного показателя при изменении факторного показателя на единицу своего измерения.
Коэффициенты являются неизвестными и подлежат определению. Оценки неизвестных параметров , получаемые по исходным статистическим данным, будем обозначать . Определение оценок коэффициентов регрессии осуществляется исходя из максимально возможной близости выбранного уравнения регрессии к фактическим значениям показателей. Самым распространенным и теоретически обоснованным методом определения оценок коэффициентов является метод наименьших квадратов (МНК).
Суть метода наименьших квадратов состоит в минимизации суммы квадратов отклонений точек наблюдений от уравнения регрессии для определения оценок параметров уравнения :
.
Здесь (i =1, 2, ..., n) предсказанное значение переменной Y по уравнению регрессии.
Значения можно найти, решив систему уравнений:
, или из формул ,
где , , , .
Подставляя найденные параметры в уравнение регрессии, получаем конкретное выражение стохастической связи показателей. Например, Y=0,5+0,05Х, где Х – расходы на рекламу в тыс. руб., а Y – объем продаж в тыс. руб. Интерпретация уравнения будет следующей: с увеличением расходов на рекламу на 1 тыс. руб. объем продаж повысится в среднем на 0,05 тыс. руб.
Оценка качества построенного уравнения регрессии включает следующие пункты:
- оценка адекватности модели или анализ общего качества регрессионной модели;
- оценка статистической значимости коэффициентов уравнения регрессии.
Мерой адекватности модели служит доля разброса зависимой переменной, которую можно объяснить с помощью уравнения регрессии. В качестве меры адекватности используют коэффициент детерминации :
.
В случае парной корреляции квадрат линейного коэффициента корреляции равен коэффициенту детерминации : .
В общем случае . Чем больше , т.е. доля разброса зависимой переменной, объяснимая уравнением регрессии, тем более качественным считается уравнение регрессии. Если =1 имеет место строгая адекватность, если =0, то вариация переменной Y не зависит от изменения объясняющих переменных. Поэтому на практике строят регрессионные модели с максимально возможным коэффициентом детерминации .
Возникает вопрос, какую величину считать достаточной (статистически значимой) для признания уравнения регрессии адекватным. Для этого необходимо проверить гипотезы .
Если справедлива гипотеза , можно сделать вывод, что построенная регрессионная модель не адекватна фактическим статистическим данным. Если справедлива гипотеза , можно сделать вывод, что построенная регрессионная модель адекватна фактическим статистическим данным.
Для проверки используют статистику , которая имеет F- распределение с числом степеней свободы и .
Оценка статистической значимости коэффициентов уравнения регрессии
Оценка статистической значимости коэффициентов уравнения регрессии заключается в проверке наличия статистически значимой зависимости между переменными зависимой переменной Y и факторной переменной .
Проверяемые гипотезы формулируются следующим образом: .
Если справедлива гипотеза , можно сделать вывод, что нет статистически значимой зависимости между переменными Y и , и изменения переменной не влияют на изменения переменной Y.
Если справедлива гипотеза , можно сделать вывод, что есть статистически значимая зависимость между переменными Y и и изменение переменной влияет на изменение переменной Y .
Для проверки используют статистику:
, .
Статистика имеет t- распределение с числом степеней свободы . Если коэффициент при переменной является статистически незначимым, то данная переменная, возможно, включена в модель ошибочно и ее следует исключить из уравнения.
Для оценки степени влияния изменения факторного показателя на изменение результативного показателя в относительном выражении можно рассчитать коэффициент эластичности (Э), который показывает, на сколько процентов измениться результативный показатель, если факторный возрастет на один процент:
Для оценивания прогнозных качеств построенного уравнения регрессии рассчитывают среднюю ошибку аппроксимации (А):
,
Чем меньше ошибка аппроксимации, тем выше прогнозные качества уравнения регрессии и точность построенных прогнозов с использованием регрессионный модели (таблица 1.13).
Таблица 1.13 - Зависимость точности уравнения регрессии от средней ошибки аппроксимации
значение А | <10% | 10%–20% | 20%–50% | >50% |
точность | высокая | хорошая | удовлетворительная | неудовлетворительная |
1.6.3 Методика изучение стохастических зависимостей в случае множественной корреляции
Методика проведения корреляционно – регрессионного анализа в случае множественной корреляции состоит из следующих этапов: спецификация, параметризация, верификация и практическое использование модели.
Спецификация модели
При построении регрессионных моделей важное значение имеет выбор независимых (факторных) переменных для предсказания значений результативного показателя. Общего алгоритма такого выбора не существует.
При отборе следует придерживаться определенных правил:
между факторными и результативным показателями должна существовать значимая причинно-следственная связь;
не рекомендуется включать в расчет взаимосвязанные факторные показатели (если коэффициент парной линейной корреляции больше 0,85, то один из факторов надо исключить).
Для оценивания зависимости между показателями рассчитывают различные коэффициенты корреляции. В уравнение регрессии следует включать только те факторные переменные, связь которых с результативным признаком, является статистически значимой (проверяется по критерию Стьюденту).
Для определения вида зависимости между факторными и результативным показателями следует использовать теоретические зависимости той отрасли знаний, к которой относятся исследуемые явления. В качестве вспомогательного инструмента при определении вида зависимости можно использовать попарные диаграммы разброса между результативной и факторной переменными.
Параметризация модели
Для оценивания параметров модели используют метод наименьших квадратов. На практике для определения коэффициентов используют специальные компьютерные программы (например, Пакет анализа MS Excel, EViews и другие).
Верификация модели
Оценка качества построенной модели аналогична случаю парной корреляции.
Если коэффициент при соответствующей переменной является статистически незначимым, то данная переменная, возможно, включена в модель ошибочно и ее следует исключить из уравнения. При исключении из уравнения переменных, следует придерживаться следующего алгоритма.
1. Исходную модель, которая включает все переменные, назовем моделью без ограничений. Коэффициент детерминации данной модели обозначим .
2. Оценивается модель, в которой исключены незначимые переменные. Назовем эту модель моделью с ограничениями. Для нее определяют коэффициент детерминации . Коэффициент детерминации всегда меньше, чем коэффициент детерминации в исходной модели.
3. Если коэффициент детерминации существенно не отличается от коэффициента детерминации , то выбор следует сделать в пользу модели с ограничениями.
Для ответа на вопрос, какое различие между коэффициентами детерминации считать существенным, необходимо проверить гипотезы: .
Если справедлива гипотеза , то выбор делают в пользу модели с ограничениями. Если справедлива гипотеза , то выбор делают в пользу исходной модели.
Для проверки используют статистику , которая имеет F- распределение с числом степеней свободы и . Здесь - количество исключенных незначимых переменных.
Интерпретация моделей регрессий осуществляется методами той отрасли знаний, к которой относятся исследуемые явления.
Коэффициент показывает, на сколько единиц изменится зависимая переменная Y при изменении переменной на единицу собственного измерения.
С целью расширения возможностей анализа и интерпретации регрессионных моделей можно рассчитать коэффициенты эластичности, определяемые по формуле: , где - среднее значение соответствующей объясняющей переменной , ‑ среднее значение зависимой переменной Y, ‑ коэффициент уравнения регрессии при соответствующей переменной .
Чтобы оценить какая из объясняющих переменных оказывает большее влияние на изменение переменной Y, рассчитывают стандартизованные коэффициенты регрессии: , где - стандартное отклонение переменной , - стандартное отклонение переменной Y.
Стандартизованный коэффициент регрессии показывает, на сколько стандартных отклонений изменится переменная Y при изменении переменной на одно стандартное отклонение. По величине стандартизованных коэффициентов можно сравнивать степень влияния объясняющих переменных на изменение зависимой переменной.
Практическое применение уравнения регрессии.
Уравнение регрессии можно использовать для следующих целей:
· расчета влияния факторов на результативный показатель:
;
· подсчета резервов повышения (понижения) уровня исследуемого показателя:
, где ;
· планирования и прогнозирования значений результативного показателя. С этой целью в конечное уравнение связи подставляют возможные значения факторных показателей.
Вопросы для самопроверки по теме 1.6
1. Что представляет собой стохастическая (корреляционная) связь между показателями?
2. Каковы виды корреляций?
3. Какова последовательность изучения стохастических зависимостей?
4. Как оценить тесноту связи между показателями?
5. Какие значения может принимать коэффициент корреляции?
6. На что указывает знак коэффициента корреляции?
7. Что означают параметры в уравнении регрессии?
8. По значению какого параметра осуществляют интерпретацию уравнения?
9. Что показывает коэффициент детерминации?
10. Какой показатель следует рассчитать для определения прогнозных качеств уравнения регрессии?
11. Для чего определяется коэффициент эластичности?
12. Каковы этапы множественного корреляционного анализа?
13. Для каких целей можно использовать конечное уравнение регрессии?
1.6.5 Типовые вопросы-тесты по теме 1.6
1. Для каких целей можно использовать конечное уравнение связи при стохастической зависимости:
а) для расчета влияния факторов на величину результата;
б) для оценки результатов хозяйствования;
в) для определения величины резервов;
г) для прогнозирования величины результата;
д) для всех выше названных целей.
2. Что является первым этапом методики множественного корреляционного анализа:
а) статистическая обработка исходных данных; б) спецификация модели;
в) верификация модели; г) параметризация модели;
д) интерпретация модели.
3. Каков уровень коэффициента корреляции при усилении тесноты связи между показателями при стохастической зависимости:
а) чем ближе к +1; б) чем ближе к -1; в) чем ближе к нулю;
г) невозможно судить о тесноте связи по величине коэффициента корреляции;
д) нет правильного ответа.
4. Какой показатель отражает тесноту связи при корреляционной зависимости:
а) параметры уравнения связи; б) коэффициент детерминации;
в) коэффициент корреляции; г) коэффициент вариации;
д) среднеквадратическое отклонение.
5. Какой показатель характеризует общее качество уравнения регрессии:
а) параметр уравнения регрессии; б) коэффициент детерминации;
в) коэффициент корреляции; г) коэффициент вариации;
д) среднеквадратическое отклонение.
6. Что обозначает параметр b в модели парной линейной регрессии:
а) на сколько единиц изменится результативный показатель при увеличении факторного показателя на единицу собственного измерения;
б) на сколько единиц изменится факторный показатель при увеличении результативного показателя на единицу собственного измерения;
в) на сколько процентов изменится факторный показатель при увеличении результативного показателя на один процент;
г) на сколько процентов изменится результативный показатель при увеличении факторного показателя на один процент;
д) на сколько единиц изменится результативный показатель при увеличении и факторного показателя на один процент;
7. Что является последним этапом методики множественного корреляционного анализа:
а) статистическая обработка исходных данных; б) спецификация модели;
в) верификация модели; г) параметризация модели;
д) практическое использование модели.