Расчетное задание
При парной корреляции устанавливают зависимость между двумя признаками, один из которых является факторным, другой - результативным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим подобрать математическое уравнение, выражающее эту связь.
Вопрос о форме связи можно решить несколькими способами: на основе логического анализа, по данным статистической группировки или графическим способом. При парной корреляции предпочтителен последний способ, так как он позволяет выявить не только характер связи, но дает представление о степени связи.
После того, как определен вид уравнения связи, необходимо найти числовые значения его параметров. При вычислении параметров применяют различные методы: метод наименьших квадратов, метод средних, метод наименьшего предельного уклонения и др. Наиболее распространенным является метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:
,
где y – фактическое значение результативного признака;
- расчетное значение результативного признака.
Для этого решают систему нормальных уравнений, которые строятся следующим образом. Исходное уравнение перемножают сначала на коэффициент при первом неизвестном и полученные данные суммируют. Затем исходное уравнение перемножают на коэффициент при втором неизвестном, полученные данные также суммируют и т. д.
Рассмотрим, как получается система нормальных уравнений для уравнения линейной регрессии .
В данном уравнении коэффициент при первом неизвестном а0 равен 1. Следовательно, исходное уравнение после перемножения сохраняет прежний вид:
,
а после суммирования
.
Коэффициент при втором неизвестном a1 равен x. Умножая на него все члены исходного уравнения, получим:
,
а после суммирования
.
Значения , , и рассчитывают по данным наблюдения, а неизвестные параметры a0 и a1-путем решения системы уравнений:
Правила получения системы нормальных уравнений распространяются на все виды уравнений регрессии. После того, как определены параметры уравнения регрессии, необходимо его оценить, то есть проверить, насколько оно соответствует изучаемой совокупности и как тесно связан результативный признак с фактором, обусловливающим его уровень. Для этого сравнивают вариацию значений результативного признака, рассчитанных по уравнению регрессии, то есть зависящих от факторного признака, с вариацией фактических (исходных) значений результативного признака. Чем ближе первая вариация будет ко второй, тем в большей степени уравнение регрессии отражает связь между признаками, тем теснее они связаны.
Показатель, характеризующий отношение вариаций расчетных и исходных значений результативного признака, называют индексом корреляции. Его рассчитывают по формуле:
,
где I – индекс корреляции;
- общая дисперсия результативного признака (средний квадрат отклонений фактических значений у от средней );
- факторная дисперсия результативного признака, рассчитанного по уравнению регрессии (средний квадрат отклонений расчетных значений от средней );
n – численность совокупности.
Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе корреляции равном 1 взаимосвязь между признаками является функциональной. Если же индекс корреляции равен 0, то связь между признаками отсутствует.
Поскольку факторная дисперсия показывает вариацию результативного признака, зависящую от факторного признака, то можно рассчитать остаточную дисперсию, показывающую вариацию других неучтенных факторов. Она равна разнице между общей и факторной дисперсиями:
,
где - остаточная дисперсия.
Остаточная дисперсия показывает вариацию фактических значений результативного признака относительно расчетных значений, то есть колеблемость фактических значений относительно линии регрессии. Чем меньше будет эта колеблемость, тем в большей степени уравнение регрессии отражает связь между признаками.
Формула индекса корреляции, рассчитанного на основе остаточной и общей дисперсий, имеет вид:
.
Для линейной регрессии индекс корреляции называют коэффициентом корреляции. Формула его при парной корреляции после преобразования имеет вид:
,
где r – коэффициент корреляции;
- средние значения факторного и результативного признаков;
- среднее значение произведений факторного и результативного признаков;
- средние квадратические отклонения факторного и результативного признаков.
В отличие от индекса корреляции коэффициент корреляции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от −1 до +1. Если коэффициент корреляции положительный, то связь между признаками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).
Квадраты индекса корреляции и коэффициента корреляции называют соответственно индексом детерминации (I2) и коэффициентом детерминации (r2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.
Так как надежность изучения связей в значительной степени зависит от количества сопоставляемых данных, необходимо измерять существенность полученного уравнения регрессии и индекса (коэффициента) корреляции. Показатели корреляции, исчисленные для ограниченной по объему совокупности, могут быть искажены действием случайных факторов.