Методы корреляционно-регрессионного анализа связи.
Первая задача статистики – выявить связь между показателями и придать ей аналитическую форму зависимости.
Основой для этого являются математические функции в виде уравнений:
а) – прямолинейная зависимость (либо )
б) криволинейные зависимости:
ü – логарифмическая;
ü – параболическая;
ü – гиперболическая;
ü – показательная;
ü – степенная.
Решить математическое уравнение – определить параметры и т.д.:
1) с помощью метода наименьших квадратов: сумма квадратов отклонений фактических y от выровненных должна быть минимальной. (для линейной зависимости – по формулам в теме «Ряды динамики»);
2) при численности обследуемой совокупности до 30 единиц необходимо проверить параметры на типичность, т.е. не являются ли параметры уровня регрессии результатом действия случайных величин. Используется t – критерий Стьюдента (специальные таблицы с уровнем значимости α и числом степеней свободы k).
Для этого рассчитываются фактические значения t и сравниваются с табличными:
и , где n – численность совокупности,
– среднее квадратическое отклонение случайно величины, а – среднее квадратическое отклонение фактического признака.
Параметры уравнения регрессии и признаются типичными, если tфакт больше tтабличного :
Полученное уравнение регрессии называют математической моделью связи, сущность которой состоит в то, что она определяет среднюю величину результативного признака в зависимости от вариации фактического признака .
Вторая задача – определить полученные оценки тесноты связи между и , она характеризует практическую значимость построенной модели. Для статистической оценки связи применяются показатели вариации:
а) общая дисперсия результативного признака, отображающая влияние всех факторов на
б) факторная дисперсия, отображающая вариацию только от воздействия
в) остаточная дисперсия – характеризует вариацию y от всех прочих факторов (неучтённых, случайных).
Соотношение между факторной и общей дисперсии характеризует меру тесноты связи между и называется коэффициентом детерминации.
(доля фактической дисперсии в общей, т.е. какая часть общей вариации результативного признака объясняется ).
Второй показатель тесноты связи называется коэффициентом корреляции:
(для ЭВМ).
При прямолинейной связи рассчитывается линейный коэффициент корреляции:
,
R = r только при прямолинейной связи.
Показатели тесноты связи проверяются на существенность – по критерию t (Стъюдента) и F (Фишера).
, должен быть больше – тогда существенен коэффициент .
Для R – по критерию Фишера:
, – число параметров в уравнении; c и двумя числами степеней свободы , . должен быть больше .
Для получения выводов о практической значимости показателей тесноты связи даётся оценка по шкале Чеддока:
R(r) | Сила связи | |
отсутствие связи | ||
0,1-0,3 | слабая | |
0,3-0,5 | умеренная | |
0,5-0,7 | заметная | |
0,7-0,9 | высокая | (модель пригодна) |
0,9-0,99 | Весьма высокая (близкая к функциональной, R=1) |
Для выбора адекватного (наиболее соответствующего фактическим данным) уравнения регрессии из множества уравнений применяется показатель средней ошибки аппроксимации:
чем она меньше, тем модель адекватнее.