Понятие о корреляционном и регрессивном анализе
Существуют два вида зависимостей: функциональная и стохастическая (вероятностная). Функциональная: каждому значению одной переменной соответствует одно, определённое значение другой.
Пример 1. 1)
2)
Строгая функциональная зависимость между случайными величинами на практике встречается редко. Гораздо чаще другая, когда каждому численному значению одной случайной величины не соответствует одно, определённое значение другой.
Пример 2. Между ростом Х и весом Y человека (наугад выбранного) имеется зависимость, но она не является функциональной.
Связь между случайными величинами, имеющими общие случайные факторы, которые влияют как на одну, так и на другую случайную величину, наряду с другими, неодинаковыми для обеих случайных величин факторами, называется стохастической. В статистике её называют статистической.
Определение. Статистическойназывают зависимость, при которой изменение одной случайной величины влечёт изменение распределения другой.
На рис. 8 приведены примеры функциональной и статистической зависимостей.
|
|
|
Рис. 8
Исследование взаимозависимости случайных величин рассматривается в корреляционном анализе(зависимость веса Y от роста Х – корреляционная зависимость). Исследование зависимости случайной величины от ряда неслучайных и случайных величин рассматривается в регрессионном анализе(зависимость между урожайностью сельскохозяйственных культур от природных и экономических факторов).
В корреляционном анализе оценивается сила стохастической связи, в регрессионном – исследуется её форма.
Определение. Условной средней называют среднее арифметическое значение Y, соответствующее значению Х = х.
Пример 3. При х = 2Y приняла значения: 5, 6, 10, тогда .
Определение. Корреляционной зависимостью Y от Х называют функциональную зависимость условной средней от х:
.(1)
Это уравнение регрессии Y на Х.
Функцию f(x) называют регрессией Y на Х, а её график – линией регрессии Y на Х.
Аналогично: условная средняя равна среднему арифметическому значений Х, соответствующих Y = у.
Уравнение регрессии Х на Y:
(2)
где j(y) – регрессия Х на Y.
Чаще всего теоретические регрессии (16) и (17) неизвестны, и их оценивают при помощи эмпирических регрессий. Экспериментальные данные изображают в виде точек в декартовой системе координат. Исходя из характера расположения точек выбирают вид функции регрессии и её оценки, т.е. эмпирической регрессии (прямая, парабола и т.д.):
– эмпирическое уравнение Y на Х. Параметры находят методом наименьших квадратов.
Аналогично .
В зависимости от числа случайных величин различают простую и множественную регрессии.
Пример 4.
1. Простая регрессия – регрессия между затратами на производстве и объёмом продукции, производимой предприятием.
2. Множественная регрессия – регрессия между производительностью труда и уровнем механизации производственных процессов, фондом рабочего времени, материалоёмкостью, квалификацией рабочих.
По форме различают линейную и нелинейную регрессии.
Линейная регрессия:
,
,
где коэффициенты регрессии.
Обе линии регрессии Y на Х и Х на Y – прямые.
Выборочное уравнение прямой линии регрессии Y на Х имеет вид:
где – условная средняя;
– выборочные средние Х и Y ;
– выборочные средние квадратические отклонения;
– выборочный коэффициент корреляции.
,
где x, y – варианты;
– частота пары вариант (x, y);
– объём выборки (сумма всех частот);
– коэффициент регрессии.
Аналогично определяется выборочное уравнение прямой линии регрессии Х на Y:
.
Связь коэффициентов регрессии и коэффициентов корреляции:
;
;
.
Если , , то Х и Y одновременно возрастают, если < 0, < 0, то X и Y убывают. Чем меньше угол между прямыми регрессии Y на Х и Х на У, тем теснее связь между Х и Y.
Выборочный коэффициент корреляции служит для оценки тесноты линейной корреляционной зависимости.
Свойства выборочного коэффициента корреляции :
1. | |≤ 1.
2. Если = 0, то Х и Y не связаны линейной корреляционной зависимостью.
3. Если | |= 1, то Х и Y связаны функциональной зависимостью (линейной).
4. С возрастанием | | линейная корреляционная зависимость становится более тесной, при | |= 1 переходит в функциональную,
при | |→ 1 связь сильнее,
при | |→ 0 слабее.