Методы корреляционного и регрессионного анализов
Методы корреляционного и регрессионного анализов широко применяются для выявления и описания зависимостей между случайными величинами по экспериментальным данным и базируются на теории вероятности и математической статистике.
Корреляционный анализ основывается на предпосылке о том, что переменные величины y (выходной параметр) и xi (факторы) являются случайными величинами и между ними может существовать так называемая корреляционная связь, при которой с изменением одной величины изменяется распределение другой. Для количественной оценки тесноты связи служит выборочный коэффициент корреляции.
|
где ,
,
выборочные дисперсии:
,
.
При вычислении коэффициента корреляции удобно пользоваться следующими формулами:
(5) | |
где N – число опытов.
Выявить наличие или отсутствие корреляции между двумя величинами можно путем визуального анализа полей корреляции и оценкой величины выборочного коэффициента корреляции.
На рис. 2 показаны примеры корреляции между случайными величинами.
Рис. 2.Виды корреляции между случайными величинами
Для независимых случайных величин коэффициент корреляции равен нулю, но он может быть равен нулю для некоторых зависимых величин, которые при этом называются некоррелированными. Коэффициент корреляции характеризует не всякую зависимость, а только линейную. Если случайные величины x и y связаны точной функциональной линейной зависимостью , то . В общем случае, когда величины связаны произвольной стохастической зависимостью, коэффициент корреляции может иметь значение в пределах .
Регрессионный анализ – предполагает (рассматривает) связь между зависимой (случайной) величиной y и независимыми (неслучайными) переменными x1,…,xi.
Эта связь представляется с помощью математической модели, т. е. уравнения, которое связывает зависимую и независимую переменные.
Обработка экспериментальных данных при использовании корреляционного и регрессионного анализа дает нам возможность построить статистическую математическую модель в виде уравнения регрессии.
Постановка задачи.
По данной выборке объема n найти уравнение приближенной регрессии и оценить допускаемую при этом ошибку, то есть нужно найти . Эта задача решается методами корреляционного и регрессионного анализа.
По сгущениям точек (рис.3) можно найти определенную зависимость, т.е. получить вид уравнения регрессии.
|
а) линейная б) нелинейная
Рис.3. Виды регрессии
Если разброс точек значительный, то регрессии не будет. Следовательно, методы корреляционного и регрессионного анализа тесно связаны между собой.
Вид уравнения регрессии зависит от выбираемого метода приближения. Обычно используется метод наименьших квадратов.
или | (6) |
где экспериментальные и расчетные значения выходного параметра, соответственно.
Рассмотрим различные случаи приближенной регрессии.