Ошибки прогнозов. Коэффициент корреляции Пирсона. Коэффициент детерминации.
Лабораторная работа №4
Линейная регрессия.
Основные положения теории.
Простая модель линейной регрессии.
Очень часто исследователя интересует связь между переменными. Это помогает при анализе их поведения. В этой главе будет разработана модель для описания связи между переменными с математической точки зрения. Начнем с наиболее простых для анализа линейных уравнений.
Существует или нет линейная связь между двумя переменными x, y.Проводим случайную выборку. При значениях x1, x2, …, xn мы наблюдаем значения y1, y2, …, yn соответственно. На плоскости Oxy отметим точки с координатами (x1, y1), (x2, y2), …, (xn, y2n).
Предположим, что точки группируются вокруг некоторой прямой линии
y = a + bx.
Тогда:
Точки не находятся точно на линии y = a + bx. Но это неудивительно. Ведь помимо x на поведение y оказывают влияние и другие факторы. Дальнейший анализ полученного уравнения позволяет сказать, насколько сильно влияние неучтенных факторов, действительно ли модель линейна и т. д. На переменные x, y накладывается ряд условий. Для описания природы связи используется термин «регрессия». Коэффициент b называется показателем наклона линии линейной регрессии.
Ошибки прогнозов. Коэффициент корреляции Пирсона. Коэффициент детерминации.
Проводим случайную выборку. При значениях x1, x2, …, xn мы наблюдаем значения y1, y2, …, yn соответственно. Получено уравнение = a + bx. Если вместо х подставить в это уравнение значения x1, x2, …, xn, то будут получены значения 1, 2, …, n, которые, вообще говоря, будут отличаться от y1, y2, …, yn. Разница yi - i, = еi называется ошибкой (остатком, отклонением). Значения коэффициентов a и b в уравнении y = a + bx, которые рассчитывались по приведенным в пункте 1 формулам, подбирались так, чтобы минимизировать сумму . Говорят, что они получены методом наименьших квадратов (МНК).
Мы хотим знать, насколько хорошо приближает наши данные линейная модель.
Формула y = a + bx только частично объясняет вариацию значений y (а именно, слагаемое Но ведь на y влияют и другие факторы. Их влияние скрыто в остатке еi. Если бы связь была строго линейной, то еi = 0. И так для каждой точки xi.
– это общая вариация переменной у.
– это вариация переменной у, которая объясняется формулойy = a + bx.
– это вариация переменной у, которая не объясняется формулой y = a + bx.
Введем характеристику - коэффициент детерминации.Этамера показывает величину вариации переменной y, которая объясняется переменной x при наличии линейной связи этих величин. В случае строгой линейной зависимости между x и у r2 = 1. Если зависимость между x и y отсутствует, то r2 = 0.
Коэффициент детерминации не указывает причины и следствия. Он просто является математическим выражением взаимосвязи между переменными и показывает степень их взаимосвязанных изменений, хотя в экономической теории и можно постулировать причинно-следственную связь между этими переменными.
Коэффициент корреляции Пирсона:
Коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчета коэффициента корреляции построена таким образом, что, если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона. Если же связь между переменными X и Y не линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение.
Знак коэффициента корреляции Пирсона r совпадает со знаком коэффициента b. Чем ближе r к 1, тем ближе связь между x и y к линейной. При r = 0 линейной связи между x и y не существует (но, возможно, между x и y есть другая зависимость).
Сильная корреляция между переменными необязательно указывает на причину и следствие. Например, может быть установлена сильная корреляция между зарплатой учителя и продажей спиртных напитков. Отсюда никак нельзя сделать вывод, что учителя пьют. Просто обе эти величины связаны через другую переменную – общий уровень наличного дохода. Это пример ложной корреляции.
3.Предсказания и прогнозы на основе линейной модели регрессии
Мы можем воспользоваться построенной моделью для нахождения значения у при известном значении х. Модель строилась по значениям x1, x2, …, xn. Поэтому поиск значения у для х из интервала (х1, xn) называется предсказанием, а поиск значения у для x вне интервала (х1, xn) называется прогнозом. Чем дальше расположен x от интервала (х1, xn), тем менее точным будет прогноз.