Коэффициент корреляции Пирсона. · Коэффициент корреляции: ; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения

Общие положения

· Коэффициент корреляции: ; причем ковариация случайных величин и равна (разность математического ожидания произведения случайных величин и произведения математических ожиданий каждой величины)

· Смысл:коэффициент корреляции показывает меру связи случайных величин;

· Область значений коэффициента (допустимые значения): [-1;1];

o отрицательные значения – отрицательная связь (монотонно убывающая);

o если коэффициент корреляции равен -1 или 1, то тогда величины и линейно связаны, то есть таким и , что

o для независимых случайных величин коэффициент корреляции (если он существует), равен нулю.

Коэффициент корреляции Пирсона

· Расчетная формула:

· Проверка равенства коэффициента нулю: есть ли основания полагать, что посчитанное нами число значимо отличается от 0.

o надо посчитать граничные точки и - , между которыми будет меняться нулевой коэффициент корреляции.

o (n – размер одной из выборок);

o смотрим по таблицам Стьюдента и считаем , потом смотрим, куда попал коэффициент Пирсона;

· Проблема:чувствительность к выбросам – нетипичным, резко выделяющимся наблюдениям.

· Пример в политологии: связь политических предпочтений с чем угодно – пол, возраст, вес. Например, за Путина голосовали толстые

15. Изучение связи качественных признаков: анализ таблиц сопряженности. Внешний вид таблицы сопряженности. Статистические средства анализа таблицы сопряженности: критерий χ2 К.Пирсона. Примеры применения в политологии. (прошлый год)

· Анализ таблиц сопряженности используется для выявления связи между двумя качественными признаками. У каждого из них есть конечное число «значений». (Например, для признака «пол» значения «мужской» и «женский»).

Таблица сопряженности:

A\B  
 
  • Величины n в правом крайнем столбце – суммы значений n по строкам,
  • Величины n нижней строки таблицы – суммы по столбцам
  • В правом нижнем углу - общая сумма всех наблюдений, необходимая для подсчета вероятностей.

· Смысл всего анализа - сопоставить ожидаемые (теоретические) вероятности и наблюдаемые (практические).

· Алгоритм действий

1. Выдвигаем гипотезу о независимости признаков:

2. Вычисляем ожидаемые частоты по формуле

(произведение сумм по строкам и сумм по столбцам; ожидаемые потому что при условии выполнения гипотезы)

3. Вычисляем наблюдаемую вероятность по формуле:

4. Мерой согласия опытных данных с теорией будет критерий хи-квадрат. Число степеней свободы считается по формуле , то есть для матрицы два на два, будет одна степень свободы

5. Считаем величину, по следующей формуле:

6. Полученную сумму (получается, что для каждой клеточки считаем мегадробь, а потом их суммируем) сравниваем с верхней процентной точкой (есть специальные таблицы). Если полученное значение больше, то гипотеза отвергается и у наших признаков есть связь, они зависимы.

· Пример использования: есть ли связь между полом и голосованием за какого-то кандидата (в столбцы загоняем пол – мужской/женский, а кандидатов в строки – Путин, Медведев, Зюганов; в столбики забиваться будет количество людей, проголосовавших за одного из этих парней)

Вопрос №16.

Простая линейная регрессия: постановка задачи, графическая интерпретация. Метод наименьших квадратов и МНК-оценки коэффициентов модели. Коэффициент детерминации. Проверка гипотез о коэффициентах при предикторах и качестве модели. (Бочарова А)

Регрессия. 1862 г. Sir Francis Galton “Regression towards Mediocrity hereditary stature”.

Психометрика, биология, коэффициент корреляции.

i yi xi
y1 x1
y2 x2
y3 x3
n yn xn

Задача парной регрессии – описание изменчивости y с помощью изменчивости x.

Y – отклик, эндогенная переменная.

X – предиктор, регрессор, ковариата, фактор, экзогенная переменная.

Линейная регрессия:

yi = β0 + β1 * xi + εi – уравнение парной линейной регрессии (простой линейной регрессии).

[Например, x – уровень урбанизации, y – поддержка партии КПРФ] по регионам РФ.

Точки – регионы РФ.

Описать взаимосвязь x и y в среднем.

Понять, чему в среднем будет равен y, если x равен конкретному числу.

Задача – построить прямую, которая будет лежать максимально близко к точке, т.е. наименьшие отклонения.

yi = β0 + β1 * xi + εi

|________|

yi с крышкой= β0 + β1 * xi – все лежат на прямой, т.к. это уравнение прямой.

|

Это прогнозный отклик.

Мат. ожидание отклика при должном значении предиктора.

yi с крышкой = E (y|xi)

yi = yi с крышкой + ei

ei – ошибка, остаточный член, случайный член (графически это вертикальная палочка до прямой регрессии).

Наша цель – подобрать такие β0 и β1, чтобыпрямаялежала наиболее близко к точкам.

1821 – 1822гг. – МНК.

yi = β0 + β1 * (xi – x ср.) + εi

Для того чтобы перенести ось в точку среднего значения x из точки (0;0).

Лаплас предложил использовать модули, чтобы отрицательные значения не гасили положительные.

НО: этот метод тогда не стал востребованным, поскольку не умели дифференцировать в точке минимуму = |x|.

Тогда К. Гаусс предложил брать квадраты.

Ψ = ∑ ei2 → min

Ψ = ∑ (yi – β0 – β1 (xi – x ср.))2 → min

β0, β1

Ищем производную и приравниваемее к нулю, т.к. производная это тангенс угла наклона касательной к графику.

Решаем систему уравнений:

Ψβ0 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) = 0

Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0

Решаем уравнения по отдельности. Сначала первое.

Ψβ0 = ∑ (– 2 (yi – β0 – β1(xi – x ср.))) = 0

Сокращаем на минус два.

∑ yi – nβ0 – β1∑ (xi – x ср.) = 0

Учитываем, что β1∑ (xi – x ср.) = 0,

т.к. x ср. = ∑ xi /n,

∑ xi = nx ср.

∑ (xi – x ср.) = ∑ xi – x ср.n = x ср.n – x ср.n = 0

Тогда

∑ yi – nβ0 = 0

  β0 мнк с крышкой = ∑ yi / n = уср.  

МНК-оценка β0 – наша оценка значения β0 с помощью МНК, МНК-оценка первого коэффициента модели.

МНК-оценка β1

Решаем второе уравнение из системы.

Ψβ1 = ∑ (– 2 (yi – β0 – β1 (xi – x ср.))) (xi – x ср.) = 0

Сокращаем на минус два.

∑ ((yi – y ср.) *(xi – x ср.) – β1 (xi – x ср.)2) = 0

∑ ((yi – y ср.) *(xi – x ср.)) – β1 ∑ (xi – x ср.)2 = 0

  β1 мнк с крышкой = ∑ ((yi – y ср.) *(xi – x ср.)) / ∑ (xi – x ср.)2  

β1 мнк с крышкой = R * (∑ (yi – y ср.)2 )0,5 / (∑ (xi – x ср.)2)0,5,

где R – коэффициент корреляции Пирсона.

Рассмотрим на примере.

Допустим,

β0 мнк с крышкой = 25

β1 мнк с крышкой = 0,7

yi = 25 + 0,7xi + exi

yi с крышкой = 25 + 0,7xi

Интерпретации МНК-оценок коэффициентов модели

Интерпретация β1 мнк с крышкой.

С ростом x на единицу y в среднем при прочих равных условиях увеличивается на 0,7.

Интерпретация β0 мнк с крышкой.

Если x = 0, то в среднем при прочих равных условиях y = 25.

Позволяет нам прогнозировать. И показать, насколько у зависим от x.

В классическом подходе мы рассматриваем xi как неслучайную, детерминированную величину, а yi как случайную.

За счет чего? За счет случайности ei.

Предположения Гаусса – Маркова на ei.

  1. ei – случайная величина, у которой E(ei) = 0.

yi = β0 + β1xi + ei,

где β0 + β1xi – условное мат. ожидание. И для этого среднее ei должно быть равно 0!

  1. ei – случайная величина, у которой D(ei) = ς12 = ς22

Предположение о гомоскедастичности остатков.

Гетероскедастичность – с ростом (убыванием) x, разброс остатков растет (убывает).

– с уменьшением x, уменьшается разброс. Есть зависимость остатков от предиктора, это значит, что мы в модели учли не все.

Гомоскедастичность – нет зависимости.

  1. Corr (ei; ej) = 0 для любого i≠j. Предположение об отсутствии АК.
  2. Corr (ei; xi) = 0.

Нет корреляции остатка и предиктора (т.е. с ростом x растет сам остаток или с уменьшением – уменьшается).

И еще одно предположение отдельное (не входит в набор Гаусса-Маркова):

5*. Ei ~ N (0; ς2). Это значит, что все значимое в модели мы учли.

Теорема Гаусса – Маркова.

Если выполняются четыре предположения, то МНК-оценки – наилучшие линейные несмещенные оценки.

Если мы предполагаем случайность величин оценок β0 мнк с крышкой и β1 мнк с крышкой, то они распределены нормально.

β0 мнк с крышкой ~ N (β0; ς2/n)

β1 мнк с крышкой ~ N (β1; ς2/∑ (xi – x ср.)2)

А β0 мнк и β1 мнк сами по себе константы и никакого распределения не имеют.

Насколько хороша модель?

Показателем качества модели является коэффициент детерминации.

[Может, сам x был неверно выбран? Т.е. не уровень урбанизации объясняет голосование за КПРФ, а что-то другое надо было брать].

Коэффициент детерминации – R2 = квадрат коэффициента корреляции Пирсона между x и y.

F – критерий.

H0: достаточно константы (модель плоха).

VS H1: модель лучше константы.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия. И определяем распределение статистики при нулевой гипотезе.

F = R2 / [(1 – R2) / (n – 2)] ~ F (1; n-2),

где n – число наблюдений.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий F: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

Можно ли считать β1 мнк с крышкой отличным от нуля?

yi = β0 + β1 * xi + εi

Формулируем нулевую гипотезу.

H0: β1 мнк с крышкой = 0.

VS H1: β1 мнк с крышкой ≠ 0.

Определяем уровень значимости. Пусть альфа = 0,05.

Вводим статистику критерия, определяем ее распределение при нулевой гипотезе:

t = [β1 мнк с крышкой / с.о. (β1)] ~ t (n – 2) при нулевой гипотезе,

где с.о. – это станд. ошибка, 2 станд. откл.

Определяем доверительную зону (по таблице).

Рассчитываем наблюденное значение статистики.

Принимаем решение.

Критерий е: отвергать H0 в пользу H1 на уровне значимости 0,05, если наблюденное значение статистики F критерия не попало в доверительную зону.

Доп. лекция по регрессии:

Условным мат. ожидание y при условии x называется мат. ожидание y при конкретном значении x.

  E (Y| X=x) = ∑ yi P (X=yi|X=x)

E (Y| X) = β0 + β1xi

Регрессия, по сути, представляет собой модель условного мат. ожидания.

yi = E (Y| X) + ei

(yi – y ср.) = β0* + β1*(xi – x ср.) + ei

Регрессия не выявляет причинно-следственных связей, их задает сам исследователь при постановке задачи.

Разложение вариации.

Качество регрессии определяется тем, в какой мере отклонения y от своего у ср. определяются отклонениями x от своего x ср., т.е. тогда, когда доля вариации y, обусловленная вариацией x, высока.

Вариация y – оценка дисперсии y.

1/n ∑ (yi – y ср.)2 = 1/n ∑ (yi – yi с крышкой)2 + 1/n ∑ (yi с крышкой – y ср.)2

Общ. сумм. кв. Остаточная сумма кв. Объясн. сумм. кв.

TSS RSS ESS

TSS = RSS + ESS

Критерий качества модели (коэф. детерминации).

Коэф. дет. – доля объясн. вар. отклика.

R2 = ESS / TSS = (TSS – RSS) / TSS = 1 – RSS/TSS

RSS = ∑ (ei)2

F-критерий (критерий Фишера).

H0: R2 = 0

VS H1: R2 > 0

Альфа = 0,05.

Статистика критерия:

F = (ESS/1) / [RSS/(n – 2)], что есть частный случай от (ESS/k) / [RSS/(n – k – 1)].

F ~ F (1, n – 2) при нулевой гипотезе.

Наши рекомендации