Оценка регрессионных характеристик
Регрессией случайной величины Y на x называется условное математическое ожидание случайной величины Y при условии, что X = x. Регрессия Y на x устанавливает зависимость среднего значения величины Y от величины X. Если случайные величины X и Y независимы, то
Необходимо на основании имеющейся выборки выявить характер связи между величинами X, Y, т.е. получить оценку условного математического ожидания - оценку регрессии Y на х. Данная оценка представляет собой некоторую функцию:
,
где – неизвестные параметры.
Для определения типа зависимости строится диаграмма рассеивания или корреляционное поле, которую можно получить, если результаты опытов изобразить в виде точек на плоскости в декартовой системе координат. На основании анализа корреляционного поля выбираем тип линии регрессии . Значения параметров для выбранного типа определяются так, чтобы функция наилучшим образом соответствовал бы неизвестной регрессии , т.е. ее значения должны быть приблизительно равны средним арифметическим значений Y для каждого значения Х = х.
Если величины X и Y распределены по нормальному закону, то регрессия является линейной:
Оценки параметров для линейной регрессии определяются по формулам
(11.8)
где – оценки математического ожидания величин X и Y;
– оценка дисперсии величины X;
– оценка корреляционного момента величин X и Y.
Для визуальной проверки правильности вычисления величин необходимо построить диаграмму рассеивания и график . Если оценки параметров рассчитаны без грубых ошибок, то сумма квадратов отклонений всех значений (точек) двухмерной выборки от прямой должна быть минимально возможной.
Примеры
Пример 11.1. По выборке двухмерной случайной величины, которая содержит 50 пар значений (x,y) (первые два столбца таб. 11.1):
– вычислить точечную оценку коэффициента корреляции;
– вычислить интервальную оценку коэффициента корреляции (γ= 0,95);
– проверить гипотезу об отсутствии корреляционной зависимости (a = 0,05);
– вычислить оценки параметров и линии регрессии ;
– построить диаграмму рассеивания и линию регрессии.
Решение. Для решения задачи удобно воспользоваться приведенной ниже таблицей. Значения в 3-ем, 4-ом и 5-ом столбцах вычисляются по формулам, приведенными в первой строке таблицы. В последней строке таблицы приведены средние арифметические значений каждого из столбцов. Таким образом получены:
- оценки математических ожиданий по каждой переменной (см. (11.1)):
5,08 (см. столбец 2),
5,21 (см. столбец 3);
- оценки начальных моментов второго порядка по каждой переменной:
34,55755 (см. столбец 4),
36,09954 (см. столбец 5);
- оценка смешанного начального момента второго порядка:
27,98996 (см. столбец 6).
Таблица 11.1
№ | x | y | x2 | y2 | x*y |
8,974883 | 9,784539 | 80,54853 | 95,73721 | 87,8151 | |
1,271096 | 5,058748 | 1,615685 | 25,59093 | 6,430154 | |
3,967406 | 6,383251 | 15,74031 | 40,7459 | 25,32495 | |
6,841945 | 1,953795 | 46,81221 | 3,817315 | 13,36776 | |
3,341777 | 5,445723 | 11,16747 | 29,6559 | 18,19839 | |
6,009095 | 1,657155 | 36,10922 | 2,746163 | 9,958001 | |
3,806879 | 1,750542 | 14,49233 | 3,064396 | 6,6641 | |
4,714805 | 0,509049 | 22,22938 | 0,259131 | 2,400065 | |
8,8464 | 2,334056 | 78,2588 | 5,447816 | 20,64799 | |
4,395581 | 1,568651 | 19,32113 | 2,460667 | 6,895134 | |
2,179632 | 2,34901 | 4,750795 | 5,517846 | 5,119977 | |
5,651112 | 9,857173 | 31,93507 | 97,16387 | 55,70399 | |
3,278298 | 4,774926 | 10,74724 | 22,79992 | 15,65363 | |
0,369579 | 2,23365 | 0,136589 | 4,989191 | 0,82551 | |
8,991363 | 1,784112 | 80,84461 | 3,183056 | 16,0416 | |
8,873562 | 2,211371 | 78,7401 | 4,890163 | 19,62274 | |
0,347606 | 0,58504 | 0,12083 | 0,342272 | 0,203363 | |
3,643605 | 5,025178 | 13,27586 | 25,25241 | 18,30976 | |
8,600116 | 1,547594 | 73,96199 | 2,395046 | 13,30948 | |
6,193731 | 3,268838 | 38,36231 | 10,6853 | 20,2463 | |
9,565111 | 1,426435 | 91,49135 | 2,034717 | 13,64401 | |
8,646809 | 8,410901 | 74,76731 | 70,74326 | 72,72746 | |
0,328074 | 9,496139 | 0,107633 | 90,17666 | 3,115436 | |
6,583453 | 8,498489 | 43,34185 | 72,22432 | 55,9494 | |
7,376934 | 9,40611 | 54,41916 | 88,4749 | 69,38825 | |
4,722129 | 7,369304 | 22,2985 | 54,30665 | 34,79881 | |
0,216987 | 4,574725 | 0,047083 | 20,9281 | 0,992654 | |
1,993774 | 5,678579 | 3,975136 | 32,24626 | 11,3218 | |
9,5468 | 9,927671 | 91,14139 | 98,55865 | 94,77749 | |
7,572253 | 9,053316 | 57,33901 | 81,96253 | 68,55399 | |
4,035768 | 7,796869 | 16,28742 | 60,79116 | 31,46635 | |
4,425794 | 3,689077 | 19,58765 | 13,60929 | 16,3271 | |
4,788659 | 0,793786 | 22,93126 | 0,630097 | 3,801173 | |
1,951964 | 4,702902 | 3,810163 | 22,11729 | 9,179895 | |
1,539354 | 9,467757 | 2,36961 | 89,63843 | 14,57423 | |
4,251534 | 7,547838 | 18,07554 | 56,96985 | 32,08989 | |
9,650868 | 7,558214 | 93,13926 | 57,1266 | 72,94333 | |
5,616932 | 7,811213 | 31,54992 | 61,01504 | 43,87505 | |
1,975768 | 2,663045 | 3,90366 | 7,091809 | 5,26156 | |
9,783319 | 9,700919 | 95,71332 | 94,10782 | 94,90718 | |
4,645833 | 5,125278 | 21,58376 | 26,26848 | 23,81119 | |
4,516434 | 8,537248 | 20,39818 | 72,8846 | 38,55792 | |
0,844447 | 2,955412 | 0,713091 | 8,734463 | 2,49569 | |
8,093509 | 7,561266 | 65,50488 | 57,17274 | 61,19717 | |
1,636402 | 5,603198 | 2,677813 | 31,39583 | 9,169088 | |
9,240089 | 4,370251 | 85,37925 | 19,09909 | 40,3815 | |
7,904599 | 4,388867 | 62,48269 | 19,26215 | 34,69223 | |
7,087313 | 7,297891 | 50,23001 | 53,25922 | 51,72244 | |
2,466811 | 2,405164 | 6,085157 | 5,784813 | 5,933085 | |
2,71218 | 7,043977 | 7,35592 | 49,61761 | 19,10453 | |
Средние | 5,080367 | 5,218885 | 34,55755 | 36,09954 | 27,98996 |
На основе этих данных легко вычислить оценки дисперсий (см. (11.2)):
8,74746;
8,86278
и оценку корреляционного момента (см. (11.3))
1,476106
Вычислим точечную оценку коэффициент корреляции по формуле (11.4):
0,168.
Вычислим интервальную оценку коэффициента корреляции с надежностью γ = 0,95 по формуле (11.5). Для этого в таблице функции Лапласа (см. Приложение 2) найдем значение, равное и определим значение аргумента, ему соответствующее: (строка 1,9, столбец 6). Вычислим вспомогательные значения a, b:
Таким образом, доверительный интервал для коэффициента корреляции имеет вид
Проверим гипотезу об отсутствии корреляционной зависимости:
Так как объем выборки велик (n ≥ 50 ), то вычислим значение критерия по формуле (11.7):
.
Определим значение Zα из таблицы функции Лапласа (см. Приложение 2):
Так как , то гипотеза H0 принимается, т.е. величины X и Y некоррелированны.
Вычислим оценки параметров и линии регрессии по формуле (11.8):
Уравнение линии регрессии имеет вид:
Построим диаграмму рассеивания, изобразив значения исходной двумерной выборки в виде точек с координатами на плоскости в декартовой системе координат, и линию регрессии (рис. 11.1).
Рис. 11.1 Диаграмма рассеивания и линия регрессии