Построение уравнения модели линейной регрессии (случай сгруппированных данных)

Цель работы: овладеть способами построения моделей линейной регрессии, и выработать умения и навыки оценки надежности коэффициента корреляции, уравнения регрессии и его коэффициентов.

Задача. Фонтанную скважину исследовали на приток нефти. При различных режимах работы с замерами забойных давлений глубинным манометром. Данные замеров приведены в корреляционной табл. 2.12.

Таблица 2.12

X Y
             
             
             
             
             
             
             
             
             

Содержание работы: по опытным данным, представленным в корреляционной таблице необходимо:

1) Построить корреляционное поле и выбрать общий вид регрессии;

2) Записать уравнение линейной регрессии y на x используя:

а) метод наименьших квадратов

б) коэффициент корреляции .

Выбрать наиболее подходящее уравнение, и математически обосновать данный выбор;

3) Найти выборочный коэффициент корреляции и оценить тесноту связи между признаками X и Y ;

4) Проверить на адекватность уравнение регрессии;

5) Проверить надежность уравнения регрессии и его коэффициентов;

6) Изобразить графически уравнение регрессии.

Выполнение работы

Пусть признак X характеризует изменение забойного давления, а признак Yизменение объема притока нефти. Используя данные таблицы, строим корреляционное поле.

Рис. 2.6. Корреляционное поле

Проведя линию тренда (черная линия), видим, что число точек, расположенных над и под ней, практически одинаково, причем расстояния этих точек до линии тренда одинаковые. Это дает основание предположить наличие линейной зависимости между признаками Xи Y. Для подтверждения этой гипотезы перейдем от данного распределения к новому, найдя для каждого значения признак X условное среднее признака Y по формуле:

.

При , .

При , .

При ,

При ,

При ,

При ,

При ,

При , .

При , .

На корреляционном поле строим точки с координатами (рис. 2.7.).

Рис. 2.7. Корреляционное поле

Из рис. 2.7. видно, что отклонения точек от построенной прямой незначительны. Следовательно, связь между признаками и может носить линейный характер. Составим уравнения линий регрессий y на x по методу наименьших квадратов и через коэффициент линейной корреляции .

Применим метод наименьших квадратов к нахождению коэффициентов и уравнения линейной регрессии . Решаем систему нормальных уравнений (ф.1.59, 1.60):

Для нахождения сумм, входящих в систему, составляем табл. 2.13.

Таблица 2.13

x y ny nyy
             
             
             
             
             
             
             
             
             
nx
nxx  
nxx2  
nxyxy  

Полученная из табл. 2.13 система

имеет решение (а0, а1) = (-2,7645; 0,108). Тогда уравнение линейной регрессии запишется в виде:

Найдем уравнение линейной регрессии y на x по формуле, используя коэффициент линейной корреляции:

.

Так как данные выборки для признаков X и Y заданы в виде корреляционной таблицы и объем выборки , то для нахождения величин, входящих в уравнение регрессии, переходим к вспомогательному распределению с условными вариантами и . По корреляционной табл. 2.12 находим наибольшую частоту совместного появления признаков X и Y: . Тогда , , , . Составляем корреляционную табл. 2.14 в условных вариантах.

Таблица 2.14

u v -4 -3 -2 -1 nv
-4              
-3              
-2              
-1              
             
             
             
             
             
nu


По таблице находим:

,

,

,

.

Тогда

,

.

Для нахождения суммы составляем табл. 2.15.

Таблица 2.15

u v -4 -3 -2 -1 nv
-4              
-3              
-2              
-1              
               
               
             
             
             
nx

Тогда, согласно формулам вычисления коэффициента корреляции находим:

,

,

,

,

.

Отсюда следуют уравнение линии регрессии y на х:

,

или

,

и уравнение линии регрессии x на y:

,

или

.

Проверяем тесноту связи между признаками X и Y. Для этого, используя критерий Стьюдента, вычисляем статистику:

.

При уровне значимости и числе степеней свободы находим по таблице распределения Стьюдента . Так как , то выборочный коэффициент линейной корреляции значимо отличается от нуля. Следовательно, можно считать, что изменение притока нефти и изменение забойного давления связаны линейной корреляционной зависимостью. Дадим интерпретацию, например, уравнению регрессии y на x. Из уравнения регрессии видно, что при изменении забойного давления, например, на 10 атм на забое, изменение притока составит . Это результат воздействия отклонений при изменении забойного давления. Фактически изменение притока может составить , что является результатом воздействия неучтенных в модели факторов, не зависящих от давления. Проверим полученное уравнение регрессии y на x на адекватность по критерию Фишера-Снедекора. Вычислим статистику:

.

где – остаточная сумма квадратов, характеризующая влияние неучтенных в модели факторов, определяемая по формуле:

,

где – сумма квадратов отклонений значений от средней , – сумма квадратов отклонений условных средних от средней .

Составим расчетные табл. 2.16 и 2.17. Находим . По условию , . Тогда

.

Таблица 2.16
-4,16 17,3056
-3,16 9,9856
-2,16 4,6656
-1,16 1,3456
-0,16 0,0256
0,84 0,7056
1,84 3,3856
2,84 8,0656
3,84 14,7456
-4,16 17,3056
   
Таблица 2.17
10,543 -4,617 21,316689
11,683 -3,477 12,089529
12,823 -2,337 5,461569
13,963 -1,197 1,432809
15,103 -0,057 0,003249
16,243 1,083 1,172889
17,383 2,223 4,941729
18,523 3,363 11,309769
19,663 4,503 20,277009
   

При уровне значимости и числах степеней свободы , по таблице критических точек распределения Фишера-Снедекора находим . Так как , то модель линейной регрессии согласуется с опытными данными.

Лабораторная работа № 4.

Наши рекомендации