На основе моделей кривых роста
Задание:для зависимой переменной Y(t) построить линейную модель, параметры модели оценить с помощью метода наименьших квадратов. Оценить качество построенной модели (провести исследования адекватности и точности модели).
Таблица 15 – Варианты заданий
Номер варианта | Значения Y(t) при t | ||||||||
Порядок выполнения работы:
Для отражения тенденции изменения исследуемого показателя воспользуемся простейшей моделью вида:
Yp(t) = a0 + a1 t (t = 1,2,...,N). (4)
Параметры кривой роста оцениваются по методу наименьших квадратов (МНК).
Для линейной модели:
a1 = Σ [(t - tср) (Y(t) - Yср)] / Σ (t - tср)2 ,
(5)
a0 = Yср - a1 tср,
где tср - среднее значение фактора времени; Yср - среднее значение исследуемого показателя.
Примечание:
В Excel математическое ожидание (среднее значение) определяется с помощью функции СРЗНАЧ (значения чисел) в категории Статистические.
Среднее квадратическое отклонение, обозначаемое σ[x], определяет разброс значений случайной величины относительно ее математического ожидания. В Excel эта величина называется стандартное отклонение - СТАНДОТКЛОН (значения чисел) по зависимости:
σ [x] = (6)
Пример:по данным о сданных в эксплуатацию жилых домах в регионе (за счет всех источников финансирования), тыс. кв. м общей площади за девять месяцев, построить линейную модель.
Таблица 16 - Оценка параметров уравнения прямой
t | Факт Y(t) | (t - tср) | (t - tср)2 | Yt - Ycp | (t - tср) (Yt - Ycp) | Расчет Yp(t) | Отклонение E(t) |
-4 | -31 | 27,2 | -2,2 | ||||
-3 | -22 | 34,4 | -0,4 | ||||
-2 | -14 | 41,6 | 0,4 | ||||
-1 | -5 | 48,8 | 2,2 | ||||
-1 | 56,0 | -1,0 | |||||
63,2 | 3,8 | ||||||
70,4 | 2,6 | ||||||
77,6 | -1,6 | ||||||
84,8 | -3,8 | ||||||
Ycp = 56; tcp = 5
a1 = 7,2
a0 = 20,0
Таким образом линейная модель имеет вид:
Yp(t) = 20,0 + 7,2 t ( t = 1,2,...,9). (7)
Отклонения расчетных значений от фактических наблюдений вычисляются как:
E(t) = Y(t) - Yp(t) , t = 1,2,...,9. (8)
Оценить качество модели, исследовав ее адекватность и точность.
Качество модели определяется ее адекватностью исследуемому процессу, которая характеризуется выполнением определенных статистических свойств, и точностью, т.е. степенью близости к фактическим данным. Модель считается хорошей со статистической точки зрения, если она адекватна и достаточно точна.
Модель является адекватной, если ряд остатков обладает свойствами случайности, независимости последовательных уровней, нормальности распределения и равенства нулю средней ошибки.
Результаты исследования адекватности отражены в таблице 17.
Таблица 17 - Оценка адекватности модели
t | Отклонение E(t) | Точки поворота | E(t)2 | E(t)-E(t+1) | [E(t)-E(t+1)] | E(t)* E(t+1) | [E(t)]:Y(t)*100 |
-2,2 | - | 4,84 | -1,8 | 3,24 | 0,88 | 8,8 | |
-0,4 | 0,16 | -0,8 | 0,64 | -0,16 | 1,2 | ||
0,4 | 0,16 | -1,8 | 3,24 | 0,88 | 1,0 | ||
2,2 | 4,84 | 3,2 | 10,24 | -2,20 | 4,3 | ||
-1,0 | 1,00 | -4,8 | 23,04 | -3,80 | 1,8 | ||
3,8 | 14,44 | 1,2 | 1,44 | 9,88 | 5,7 | ||
2,6 | 6,76 | 4,2 | 17,64 | -4,16 | 3,6 | ||
-1,6 | 2,56 | 2,2 | 4,84 | 6,08 | 2,1 | ||
-3,8 | - | 14,44 | - | - | - | 4,7 | |
(Σ) | 49,2 | - | 64,32 | 7,40 | 33,2 |
Проверку случайностиуровней ряда остатков проведем на основе критерия поворотных точек. В соответствии с ним каждый уровень ряда сравнивается с двумя рядом стоящими. Если он больше или меньше их, то эта точка считается поворотной. Далее подсчитывается сумма поворотных точек “р”. В случайном ряду чисел должно выполняться строгое неравенство:
р > [2 (N - 2) /3 - 2 ]. (9)
Квадратные скобки здесь означают, что от результата вычислений берется целая часть числа (не путать с процедурой округления!). При N=9 в правой части неравенства имеем: [2,4] = 2. Следовательно, свойство случайности выполняется.
При проверке независимости(отсутствия автокорреляции) определяется отсутствие в ряду остатков систематической составляющей. Это проверяется с помощью d-критерия Дарбина - Уотсона, в соответствии с которым определяется коэффициент d:
d = . (10)
Вычисленная величина этого критерия сравнивается с двумя табличными уровнями (нижним d1 и верхним d2).
Если 0 < d < d1 - то уровни остатков сильно автокоррелированы, а модель неадеквата;
d2 < d < 2 - то уровни ряда являются независимыми;
d > 2 - то это свидетельствует об отрицательной корреляции и перед входом в таблицу необходимо выполнить преобразование: d’ = 4 - d;
d1 < d < d2 - то однозначного вывода сделать нельзя и необходимо применение других критериев, например, первого коэффициента автокорреляции r(1), который вычисляется по формуле:
|
Если ε r(1) ε > r (табл.) ( при N < 15r (табл) = 0,36), то присутствие в остаточном ряду существенной автокорреляции подтверждается.
В нашем примере d = 1,31.
Для линейной модели при 9-ти наблюдениях можно взять в качестве критических табличных уровней величины d1 = 1,08и d2 = 1,36.
Так как рассчитанная величина попала в зону между d1 , d2 , то однозначного вывода сделать нельзя и необходимо применение других критериев.
Воспользуемся первым коэффициентом автокорреляции:
r(1) = 7,40 / 25,56 = 0,29.
Следовательно, по этому критерию также подтверждается выполнение свойства независимости уровней остаточной компоненты.
Соответствие ряда остатков нормальному закону распределения определим при помощи RS- критерия:
RS = (Emax - Emin) / S, (12)
где Emax - максимальный уровень ряда остатков; Emin - минимальный уровень ряда остатков; S - среднее квадратическое отклонение.
Если значение этого критерия попадает между табулированными границами с заданным уровнем вероятности, то гипотеза о нормальном распределении ряда остатков принимается. Для N= 10 и 5%-го уровня значимости этот интервал равен (2,7 - 3,7).
В нашем примере: Emax = 3,8 и Emin = -3,8.
S = (13)
RS = 4,17
Расчетное значение не попадает в интервал. Следовательно, свойство нормальности распределения не выполняется, что не позволяет строить доверительный интервал прогноза.
Для характеристики точностивоспользуемся среднеквадратическим отклонением и средней относительной ошибкой:
Еотн = 1/ N (14)
Ее величина менее 5% свидетельствует об удовлетворительном уровне точности модели (ошибка в 10 и более процентов является очень большой).
Точечный прогноз на k шагов вперед получается путем подстановки в модель параметра t= N+1, ..., N+k. При прогнозировании на два шага имеем:
Yp(10) = 20,0 + 7,2 10 = 92,0 (k=1, t = 10) (15)
Yp(11) = 20,0 + 7,2 *11 = 99,2 (k=2, t = 11) (16)
Доверительный интервал прогноза будет иметь следующие границы:
Верхняя граница прогноза = Yp(N+k) + U(k).
Нижняя граница прогноза = Yp(N+k) - U(k).
Величина U(k) для линейной модели имеет вид:
U(k) = S Kp . (17)
Коэффициент Kp является табличным значением t-статистики Стьюдента. Если исследователь задает уровень вероятности попадания прогнозируемой величины внутрь доверительного интервала, равный 70%, то Kp = 1,05.
U(1) = 1,82 1,05 . (18)
U(2) = 1,82 *1,05 . (19)
Таблица 18 - Прогнозные оценки по линейной модели
Время t | Шаг k | Прогноз Yp(t) | Нижняя граница | Верхняя граница |
92,0 | 89,6 | 94,4 | ||
99,2 | 96,7 | 101,7 |
Если построенная модель адекватна, то с выбранной пользователем вероятностью можно утверждать, что при сохранении сложившихся закономерностей развития прогнозируемая величина попадет в интервал, образованный нижней и верхней границами. В нашем случае такое утверждение не совсем правомерно из-за неполной адекватности модели.