Временное прогнозирование.
Прогнозирование на ВДР (временных динамических рядах), в которых наряду с общей тенденцией изменения переменных во времени, учитывается и «сезонная» составляющая, весьма успешно применяется и называется АРПСС – авторегрессии и проинтегрированного скользящего среднего. Он реализован в виде соответствующей процедуры ARIMA в ППП Statistica 6.0. Вводится три типа параметров модели:
· параметры авторегрессии (p),
· порядок разности (d),
· параметры скользящего среднего (q).
В обозначениях Бокса и Дженкинса модель записывается как АРПСС (p, d, q). Например, модель (0,1,1) содержит 0 (ноль) параметров авторегрессии (p) и один параметр скользящего среднего (q), который вычисляется для ряда после взятия разности с лагом 1(d).
Мультипликативная сезонная АРПСС представляет естественное развитие и обобщение обычной модели АРПСС на ВДР, в которых имеется периодическая сезонная компонента. В дополнении к несезонным параметрам – общей тенденции изменения ВДР, в модель вводятся сезонные параметры для определения лага (устанавливаемого на этапе идентификации модели). Аналогично параметрам простой модели АРПСС, эти параметры называются:
· сезонная авторегрессия (ps),
· сезонная разность (ds),
· сезонное скользящее среднее (qs).
Таким образом, полная сезонная АРПСС может быть записана как АРПСС (p, d, q)(ps, ds, qs). Например, модель (0, 1, 1)(0, 1, 1) включает 0 регулярных параметров авторегрессии, 1 регулярный параметр скользящего среднего и один параметр сезонного скользящего среднего. Сезонный лаг, используемый для сезонных параметров, определяется на этапе анализа характеристик ИСД.
Результаты временного прогнозирования откликов представлены на рис. 9.-рис.11.
Рис.9
Рис.10
Рис.11
Корреляционный анализ.
Корреляция – это соотношение (взаимозависимость) случайных величин между собой. В качестве количественной меры оценки взаимосвязи между случайными величинами используется коэффициент линейной корреляции, вычисляемый для случайных величин х и у по n экспериментальным данным по следующей формуле.
.
; ,
где: n- количество учитываемых интервалов времени;
m- количество изменяемых производственно-экономических факторов ;
r- количество факторов внешней среды ;
k- количество результативных показателей эффективности yi(yj);
- значение i-ой (j-ой) переменной на g-том учитываемом интервале времени.
Критическое значение коэффициента линейной корреляции:
; ; (7.2.)
где – критическое значение критерия Стьюдента для рекомендуемого уровня значимости . Вычислив это значение, получим rкрит=0,387461.
Коэффициенты линейной корреляции принимают значения от -1 до +1. Значение, близкое к +1, указывает на наличие сильной положительной, близкой к линейной, зависимости между переменными.Значение, близкое к -1, указывает на наличие сильной отрицательной, близкой к линейной, зависимости между переменными. Значение, близкое к 0, указывает на независимость переменных друг от друга.
Коэффициенты линейной корреляции между факторами хi; и результативными показателями уj; приведены на рис.12.
Рис.12
Кластерный анализ
Таблицы для кластерного анализа приведены в Приложении 1.
Кластерный анализ предназначен для выделения совокупностей объектов с однородными показателями (признаками), что позволяет строить более простые математические модели для каждого кластера, чем для всей совокупности объектов в целом.
Поставим задачу выделения кластеров по показателям расстояния между признаками в группируемых объектах исследования (ОИ) с выполнением следующих условий.
гдеk– количество объектов;
- расстояние между i-м и j-м объектами;
- символ Кронекера, принимающий значение 1, если i-ый и j-ый объекты входят в один и тот же кластер; и значение 0, если не входят.
Признаки представляются либо в натурных единицах измерения, либо в стандартизированной форме, в которой их средние значения равны нулю, а стандартные отклонения равны единице. В стандартных процедурах для проведения кластерного анализа, как правило задается либо количество кластеров, либо пороговое значение для условия (1).
Условие (1) обеспечивает минимум расстояний между признаками объектов, вошедших в один и тот же кластер; а максимум этих расстояний между объектами, вошедшими в разные кластеры.
Технология проведения кластерного анализа включает в себя следующие этапы:
1.Стандартизация исходных статистических данных (выполняется в случаях, когда учитываемые признаки значительно отличаются по масштабам единиц измерения).
2.Вычисление расстояний между признаками объектов и суммарного расстояния между объектами по всем признакам и составление матрицы расстояний между объектами.
3.Поиск наименьшего расстояния между объектами и объединение двух объектов с наименьшим расстоянием между ними в один кластер.
4.Вычисление расстояний между объектами и формирующимися кластерами и преобразование матрицы расстояний между ними. Переход к пункту 3 и выполнение пунктов 3 и 4 до тех пор, пока не будут сгруппированы все объекты и сформированные кластеры в один общий кластер, после чего переход к пункту 5.
5.Выдача перечней объектов по выделенным кластерам и соответствующей дендрограммы с указанием расстояний между сформированными кластерами.
Кластерный анализ при выполнении РГР проводился с помощью пакета прикладной программы Statistiсa6.0 методомk-средних
Результатыкластеризации:
Numberofvariables: 16
Number of cases: 27
K-means clustering of cases
Missing data were casewise deleted
Number of clusters: 5
Solution was obtained after 3 iterations
Средние значения для каждого кластера:
Рис.13
Евклидовы расстояния и квадраты евклидовых расстояний между кластерами:
Рис.14
Результаты дисперсионного анализа:
Рис.15
Рис. 16
Далее, на рисунках 17-21 приведем таблицы описательных статистик для каждого из 5 кластеров.
Рис.17
Рис.18
Рис.19
Рис.20
Рис.21
Элементы 1-го кластера и расстояния:
Рис.22
Элементы 2-го кластера и расстояния:
Рис.23
Элементы 3-го кластера и расстояния:
Рис.24
Элементы 4-го кластера и расстояния:
Рис.25
Элементы 5-го кластера и расстояния:
Рис.26
Таблица 7 – Полученные кластеры
Кластер | |||||
2002 (1 кв.) | 2001 (4 кв.) | 2000 (1 кв.) | 2004 (4 кв.) | 1999(1 кв.) | |
2003 (3 кв.) | 2002 (2 кв.) | 2000 (2 кв.) | 1999 (2 кв.) | ||
2004 (1 кв.) | 2002 (3 кв.) | 2000 (3 кв.) | 1999 (3 кв.) | ||
2004 (2 кв.) | 2002 (4 кв.) | 2000 (4 кв.) | 1999 (4 кв.) | ||
2004 (3 кв.) | 2003 (1 кв.) | 2001 (1 кв.) | |||
2005 (1 кв.) | 2003 (2 кв.) | 2001 (2 кв.) | |||
2005 (2 кв.) | 2003 (4 кв.) | 2001 (3 кв.) | |||
2005 (3 кв.) |
Факторный анализ
Таблицы для кластерного анализа приведены в Приложении 1.
Факторный анализ, как правило, используется для сокращения количества исходных факторов и упрощения за счёт этого математической модели моделируемой системы. Факторный анализ – раздел многомерного статистического анализа, объединяющий методы оценки размерности множества наблюдаемых переменных посредством исследования структуры ковариационных или корреляционных матриц. Основное предположение факторного анализа заключается в том, что корреляционные связи между большим числом наблюдаемых переменных факторов определяется существованием меньшего числа гипотетических ненаблюдаемых переменных или факторов. Общей моделью факторного анализа служит следующая линейная математическая зависимость:
(2)
где Fj – общие факторы,
Ui – характерные факторы,
ei – случайные ошибки,
Количество общих факторов R<V рекомендуется выбирать так, чтобы они объясняли не менее 90% изменчивости, вносимой исходными факторами задано, случайные величины ei независимы между собой и с величинами Fj и Ui. Постоянные коэффициенты aij – называются факторными нагрузками (нагрузка i–той переменной на j–й фактор). Значения aij, bi, считаются неизвестными параметрами, подлежащими оценке.
Главными целями факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация переменных. Поэтому факторный анализ используется или как метод сокращения данных, или как метод классификации.
Для проведения факторного анализа предлагается технология, включающая в себя следующие этапы:
1. Сбор исходных данных и подготовка корреляционной (ковариационной) матрицы.
2. Выделение первоначальных (ортогональных) факторов.
3. Вращение факторной структуры и содержательная интерпретация результатов факторного анализа.
Выделение первоначальных факторов – это, прежде всего, выбор метода факторного анализа. Наиболее используемыми методами являются:
1. Метод главных компонент, в котором поиск решения идёт в направлении вычисления собственных векторов (факторов), а собственные значения характеризуют дисперсию (разброс) по факторам.
2. Метод главных факторов, под которым понимают применение метода главных компонент к редуцированной корреляционной матрице. Редуцированной корреляционной матрицей называют матрицу парных коэффициентов корреляции, в которой на главной диагонали вместо единиц указаны значения оценок общностей.
Основное различие двух моделей факторного анализа состоит в том, что в анализе главных компонент предполагается, что должна быть использована вся изменчивость переменных, тогда как в анализе главных факторов используется только изменчивость переменной, общая и для других переменных. В большинстве случаев эти два метода приводят к весьма близким результатам. Однако метод анализа главных компонент часто более предпочтителен как метод сокращения данных, в то время как метод анализа главных факторов лучше применять с целью определения структуры данных.
Вращение факторной структуры – это “поворот” факторов в пространстве для достижения простой структуры, в которой каждая переменная характеризуется преобладающим влиянием какого-то одного фактора.
Выделяется два класса вращения: ортогональное и косоугольное. К ортогональным методам относится метод “Варимакс” (Kaiser, 1958), максимизирующий дисперсию факторных нагрузок по каждому фактору в отдельности, что приводит к увеличению больших нагрузок и к уменьшению маленьких.
При интерпретации факторов можно начать работу с выделения наибольших факторных нагрузок исходных факторов в конкретном общем факторе. Для выделения можно использовать приёмы, аналогичные выделению значимых коэффициентов корреляции, то есть оценивать факторные нагрузки, сравнивая их по величине с критическими значениями коэффициентов корреляции. Для подбора названий общих факторов нет формализованных приёмов, и для этого можно довериться интуиции.
В РГР количество исходных факторов сравнительно невелико и поэтому факторный анализ требуется провести по совокупностям откликов, выделив по ним общие отклики и классифицировать их.
Результатыфакторногоанализа:
Numberofvariables: 16
Method: Principal components
log(10) determinant of correlation matrix: -15,455
Number of factors extracted: 2
Eigenvalues: 8,34129 2,38667
Графические результаты факторного анализа:
Рис.27
Численные нагрузки факторов:
Рис.28
Объяснимая дисперсия (собственные значения):
Рис.29
Общности:
Рис.30
Воспроизведенная корреляционная матрица:
Рис.31
Остаточная корреляционная матрица:
Рис.32
График собственных значений, где по оси ординат отложены номера собственных значений, по оси абсцисс – соответствующие численные значения:
Рис.33
Регрессионный анализ.
Совокупность уравнений регрессии:
(3)
где: yj – j-й результативный показатель эффективности (отклик);
К – общее количество результативных показателей эффективности;
хi – i-й фактор, влияющий на отклики;
М – общее количество факторов.
Основной показатель качества представления экспериментальных данных.в т.ч. результатов имитационного моделирования, уравнениями регрессии – величина стандартной ошибки, вычисляемой по формуле:
(4)
Кроме этого показателя рекомендуется использовать дополнительные показатели, вводимые на основе дисперсионного анализа.
Дисперсионный анализ основан на разложении общей изменчивости результативного показателя (общей дисперсии) на объяснённую дисперсию, которую удалось объяснить изменением переменных, вошедших в уравнение регрессии, и остаточную регрессию, которую объяснить не удалось. Для проведения дисперсионного анализа вычисляются.
1. Объяснённая сумма квадратов:
(5)
с количеством степеней свободы:
среднее значение суммы квадратов:
(6)
2. Остаточная сумма квадратов:
(7)
с количеством степеней свободы:
среднее значение суммы квадратов:
(8)
3. Общая сумма квадратов:
(9)
с количеством степеней свободы:
Должно выполняться равенство:
4. Критерий Фишера
(10)
с количеством степеней свободы:
5. Коэффициент множественной детерминации, который показывает, какую часть изменения результативного показателя удалось объяснить изменением переменных, вошедших в уравнение регрессии.
(11)
с количеством степеней свободы:
По статистическим таблицам для критерия Фишера и коэффициента множественной детерминации с вышеприведёнными количествами степеней свободы и рекомендуемого уровня значимости α=0.05 находят их критические значения. Если вычисленные значения критерия Фишера и коэффициента множественной детерминации не меньше критических значений, то результаты аппроксимации признаются удовлетворительными.
6. Ввиду того, что коэффициенты уравнения регрессии вычисляются по случайным величинам, то они и сами являются случайными величинами. Поэтому можно вычислить их стандартные ошибки и по ним определить критерий Стьюдента и уровни их значимости.
(12)
где
- диагональный элемент матрицы
(13)
чем больше величина , тем лучше.
По статистическим таблицам для вычисления , для степеней свободы, для рекомендованного уровня значимости вычисляем критическое значение критерия Стьюдента . Если вычисленное значение превышает критическое, то считаем, что уровень значимости не превышает рекомендуемого значения , и поэтому вычисленные значения коэффициентов приемлемы для отображения экспериментальных данных. В противном случае рекомендуется подобрать другие значения переменных в аппроксимирующее уравнение регрессии, в виде каких-либо функций от аргументов.
В качественном плане знак плюс говорит о положительном влиянии фактора, то есть увеличение фактора приводит к увеличению результативного показателя, а знак минус указывает на отрицательное влияние фактора, то есть при увеличении фактора уменьшается результативный показатель.
Результаты регрессионного анализа переменной :
Multiple Regression Results (Step 4)
Dependent: Y1 Multiple R = ,99999850 F = 1747657,
R?= ,99999700df = 4,21
No. of cases: 26adjusted R?= ,99999642 p = 0,000000
Standard error of estimate: ,008864053
Intercept: 44,806666667Std.Error: ,1103467 t( 21) = 406,05 p = 0,0000
X4 b*=2,57 X1 b*=-1,6 X1*X2 b*=,006
X2 b*=-,00
Таблица на рисунке 34 показывает стандартизованные регрессионные коэффициенты (Бета) и обычные регрессионные коэффициенты (B). Бета-коэффициенты - это коэффициенты, которые получатся, если предварительно стандартизовать все переменные к среднему 0 и стандартному отклонению 1. Таким образом, величина этих Бета-коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в предсказание зависимой переменной. Как видно из таблицы результатов, переменные Х1(среднее время решения на ПК1) и Х4=Х12являются наиболее важными предикторами для Y1 (коэффициент использования ПК1), потому как являются статистически значимыми (так как р-значения для каждого из них меньше заданной величины 0,05).
Регрессионный коэффициент для Х1отрицателен; т.е. чем меньше среднее время решения на ПК1, тем большекоэффициент использования ПК1.
Рис.34
Результаты анализа остатков переменной представлены на рис.35.
Рис.35
Множественная линейная регрессия предполагает линейную связь между переменными в уравнении, и нормальным распределением остатков. Если эти предположения нарушаются, окончательные заключения могут оказаться неточными. Нормальный вероятностный график остатков (рис. 36) наглядно показывает наличие или отсутствие больших отклонений от высказанных предположений. В данном случае мы не наблюдаем большого отклонения остатков от прямой линии.
Нормальный вероятностный график остатков для Y1
Рис.36
В итоге уравнение регрессии принимает следующий вид:
Результаты регрессионного анализа переменной :
Multiple Regression Results (Step 6)
Dependent: Y2 Multiple R = ,99999827 F = 914817,8
R?= ,99999654df = 6,19
No. of cases: 26adjusted R?= ,99999545 p = 0,000000
Standard error of estimate: ,013563602
Intercept: -1,941060606Std.Error: ,1695889 t( 19) = -11,45 p = ,0000
X2 b*=1,22 X1*X2 b*=-,37 X4 b*=-,14
X1 b*=,121 X6 b*=-,01 X3 b*=,005
Как видно из таблицы результатов на рис. 37, переменные Х1(среднее время решения на ПК1), Х2 (среднее время решения на ПК2), а также Х1*Х2 и Х4=Х12являются наиболее важными предикторами для Y2 (коэффициент использования ПК3). Интересно отметить, что регрессионные коэффициенты для Х1*Х2 и Х4 отрицательны; т.е. чем меньше среднее время решения на ПК1 и ПК3, тем большекоэффициент использования ПК3.
Рис.37
Результаты анализа остатков переменной представлены на рис.38.
Рис.38
Нормальный вероятностный график остатков дляY2
Рис.39
В итоге уравнение регрессии принимает следующий вид:
Результаты регрессионного анализа переменной :
Multiple Regression Results (Step 6)
Dependent: Y3 Multiple R = ,98740903 F = 123,3815
R?= ,97497660df = 6,19
No. of cases: 26adjusted R?= ,96707447 p = ,000000
Standard error of estimate: 2,816687872
Intercept: 217,66639566Std.Error: 36,73909 t( 19) = 5,9247 p = ,0000
X5 b*=,199 X1 b*=,547 X3 b*=-,69
X6 b*=,617 X2 b*=,970 X1*X2 b*=-,34
Для переменной Y3 в таблице на рисунке 40 нет важных предикторов среди выбранных факторов, так как все р-значения для каждого из них больше заданной величины 0,05.
Рис.40
Результаты анализа остатков переменной представлены на рис.41
Рис.41
Нормальный вероятностный график остатков дляY3
Рис.42
В итоге уравнение регрессии принимает следующий вид:
Оценка влияния факторов на результативные показатели функционирования моделируемой информационной системы (отклики) производится по двум параметрам: удельным весам и коэффициентам эластичности. Если в исследуемом уравнении регрессии все факторы независимы, т.е. нет произведений факторов между собой, то оценка степени влияния факторов производится по каждому фактору отдельно, а полученные результаты справедливы для всех диапазонах изменения всех факторов. Если же в уравнениях регрессии имеются произведения факторов между собой, то влияние каждого фактора оценивается по его изменению в заданном диапазоне при средних значениях других факторов.
Изменение j – го результативного показателя, вносимого i – м фактором определяется по формуле
или (14)
, , ,
где - значение j – й функции при максимальном значении i(g) – исходного или общего фактора, влияние свободного члена уравнения регрессии и всех других факторов, кроме i(g) – го и его произведений с другими факторами не учитывается;
- значение j – й функции при минимальном значении i(g) – го бюджетного или общего фактора, влияние свободного члена уравнения регрессии и всех других факторов, кроме i(g) – го и его произведений с другими факторами не учитывается.
Удельный вес i – го фактора в изменении j – го результативного показателя вычислим по формуле:
; , . (15)
Коэффициент эластичности i – го фактора в j – м результативном показателе условий жизни вычислим по формуле:
; , . (16)
Коэффициент эластичности показывает, на сколько процентов изменится j – й результативный показатель при изменении i – го фактора на один процент.
Приведем на рисунках 43-48 диаграммы удельных весов и гистограммы коэффициентов эластичности факторов Х1,Х2,Х3 для откликов Y1, Y2, Y3:
Рис.43 Рис.44
Рис.45 Рис.46
Рис. 47 Рис.48
Дисперсионный анализ.
Целью дисперсионного анализа (ANOVA – Analysis of Variation) является проверка значимости различия между средними в разных группах с помощью сравнения дисперсий этих групп. Разделение общей дисперсии на несколько источников (связанных с различными эффектами в плане), позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью.
Проверяемая гипотеза состоит в том, что различия между группами нет. При истинности нулевой гипотезы, оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. При ложности - значимо отклоняться.
В целом дисперсионный анализ может быть разделён на несколько видов:
- одномерный (одна зависимая переменная) и многомерный (несколько зависимых переменных);
- однофакторный (одна группирующая переменная) и многофакторный (несколько группирующих переменных) с возможным взаимодействием между факторами;
- с простыми измерениями (зависимая переменная измеряется лишь один раз) и с повторными (зависимая переменная измеряется несколько раз).
Проверим, как фактор X1 влияют на отклик Y1–Коэффициент использования ПК 1.
Рис.49 – одномерный критерий значимости для Y1
Эта таблица выводит основные результаты анализа: суммы квадратов, степени свободы, значения F-критерия, уровни значимости (если p<0.05, то значимый результат).