Статистические методы моделирования

Во всех предыдущих темах при конструировании тех или иных моделей мы предполагали наличие исходных данных, таких как производственные и транспортные затраты, прибыль от реализации; законы распределения вероятностей спроса на продукцию, параметров входного потока на обслуживание и т.п. Получить эти данные можно различными методами прогнозирования с использованием аппарата математической статистики, основы которой изучаются в курсе высшей математики, а также для ряда специальностей в отдельном курсе статистики.

В данной теме мы кратко изложим основные понятия и средства, используемые при статистическом анализе и прогнозировании экономических показателей.

Одна из наиболее общих задач статистики состоит в оценивании степени зависимости изучаемой случайной величины Y от одной или нескольких случайных (или неслучайных) величин X, называемых факторами. Зависимость может быть функциональной, статистической, либо отсутствовать вовсе.

Строгая функциональная зависимость между экономическими показателями (наличие всегда выполняющегося равенства Y=f(X)) реализуется редко, так как они подвержены влиянию случайных факторов. При статистической зависимости изменение одной из величин влечет изменение распределения другой (в частности, среднего значения; в этом случае статистическую зависимость называют корреляционной).

Примерами корреляционно, но не функционально, связанных величин являются объемы производства и себестоимость продукции, объемы продаж и прибыль, урожай зерна и количество внесенных удобрений. Действительно, в последнем примере с одинаковых по площади участков земли при равных количествах внесенных удобрений снимают различный урожай, т.е. отсутствует функциональная связь. Это объясняется влиянием случайных факторов (осадки, температура, качество семян и др.). Вместе с тем, как показывает опыт, средний урожай меняется с изменением количества удобрений, т.е. прослеживается корреляционная зависимость.

Если имеется n пар наблюдений (xi,yi), i=1,2,…,n, над такими случайными величинами, то наблюдения можно представить точками на плоскости с координатами (xi,yi), получая так называемую диаграмму рассеяния. Затем необходимо подобрать некоторую кривую (график соответствующей функции) таким образом, чтобы она располагалась как можно “ближе” к этим точкам. Такого рода кривую называют эмпирической или аппроксимирующей кривой. Весьма часто тип эмпирической кривой определяется экспериментальными или теоретическими соображениями (исходя из законов экономической теории), в противном случае выбор кривой осуществить довольно трудно. Иногда точки на диаграмме рассеяния располагаются таким образом, что не наблюдается никакого их группирования, и, соответственно, нет никаких оснований предполагать наличие в наблюдениях какой-либо взаимозависимости.

Статистические методы моделирования - student2.ru Исследование статистической взаимозависимости на основе выборочных данных и построение уравнений регрессии вида

Статистические методы моделирования - student2.ru yx=f(x),

Статистические методы моделирования - student2.ru где yx есть арифметическое среднее наблюдавшихся значений Y, соответствующих значению Х=х (условная средняя признака Y), и составляет предмет корреляционного анализа.

В самом простом случае предполагается, что f задает уравнение прямой f(x)=b0+b1х. Модель в этом случае имеет вид

Yi=b0+b1хi+ei (i=1,2,…,n).

Здесь ei являются вертикальными уклонениями точек (xi,yi) от аппроксимирующей прямой. Выбирают такие значения b0 и b1, которые минимизируют сумму квадратов этих уклонений, т.е. ищется минимум å iei2 = å i(Yi-b0-b1хi)2 по отношению к параметрам b0 и b1. Заметим, что указанный принцип наименьших квадратов может быть применен к любой кривой регрессии f(x).

Для отыскания минимума берутся частные производные по искомым параметрам (в данном случае по b0 и b1) и приравниваются к нулю. После выполнения элементарных преобразований получают так называемую систему нормальных уравнений, из которой и находятся искомые параметры. Для линейной регрессии получаем:

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru b1=(ху – х·у)/(х2 – (х)2), (1)

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru b0= ((х)2·у– х· ху)/(х2 – (х)2),

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru где ху=åxiyi/n, x=åxi/n, y=åyi/n, х2 =åхi2/n.

Угловой коэффициент b1 прямой линии регрессии Y на X называют коэффициентом регрессии Y на X и обозначают ryx.

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Выражение, стоящее в (1) в знаменателе, есть выборочная дисперсия (или квадрат выборочного среднего квадратического отклонения) Х: х2 –(х)2=sх2.

Выборочный коэффициент корреляции определяется равенством

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru ryx =(ху – х·у)/(sхsy), (2)

значит с коэффициентом регрессии он связан соотношением

ryx =ryx (sх/sy). (3)

Коэффициент корреляции измеряет силу (тесноту) линейной связи между Y и X. Для него всегда выполняется 0£|ryx|£1, и чем ближе его значение к ±1, тем сильнее линейная связь.

Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между признаками, полученными по данным выборки, в известной степени может быть распространено и на генеральную совокупность.

Статистические методы моделирования - student2.ru При большом размере выборки повторяющиеся пары наблюдений группируются в виде корреляционной таблицы. Если nyx–количество наблюдений одинаковых пар (х,у), то для вычисления коэффициента корреляции в формуле (2) необходимо брать ху=ånyxxiyi/n.

Для оценки тесноты любой корреляционной связи вводится корреляционное отношение Y к Х как отношение межгруппового среднего квадратического отклонения к общему среднему квадратическому отклонению признака Y:

Статистические методы моделирования - student2.ru hyx=sYx/sy. (4)

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Здесь sYx = √(Snx(yx – y)2)/n,

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru sy = √Sny(y – y)2)/n,

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru где n – объем выборки (сумма всех частот); nx – частота значения х признака Х; ny – частота значения у признака Y; y – общая средняя признака Y; yx – условная средняя признака Y.

Чем ближе корреляционное отношение к 1, тем теснее связь между признаками, однако оно не задает вида этой связи и не позволяет судить о степени близости наблюдений к какой-либо кривой.

Пример 1. Найти уравнение прямой линии регрессии Y на Х, коэффициент корреляции и корреляционное отношение по данным корреляционной табл. 1.

Таблица 1

Y Х
ny
nх n =50
Статистические методы моделирования - student2.ru ух  

Вычислим сначала все средние и дисперсии:

Статистические методы моделирования - student2.ru у=(38*15+12*25)/50=17.4,

Статистические методы моделирования - student2.ru х=(10*10+28*20+12*30)/50=20.4,

Статистические методы моделирования - student2.ru х2=(10*100+28*400+12*900)/50=460,

Статистические методы моделирования - student2.ru ху=(4*10*15+28*20*15+6*30*15+6*10*25+6*30*25)/50=354,

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru sх = Öх2 – (х)2 =Ö460 – 20.42 =Ö43.84=6.62,

Статистические методы моделирования - student2.ru sy =Ö(38*(15 – 17.4)2 +12(25 – 17.4)2)/50=4.27,

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru sYx =Ö(10(21 – 17.4)2+28(15 – 17.4)2+12(20 – 17.4)2)/50=Ö7.44=2.73.

Тогда коэффициент корреляции из (15.2):

ryx =(354 – 20.4·17.4)/(6.62*4.27)=-0.034,

коэффициент регрессии из (15.3)

ryx =-0.034*4.27/6.62=-0.022,

уравнение прямой регрессии имеет вид:

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru ух – 17.4=-0.022(х – 20.4) или ух =-0.022х + 17.85

и корреляционное отношение из (15.4):

hyx=2.73/4.27=0.64.

Из вычисленных показателей можно сделать вывод:

Линейной связи между признаками нет, но какая-то связь есть, причем весьма существенная. Диаграмма рассеяния и прямая линия регрессии построены на рис. 1. (В кружках проставлены nyx).

Для определения криволинейной функции регрессии по расположению точек на диаграмме рассеяния делают заключение о примерном виде этой функции, при этом необходимо учитывать особенности конкретной экономической задачи, в рамках которой анализируется взаимосвязь признаков.

Статистические методы моделирования - student2.ru

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru 25

 
  Статистические методы моделирования - student2.ru

Статистические методы моделирования - student2.ru ух =-0.022х+17.85

               
  Статистические методы моделирования - student2.ru
 
    Статистические методы моделирования - student2.ru   Статистические методы моделирования - student2.ru   Статистические методы моделирования - student2.ru

Статистические методы моделирования - student2.ru 15

10 20 30 Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru

Рис 1. Диаграмма рассеяния

Неизвестные параметры уравнения криволинейной регрессии также находятся методом наименьших квадратов. Например, глядя на рис.15.1, можно предположить, что имеет место параболическая корреляция второго порядка, т.е. следует искать уравнение регрессии вида

Статистические методы моделирования - student2.ru ух =Ах2+Вх+С,

где А, В, С – неизвестные коэффициенты.

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Пользуясь методом наименьших квадратов, получаем систему линейных уравнений относительно неизвестных параметров:

Статистические методы моделирования - student2.ru х4А+х3В+х2С=ух2,

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru х3А+х2В+хС=ух, (5)

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru х2А+х В+С=у.

Пример 2. По данным корреляционной таблицы 1 построить параболическую функцию регрессии.

Статистические методы моделирования - student2.ru Подставляя данные в (5), получаем систему:

286000А+11160В+460С=8100,

11160А+460В+20.4С=354,

460А+20.4В+С=17.4.

Решив эту систему, найдем А=0.055, В=-2.26, С=38.2.

Искомое параболическое уравнение регрессии принимает вид:

Статистические методы моделирования - student2.ru ух =0.055х2 – 2.26х+38.2 (Пунктирная линия на рис. 1).

Легко убедиться, что условные средние, вычисленные по данному уравнению, незначительно отличаются от условных средних корреляционной таблицы:

Статистические методы моделирования - student2.ru у10 =0.055*102 – 2.26*10+38.2=21.1,

Статистические методы моделирования - student2.ru у20 =0.055*202 – 2.26*20+38.2=15,

Статистические методы моделирования - student2.ru у30 =0.055*302 – 2.26*30+38.2=19.9.

Найденное уравнение хорошо согласуется с данными наблюдений.

Значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. Задача оценки статистической взаимосвязи переменных у и х=(х12,…,хm) формулируется аналогично случаю парной регрессии. Ищется функция у=f(a,х)+e, где a– вектор параметров, e– случайная ошибка.

В простейшем случае анализируется линейная зависимость у от х. Уравнение множественной линейной регрессии имеет вид:

у=a0+a1х1 +a2х2 +…+amхm+e. (6)

Если имеется n наблюдений факторов х и переменной у, то отклонение зависимой переменной у в j-м наблюдении от линии регрессии ej= уj – a0 – a1хj1 – a2хj2 – … – amхjm (j=1,2,…, n).

Метод наименьших квадратов предполагает поиск коэффициентов ai таких, что Q=åej2®min. Оцененное уравнение описывает как общий тренд (тенденцию) изменения зависимой переменной у, так и отклонения от этого тренда. Проблема здесь состоит не только в том, чтобы объяснить возможно большую долю колебаний переменной у, но и отделить влияние каждого из факторов.

Статистические методы моделирования - student2.ru Для анализа статистической значимости полученных коэффициентов множественной линейной регрессии оценивают дисперсию D(ai) и стандартные отклонения S(ai)=ÖD(ai) коэффициентов ai. Величина t=ai/S(ai), называемая t–статистикой, имеет распределение Стьюдента с (n-m-1) степенями свободы. Если число степеней свободы достаточно велико (не менее 10), то при 5%-ном уровне значимости можно приближенно считать оценку незначимой, если t–статистика по модулю меньше 1, и весьма надежной, если модудь t–статистики больше 3.

Имеется много других критериев значимости коэффициентов уравнения линейной регрессии; в практике наиболее часто пользуются критериями Стьюдента, Фишера, Дарбина-Уотсона.

Уравнение (6) называют аддитивным, тогда как уравнение вида

у=a0х1a1х2a2 ´…´хmam (7)

называется мультипликативным. Логарифмируя (7), приходим опять к линейному уравнению регрессии. Пусть, например, требуется оценить параметры производственной функции Кобба-Дугласа Y=AKaLb. Логарифмируя обе части, получаем

ln Y=lnA+alnK+blnL. (8)

Полученная формула линейна относительно логарифмов выпуска Y, капитала K и труда L, и она может быть оценена как множественная линейная регрессия.

В частном случае, когда a+b=1, делается преобразование

Y/L =A(K/L)a Þ ln (Y/L) =lnA+aln(K/L). (9)

Далее оценивается парная линейная регрессия логарифма производительности труда Y/L от логарифма капиталовооруженности К/L. Если зависимость оценивается по данным временных рядов, то часть тренда зависимой переменной может объясняться действующими во времени факторами, например, в производственной функции Кобба-Дугласа нейтральный технический прогресс учитывают с помощью множителя еgt:

Y=AKaLbеgt Þ ln Y=lnA+alnK+blnL+ gt (10)

и опять приходим к модели линейной регрессии.

Для оценки степени связи качественных признаков вводят коэффициенты ранговой корреляции Спирмена и Кендалла. Упорядочение объектов выборки по ухудшению качества по разным признакам (ранжирование), вычисление и анализ коэффициентов ранговой корреляции, проверка гипотез об их значимости, составляет предмет теории экспертных оценок.

Второй областью использования математической статистики является проверка статистических гипотез.

Статистической называют гипотезу о виде неизвестного распределения, или о параметрах известных распределений.

Наряду с выдвинутой (основной, нулевой) гипотезой рассматривают и противоречащую ей (конкурирующую, альтернативную) гипотезу. В итоге статистической проверки гипотезы могут быть допущены ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Статистическим критерием называют случайную величину К с известным распределением, которая служит для проверки основной гипотезы. Эту величину обозначают через U или Z, если она распределена нормально, F или v2 – по закону Фишера-Снедекора, Т – по закону Стьюдента, χ2 – по закону «хи квадрат» и т.д.

Например, если проверяют гипотезу о равенстве дисперсий двух нормально распределенных величин, то в качестве критерия К принимают отношение выборочных дисперсий:

F =s12/s22.

Эта величина распределена по закону Фишера-Снедекора.

Наблюдаемым значением Кнабл называют значение критерия, вычисленное по выборочным данным частных значений входящих в критерий величин.

Критической областью называют совокупность значений критерия, при которых основную гипотезу отвергают.

Областью принятия решений называют совокупность значений критерия, при которых основную гипотезу принимают.

Основной принцип проверки статистической гипотезы заключается в следующем: если наблюдаемое значение критерия принадлежит критической области – гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия решений – гипотезу принимают.

Критическими точками (границами) называют точки, разделяющие критическую область и область принятия решений.

Различают одностороннюю (с левой или правой границей) и двустороннюю критическую область.

Для нахождения критической области задаются достаточно малой вероятностью – уровнем значимости a (в практике используют a=0.05, a=0.01). Затем ищутся критические точки kкр, исходя из требования, чтобы при условии справедливости основной гипотезы вероятность того, что значение критерия К выйдет за границы области принятия решения, была равна принятому уровню значимости. Например, правая граница должна удовлетворять соотношению:

Р(К > kкр)= a. (11)

Для каждого критерия имеются соответствующие таблицы, по которым и находят критическую точку, удовлетворяющую этому требованию. Когда критическая точка найдена, вычисляют по данным выборок наблюденное значение критерия и, если Кнабл > kкр, то основную гипотезу отвергают, в противном случае говорят, что «данные наблюдений согласуются с основной гипотезой и нет оснований ее отвергать». Итак, пользуясь требованием (11) мы с вероятностью a рискуем совершить ошибку первого рода. При контроле качества продукции вероятность признать негодной партию годных изделий называют «риском производителя», а вероятность принять негодную партию – «риском потребителя».

На практике для большей уверенности принятия гипотезы ее проверяют другими критериями или повторяют эксперимент, увеличив объем выборки.

Отвергают гипотезу более категорично, чем принимают. Если оказалось, что наблюдаемое значение критерия принадлежит критической области, то этот факт и служит примером, противоречащим основной гипотезе, что позволяет ее отклонить.

Мощностью критерия называют вероятность попадания критерия в критическую область при условии, что справедлива конкурирующая гипотеза, то есть вероятность того, что не будет допущена ошибка второго рода. Чем меньше вероятности ошибок первого и второго рода, тем критическая область «лучше». Поэтому при заданном уровне значимости критическую область следует строить так, чтобы мощность критерия была максимальной.

Единственный способ одновременного уменьшения вероятностей ошибок первого и второго рода (и, следовательно, возрастания мощности критерия) состоит в увеличении объема выборок.

Пусть генеральные совокупности Х12,…,Хр распределены по нормальному закону и имеют одинаковую, хотя и неизвестную, дисперсию; математические ожидания также неизвестны, но могут быть различными. Требуется по выборочным средним проверить основную гипотезу о равенстве всех математических ожиданий. Для этого пользуются методом, который основан на сравнении дисперсий и поэтому назван дисперсионным анализом.

На практике дисперсионный анализ применяют, чтобы установить, оказывает ли существенное влияние некоторый качественный показатель (фактор) F, который имеет р уровней F1,F2,…,Fр, на изучаемую величину Х. Например, если требуется выяснить, какой вид инвестиций наиболее эффективен для получения наибольшей прибыли, то фактор F – инвестиция, а его уровни – виды инвестиций.

Основная идея дисперсионного анализа состоит в сравнении “факторной дисперсии”, порожденной воздействием фактора, и “остаточной дисперсии”, обусловленной случайными причинами. Если различие между этими дисперсиями значимо (применяется критерий Фишера), то фактор оказывает существенное влияние на Х. Если уже установлено влияние фактора и требуется выяснить, какой из уровней оказывает наибольшее воздействие, то дополнительно производят попарное сравнение средних значений.

Последовательность вычислений при дисперсионном анализе следующая (пусть хij – значение признака Х при i–м испытании (i=1,2,…,q) j–го уровня (j=1,2,…,p)):

Статистические методы моделирования - student2.ru Сначала вычисляется общая сумма квадратов отклонений наблюдаемых значений от общей средней х=( åijхij)/(рq):

Статистические методы моделирования - student2.ru Sобщjå iij – х)2,

Статистические методы моделирования - student2.ru затем факторная сумма квадратов отклонений групповых средних хгрj=(åiхij)/q от общей средней, которая характеризует рассеяние “между группами”:

Статистические методы моделирования - student2.ru Статистические методы моделирования - student2.ru Sфакт= q åjгрj – х)2,

и остаточная сумма, которая характеризует рассеяние “внутри групп”, то есть отражает влияние случайных причин:

Sост= Sобщ – Sфакт.

Разделив суммы квадратов отклонений на соответствующее число степеней свободы, получают факторную и остаточную дисперсии:

s2факт= Sфакт /(p – 1), s2ост= Sост /p/(q – 1).

В итоге гипотеза о равенстве средних отвергается, если отношение Fнабл = s2факт /s2ост окажется больше Fкр (по критерию Фишера).

Пример 3. Имеется 4 варианта инвестиций по трем видам (табл.2). При уровне значимости 0.05 проверить гипотезу о равенстве групповых средних.

Таблица 2

вариант Виды инвестиций (уровни фактора Fj)
i F1 F2 F3
Статистические методы моделирования - student2.ru хгрj

Здесь р=3, q=4, х=(14+15+7)/3=12.

Статистические методы моделирования - student2.ru Sобщ=(-1)2+02+42+52+02+22+42+62+(-10)2+(-8)2+(-2)2+02=266,

Sфакт=4(22+32+(-5)2)=152,

Sост=266 – 152=114,

s2факт=152/(3 – 1)=76,

s2ост=114/3/(4 – 1)=12.67.

Находим наблюдаемое значение критерия:

Fнабл =76/12.67=6.

Учитывая, что число степеней свободы числителя равно 2, а знаменателя равно 9, по соответствующей таблице критерия Фишера находим критическую точку:

Fкр(0.05; 2; 9)=4.26.

Так как Fнабл > Fкр, то основную гипотезу о равенстве групповых средних отвергаем.

Иногда дисперсионный анализ применяют, чтобы установить однородность нескольких совокупностей (совпадение и дисперсий и средних), т.к. однородные совокупности можно объединять в одну и тем самым получить о ней более полную информацию и сделать более надежные выводы.

В более сложных случаях исследуют воздействие нескольких факторов на нескольких уровнях и выясняют влияние отдельных уровней и их комбинаций (многофакторный дисперсионный анализ).

Методы математической статистики широко применяются для анализа экономических временных рядов.

Статистические методы моделирования - student2.ru В общем случае временной ряд содержит детерминированную и случайную составляющие:

уt=f(t,хt)+et, t=1,…,Т,

Статистические методы моделирования - student2.ru где уt – значения временного ряда; f(t,хt) – детерминированная составляющая; хt – значения факторов, влияющих на детерминированную составляющую в момент t; et – случайная составляющая; Т – длина ряда.

Получив оценки детерминированной и случайной составляющих, решают задачи прогноза будущих значений как самого временного ряда, так и его составляющих.

Если детерминированная составляющая зависит только от времени и линейна относительно своих параметров, то задача сводится к задаче множественной линейной регрессии, рассмотренной выше.

Действительно, в этом случае

уt=a0+a1j 1(t) +a2j 2(t) +…+amj m( t)+et, t=1,…,Т. (12)

В частном случае,

уt=a0+a1t1 +a2t2 +…+amtm + et, t=1,…,Т. (13)

Детерминированная составляющая в свою очередь представляется тремя составляющими:

Долговременная эволюторно изменяющаяся составляющая является результатом действия факторов, приводящих к постепенному изменению экономического показателя. Так, в результате научно-технического прогресса, совершенствования системы управления производством показатели эффективности производства растут, а удельные расходы на единицу полезного эффекта снижаются.

Долговременная циклическая составляющая проявляется на протяжении длительного времени в результате действия факторов, обладающих большим последействием или циклически изменяющихся во времени. Например, кризисы перепроизводства или периодичность солнечной активности, влияющая на урожайность.

Сезонная циклическая составляющая легко просматривается в колебаниях продуктивности сельскохозяйственных животных, а также в колебаниях розничного товарооборота в зависимости от времени года.

Многие исследователи первую составляющую называют трендом, другие трендом называют все три составляющие.

Эволюторно изменяющуюся долговременную составляющую во многих практических случаях представляют как полиномиальный тренд, тогда как долговременная и сезонная циклические составляющие представляются тригонометрическими трендами.

Наши рекомендации