Схема построения казуальных моделей
Рассмотрим схему построения казуальных моделей на примере построения прогнозной модели производительности труда.
Первый этап - это постановка задачи. Постановка задачи - это четкое определение цели создания модели и определение объекта моделирования. Например, необходимо составить план по производительности труда на следующую пятилетку на одном из предприятий г. Рязани. Мы можем поставить задачу об увеличении производительности труда в два раза, но это не будет обосновано. Необходимо определить, от чего качественно зависит производительность труда, затем построить количественную модель, сделать прогноз по этим факторам и подставить прогнозные значения факторов в модель, а затем уже определить прогнозное значение производительности труда.
Второй этап - это - сбор и систематизация статистической информации. Производительность труда называется результативным признаком - , факторные признаки – это признаки от которых зависит производительность труда , где . При выборе факторного признака он должен быть количественно выражен; легко управляем; зависеть от нас и влиять на производительность труда. Мы выбираем: удельный вес новой техники; заработную плату; основные фонды; продолжительность рабочего дня. Мы должны собрать информацию по этим признакам. Информация берется из документов предприятия. Причем исследуется максимальный перечень факторных признаков. Результат сбора информации оформляется в виде таблицы. Первый столбец - результативный признак, а последующие факторные признаки. Точка выборки - год (квартал). Мы также можем исследовать производительность на нескольких предприятиях, в течение несколько лет, тогда точка выборки - завод-год.
Завод | у х1 х2 х3 .. .. .. хn |
- производительность труда, в тыс. р./чел.
- фондовооруженность, тыс. р./чел.
- энерговооруженность, кВт/чел.
- коэффициент специализации, %.
Третий этап - статистическая оценка значимости факторов или корреляционный анализ. Максимальный перечень факторов, составленный экспертами, может содержать несколько факторных признаков, которые слабо влияют на результативный, и которые не целесообразно включать в модель. Для оценки степени влияния двух случайных величин и друг на друга можно использовать коэффициент парной корреляции. , смешанный центральный момент второго порядка. . Коэффициент корреляции , где - объем выборки. Коэффициент парной корреляции меняется от -1(если связь обратная) до 1(если связь прямая). Если и не связаны между собой, то коэффициент равен нулю.
Результаты расчета коэффициентов парной корреляции оформляется в виде таблицы.
.. | ||||
.. | ||||
.. | ||||
Матрица имеет единицы по диагонали и симметрична относительно этой главной диагонали.
В нашем примере получена следующая таблица:
0,9 | 0,74 | 0,03 | ||
0,9 | 0,1 | |||
0,21 | ||||
Выбор факторов, включенных в модель, производится в два шага. На первом шаге рассматриваются коэффициенты корреляции между результативными и факторными признаками. Если коэффициент превышает некоторое предварительно заданное число, то данный фактор включается в модель, в обратном случае - исключается из рассмотрения. В нашем случае отбрасываем третий фактор. На втором шаге рассматриваются коэффициенты парной корреляции между оставшимися факторными признаками. Если рассматриваемый показатель превышает некоторое пороговое значение, то один из факторных признаков исключается. В обратном случае оба фактора включаются в модель.
Четвертый этап - построение эмпирического уравнения регрессии. Строятся графики зависимостей . Если большинство зависимостей линейно, то и общая модель будет линейной.
Пятый этап - построение однофакторных уравнений регрессии.
Рассмотрим построение линейной регрессии.
. Для нахождения коэффициентов регрессии используется метод наименьших квадратов. .
Из этих уравнений получаем значение неизвестных коэффициентов регрессии
|
Для нелинейных моделей метод наименьших квадратов не работает, поэтому необходимо привести нелинейную модель к линейной. Это делается путем логарифмирования и замены переменной.
Шестой этап - построение многофакторной модели. Ее построение начинается с выбора формы зависимости. Если среди эмпирических зависимостей преобладают линейные зависимости, то строится многофакторная линейная зависимость . Если преобладают нелинейные зависимости, то и множественная регрессия будет нелинейной. Можно использовать в этом случае мультистепенную зависимость , которую путем логарифмирования приводим к линейной: . Коэффициенты регрессии определяются с помощью метода наименьших квадратов . Дифференцируя по и приравнивая частные производные к нулю, получаем систему уравнений, которую запишем в матричной форме - , где - матрица факторных признаков размерностью , - вектор-строка коэффициентов регрессии размерностью , - вектор-столбец результирующего признака размерностью . Решая систему относительно неизвестных коэффициентов регрессии, получаем .
Седьмой этап - оценка точности и адекватности регрессионной модели или дисперсионный анализ. В данном случае можно рассчитать несколько видов дисперсий:
D0 - рассеивание относительно уравнения регрессии;
Dр - рассеивание точек, лежащих на уравнении регрессии относительно среднего значения.
Общая дисперсия
Остаточная дисперсия (относительно уравнения регрессии)
Дисперсия, обусловленная регрессией, .
Используются следующие показатели:
- остаточная дисперсия. Если у нас зависимость функциональная, то точка выборки будет лежать на уравнении регрессии и остаточная дисперсия будет равна нулю;
- коэффициент множественной корреляции. Существует несколько формул для его расчета. . Если остаточная дисперсия равна нулю, то коэффициент равен единице, т.е. зависимость функциональная. , . Здесь надо вычислить матрицу, обратную матрице коэффициентов парной корреляции, и взять ее первый элемент . Коэффициент множественной корреляции меняется от нуля до единицы, квадрат данного коэффициента называется коэффициентом детерминации и показывает долю изменчивости результативного признака за счет вариации всех факторных, включенных в модель;
- средняя относительная ошибка ;
- доверительный интервал позволяет оценить качество модели. Для k-й точки доверительный интервал вычисляется следующим образом: однофакторная модель , для многофактор-ной модели
- критерий Фишера оценивает адекватность модели . Полученный критерий сравнивается с табличным значением, для вероятности и число степеней свободы . Если вычисленное значение больше табличного, то модель адекватна. На практике желательно, чтобы вычисленное значение было больше табличного в четыре раза.