Уравнение с учетом всех указанных факторов

Исходные данные.

Для анализа будем использовать выборку из 65 автомобилей.

Однако, прежде чем приступать непосредственно к моделированию, необходимо проверить данные и выяснить, какому закону распределения они подчиняются. Для этого можно использовать ящичковые диаграммы.

Уравнение с учетом всех указанных факторов - student2.ru

Рисунок 1 Ящеичковая диаграмма на начальных данных.

Чтобы интерпретировать полученную картинку, необходимо понимать смысл всей процедуры. Края ящичка отмечают положение 25% и 75% процентилей. рассматривать медиану как точку, делящую упорядоченную выборку пополам, а сгибы – как точки, делящие пополам полученные половинки. Уравнение с учетом всех указанных факторов - student2.ru

Рисунок 2 Объяснение выбросов ящичковой диаграммы

Из графика видно, что есть много аномальных значений – выбросов. Большинство выбросов приходится на фактор х3 – цена автомобиля; 5 автомобилей из 65 рассмотренных имеют чрезвычайно высокую стоимость, что может исказить последующий анализ. Необходимо исключить эти наблюдения.

Уравнение с учетом всех указанных факторов - student2.ru

Рисунок 3 Ящичковая диаграмма. Нормированные данные.

После повторного построения диаграммы, мы видим, что теперь все факторы подчиняются нормальному закону распределения. Этот факт так же можно доказать сравнив такие описательные статистики как среднее значение (1758,6) и медиана (1681,87) – примерно одинаковы, а эксцесс (0,037) и асимметрия (0,58) не превышают по модулю 2.

После исключения выбросов, можно составить следующую таблицу для описания переменных. Уравнение с учетом всех указанных факторов - student2.ru

Рисунок 4 Описательные статистики.

Корреляционный анализ.

Теперь проанализируем взаимосвязь признаков, оценив матрицу парных коэффициентов Уравнение с учетом всех указанных факторов - student2.ru .

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 1-корреляционная матрица

Анализ матрицы парных коэффициентов корреляции показывает, что стоимость полиса автострахования КАСКО (у) наиболее тесно связана со стоимостью машины (х3), поскольку r (y,x3)=0,53. Это хорошо просматривается при построении корреляционного облака. Невооруженным глазом можно заметить его овально-продолговатую форму, которая имеет положительный наклон. Уравнение с учетом всех указанных факторов - student2.ru

Рисунок 5 Корреляционное облако.

В то же время достаточно тесная связь между факторами. Так, коэффициент корреляции между и возрастом автомобиля (х1) и пробегом x(2) равен: r12 = 0,57; а между возрастом водителя и его стажем : r 56 = 0,85. Учитывая тесную взаимосвязь показателей в регрессионную модель стоимости полиса КАСКО может войти лишь один показатель из пары, чтобы избежать проблемы мультиколлинеарности.

Процедуры выбора регрессоров и функциональной формы модели

Уравнение с учетом всех указанных факторов.

Рассмотрим модель в виде:

Уравнение с учетом всех указанных факторов - student2.ru

В основе модели лежат следующие гипотезы:

- Все переменные (x1,x2,x3,x4,x5,x6) – детерминированные величины, векторы которых независимы между собой.

- Уравнение с учетом всех указанных факторов - student2.ru не зависят от t.

- Уравнение с учетом всех указанных факторов - student2.ru при t≠s – статистическая независимость (некоррелированность) ошибок для разных наблюдений.

- Ошибки Уравнение с учетом всех указанных факторов - student2.ru имеют совместное нормальное распределение: Уравнение с учетом всех указанных факторов - student2.ru

В этом случае модель называется нормальной линейной регрессией.

Результаты проведенных вычислений можно оформить в следующую таблицу для наглядности:

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 2-коэффициенты регрессии (6 факторов).

Нижняя строка таблица содержит показатели адекватности модели.

Проверим, является ли построенная модель значимой. Для этого выдвинем гипотезу Уравнение с учетом всех указанных факторов - student2.ru полученная модель незначима. Для проверки данной гипотезы используем F-критерий:

Уравнение с учетом всех указанных факторов - student2.ru =8,89 .

Можем сделать вывод о том, что уравнение регрессии значимо на уровне значимости 0,05 (т.к. Fнабл 8,89 > Fкрит 2,427) и переходим к анализу значимости отдельных коэффициентов регрессии.

Для уровня значимости 0,05 и числа степеней свободы 43 критическое значение t-статистики 2,016 не превосходит расчетное значение этой статистики Уравнение с учетом всех указанных факторов - student2.ru только для двух факторов x(3) и x(6). Поэтому коэффициенты при остальных факторах незначимы на уровне значимости 0,05. Данный вывод так же подтверждается построением интервальной оценки для коэффициентов регрессии. Воспользуемся стандартной формулой для расчёта доверительного интервала: Уравнение с учетом всех указанных факторов - student2.ru , где Уравнение с учетом всех указанных факторов - student2.ru рассчитывается по распределению Стьюдента на заданном уровне значимости (в нашем случае, 0,05).

bmin< bi <bmax

-9981,9 < b0 <17647,47

18,29 < b1 < 5,2435725

-0,769 < b2 < 4,078

0,0009 < b3 <0,002

-538,43< b4 < 358,03

-26,76 < b 5 < 19,41

-57,22 < b 6 < -3,024

Только два интервала не включают 0 в свои границы. Значимы коэффициенты при х3 и х6.

Составим прогноз для наблюдения x0, чьи значения на 10% превышают средние значения этих показателей. Составим два прогноза: первый – без учёта случайной ошибки (прогноз среднего), второй – с учётом случайной ошибки (прогноз для случайного наблюдения).

Уравнение с учетом всех указанных факторов - student2.ru

Итак, значимость уравнения в целом сопровождается незначимостью большинства коэффициентов регрессии. Поэтому полученное уравнение регрессии неприемлемо.

Уравнение с учетом всех указанных факторов - student2.ru

Для получения уравнения регрессии со значимыми коэффициентами используем пошаговые алгоритмы отбора факторов.

Исключение переменных.

Исключим из модели такой переменной, как возраст водителя- x(5), которой соответствует минимальное по модулю значение t-статистики |t5|=-0,32 и для оставшихся переменных оценим уравнение регрессии с результатами в следующей таблице.

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 3-коэффициенты регрессии (5 факторов)

По-прежнему на уровне значимости 0,001 значимы только коэффициенты при x (3) – цена автомобиля и x (6) – стаж наименее опытного водителя . Далее исключим из рассмотрения курс доллара - x (4), которому соответствует минимальное значение t-статистики по модулю = -0,372 и получим :

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 4-коэффициент регрессии (4 фактора)

Теперь на уровне значимости 0,001 значимы не только коэффициенты при x(3) и x(5) , но и b0 . Так же необходимо заметить, что по сравнению с предыдущими, в последней моделями увеличилось значение скорректированного коэффициента детерминации, которые показывает качество модели (используем именного этот показатель, так как он не зависит от размерности уравнении регрессии и мы можем сравнивать модели с разным количеством факторов) и снизилась стандартная ошибка. На следующем шаге исключим возраст автомобиля x(1), которому соответствует минимальное значение t-статистики = 1,159 :

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 5-коэффициенты регрессии (3 фактора)

По-прежнему имеем три коэффициента, значимых на уровне 0,001.

Исключим x(2) – пробег автомобиля, т.к. при нем b2- это единственный незначимый коэффициент.

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 6-коэффициент регрессии (2 фактора)

Мы получили значимое уравнение регрессии со значимыми на уровне 0,001 и интерпретируемыми коэффициентами.

Включение переменных

На первом шаге в модель цены полиса КАСКО входит переменная x(3), за которой скрывается стоимость автомобиля. Выбор падает именно на нее из-за того, что она имеет самый высокий коэффициент корреляции со стоимостью полиса автостахования : r(y, x(3))=0,53

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 7-коэффициенты регрессии (1 фактор)

На втором шаге, в соответствии с оценками парных коэффициентов корреляции включаем в уравнение наряду с x(3) переменные, как возраст водителя x(5) или стаж наименее опытного водителя x(6):

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 8-коэффициенты регрессии (2 фактора – 3 и 6)

Уравнение с учетом всех указанных факторов - student2.ru

Таблица 9 коэффициенты регрессии (2 фактора – 3 и 5)

Сравнив таблицы 8 и 9, можно сделать вывод, что модель, в которой содержится стоимость автомобиля и стаж наименее опытного водителя - лучше, т.к. R2adj больше, а стандартная ошибка – меньше.

Последующее включение переменных будет только ухудшать модель.

Наши рекомендации