Глава 2. Статистический анализ влияния факторных признаков на стоимость футболистов на трансферном рынке
2.1. Описание факторных признаков. Формирование гипотез о наличии зависимости.
Объектом исследования были выбраны лучшие защитники европейских премьер лиг по итогам прошедшего футбольного сезона. Выборка состоит из 30 наблюдений.
Предметом изучения в данной работе является оценка влияния различных факторов на стоимость футболистов. Таким образом, зависимым признаком здесь является «ztr» - cтоимость футболистов на трансферном рынке, формирующийся за результативности и физических характеристик. Было выбрано семь признаков:
• Рост
• Вес игрока
• Количество сыгранных матчей в сезоне
• Количество забитых мячей
• Мячи, забитые с пенальти
• Количество предупреждений, полученных за весь сезон
• Количество удалений, полученных за весь сезон
Таблица 1. Показатели, использованные для корреляционно–регрессионного анализа
Наименование | Единицы измерения | Обозначение |
рост | см | rost |
вес | кг | ves |
сыгранные матчи | количество | maches |
забитые голы | количество | goal |
голы, забитые с пенальти | количество | zp |
предупреждение | количество | p |
удаление | количество | y |
цена на трансферном рынке | млн. долларов | ztr |
2.2. Проверка распределения на нормальность.
Рассчитаем простые описательные статистики по каждой из переменных (табл.2).
Таблица 2. Простые описательные статистики
Переменная | Среднее | Медиана | Минимум | Максимум |
rost | 181,833 | 182,500 | 168,000 | 192,000 |
ves | 74,5667 | 73,5000 | 62,0000 | 91,0000 |
maches | 29,0333 | 30,0000 | 12,0000 | 38,0000 |
goal | 9,50000 | 8,00000 | 1,00000 | 30,0000 |
zp | 0,900000 | 0,000000 | 0,000000 | 6,00000 |
p | 2,66667 | 2,00000 | 0,000000 | 8,00000 |
y | 0,133333 | 0,000000 | 0,000000 | 1,00000 |
ztr | 34,2667 | 33,0000 | 11,0000 | 65,0000 |
Переменная | Ст. откл. | Вариация | Асимметрия | Эксцесс |
rost | 6,41702 | 0,0352907 | -0,118099 | -0,819713 |
ves | 7,31877 | 0,0981507 | 0,585527 | -0,155245 |
maches | 7,03922 | 0,242453 | -1,20287 | 0,789886 |
goal | 7,23855 | 0,761952 | 1,33659 | 1,29047 |
zp | 1,42272 | 1,58080 | 1,85897 | 3,55193 |
p | 2,13886 | 0,802072 | 0,723255 | -0,436050 |
y | 0,345746 | 2,59309 | 2,15728 | 2,65385 |
ztr | 12,8061 | 0,373718 | 0,444599 | -0,414090 |
Проверим выборку на однородность с помощью коэффициента вариации. v = 0,88397, то есть вариация значений зависимого признака сильная, следовательно, данная выборка в значительной степени неоднородна. Чтобы это преодолеть, нужно привести выборку к нормальному распределению. Для этого используем замену y = ln x. v(y) = 0,10520, то есть вариация значений зависимого признака несильная, следовательно, данная выборка в значительной степени однородна. Далее проверим распределение на нормальность, используя критерий Хи-квадрат (табл.3)
Таблица 3. Распределение частот для ztr
частота | отн. | инт. | частота | отн. | инт. | ||
3,33% | 3,33% * | 3,33% | 53,33% * | ||||
3,33% | 6,67% * | 3,33% | 56,67% * | ||||
3,33% | 10,00% * | 6,67% | 63,33% ** | ||||
6,67% | 16,67% ** | 3,33% | 66,67% * | ||||
3,33% | 20,00% * | 6,67% | 73,33% ** | ||||
6,67% | 26,67% ** | 6,67% | 80,00% ** | ||||
3,33% | 30,00% * | 3,33% | 83,33% * | ||||
3,33% | 33,33% * | 3,33% | 86,67% * | ||||
3,33% | 36,67% * | 3,33% | 90,00% * | ||||
6,67% | 43,33% ** | 3,33% | 93,33% * | ||||
3,33% | 46,67% * | 3,33% | 96,67% * | ||||
3,33% | 50,00% * | 3,33% | 100,00% * |
Сформируем первоначальные гипотезы:
: распределение зависимого признака нормально;
: распределение не является нормальным.
Значение составило 1,486, принимается нулевая гипотеза о нормальном распределении с вероятностью ошибки р = 0,47579. Тот факт, что распределение зависимого признака является нормальным, подтверждается и графиком (рис.1.).
Рис 1. Тест на нормальное распределение
2.3. Корреляционный анализ.
Рассчитаем парные коэффициенты корреляции между зависимым и каждым из факторных признаков. Сформируем гипотезы о наличии корреляционной связи:
: ρ = 0 - корреляционная связь между признаками отсутствует
: ρ ≠ 0 - существует корреляционная связь между рассматриваемыми признаками.
= -0,01748403 – связь обратно пропорциональная, слабая. Значение t-статистики Стьюдента составило -0,0925309. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Rost подверждается с вероятностью ошибки р = 0,9269.
= -0,13264583 – связь обратно пропорциональная, слабая. Значение t-статистики Стьюдента составило -0,708153. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Ves подтверждается с вероятностью ошибки р = 0,4847.
= 0,05612943 – связь прямо пропорциональная, слабая. Значение t-статистики Стьюдента составило 0,297478. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Maches подтверждается с вероятностью ошибки р = 0,7683.
= 0,44081175 – связь прямо пропорциональная, умеренная. Значение t-статистики Стьюдента составило 2,59866. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Goal подтверждается с вероятностью ошибки р = 0,0148.
= 0,50684677– связь прямо пропорциональная, умеренная. Значение t-статистики Стьюдента составило 3,11122. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Zp подтверждается с вероятностью ошибки р = 0,0043.
= -0,00797327– связь обратно пропорциональная, слабая. Значение t-статистики Стьюдента составило -0,0421919. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором P подтверждается с вероятностью ошибки р = 0,9666.
= 0,01505691 – связь прямо пропорциональная, слабая. Значение t-статистики Стьюдента составило 0,0796827. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Y подтверждается с вероятностью ошибки р = 0,9371.
Составим корреляционную матрицу (табл.4).
Таблица 4. Корреляционная матрица
rost | ves | maches | goal | zp | p | y | ztr | |
1,0000 | 0,7128 | 0,0803 | 0,0546 | 0,0472 | 0,0812 | 0,1036 | -0,0175 | rost |
1,0000 | -0,1389 | 0,0309 | 0,0686 | -0,0933 | 0,1054 | -0,1326 | ves | |
1,0000 | 0,4619 | 0,2861 | 0,5642 | 0,0548 | 0,0561 | maches | ||
1,0000 | 0,7684 | 0,1782 | -0,1102 | 0,4408 | goal | |||
1,0000 | -0,0227 | -0,0421 | 0,5068 | zp | ||||
1,0000 | 0,0155 | -0,0080 | p | |||||
1,0000 | 0,0151 | y | ||||||
1,0000 | ztr |
Проверка на мультиколлинеарность.
Сформируем гипотезы о наличии мультиколлинеарности:
: между объясняющими переменными нет мультиколлинеарности;
: объясняющие переменные высококоррелированы.
Для проверки используем метод инфляционных факторов:
VIF(j) = , где – это коэффициент множественной корреляции
между переменной j и другими независимыми переменными.
Получены следующие значения:
VIF (rost) = 1,470
VIF (ves) = 3,938
VIF (maches) = 4,213
VIF (goal) = 1,083
VIF (zp) = 1,139
VIF (p) = 1,199
VIF (y) = 1,738
Свойства матрицы :
1-я норма = 1,396552*;
Детерминант = 1,2665015*;
Обратное условное число = 7,8934068*.
Так как все рассчитанные значения гораздо меньше 10.0, принимается нулевая гипотеза об отсутствии мультиколлинеарности.
2.4. Регрессионный анализ.
Применим метод наименьших квадратов для построения регрессионной модели (табл.5).
Таблица 5. Метод наименьших квадратов
Факторы | Коэффициент | Ст. ошибка | t-статистика | P-значение | Значимость |
Rost | 0,499591 | 0,186315 | 2,681 | 0,0133 | ** |
Ves | -0,673932 | 0,396923 | -1,698 | 0,1030 | |
Maches | -0,531823 | 0,428774 | -1,240 | 0,2274 | |
Goal | 0,449881 | 0,515175 | 0,8733 | 0,3915 | |
Zp | 3,73837 | 2,45049 | 1,526 | 0,1408 | |
P | 0,384298 | 1,25256 | 0,3068 | 0,7607 | |
Y | 3,35079 | 6,36764 | 0,5262 | 0,6038 | |
const | 6,28235 | 69,2512 | 0,09072 | 0,9285 |
Среднее зав. перемен 34,26667 Ст. откл. зав. перемен 12,80607
Сумма кв. остатков 3081,486 Ст. ошибка модели 11,57487
R-квадрат 0,922928 Испр. R-квадрат 0,902822
F(7, 23) 39,34612 Р-значение (F) 2,52e-11
Лог. правдоподобие -112,0477 Крит. Акаике 238,0954
Крит. Шварца 247,9038 Крит. Хеннана-Куинна 241,2332
Примечание: ** означает 20%-й уровень вероятности ошибки
Построим уравнение регрессии:
= 6,28235 + 0,499591rost -0,673932ves - 0,531823 maches +0,449881 goal + 3,73837+0,384298p + 3,35079
Проверка значимости уравнения регрессии
Сформируем гипотезы:
: уравнение регрессии незначимо;
: уравнение регрессии значимо.
F-статистика Фишера равна 39,34612. Нулевая гипотеза принимается, уравнение регрессии незначимо.
По данным таблицы 5 видно, что из восьми факторов значимыми оказался только один:Rost. Вероятность ошибки в этом случае составляет 20%. Значение = 0,902822 указывает на среднее качество полученной модели.
Исключим из модели незначимые факторные признаки, начиная с того, у которого большеP-значение (табл. 6).
Таблица 6. Метод наименьших факторов для значимых факторов
Факторы | Коэффициент | Ст. ошибка | t-статистика | P-значение | Значимость |
P | 7,45131 | 1,41176 | 5,278 | 1,30*10-5 | *** |
Y | 14,2589 | 13,1301 | 1,086 | 0,2868 |
Среднее зав. перемен: | 34,26667 | Ст. откл. зав. перемен: | 12,80607 | |
Сумма кв. остатков: | 17620,69 | Ст. ошибка модели: | 25,08606 | |
R-квадрат: | 0,559284 | Испр. R-квадрат: | 0,543545 | |
F(2, 35): | 17,76652 | Р-значение (F): | 0,000010 | |
Уравнение регрессии примет вид: = 7,45131P + 14,2589
F-статистика Фишера равна 17,76652. Нулевая гипотеза отвергается, уравнение регрессии значимо, вероятность ошибки составляет всего 0,000010.
После исключения незначимых признаков из модели, фактор P стал сверхзначимым, а Y так же остался не значимым. Значение = 0,543545 говорит о среднем качестве полученной модели.