Глава 2. Статистический анализ влияния факторных признаков на стоимость футболистов на трансферном рынке

2.1. Описание факторных признаков. Формирование гипотез о наличии зависимости.

Объектом исследования были выбраны лучшие защитники европейских премьер лиг по итогам прошедшего футбольного сезона. Выборка состоит из 30 наблюдений.

Предметом изучения в данной работе является оценка влияния различных факторов на стоимость футболистов. Таким образом, зависимым признаком здесь является «ztr» - cтоимость футболистов на трансферном рынке, формирующийся за результативности и физических характеристик. Было выбрано семь признаков:

• Рост

• Вес игрока

• Количество сыгранных матчей в сезоне

• Количество забитых мячей

• Мячи, забитые с пенальти

• Количество предупреждений, полученных за весь сезон

• Количество удалений, полученных за весь сезон

Таблица 1. Показатели, использованные для корреляционно–регрессионного анализа

Наименование Единицы измерения Обозначение
рост см rost
вес кг ves
сыгранные матчи количество maches
забитые голы количество goal
голы, забитые с пенальти количество zp
предупреждение количество p
удаление количество y
цена на трансферном рынке млн. долларов ztr

2.2. Проверка распределения на нормальность.

Рассчитаем простые описательные статистики по каждой из переменных (табл.2).

Таблица 2. Простые описательные статистики

Переменная Среднее Медиана Минимум Максимум
rost 181,833 182,500 168,000 192,000
ves 74,5667 73,5000 62,0000 91,0000
maches 29,0333 30,0000 12,0000 38,0000
goal 9,50000 8,00000 1,00000 30,0000
zp 0,900000 0,000000 0,000000 6,00000
p 2,66667 2,00000 0,000000 8,00000
y 0,133333 0,000000 0,000000 1,00000
ztr 34,2667 33,0000 11,0000 65,0000
Переменная Ст. откл. Вариация Асимметрия Эксцесс
rost 6,41702 0,0352907 -0,118099 -0,819713
ves 7,31877 0,0981507 0,585527 -0,155245
maches 7,03922 0,242453 -1,20287 0,789886
goal 7,23855 0,761952 1,33659 1,29047
zp 1,42272 1,58080 1,85897 3,55193
p 2,13886 0,802072 0,723255 -0,436050
y 0,345746 2,59309 2,15728 2,65385
ztr 12,8061 0,373718 0,444599 -0,414090

Проверим выборку на однородность с помощью коэффициента вариации. v = 0,88397, то есть вариация значений зависимого признака сильная, следовательно, данная выборка в значительной степени неоднородна. Чтобы это преодолеть, нужно привести выборку к нормальному распределению. Для этого используем замену y = ln x. v(y) = 0,10520, то есть вариация значений зависимого признака несильная, следовательно, данная выборка в значительной степени однородна. Далее проверим распределение на нормальность, используя критерий Хи-квадрат (табл.3)

Таблица 3. Распределение частот для ztr

  частота отн. инт.   частота отн. инт.
3,33% 3,33% * 3,33% 53,33% *
3,33% 6,67% * 3,33% 56,67% *
3,33% 10,00% * 6,67% 63,33% **
6,67% 16,67% ** 3,33% 66,67% *
3,33% 20,00% * 6,67% 73,33% **
6,67% 26,67% ** 6,67% 80,00% **
3,33% 30,00% * 3,33% 83,33% *
3,33% 33,33% * 3,33% 86,67% *
3,33% 36,67% * 3,33% 90,00% *
6,67% 43,33% ** 3,33% 93,33% *
3,33% 46,67% * 3,33% 96,67% *
3,33% 50,00% * 3,33% 100,00% *

Сформируем первоначальные гипотезы:

: распределение зависимого признака нормально;

: распределение не является нормальным.

Значение составило 1,486, принимается нулевая гипотеза о нормальном распределении с вероятностью ошибки р = 0,47579. Тот факт, что распределение зависимого признака является нормальным, подтверждается и графиком (рис.1.).

Глава 2. Статистический анализ влияния факторных признаков на стоимость футболистов на трансферном рынке - student2.ru

Рис 1. Тест на нормальное распределение

2.3. Корреляционный анализ.

Рассчитаем парные коэффициенты корреляции между зависимым и каждым из факторных признаков. Сформируем гипотезы о наличии корреляционной связи:

: ρ = 0 - корреляционная связь между признаками отсутствует

: ρ ≠ 0 - существует корреляционная связь между рассматриваемыми признаками.

= -0,01748403 – связь обратно пропорциональная, слабая. Значение t-статистики Стьюдента составило -0,0925309. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Rost подверждается с вероятностью ошибки р = 0,9269.

= -0,13264583 – связь обратно пропорциональная, слабая. Значение t-статистики Стьюдента составило -0,708153. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Ves подтверждается с вероятностью ошибки р = 0,4847.

= 0,05612943 – связь прямо пропорциональная, слабая. Значение t-статистики Стьюдента составило 0,297478. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Maches подтверждается с вероятностью ошибки р = 0,7683.

= 0,44081175 – связь прямо пропорциональная, умеренная. Значение t-статистики Стьюдента составило 2,59866. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Goal подтверждается с вероятностью ошибки р = 0,0148.

= 0,50684677– связь прямо пропорциональная, умеренная. Значение t-статистики Стьюдента составило 3,11122. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Zp подтверждается с вероятностью ошибки р = 0,0043.

= -0,00797327– связь обратно пропорциональная, слабая. Значение t-статистики Стьюдента составило -0,0421919. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором P подтверждается с вероятностью ошибки р = 0,9666.

= 0,01505691 – связь прямо пропорциональная, слабая. Значение t-статистики Стьюдента составило 0,0796827. Нулевая гипотеза об отсутствии корреляционной связи между зависимым признаком и фактором Y подтверждается с вероятностью ошибки р = 0,9371.

Составим корреляционную матрицу (табл.4).

Таблица 4. Корреляционная матрица

rost ves maches goal zp p y ztr  
1,0000 0,7128 0,0803 0,0546 0,0472 0,0812 0,1036 -0,0175 rost
  1,0000 -0,1389 0,0309 0,0686 -0,0933 0,1054 -0,1326 ves
    1,0000 0,4619 0,2861 0,5642 0,0548 0,0561 maches
      1,0000 0,7684 0,1782 -0,1102 0,4408 goal
        1,0000 -0,0227 -0,0421 0,5068 zp
          1,0000 0,0155 -0,0080 p
            1,0000 0,0151 y
              1,0000 ztr

Проверка на мультиколлинеарность.

Сформируем гипотезы о наличии мультиколлинеарности:

: между объясняющими переменными нет мультиколлинеарности;

: объясняющие переменные высококоррелированы.

Для проверки используем метод инфляционных факторов:

VIF(j) = , где – это коэффициент множественной корреляции

между переменной j и другими независимыми переменными.

Получены следующие значения:

VIF (rost) = 1,470

VIF (ves) = 3,938

VIF (maches) = 4,213

VIF (goal) = 1,083

VIF (zp) = 1,139

VIF (p) = 1,199

VIF (y) = 1,738

Свойства матрицы :

1-я норма = 1,396552*;

Детерминант = 1,2665015*;

Обратное условное число = 7,8934068*.

Так как все рассчитанные значения гораздо меньше 10.0, принимается нулевая гипотеза об отсутствии мультиколлинеарности.

2.4. Регрессионный анализ.

Применим метод наименьших квадратов для построения регрессионной модели (табл.5).

Таблица 5. Метод наименьших квадратов

Факторы Коэффициент Ст. ошибка t-статистика P-значение Значимость
Rost 0,499591 0,186315 2,681 0,0133 **
Ves -0,673932 0,396923 -1,698 0,1030  
Maches -0,531823 0,428774 -1,240 0,2274  
Goal 0,449881 0,515175 0,8733 0,3915  
Zp 3,73837 2,45049 1,526 0,1408  
P 0,384298 1,25256 0,3068 0,7607  
Y 3,35079 6,36764 0,5262 0,6038  
const 6,28235 69,2512 0,09072 0,9285  

Среднее зав. перемен 34,26667 Ст. откл. зав. перемен 12,80607

Сумма кв. остатков 3081,486 Ст. ошибка модели 11,57487

R-квадрат 0,922928 Испр. R-квадрат 0,902822

F(7, 23) 39,34612 Р-значение (F) 2,52e-11

Лог. правдоподобие -112,0477 Крит. Акаике 238,0954

Крит. Шварца 247,9038 Крит. Хеннана-Куинна 241,2332

Примечание: ** означает 20%-й уровень вероятности ошибки

Построим уравнение регрессии:

= 6,28235 + 0,499591rost -0,673932ves - 0,531823 maches +0,449881 goal + 3,73837+0,384298p + 3,35079

Проверка значимости уравнения регрессии

Сформируем гипотезы:

: уравнение регрессии незначимо;

: уравнение регрессии значимо.

F-статистика Фишера равна 39,34612. Нулевая гипотеза принимается, уравнение регрессии незначимо.

По данным таблицы 5 видно, что из восьми факторов значимыми оказался только один:Rost. Вероятность ошибки в этом случае составляет 20%. Значение = 0,902822 указывает на среднее качество полученной модели.

Исключим из модели незначимые факторные признаки, начиная с того, у которого большеP-значение (табл. 6).

Таблица 6. Метод наименьших факторов для значимых факторов

Факторы Коэффициент Ст. ошибка t-статистика P-значение Значимость
P 7,45131 1,41176 5,278 1,30*10-5 ***
Y 14,2589 13,1301 1,086 0,2868  
Среднее зав. перемен: 34,26667   Ст. откл. зав. перемен: 12,80607
Сумма кв. остатков: 17620,69   Ст. ошибка модели: 25,08606
R-квадрат: 0,559284   Испр. R-квадрат: 0,543545
F(2, 35): 17,76652   Р-значение (F): 0,000010
         

Уравнение регрессии примет вид: = 7,45131P + 14,2589

F-статистика Фишера равна 17,76652. Нулевая гипотеза отвергается, уравнение регрессии значимо, вероятность ошибки составляет всего 0,000010.

После исключения незначимых признаков из модели, фактор P стал сверхзначимым, а Y так же остался не значимым. Значение = 0,543545 говорит о среднем качестве полученной модели.

Наши рекомендации