Многофакторный корреляционно-регрессионный анализ
Отчеты
По лабораторным работам
по дисциплине «Статистика»
Вариант №5
Выполнил: студент 2-го курса
Группы ПИЭ – 208 Кочетков А.Д.
Проверил: преподаватель
Будник Е.Е.
Лабораторная работа №1
Задание 1
В течении нескольких сотен часов регистрировалось число посетителей популярного сайта. Используя систему Statistica, определите абсолютные и относительные показатели вариации. Определите, какому закону распределения подчиняются эти данные.
Кол-во посетителей, чел. | Кол-во часов |
Задание 2
Имеются данные о росте сотрудников подразделения. В соответствии с вашим вариантом определите:
1)средние величины: средний рост сотрудников в подразделении, моду и медиану ;
2) абсолютные показатели вариации: размах вариации, среднее линейное отклонение, дисперсию, среднее квадратическое отклонение.
3) относительные показатели вариации: коэффициенты осцилляции, вариации и линейной вариации; Сделайте вывод по однородности совокупности.
4) коэффициент асимметрии, эксцесса, сделать вывод о симметричности.
5) оформить отчет.
Номер варианта | ||||||||||||||||
Рост сотрудников (м) | Количество сотрудников (чел.) | |||||||||||||||
1,52–1,60 | ||||||||||||||||
1,60—1,68 | ||||||||||||||||
1,68—1,76 | ||||||||||||||||
1,76—1,84 | ||||||||||||||||
1,84—1,92 | ||||||||||||||||
1,92—2,0 | ||||||||||||||||
Номер варианта | |||||||||||||||
Рост сотрудников (м) | Количество сотрудников (чел.) | ||||||||||||||
1,52–1,60 | |||||||||||||||
1,60—1,68 | |||||||||||||||
1,68—1,76 | |||||||||||||||
1,76—1,84 | |||||||||||||||
1,84—1,92 | |||||||||||||||
1,92—2,0 |
Глоссарий
Valid N – число наблюдений N
Mean - среднее
Sum - сумма
Median - медиана
Standard deviation – стандартное отклонение
Variance- дисперсия
Standard error of mean – стандартная ошибка среднего
Confidence limits of mean - доверительные границы для среднего
Minimum Maximum – минимум и максимум
Range - размах
Skewness - асимметрия
Kurtosis - эксцесс
Standard error of Skewness – стандартная ошибка асимметрии
Standard error of Kurtosis – стандартная ошибка эксцесса
Задание 1.
Найдем показатели вариации выбрав описательные статистики и указав нужные параметры:
Результат:
Задание 2.
Найдем нужные показатели:
Результаты:
Лабораторная работа №2
Задание
По предприятиям легкой промышленности региона получена информация, характеризующая зависимость выпуска объема продукции (Y, млн руб) от объема капиталовложений (X млн руб). (табл. 6)
Требуется:
1. Для характеристики Y от X построить следующие модели:
- линейную,
- степенную,
- показательную,
- гиперболическую.
2. Оценить каждую модель, определив:
- индекс корреляции,
- среднюю относительную ошибку,
- коэффициент детерминации,
- F – критерий Фишера.
3. Составить свободную таблицу вычислений, выбрать лучшую модель, дать интерпретацию рассчитанных характеристик.
4. Рассчитать прогнозные значения результативного признака на 110% относительно среднего уровня.
Таблица 6
Вариант | Наблюдения | |||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y | ||||||||
X | ||||||||
Y |
Линейная модель
Степенная модель
Показательная модель
Гиперболическая модель
Наибольшее значение F-критерия Фишера и большее значение коэффициента детерминации R2 имеет линейная модель. Ее можно взять в качестве лучшей для построения прогноза.
Расчет прогнозного значения результативного показателя для Уральского региона:
XПР=X*1,1=42,86*1,1=47,146; Упр=44,65+0,76*X
Лабораторная работа № 3
Задание. В базе данных (файл – Lab2.sta) даны значения показателей производственно-хозяйственной деятельности промышленных предприятий.
Рассматриваются следующие показатели:
Y1 – производительность труда
Y2 – индекс снижения себестоимости продукции
Y3 – рентабельность
Х4 – трудоемкость единицы продукции
Х5 – удельный вес рабочих в составе ППП
Х6 – удельный вес покупных изделий
Х7 – коэффициент сменности оборудования
Х8 – премии и вознаграждения на одного работника
Х9 – удельный вес потерь от брака
Х10 – фондоотдача
Х11 – среднегодовая численность ППП
Х12 – среднегодовая стоимость ОПФ
Х13 – среднегодовой фонд заработной платы ППП
Х14 – фондовооруженность труда
Х15 – оборачиваемость нормируемых оборотных средств
Х16 – оборачиваемость ненормируемых оборотных средств
Х17 – непроизводственные расходы.
НЕОБХОДИМО:
1) Построить однофакторную модель зависимости результативного признака Y от факторного признака Х в соответствии с вариантами заданий.
Установить вид аппроксимирующей функции. Определить силу и направление связи между переменными. Определить какая часть вариации результативного признака объясняется влиянием факторного признака. Построить уравнение регрессии. Оценить адекватность модели. Проанализировать остатки. Спрогнозировать значение результативной переменной при указанном значении факторной переменной.
2) Построить многофакторную модель зависимости результативного признака Y от факторных признаков Х в соответствии с вариантами заданий.
Установить вид аппроксимирующей функции. Определить силу и направление связи между результативной переменной и каждой факторной переменной и, в общем, между результативной переменной и всеми значимыми факторными переменными. Определить тесноту связи между результативным признаком и каждым из факторных признаков при исключении влияния других признаков. Определить какая часть вариации результативного признака объясняется влиянием факторных признаков. Построить уравнение регрессии. Оценить адекватность модели. Проанализировать остатки. Спрогнозировать значение результативной переменной при указанном значении факторных переменных.
Варианты заданий
№ варианта | Однофакторная модель | Многофакторная модель | ||
Результативный признак, Y | Номер факторного признака, Х | Результативный признак, Y | Номера факторных признаков, Х | |
6, 8, 11, 12, 17 | ||||
7, 11, 12, 13, 17 | ||||
8, 11, 12, 13, 17 | ||||
5, 6, 12, 13, 17 | ||||
5, 6, 7, 9, 17 | ||||
8, 9, 13, 14, 17 | ||||
6, 8, 13, 14, 17 |
Х4 | Х5 | Х6 | Х7 | Х8 | Х9 | Х10 | Х11 | Х12 | Х13 | Х14 | Х15 | Х16 | Х17 |
0,31 | 0,74 | 0,22 | 1,22 | 2,2 | 0,79 | 1,39 | 78,11 | 6,62 | 120,52 | 14,76 | 19,41 |
Значения факторных переменных, для прогноза результативного признака:
Выполнение работы
1) Построим однофакторную регрессионную модель для анализа влияния вариации факторного признака X8 на результативный признак Y3.
Рис. «Поле корреляции и гистограммы переменных»
Х8 и У1 .
Для удаления выбросов используют средство Brushing – Кисть, меню которого активизируется кнопкой на панели инструментов.
В группе опций Action – Действия установим маркер на действие Labelи, подведя курсор-лупу к предполагаемому «выбросу» на графике поля корреляции, щелкнем левой кнопкой мыши. Соответствующая точка-«выброс» будет выделена. Далее нажмем кнопку Update-Обновить для определения порядкового номера случая-«выброса». Над точкой появился номер: Case 4- Наблюдение 4. Для удаления «выброса» с графика поля корреляции установим маркер на действие Turn OFF-Отключить и нажмем Update-Обновить. Аналогичным образом удалим оставшиеся выбросы. Направление аппроксимирующей функции изменилось, теперь все точки лежат в непосредственной ее близости. Можно сделать вывод о сильном влиянии выброса на результат анализа, удалить выбросы из исходных данных и заново рассчитать коэффициент парной корреляции.
Нажатием кнопки Quit – Выходзакончим использование инструмента Brushing – Кисть. Удалим выброс и из исходных данных, предварительно закрыв диалоговое окно Review Descriptive statistics – Просмотр описательных статистических характеристик. Далее снова вызовем Startup Panel – Стартовую панель в меню Analysis-Анализ и проведем расчет коэффициента парной корреляции.
Рис. «Использование инструмента Brushing – Кисть»
Заново рассчитанный коэффициент парной корреляции равен 0,25, что свидетельствует о возможном наличии прямой связи между рассматриваемыми переменными. Принимая гипотезу о прямолинейной форме зависимости между признаками, определим значения параметров b0 и b1 уравнения однофакторной линейной корреляционной связи вида ŷ=b0+b1x.
Из диалогового окна Review Descriptive statistics – Просмотр описательных статистических характеристик, щелчком на кнопке ОК переходим в диалоговое окно Model Definition – Определение модели,а из него щелчком на кнопке ОК –в окно результатов корреляционно-регрессионного анализа.
По данным нашего примера коэффициент детерминации получился равным 0,06242348, таким образом, 6,2% вариации показателя Х8 объясняется вариацией показателя .
Значимость множественного коэффициента корреляции проверяется по таблице F-критерия Фишера. В нашем случае табличное значение F-критерия Фишера для степеней свободы ν1=1, ν2=18 (20 наблюдений минус 2 равно 18) при уровне значимости α=0,05 равно 4,41, а рассчитанное значение равно 1,198433. Расчетное значение меньше табличного, поэтому найденный коэффициента парной корреляции имеет малую значимость между переменными Х8 и . Как правило Fрасч > Fтабл минимум в 4 раза.
Рис. «Окно результатов корреляционно-регрессионного анализа»
Щелчок по кнопке Regression Summary –Итоговая таблица регрессии в окне результатов регрессионного анализа открывает Regression Summary for dependent variable – Итоговую таблицу регрессии зависимой переменной.
Рис. «Окно Regression Summary for dependent variable –
Итоговая таблица регрессии зависимой переменной»
Здесь в столбце Bотражены искомые значения параметров b0 и b1 регрессионного уравнения. Итак, наше уравнение имеет вид:
=631,8931-0,2119* Х8
Значимость найденных параметров b0 и b1 проверяется по таблице t-критерия Стьюдента. Расчетные значения t-критерия Стьюдента для каждого параметра, отраженные в столбце t(18), сравниваем с табличным значением t-критерия для числа степеней свобода, равного 18. tтабл = 2,101 при уровне значимости α=0,05. Рассчитанные значения t-критерия для первого параметра больше табличного, для второго – меньше.
Многофакторный корреляционно-регрессионный анализ
Включим в модель переменные Х5 Х6 Х7 Х9 Х17. Построим многофакторную линейную регрессионную модель для анализа влияния вариации факторных признаков Х5 Х6 Х7 Х9 Х17 на результативный признак .
Выявление и удаление выбросов проводятся аналогично описанному процессу для случая однофакторной регрессии.
Рис. «Поле корреляции и гистограммы переменных , Х5 Х6 Х7 Х9 Х17»
Корреляционная матрица содержит коэффициенты корреляции как между факторными и результирующей переменной, так и между самими факторными переменными.
Рис. «Корреляционная матрица»
Корреляционная матрица показывает, что значение коэффициента парной корреляции между переменными и равно -0,419, т.е. направление связи – обратное, связь слабая.
Х5 и =-0,434259, направление связи – обратное, связь слабая.
Х6и =-0,042073, направление связи – обратное, связь слабая.
Х7и =-0,132478, направление связи – обратное, связь слабая.
Х9и =0,164505, направление связи – обратное, связь слабая.
В случае построения многофакторной модели требуется проверить факторы на мультиколлинеарность. В нашем примере коэффициент корреляции между факторами (равный -0,434259) меньше коэффициентов корреляции факторов с результирующей переменной (соответственно -0,042073 и 0,031845), т.е. мультиколлинеарность отсутствует.
Определим значения параметров b0, b1 ,b2, b3, b4 ,b5, уравнения многофакторной линейной корреляционной связи вида ŷ=b0+b1x+ b2x+ b3x+ b4x+ b5x.
Рис. «Окно Regression Summary for dependent variable – Итоговая таблица регрессии зависимой переменной»
В нашем примере b0= -47,8959 b1= 0,0337, b2= 1,0036,
b3= 0,0420, b4= -0,1378, b5= 7,0899, уравнение регрессии имеет вид:
=-47,8959 +0,0337 Х5+1,0036 Х6+0,0420 Х7-0,1378 Х9+7,0899 Х17
Совокупный коэффициент множественной детерминации, равный 0,99920129, показывает, что 99,9% вариации показателя объясняется влиянием факторов, включенных в уравнение множественной регрессии (Х5 Х6 Х7 Х9 Х17).
Проверка адекватности уравнения, значимости найденных коэффициентов регрессии, построение прогноза осуществляются так же, как при проведении однофакторного корреляционно-регрессионного анализа.
Рис. «Окно результатов корреляционно-регрессионного анализа»
Значимость множественного коэффициента корреляции проверяется по таблице F-критерия Фишера. В нашем случае табличное значение F-критерия Фишера для степеней свободы ν1=1, ν2=18 (20 наблюдений минус 2 равно 18) при уровне значимости α=0,05 равно 4,41, а рассчитанное значение равно 4754,852. Расчетное значение больше табличного, поэтому найденный коэффициент парной корреляции имеет высокую значимость между переменными , Х5 Х6 Х7 Х9 Х17. Как правило Fрасч > Fтабл минимум в 4 раза.
Нажатие по кнопке Graph – График в диалоговом окне Review Descriptive statistics – Просмотр описательных статистических характеристик откроет график «поле корреляции» исследуемых переменных, а также соответствующие гистограммы.
Рис. «График распределения остатков»
Лабораторная работа №4
Задание
По десяти шахтам получены данные, характеризующие процесс добычи угля: мощность пласта X1(в м), уровень механизации работ X2 (в %) и сменная добыча угля на одного рабочего Y (в т) (таблица 4).
Требуется:
1. Оценить показатели вариации каждого признака и сделать вывод о возможности применения метода наименьших квадратов для их изучения.
2. Проанализировать линейные коэффициенты парной и частной корреляции.
3. Написать уравнение множественной регрессии, оценить значимость его параметров, пояснить их экономический смысл.
4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и . Сравнить значение скорректированного и нескорректированного линейных коэффициентов множественной детерминации.
5. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии каждого фактора.
6. Рассчитать средние частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат.
1.
Сравнивая значения средних квадратических отклонений и средних величин и определяя коэффициенты вариации:
V1=20,89; V2=21,169; V3=6,917
приходим к выводу о повышенном уровне варьирования признаков, хотя и в допустимых пределах, не превышающих 35%. Совокупность предприятий однородна, и для ее изучения могут использоваться метод наименьших квадратов и вероятностные методы оценки статистических гипотез.
2.
Наиболее тесно связаны y и x1: =0,868, связь y и x2 гораздо слабее: =0,0964, а межфакторная зависимость x1 и x2 выше, чем парная y и x2: =0,0964< =0,0396. Все это приводит к выводу о необходимости исключить фактор x2 – доля высококвалифицированных рабочих – из правой части уравнения множественной регрессии.
3-6.
Величины и указывают, что с увеличением x1 и x2 на единицу их значений результат увеличивается соответственно на 0,766 и на 0,0173.
По данным из таблицы дисперсионного анализа Fфакт=20,62. Вероятность случайно получить такое значение F-критерия составляет 0,0011, что не превышает допустимый уровень значимости 5%.
По значениям частных коэффициентов эластичности можно сделать вывод о более сильном влиянии на результат y признака фактора , чем признака фактора : 0,47% против 0,04%.
Федеральное государственное бюджетное образовательное учреждение
Высшего профессионального образования
Уфимский Государственный Авиационный Технический Университет