Конспект по эконометрии

Построим уравнение парной линейной регрессии, оценим ее адекватность и точность:

1. Создать копию исходных данных.

2. Построить корреляционное поле: 2.1. Подготовим пустую область диаграммы: не выделяя предварительно табличные данные, перейдем на вкладку ленты Вставка>Диаграммы> Точечная. Из набора точечных диаграмм выбираем Точечная с маркерами. 2.2. Выберем данные для построения диаграммы: вкладка Конструктор > Выбрать данные. В диалоговом окне Выбор источника данных нажмем на кнопку Добавить. Укажем в качестве Значений Х все числовые данные столбца Количество сотрудников, в качестве Значений Y все числовые данные столбца Выручка.

По умолчанию выбран необходимый нам линейный тренд. Установим также флажки показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2)/

3.Получить отчет по модели регрессии: Вкладка ленты Данные > Анализ данных> Регрессия. Примечание: Для подключения надстройки Анализ данных необходимо нажать последовательно кнопки Офис >Параметры Excel >Надстройки> Перейти установить флажок Пакет анализа. В диалоговом окне Регрессия заполнить!

Анализ полученных результатов

1) Оценим тесноту связи между показателями x и y в данной выборке: Множественный R (табл. 1) - коэффициент корреляции

2)ρ 0 ≤ | ρ| ≤ 0,3 связь слабая или отсутствует

3)0,3 ≤ | ρ| ≤ 0,7 связь средняя

4)0,7 ≤ | ρ| ≤ 1 связь тесная

Пример: Множественный R = 0,974. Величина коэффициента корреляции свидетельствует о тесной связи между выручкой магазина и количеством сотрудников.

2) Оценим качество регрессионной модели: R-квадрат (табл. 1) – коэффициент детерминации Пример: Коэффициент детерминации (R 2 = 0,949) показывает, что 94,9% изменения выручки магазина зависит от количества сотрудников, 5,1% приходится на изменение факторов, не включенных в модель

3) В таблице «Дисперсионный анализ» (табл.2) на пересечении столбца «SS» и строки «Регрессия» находится значение объясненной дисперсии (RSS); на пересечении столбца «SS» и строки «Остаток» находится значение остаточной дисперсии (ESS), на пересечении столбца «SS» и строки «Итого» находится значение общей дисперсии (ТSS).

4) Напомним, что коэффициенты корреляции и детерминации, которые свидетельствуют о наличии связи между показателями x и y были рассчитаны по выборке. Воз- можно, что обнаруженная взаимосвязь присутствует в данных только этой выборки, и не будет характерной для всей генеральной совокупности.

Выдвигается нулевая гипотеза, которая утверждает, что для всей генеральной совокупности значение коэффициента детерминации R 2 =0 (следовательно, и коэффициент корреляции ρ=0), то есть, между х и y никакой взаимосвязи нет и выявленная нами взаимосвязь данных – не что иное, как продукт случайного сочетания определенных пар значений х и y.

Значимость F (табл. 2) - вероятность выполнения нулевой гипотезы для коэффициента детерминации R2 . При этом, если:

- Значимость F < 5% , то R 2 статистически значим с надежностью 95%. Другими словами, по крайней мере, для 95 выборок из 100 рассчитанные коэффициенты детерминации будут значимо отличны от нуля.

- Значимость F > 5% , то R 2 статистически незначим с надежностью 95%.

Пример: Значимость F = 0,0% , следовательно, R 2 – статистически значим.

5) Анализируются коэффициенты регрессионной модели, и записывается уравнение (y=a+b∙x): 4.1. Значения коэффициентов уравнения a и b: (столбец «Коэффициенты» табл. 3) Строка Y-пересечение содержит все характеристики для анализа коэффициента a - свободного члена уравнения регрессии. Строка с названием фактора (в нашем примере это Кол-во сотрудников) содержит все характеристики для анализа коэффициента b – коэффициента уравнения при рассматриваемом факторе.

Пример: a = -1 725 423,87 b = 488 210,48 4.2. Значения коэффициентов регрессии были рассчитаны по данным выборки. Необходимо убедиться, что рассчитанные коэффициенты будут статистически значимы (т.е. отличны от нуля для значительной части выборок из рассматриваемой генеральной совокупности) и войдут в модель. Для оценки статистической значимости коэффициента регрессии выдвигается нулевая гипотеза о равенстве коэффициентов регрессии нулю. Для коэффициента b математическая форма записи нуль гипотезы и альтернативной ей гипотезы следующая:

H0: b = 0 – коэффициент незначим;

H1: b ≠ 0 – коэффициент значимый

P-значение (табл. 3) – вероятность выполнения нулевой гипотезы для соответствующего коэффициента:

- Если P-значение 5% , то коэффициент статистически незначим с надежностью 95%. Примечание: Если коэффициент a статистически незначим, то можно пере строить модель, установив в диалоговом окне «Регрессия» флажок «Константа- ноль».

Пример: P-значение коэффициента а = 1,3% ; P-значение коэффициента b = 0 % , следовательно, оба коэффициента статистически значимы и войдут в модель;

4.3. Записывается уравнение регрессии: y=a + b ∙ x При этом модель считается качественной и может быть использована для прогнозов, если:

1) полученная модель соответствует теоретическим соображениям (например, для рассматриваемого примера, противоречием с экономической точки зрения было бы отрицательное значение коэффициента b, это бы свидетельствовало о том, что при увеличении количества работников выручка сокращается);

2) коэффициент корреляции ρ > 0,7; 3) R 2 – статистически значим; 4) коэффициенты a и b – статистически значимы. Пример: уравнение регрессии: y = -1 725 423, 87 + 488 210, 48∙ x или, с учетом условия задачи: Выручка = -1 725 423,87 + 488 210,48∙ Кол-во_сотрудников

4.4. Анализируется экономический смысл коэффициентов a и b:

Коэффициент b показывает, на какую величину в среднем измерения изменится значение y, если х возрастет на единицу.

Свободный член a уравнения регрессии определяет прогнозируемое значение у при величине х, равной нулю. При этом коэффициент a имеет экономический смысл только в том случае, если рассматриваемая экономическая ситуация имеет смыл при нулевом значении x. Пример: В нашем случае, результирующий показатель y- выручка, фактор x - количество сотрудников. Следовательно: Каждый дополнительный сотрудник увеличит выручку магазина в среднем на 488 210,48 руб. в год. Коэффициент a, очевидно, не имеет экономического смысла.

4.5. Проверяется доверительный интервал для коэффициентов регрессии (столбцы «Нижние 95%» и «Верхние 95%» табл. 3).

Напоминаем, что значения коэффициентов a и b были рассчитаны по заданной выборке. Очевидно, что если мы, например, добавим данные в рассматриваемую выборку и перестроим по новым данным модель регрессии, прямая регрессии изменит свое положение на корреляционном поле. При этом для 95 выборок из 100 из рассматриваемой генеральной совокупности, новые значения коэффициентов будут принадлежать интервалу, границы которого задаются значениями столбцов «Нижние 95%» и «Верхние 95%» . С экономической точки зрения трактовку значений границ доверительного интервала коэффициента b рассмотрим на нашем примере.

Пример: Величина изменения выручки при найме дополнительного сотрудника может возрасти от 423 654,03 руб. до 552 766,94 руб.

5) По величине стандартных остатков определяются статистические выбросы - наблюдения, которые достаточно далеко отклоняются от построенной прямой регрессии. Наблюдение считается статистическим выбросом, если стандартный остаток по мо- дулю больше или равен 2, Такое наблюдение удаляется из рассматриваемой выборки и регрессия перестраивается только в том случае, если ρ < 0,7 или параметры регрессии незначимы.

Пример: Наблюдение 15 – статистический выброс. Найдем наблюдение №15 на корреляционном поле для того, чтобы убедиться, что данное наблюдение отклоняется от построенной прямой регрессии на самом деле значительнее, чем другие наблюдения выборки.

II. Определим среднюю выручку магазина, количество сотрудников в котором 17 человек: Подставим в полученное уравнению регрессии значение х* = 17 и получим средне- годовую выручку для магазина: ŷ = -1 725 423, 87 + 488 210, 48∙ x* = -1 725 423, 87 + 488 210, 48∙ 17 = 6 574 154, 37 млн. руб.

III. Построить 95% доверительный интервал для выручки магазина, количество сотрудников в котором 17 чел. Средняя выручка магазина, количество сотрудников в котором 17 человек равна 6 574 154,37 млн. руб. Это значение является наиболее вероятным с точки зрения закономерности, отраженной в модели. Такой прогноз называется точечным и не учитывает отклонений от закономерности в результате действия неучтенных в модели факторов. Чтобы учесть в модели влияние случайных факторов, кроме точечного строится так же доверительный прогноз. Доверительным интервалом называется такой интервал, в котором с определенной вероятностью может находиться фактическое значение рассматриваемого показателя.

Рассчитаем tкр, воспользовавшись стандартной функцией EXCEL – СТЬЮДРАСПОБР. Аргументы функции: Вероятность: уровень значимости α исходя из того что (1 - α) – желаемая доверительная вероятность с которой фактическое значение будут попадать в построенный интервал. В нашем случае α = 1 - 0,95 = 0,05. Степени_свободы: количество наблюдений выборки, уменьшенное на количество коэффициентов уравнения регрессии, которое определяется по выборке. Для пар- ной линейной регрессии – это n-2.

Итого, выручка магазина, количество сотрудников в котором 17 человек, с вероятностью 95% составит от 4 488 646,28 млн. руб. до 8 659 662,46 млн. руб., при этом наиболее вероятна выручка, равная 6 574 154,37 млн. руб. Доверительный интервал получится, как правило, менее широким в случае, если вы- борка, взятая для исследования, будет содержать большее количество наблюдений.

Наши рекомендации