Примечание к решению типовых задач. 6 страница
N=10.
0,7938 | 0,2916 | 0,8891 | ||
0,7938 | 0,2994 | 0,6693 | ||
0,2916 | 0,2994 | 0,0113 | ||
0,8891 | 0,6693 | 0,0113 | ||
Средняя | 8,878 | 5,549 | 38,79 | 1,160 |
8,7838 | 5,1612 | 1,0483 | 0,90107 |
Б) - коэффициентов частной корреляции
0,4726 | 0,5169 | 0,8511 | ||
0,4726 | 0,0521 | -0,0793 | ||
0,5156 | 0,0521 | -0,5598 | ||
0,8511 | -0,0793 | -0,5598 |
Задание:
1. По значениям линейных коэффициентов парной и частной корреляции выберите неколлинеарные факторы и рассчитайте для них коэффициенты частной корреляции. Произведите окончательный отбор информативных факторов во множественную регрессионную модель.
2. Выполните расчёт бета коэффициентов (b) и постройте с их помощью уравнение множественной регрессии в стандартизованном масштабе. Проанализируйте с помощью бета коэффициентов (b) силу связи каждого фактора с результатом и выявите сильно и слабо влияющие факторы.
3. По значениям b-коэффициентов рассчитайте параметры уравнения в естественной форме (то есть a1, a2, и a0). Проанализируйте их значения. Сравнительную оценку силы связи факторов дайте с помощью общих (средних) коэффициентов эластичности - .
4. Оцените тесноту множественной связи с помощью R и R2, а статистическую значимость уравнения и тесноту выявленной связи - через F-критерий Фишера (для уровня значимости a=0,05).
5. Рассчитайте прогнозное значение результата , предполагая, что прогнозные значения факторов ( )составят 101,3 процента от их среднего уровня.
6. Основные выводы оформите аналитической запиской.
Решение.
1. Представленные в условии задачи значения линейных коэффициентов парной корреляции позволяют установить, что оборот розничной торговли -Y более тесно связан со среднегодовой численностью населения-X3 ( ) и с инвестициями 2000 года в основной капитал – X1 ( ); наименее тесно результат Y связан со средним возрастом занятых в экономике –X2. Поэтому, в силу небольшой информативности фактора X2, предполагаем, что его можно исключить из дальнейшего анализа. Проверим наши предположения с помощью анализа матрицы коэффициентов частной корреляции. Очевидно, что наиболее тесная связь результата Y со среднегодовой численностью населения ( ) и примерно одинаково тесно связан результат с инвестициями ( ) и со средним возрастом занятых ( ). Поэтому для уточнения окончательного вывода выполним расчёт серии коэффициентов частной корреляции Y с двумя возможными комбинациями факторных признаков: для Y с X1 и с X3, а также для Y c X2 и X3.
Расчёты частных коэффициентов корреляции выполним по следующим формулам:
Как видим, факторы X1 и X3, действительно, тесно связаны с результатом, а между собой практически не взаимодействуют.
Расчёт аналогичных показателей по следующей паре факторов приводит к иным результатам:
В данном случае, межфакторное взаимодействие оценивается как заметное ( ) и по абсолютной величине сравнимо с теснотой связи розничного товарооборота со средним возрастом. Таким образом, первая из рассмотренных пар факторных признаков (X1 и X3 ) в большей мере отвечает требованиям, предъявляемым МНК к исходным данным и, в частности, к отсутствию межфакторного взаимодействия. Указанные обстоятельства позволяют использовать X1 и X3 в качестве информативных факторов уравнения множественной регрессии.
2. При построении двухфакторной регрессионной модели воспользуемся для упрощения расчётов методом стандартизованных переменных. В этом случае исходное уравнение приобретает вид: . Выполним расчёт b-коэффициентов, используя значения известных по условию линейных коэффициентов парной корреляции.
;
;
В результате получено уравнение в стандартизованном масштабе:
Параметры данного уравнения представляют собой относительные оценки силы влияния каждого из факторов на результат. При увеличении инвестиций в основной капитал на одну сигму - (от своей средней) оборот розничной торговли увеличится на 0,360 своей сигмы ( ); с увеличением среднегодовой численности населения на результат увеличится на 0,648 .Сравнивая b-коэффициентов, определяем, какой из признаков влияет на результат сильнее, а какой – слабее. В данном случае увеличение розничного товарооборота происходит, прежде всего, под влиянием увеличения численности населения и в меньшей степени – в результате увеличения инвестиций в экономику региона.
3. Используя значения b-коэффициентов, можно рассчитать параметров уравнения в естественной форме:
4.
.
В конечном счёте, имеем уравнение: . По значениям коэффициентов регрессии можно судить о том, на какую абсолютную величину изменяется результат при изменении каждого фактора на единицу (от своей средней).
С увеличением инвестиций в экономику на 1 млрд. руб. розничный товарооборот увеличивается на 0,613 млрд. руб., с увеличением численности населения на 1 млн. чел. розничный товарооборот возрастает на 6,318 млрд. руб.
Но так как признаки-факторы измеряются в разных единицах, сравнивать значения их коэффициентов регрессии не следует. Точную оценку силы связи факторов с результатом дают коэффициенты эластичности и β - коэффициенты.
4. Для сравнительной оценки силы связи выполним расчёт средних коэффициентов эластичности. С их помощью можно определить, на сколько процентов изменяется результат при изменении фактора на 1% (от своего среднего значения). В нашем случае расчёт показал, что влияние численности населения на розничный товарооборот оказалось более сильным по сравнению с влиянием инвестиций в экономику: с ростом численности населения на 1% розничный товарооборот увеличивается на 0,825%, а при увеличении инвестиций на 1% розничный товарооборот возрастает на 0,383%. Различия в силе влияния весьма значительны: первый фактор влияет на результат в два с лишним раза сильнее, чем второй. Поэтому регулирование величины розничного товарооборота через численность населения будет более результативным, чем через объём инвестиций в экономику региона.
; .
6. Тесноту выявленной зависимости розничного товарооборота от инвестиций в экономику региона и от численности населения оценивают множественный коэффициент корреляции и детерминации. Расчёт коэффициента корреляции выполним, используя известные значения линейных коэффициентов парной корреляции и β - коэффициентов. В нашем случае 2-х факторной зависимости расчёт строится следующим образом:
.
Как показали расчёты, установлена весьма тесная зависимость розничного товарооборота от численности населения и размеров инвестиций в экономику региона. Это означает, что 86,2% вариации розничного товарооборота определены вариацией данных факторов. Оставшиеся 13,8% вариации результата сформировались под влиянием прочих причин, роль которых незначительна.
7. Оценка статистической значимости или надёжности установленной формы зависимости, её параметров, оценок её силы и тесноты является важным этапом анализа результатов. Для выполнения оценки формулируется нулевая гипотеза, которая рассматривает предположение о случаейной природе полученных результатов. То есть, .
Для проверки выдвинутой нулевой гипотезы используется F-критерия Фишера. Его фактическое значение определяется, исходя из соотношения факторной и останочной дисперсий и их степеней свободы: d.f.1=k и d.f.2=n-k-1; где: n –число изучаемых единиц; k – число ограничений, которые накладываются на исходные данные при расчёте данного показателя. Здесь k равно числу факторов уравнения, то есть k=2.
.
В нашем случае, когда рассматривается зависимость результата от двух факторов, расчёт выглядит следующим образом:
.
Фактическое значение критерия показывает, что детерминация, сформированная под воздействием двух изучаемых факторов, почти в 22 раза больше, чем детерминация, связанная с действием прочих причин. Очевидно, что подобное соотношение случайно сформироваться не может и является результатом влияния существенных, систематических факторов.
Для принятия обоснованного решения Fфактич. сравнивается с Fтабличн., которое формируется случайно и зависит степеней свободы факторной (d.f.1 = k) и остаточной (d.f.2 = n-k-1) дисперсий, а также от уровня значимости α=0,05. В нашем примере, где d.f.1=k= 2 и d.f.2=n-k-1 = 10-2-1=7 при α=0,05 Fтабл = 4,74. См. табл. приложения 1. В силу того, что Fфактич =21,9> Fтабл. = 4,74, можно с высокой степенью надёжности отклонить нулевую гипотезу, а в качестве альтернативы – согласиться с утверждением, что проверяемые параметры множественной регрессионной модели неслучайны, что коэффициенты уравнения и показатели тесноты связи не являются случайными величинами.
8. Техническая часть прогнозных расчётов по уравнению множественной регрессии сравнительно проста. Достаточно определить прогнозные значения каждого факторного признака , подставить их в уравнение и выполнить с ними расчёт прогнозного значения результата - . При этом следует помнить, что требования к точности и надёжности прогноза предъявляют к используемой модели повышенные требования. В нашем случае, прогнозное значение каждого из факторов, то есть и , получено на основе средней величины:
. .
После подстановки в уравнение получаем следующий результат:
(млрд. руб.)
Если инвестиции в экономику региона возрастут до 5,621 млрд. руб., а численность населения составит 1,175 млн. чел, тогда следует ожидать, что розничный товарооборот возрастёт до 9,02 млрд. руб., то есть увеличится на 1,6% от своего среднего уровня.
Задача №3.
Для проверки рабочих гипотез (№1 и №2) о связи социально-экономических показателей в регионе используется статистическая информация за 2000 год по территориям Центрального федерального округа.
Y1 – стоимость валового регионального продукта, млрд. руб
Y2 – среднемесячная начисленная заработная плата 1-го занятого в экономике, тыс. руб.
X1 – инвестиции текущего, 2000, года в основной капитал, млрд. руб.;
X2 – среднегодовая стоимость основных фондов в экономике, млрд. руб.;
X3 -.доля занятых в экономике в общей численности населения, %;
Рабочие гипотезы:
Предварительный анализ исходных данных по 18 территориям выявил наличие трёх территорий (г. Москва, Московская обл., Воронежская обл.) с аномальными значениями признаков. Эти единицы должны быть исключены из дальнейшего анализа. Значения приводимых показателей рассчитаны без учёта указанных аномальных единиц.
При обработке исходных данных получены следующие значения линейных коэффициентов парной корреляции, средних и средних квадратических отклонений -σ:
N=15.
Для проверки рабочей гипотезы №1. Для проверки рабочей гипотезы №2.
Y1 | X1 | X2 | Y2 | X3 | |||
Y1 | 0,8171 | 0,8498 | Y2 | 0,6043 | 0,6712 | ||
X1 | 0,8171 | 0,7823 | 0,6043 | 0,2519 | |||
X2 | 0,8498 | 0,7823 | X3 | 0,6712 | 0,2519 | ||
Средняя | 23,77 | 5,600 | 115,833 | Средняя | 1,5533 | 23,77 | 44,23 |
7,2743 | 2,4666 | 30,0303 | 0,2201 | 7,2743 | 2,1146 |
Задание:
1. Составьте систему уравнений в соответствии с выдвинутыми рабочими гипотезами.
2. Определите вид уравнений и системы.
3. На основе приведённых в условии значений матриц коэффициентов парной корреляции, средних и средних квадратических отклонений:
- определите бета коэффициенты (b) и постройте уравнения множественной регрессии в стандартизованном масштабе;
- дайте сравнительную оценку силы влияния факторов на результат;
- рассчитайте параметры a1, a2 и a0 уравнений множественной регрессии в естественной форме;
- с помощью коэффициентов парной корреляции и b коэффициентов рассчитайте для каждого уравнения линейный коэффициент множественной корреляции (R) и детерминации (R2);
- цените с помощью F-критерия Фишера статистическую надёжность выявленных связей.
4. Выводы оформите краткой аналитической запиской.
Решение:
1. В соответствии с выдвинутыми рабочими гипотезами о связи признаков составим систему уравнений. Коэффициенты при эндогенных переменных обозначим через b , коэффициенты при экзогенных переменных - через a. Каждый коэффициент имеет двойную индексацию: первый индекс – номер уравнения, второй – индивидуальный номер признака. Тогда:
2. Особенность данной системы в том, что в первом уравнении факторы представлены перечнем традиционных экзогенных переменных, значения которых формируются вне данной системы уравнений. Во втором уравнении в состав факторов входит эндогенная переменная Y1, значения которой формируются в условиях данной системы., а именно, в предыдущем уравнении. Системы уравнений, в которых переменные первоначально формируются как результаты, а в дальнейшем выступают в качестве факторов, называются рекурсивными. Именно с подобной системой уравнений имеем дело в данной задаче.
3. Выполним расчёт b-коэффициентов и построим уравнения множественной регрессии в стандартизованном масштабе. Для уравнения №1:
По полученным результатам построено уравнение в стандартизованном виде:
По данным первого уравнения сделаем вывод, что инвестиции текущего года в основной капитал ( ) влияют на стоимость валового регионального продукта ( ) слабее, чем среднегодовая стоимость основных фондов в экономике ( ), т.к. .
Второе уравнение можно построить на основе следующих результатов:
Второе уравнение в стандартизованной форме имеет вид: .
Из второго уравнения очевидно, что на уровень среднемесячной заработной палаты более сильное влияние оказывает доля занятых, и менее сильное – стоимость ВРП.
4. Расчёт параметров уравнения регрессии в естественной форме даёт следующие результаты:
= 23,77-1,15*5,6 – 0,13*115,833 = 2,27.
По полученным результатам построено уравнение №1 в естественной форме:
.
Параметры уравнения №2 рассчитываются аналогичным образом. Но главная отличительная особенность их расчёта в том, что в качестве одного из факторов выступают не фактические значения , а его теоретические значения , полученные расчётным путём при подстановке в уравнение №1 фактических значений факторов и .
Указанным способом рассчитаны параметры рекурсивного уравнения:
; ;
.
По полученным результатам построено уравнение №2 в естественной форме: .
Представим результаты построения уравнений в виде рекурсивной системы:
Значения коэффициентов регрессии каждого из уравнений могут быть использованы для анализа силы влияния каждого из факторов на результат. Но для сравнительной оценки силы влияния факторов необходимо использовать либо значения -коэффициентов, либо средних коэффициентов эластичности - , , и .
5. Для каждого из уравнений системы рассчитаем показатели корреляции и детерминации.
.
.
В первом уравнении факторы и объясняют 76,7% вариации стоимости валового регионального продукта, а 23,3% его вариации определяется влиянием прочих факторов.
Во втором уравнении переменные и объясняют 65,3% изменений заработной платы, а 34,7% изменений заработной платы зависят от прочих факторов. Обе регрессионные модели выявляют тесную связь результата с переменными факторного комплекса.
6.Оценим существенность выявленных зависимостей. Для этого сформулируем нулевые гипотезы о статистической незначимости построенных моделей и выявленных ими зависимостей:
и .
Для проверки нулевых гипотез используется F-критерий Фишера. Выполняется расчёт его фактических значений, которые сравниваются с табличными значениями критерия. По результата сравнения принимается решение относительно нулевой гипотезы.
В нашей задаче:
;
Табличные значения F-критерия формируются под влиянием случайных причин и зависят от трёх условий: а) от числа степеней свободы факторной дисперсии - , где k – число факторных переменных в модели; б) от числа степеней свободы остаточной дисперсии - , где n – число изучаемых объектов; в) от уровня значимости , который определяет вероятность допустить ошибку, принимая решение по нулевой гипотезе. Как правило, значение берут на уровне 5% ( =0,05), но при высоких требованиях к точности принимаемых решений уровень значимости составляет 1% ( =0,01) или 0,1% (( =0,001).