Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов

В условиях перехода страны к рыночной экономике возрастает интерес и потребность в статистических методах анализа и прогнозирования, в количественных оценках социально-экономических явлений, получаемых с использованием многомерных статистических методов на ПЭВМ.

В данном разделе излагаются основные теоретические положения таких многомерных статистических методов, как корреляционный, регрессионный, компонентный и кластерный анализ, ряд задач эконометрики.

Значительное внимание уделяется логическому анализу исходной информации и экономической интерпретации получаемых результатов, а также рассмотрению подробно разработанных типовых примеров, взятых из экономической практики и решенных с использованием ЭВМ.

Примеры иллюстрируют необходимость комплексного применения многомерных статистических методов. При этом корреляционный анализ используется, с одной стороны, на этапе предварительного анализа для выявления мультиколлинеарности, а с другой — при оценке адекватности регрессионной модели; компонентный анализ используется в задачах снижения размерности, а также при построении уравнения регрессии на главных компонентах и в задачах классификации. При окончательном выборе модели рекомендуется использовать как экономические, так и статистические критерии. Наряду с точечными оценками рассматриваются методы построения интервальных оценок коэффициентов и уравнения регрессии.

В 53.5 «Основы эконометрики» рассматриваются производственные функции и системы одновременных эконометрических уравнений, двухшаговый метод наименьших квадратов.

Настоящий раздел предназначен для студентов, изучающих многомерные статистические методы, и специалистов, желающих повысить свою квалификацию в области применения современных эконометрических методов для анализа и прогнозирования социально-экономических явлений.

Глава 53. Методы многомерного статистического анализа и моделирования социально-экономических явлений

Корреляционный анализ

Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.

Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля — отрицательная.

Множественный коэффициент корреляции характеризует тесноту, линейной связи между одной переменной (результативной) и остальными, входящими в модель; он изменяется в пределах от 0 до 1.

Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.

Исходной для анализа является матрица

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

размерности п х k, i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям (j = 1, 2, ..., k).

В корреляционном анализе матрицу Х рассматривают как выборку объема п из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средних Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru , вектор средних квадратических отклонений s и корреляционную матрицу R порядка k:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

где

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.1)

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.2)

x_ij — значение i-го наблюдения j-го фактора,

r_il — выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями x_j и x_l. При этом r_jl является оценкой генерального парного коэффициента корреляции.

Матрица R является симметричной (r_jl = r_lj) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка. Например, частный коэффициент корреляции (k - 2)-го порядка между переменными х₁ и х₂ равен

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.3)

где R_jl — алгебраическое дополнение элемента r_jl корреляционной матрицы R. При этом R_jl = (-l)^j+l M_jl, где M_jl — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца.

Множественный коэффициент корреляции (k - 1)-го порядка результативного признака x₁ определяется по формуле

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.4)

где | R | — определитель матрицы R.

Значимость частных и парных коэффициентов корреляции, т.е. гипотеза H₀: ρ = 0, проверяется по t-критерию Стьюдента. Наблюдаемое значение критерия находится по формуле

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.5)

где r — соответственно оценка частного или парного коэффициента корреляции ρ; l — порядок частного коэффициента корреляции, т.е. число фиксируемых факторов (для парного коэффициента корреляции l=0).

Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза H₀: ρ = 0 отвергается с вероятностью ошибки α, если t_набл по модулю будет больше, чем значение t_кр, определяемое по таблицам t-распределения для заданного α и υ = n – l - 2.

Значимость коэффициентов корреляции можно также проверить с помощью таблиц Фишера — Иейтса.

При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку дляZ:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.6)

где t_γ вычисляют по таблице значений интегральной функции Лапласа из условия

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

значениеZ' определяют по таблице Z-преобразования по найденному значению r. ФункцияZ' — нечетная, т.е.

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Обратный переход от Z к ρ осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для ρ с надежностью γ:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Таким образом, с вероятностью γ гарантируется, что генеральный коэффициент корреляции ρ будет находиться в интервале (r_min, r_max).

Значимость множественного коэффициента корреляции (или его квадрата — коэффициента детерминации) проверяется по F-критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. H₀ : ρ_1/2,…,k = 0, а наблюдаемое значение статистики находится по формуле

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.7)

Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между х₁ и остальными факторами х₂, ..., х_k, если F_набл > F_кр, где F_кр определяется по таблице F-распределения для заданных α, υ₁ = k - 1, υ₂ = n - k.

Регрессионный анализ

Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) х_j (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения x_j.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru = φ(x₁, ..., х_k), являющимся функцией от аргументов х_j и с постоянной, не зависящей от аргументов дисперсией σ².

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x₁, х₂, ..., х_j, ..., х_k) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (у_i, x_i1, х_i2, ..., х_ij, ..., x_ik), где х_ij — значение j-й переменной для i-го наблюдения (i = 1, 2,..., n), у_i — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.8)

где β_j — параметры регрессионной модели;

ε_j — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ².

Отметим, что модель (53.8) справедлива для всех i = 1,2, ..., n, линейна относительно неизвестных параметров β₀, β₁,…, β_j, …, β_k и аргументов.

Как следует из (53.8), коэффициент регрессии B_j показывает, на какую величину в среднем изменится результативный признак у, если переменную х_j увеличить на единицу измерения, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.9)

где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у₁, у₂,.... у_n); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ...,k; x_0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора ε_i не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mε_i = 0) и неизвестной постоянной σ² (Dε_i = σ²).

На практике рекомендуется, чтобы значение п превышалоk неменее чем в три раза.

В модели (53.9)

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8). Здесь предполагается, что существует переменная x₀, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β₀, β₁, …, β_k модели (53.8) или вектора β в (53.9).

Так как в регрессионном анализе х_j рассматриваются как неслучайные величины, aMε_i = 0, то согласно (53.8) уравнение регрессии имеет вид

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.10)

длявсех i = 1, 2, ..., п, или в матричной форме:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.11)

где Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru — вектор-столбец с элементами ₁..., _i,..., _n.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у_i от модельных значений Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru _i, т.е. квадратичную форму:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

где символом «Т» обозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 53.1.

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Рис. 53.1. Наблюдаемые и модельные значения результативного признака у

Дифференцируя, с учетом (53.11) и (53.10), квадратичную форму Q по β₀, β₁, …, β_k и приравнивая частные производные к нулю, получим систему нормальных уравнений

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

решая которую получим вектор-столбец оценок b, где b = (b₀, b₁, ..., b_k)^T. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.12)

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Х^T — транспонированная матрица X;

(Х^TХ)^-1 — матрица, обратная матрице Х^TХ.

Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru уравнения регрессии

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.13)

или в матричном виде:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.14)

где

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.15)

Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.16)

Значимость уравнения регрессии, т.е. гипотеза Н₀: β = 0 (β₀,= β₁ = β_k = 0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.17)

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

По таблице F-распределения для заданных α, v₁ = k + l,v₂= n – k - l находят F_кр.

Гипотеза H₀ отклоняется с вероятностьюα, если F_набл > F_кр. Изэтого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н₀: β_j = 0, где j = 1, 2, ..., k, используют t-критерий и вычисляют t_набл(b_j) = b_j/ Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru _bj. По таблице t-распределения для заданного α и v = п - k - 1 находят t_кр.

Гипотеза H₀ отвергается с вероятностью α, если t_набл > t_кр. Из этого следует, что соответствующий коэффициент регрессии β_j значим, т.е. β_j ≠ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение t_набл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками b_j генеральных коэффициентов регрессии β_j регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для параметра β_j имеет вид

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.19)

где t_α находят по таблице t-распределения при вероятности α = 1 - γ и числе степеней свободы v = п - k - 1.

Интервальная оценка для уравнения регрессии Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru в точке, определяемой вектором-столбцом начальных условий X⁰ = (1, x Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru , x ,,..., x )^T записывается в виде

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.20)

Интервал предсказания Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru _n+1 с доверительной вероятностью у определяется как

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.21)

где t_α определяется по таблице t-распределения при α = 1 - γ и числе степеней свободы v = п - k - 1.

По мере удаления вектора начальных условий х⁰ от вектора средних Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 53.2), где Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru = (1, ).

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Рис. 53.2. Точечная Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru и интервальная оценки уравнения регрессии .

Мультиколлинеарность

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х₁, х₂, ..., х_k. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (X^TX) становятся слабообусловленными, т.е.ихопределители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии (53.12), завышению дисперсии s Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru , оценок этих коэффициентов (53.14), так как в их выражения входит обратная матрица (X^TX)^-1, получение которой связано с делением на определитель матрицы (Х^TХ). Отсюда следуют заниженные значения t(b_j). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. | r_jl | > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать один из показателей — х_j или x_l.

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Пример. Построение регрессионного уравнения

Согласно данным двадцати (п = 20) сельскохозяйственных районов, требуется построить регрессионную модель урожайности на основе следующих показателей:

у — урожайность зерновых культур (ц/га);

x₁ — число колесных тракторов (приведенной мощности) на 100 га;

х₂ — число зерноуборочных комбайнов на 100 га;

х₃ — число орудий поверхностной обработки почвы на 100га;

x₄ — количество удобрений, расходуемых на гектар;

х₅ — количество химических средств оздоровления растений, расходуемых на гектар.

Исходные данные для анализа приведены в табл. 53.1.

Таблица 53.1

Исходные данные для анализа

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Решение.С целью предварительного анализа взаимосвязи показателей построена матрица R — таблица парных коэффициентов корреляции.

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем х₄ — количеством удобрений, расходуемых на гектар (r_yx4 = 0,58).

В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x₁) и числом орудий поверхностной обработки почвы x₃(r_x1x3) = 0,98.

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции r_x1x2 = 0,85 и r_x3x2 = 0,88.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru = 3,515 – 0,006x₁ + 15,542x₂+110x₃ + 4,475х₄ - 2,932x_5.(53.22)

(-0,01) (0,72) (0,13) (2,90) (-0,95)

В скобках указаны t_набл (β_j) = t_j — расчетные значения t-критерия для проверки гипотезы о значимости коэффициента регрессии Н₀: β_j = 0, j = 1, 2, 3, 4, 5. Критическое значение t_кр = 1,76 найдено по таблице t-распределения при уровне значимости α = 0,1 и числестепеней свободы v = 14.Из уравнения следует, что статистически значимым является коэффициент регрессии только при х₄, так как |t₄| = 2,90 > t_кр = 1,76. Не поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х₁ и x₅, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (х₁) и средствами оздоровления растений (x₅) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x₁, х₂ или x₃), получаем окончательное уравнение регрессии

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru = 7,342 + 0,345x₁ + 3,294x₄. (53.23)

(11,12) (2,09) (3,02)

Уравнение значимо при α = 0,05, так как F_набл = 266 > F_кр = 3,20, найденного по таблице F-распределения при α = 0,05, v₁ = 3 и v₂ = 17. Значимы и коэффициенты регрессии β₁ и β₄, так как |t_j| > t_кр = 2,11 (при α = 0,05, v = 17). Коэффициент регрессии β₁ следует признать значимым (β₁ ≠ 0) из экономических соображений; при этом t₁ = 2,09 лишь незначительно меньше t_кр = 2,11. В случае если α = 0,1, t_кр = 1,74 и коэффициент регрессии β₁ статистически значим.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднемна0,345 ц/га (b₁ = 0,345).

Коэффициенты эластичности Э₁ = 0,068 и Э₄ = 0,161 (Э_j = Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru ) показывают, что при увеличении показателей x₁ и х₄ на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации r Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедними в модель показателями (x₁ и x₄), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (х₂, x₃, х₅, погодными условиями и др.). Средняя относительная ошибка аппроксимации Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s² = 1,97.

Компонентный анализ

Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я — наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).

При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

размерности п х k, где х_ij.— значение j-го показателя у i-го наблюдения (i = 1, 2, ..., n; j = 1, 2, .... k), вычисляют средние значения показателей Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru а также s₁, ..., s_k и матрицу нормированных значений

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

с элементами

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Рассчитывается матрица парных коэффициентов корреляции:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.24)

с элементами

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.25)

где j, l= 1, 2, .... k.

На главной диагонали матрицы R, т.е. при j = l, расположены элементы

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Модель компонентного анализа имеет вид

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.26)

где a_iv — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную;

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, ...,k.

В матричной форме модель (53.26) имеет вид

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.27)

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта);

a_iv — значение факторной нагрузки v-й главной компоненты на j-ю переменную.

Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. f_v = Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru , a главные компоненты не коррелированы между собой. Из этого следует, что

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.28)

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Выражение (53.28) может быть представлено в виде

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.29)

С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной z_j и, например, f₁-й главной компонентой. Так как z_о и f₁ нормированы, будем иметь с учетом (53.26):

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Принимая во внимание (53.29), окончательно получим

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Рассуждая аналогично, можно записать в общем виде

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.30)

для всех j = 1, 2, .,., k и v = 1, 2, .... k.

Таким образом, элемент a_jv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной z_j и главной компонентой f_v, т.е. –1 ≤ a_jv ≤ +1.

Рассмотрим теперь выражение для дисперсии нормированной переменной z_j. С учетом (53.26) будем иметь

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

где v, v'= 1, 2, ..., k.

Учитывая (53.29), окончательно получим

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.31)

По условию, переменные z_j нормированы и s Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru = 1. Таким образом, дисперсия переменной z_j, согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.32)

Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Учитывая (53.28), окончательно получим

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.33)

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.34)

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ_v > 0 для любых v =1, 2, ..., k.

В компонентном анализе элементы матрицы Λ ранжированы: λ₁ ≥ λ₂ ≥ ... ≥λ_v ... ≥ λ_k ≥ 0. Как будет показано ниже, собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший.

В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим λ_v -му значению.

Собственные значения λ₁ ≥ ... ≥ λ_v.... ≥λ_k находятся как корни характеристического уравнения

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.35)

Собственный вектор V_v, соответствующий собственному значению λ_v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.36)

Нормированный собственный вектор U_v равен

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Из условия ортогональности матрицы U следует, что U^-1 = U^T, но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Так как у подобных матриц суммы диагональных элементов равны, то

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Таким образом,

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.37)

Представим матрицу факторных нагрузок А в виде

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.38)

а v-й столбец матрицы А — как

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

где U_v — собственный вектор матрицы R, соответствующий собственному значению λ_v.

Найдем норму вектора А_v:

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.39)

Здесь учитывалось, что вектор U_v — нормированный и U Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru U_v = 1. Таким образом,

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru (53.40)

Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты определяется по формуле Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru .

Суммарный вклад т первых главных компонент определяется из выражения Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru .

Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f_v используются лишь те х_j, для которых |a_jv| > 0,5.

Значения главных компонент для каждого i-го объекта (i = 1, 2, .... n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

откуда

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов - student2.ru

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Пример. Построение регрессионного уравнения

По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.

Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x₁ и x₄). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x₁, х₂, х₃, х₄, х₅ (табл. 53.2).

Таблица 53.2

Наши рекомендации

Прогнозирование на основе стандартных теоретических и эконометрических моделей поведения экономических агентов, развития экономических процессов и явлений, на микро- и макроуровне

ВОПРОС: Компьютерное моделирование экономических процессов в логистической деятельности: моделирование процесса размещения элементов инфраструктуры.

Раздел 8. Использование эконометрических моделей в прогнозировании социально-экономических процессов

Моделирование и прогнозирование в исследовании социально-экономических систем

Моделирование политических и социально-экономических процессов

Статистическое изучение динамики социально- экономических явлений и процессов.

Статистическое моделирование технологических процессов сборки

Раздел I. Бюджет и его роль в регулировании социально-экономических процессов

Раздел XII. Статистическое моделирование и прогнозирование социально-экономических процессов

Раздел 3. Статистические методы изучения динамики, моделирования и прогнозирования социально-экономических явлений и процессов

← Предыдущая страница | Следующая страница →