Точечное и интервальное оценивание параметров многомерного нормального закона распределения
КУРСОВАЯ РАБОТА
по дисциплине «Анализ данных»
«Сравнительный анализ регионов Российской Федерации по набору показателей, характеризующих уровень жизни населения»
ОГУ 080100.62.5015.219 ОО
Руководитель работы
канд. экономических наук, доцент
_________________О.И. Бантикова
«_____»_________________2015г.
Исполнитель
студент гр. 13Эк(б)ОП
_________________ И.П. Кравченко
«_____»_________________2015г.
Оренбург 2015
Содержание
Введение…………………………………………………………………………….3
1 Предварительный анализ выборочной совокупности по набору показателей, характеризующих уровень жизни населения
1.1Точечное и интервальное оценивание параметров многомерного нормального закона распределения………………………………
1.2 Робастное оценивание параметров многомерного нормального закона распределения, предварительно исследовав выборочную совокупность на наличие грубых ошибок………………………………………..
2 Корреляционно-регрессионный анализ показателей, характеризующих уровень жизни населения
2.1 Точечное оценивание парных, частных и множественных коэффициентов связи………………………………………………………….
2.2 Проверка значимости коэффициентов связи………………………………
2.3 Построение доверительных интервалов для значимых парных и частных коэффициентов корреляции ……………………………………………………
2.4 Оценка уравнения регрессии………………………………………………
2.5 Экономическая интерпретация полученных результатов………….
3 Классификация регионов РФ по набору показателей, характеризующих уровень жизни населения, методами кластерного анализа
3.1 Определение наиболее подходящего числа классов…………………………………………………………………….
3.2 Классификация объектов методом k-средних…………………
3.3 Сравнение классификаций, полученных иерархическими и итерационным методами кластерного анализа……………………………………………….
3.4 Экономическая интерпретация лучшего разбиения…………………
Заключение
Список использованных источников
Приложения
Введение
Уровень жизни – многогранное явление, которое зависит от множества разнообразных причин, начиная от территории, где проживает население, то есть географических факторов, и заканчивая общей социально-экономической и экологической ситуацией, а также состоянием политических дел в стране. На современном этапе развития экономики России проблемы уровня и качества жизни являются одними из наиболее актуальных. Причинами служат экономические кризисы, на фоне которых в обществе происходит падение уровня и качества жизни основной массы населения россиян.
Целью данной работы является проведение сравнительного анализа регионов Российской Федерации по набору показателей, характеризующих уровень жизни населения.
Поставленная цель решается посредством следующих задач:
1) провести предварительный анализ выборочной совокупности по набору показателей, характеризующих уровень жизни населения;
2) провести корреляционно-регрессионный анализ показателей, характеризующих уровень жизни населения;
3) методами кластерного анализа провести классификацию регионов РФ по набору показателей, характеризующих уровень жизни населения.
Объектом исследования является уровень жизни населения по регионам Российской Федерации.
Предмет исследования – показатели, характеризующие уровень жизни населения по регионам РФ.
Методическую базу составили методы корреляционного, регрессионного, кластерного анализа, табличные и графические методы представления данных. Для обработки данных применялись пакеты прикладных программ «Excel» и «Statistica».
Информационная база – официальные данные Росстата.
Работа состоит из введения, трех глав, заключения, списка литературы и приложений.
Предварительный анализ выборочной совокупности по набору показателей, характеризующих уровень жизни населения
Точечное и интервальное оценивание параметров многомерного нормального закона распределения
Исходной информационной базой служит выборочная совокупность из 80 регионов РФ, уровень жизни которых характеризуется следующим набором показателей (Приложение А):
- cреднедушевые денежные доходы населения в месяц (руб.);
- среднемесячная номинальная начисленная заработная плата (руб.);
-общая площадь жилых помещений в среднем на 1 жителя (кв.м.);
-величина прожиточного минимума (руб.);
-число собственных легковых авто на 1000 насел. (шт.)
Непрерывный случайный вектор имеет k-мерный нормальный закон распределения, если плотность распределения имеет вид:
,
где ;
- вектор математических ожиданий;
- ковариационная матрица
,
где – дисперсия случайной величины
,
;
– ковариация случайных величин
и
, являющаяся характеристикой линейной связи случайных величин,
,
.
Точечной оценкой вектора мат. ожиданий m=
Является вектор выборочных средних , где
.
С помощью табличного редактора Excel, надстройки Анализа Данных
(Описательная статистика) получили
вектор выборочных средних :
(Приложение Б).
Точечной оценкой ковариационной матрицы является выборочная ковариационная матрица:
=
, где
=
- выборочная дисперсия,
- выборочная ковариация.
Оценку ковариационной матрицы можно получить по формуле:
- смещенная оценка
– несмещенная оценка
Где Y=
С помощью табличного редактора Excel, надстройки Анализа Данных (Ковариация) получаем выборочную ковариационную матрицу:
=
Анализируя вектор средних значений и оценку ковариационной матрицы, можно сделать следующие выводы: в среднем cреднедушевые денежные доходы населения в месяц составили среднемесячная номинальная начисленная заработная плата -
общая площадь жилых помещений в среднем на 1 жителя -
величина прожиточного минимума -
руб., число собственных легковых авто на 1000 населения -
шт.
Наиболее однородная совокупность наблюдается по признаку - общая площадь жилых помещений в среднем на 1 жителя (кв.м.), т.к.
=
; наименее однородна совокупность по показателю
- среднемесячная номинальная начисленная заработная плата (руб.), т.к.
=
.
Положительные значения выборочной ковариации свидетельствуют о прямой зависимости между показателями.
Построение доверительной области в форме прямоугольного параллелепипеда для вектора математических ожиданий m= сводится к построению доверительных интервалов
с вероятностью
, (где k=3 - количество признаков):
-
+
;
-
+
;
-
+
.
=
)
=0,98
Осуществив расчеты получили:
20529,68 24664,2; 16405,7
36381,6;
26,61.
Доверительная область для вектора математических ожиданий в форме прямоугольного параллелепипеда представлена в Приложении Г.
Построение доверительной области в форме трапеции можно представить в виде:
;
-
+
, где
,
,
Графические представления доверительных интервалов для cреднедушевых денежных доходов населения в месяц, среднемесячной номинальной начисленной заработной плате и общей площади жилых помещений в среднем на 1 жителя представлены в Приложении Д.
1.2 Робастное оценивание параметров многомерного нормального закона распределения, предварительно исследовав выборочную совокупность на наличие грубых ошибок
Существуют следующие методы выявления аномальных наблюдений
- графический анализ - характеризующий поведение объектов по тому или иному показателю;
- «ящик с усами»- это достаточно распространенный разведочный анализ данных о структуре распределения, о наличии выбросов, а также об однородности совокупности.
Проведем выявление аномальных наблюдений по всем пяти показателям графическим методом и методом «ящика с усами».
В Приложении Е представлены графики для анализа совокупностей
х1(cреднедушевые денежные доходы населения в месяц), х2(среднемесячная номинальная начисленная заработная плата), х3( общая площадь жилых помещений в среднем на 1 жителя), х4(величина прожиточного минимума), х5(число собственных легковых авто на 1000 насел.) и ящики с усами для каждой совокупности показателей.
Можно сделать вывод, что экстремальными являются:
- значения среднедушевых денежных доходов населения в месяц: 52695 руб. (Чукотский автономный округ) и 54869 (г. Москва);
- значения среднемесячной номинальной начисленной заработной платы: 51009 руб. (Тюменская область), 55485 руб. (г. Москва), 57121 руб. (Магаданская область), 68261 руб. (Чукотский автономный округ);
- значения наблюдений за величиной прожиточного минимума: 11923 (Якутия), 14084 (Магаданская область), 14384 (Камчатский край), 14766 (Чукотский автономный округ);
- значения наблюдений за число собственных легковых авто на 1000 населения: 73,1 (Чукотский автономный округ) и 484,8 (Камчатский край)
Наблюдения за общей площадью жилых помещений в среднем на 1
жителя 12,9 (республика Тыва), 13,5 (республика Ингушетия), 13,8 (Чеченская республика), 16,5 (республика Дагестан) являются сомнительными.
Используя приемы Смирнова-Граббса, Граббса и Титьена-Мура проверим выдвинутые предположения.
С помощью статистических критериев проверим, являются ли грубыми ошибками значения наблюдений за среднедушевыми денежными доходами населения в месяц 54869 руб. в г. Москве и 52695 руб. в Чукотской автономной области.
Проверим наблюдение 54869 руб. в г. Москве.
а) Критерий Смирнова-Граббса.
Рассматривается признак – среднедушевые денежные доходы населения в месяц и выборка из 80 регионов РФ (n=80).
Данные упорядочиваем по возрастанию значения признака. 54869 руб. в г. Москве.
Выдвигается гипотеза
: совокупность однородна,
не является грубой ошибкой;
: совокупность неоднородна,
является грубой ошибкой.
По таблице Смирнова-Граббса определим критическую точку
3,001. Если наблюдённое значение больше критического, то гипотеза
отклонется, совокупность неоднородна,
является грубой ошибкой.
=
, значит гипотеза
отклоняется, совокупность неоднородна, наблюдение
(54869 руб. в г. Москве ) является грубой ошибкой.
б) Критерий Граббса.
: совокупность однородна,
не является грубой ошибкой;
: совокупность неоднородна,
является грубой ошибкой.
, где
Определим критическую точку 3,001
22596,94
22188,43
=
=0,77
, значит гипотеза,
принимается, совокупность однородна, наблюдение
(54869 руб. в г. Москве ) не является грубой ошибкой.
в) Критерий Титьена-Мура.
Проверим, являются ли грубыми ошибками значения наблюдений за среднедушевыми денежными доходами населения в месяц 54869 руб. в г. Москве и
52695 руб. в Чукотской автономной области.
: совокупность неоднородна,
являются грубыми ошибками;
: совокупность однородна,
не являются грубыми ошибками.
, где
=
=0,58
0,722
, значит гипотеза,
принимается, совокупность неоднородна,
54869 руб. в г. Москве) и
52695 руб. в Чукотской автономной области) являются грубыми ошибками.
, где
=22044,84
=
=0,529
, значит гипотеза,
принимается, совокупность неоднородна,
54869 руб. в г. Москве) и
52695 руб. в Чукотской автономной области) являются грубыми ошибками.
Проверка остальных наблюдений осуществляется аналогично. По результатам можно сделать выводы:
- наблюдения за среднемесячной номинальной начисленной заработной платой 51009 руб. (Тюменская область), 55485 руб. (г. Москва), 57121 руб. (Магаданская область), 68261 руб. (Чукотский автономный округ) являются грубыми ошибками;
- значения наблюдений за общей площадью жилых помещений (в среднем на 1 жителя) 12,9 (республика Тыва), 13,5 (республика Ингушетия), 13,8 (Чеченская республика), 16,5 (республика Дагестан) являются грубыми ошибками;
- наблюдения за величиной прожиточного минимума 11923 (Якутия), 14084 (Магаданская область), 14384 (Камчатский край), 14766 (Чукотский автономный округ) являются грубыми ошибками;
- наблюдение 73,1 (Чукотский автономный округ) является грубой ошибкой.
Рассчитаем робастные оценки вектора математических ожиданий, используя подход Пуанкаре и Винзора. Наиболее простыми являются оценки по усеченной совокупности данных, остающиеся после отбрасывания грубых ошибок.
Средняя по Пуанкаре вычисляется по формуле:
k – число грубых ошибок, n – объем совокупности,
– доля, содержащая засорения (0≤α≤0,5).
Для оценки математического ожидания, согласно Пуанкаре, из выборочной совокупности удаляются (100 α)% минимальных и (100
α)% максимальных наблюдений.
Средняя по Винзору определяется по формуле:
W
k-максимальных и k-минимальных наблюдений проецируются в ближайшую точку оставшихся значений признака.
Рассчитанные средние по усеченным и винзорированным совокупностям данных представлены в Приложении Ж.
Робастной оценкой вектора математических ожиданий по Пуанкаре является вектор .
Анализируя вектор средних значений по Пуанкаре, можно сделать вывод, что в среднем cреднедушевые денежные доходы населения в месяц составили среднемесячная номинальная начисленная заработная плата -
общая площадь жилых помещений в среднем на 1 жителя -
величина прожиточного минимума -
руб., число собственных легковых авто на 1000 населения -
шт.
Робастной оценкой вектора математических ожиданий по Винзору является вектор (22313,96; 25945,55; 23,66125; 7405,688; 263,3963)
Анализируя вектор средних значений по Винзору, можно сделать вывод, что в среднем cреднедушевые денежные доходы населения в месяц составили среднемесячная номинальная начисленная заработная плата -
общая площадь жилых помещений в среднем на 1 жителя -
величина прожиточного минимума - 7405,688 руб., число собственных легковых авто на 1000 населения - 263,3963 шт.
Рассчитаем робастные оценки ковариационной матрицы, используя подход Пуанкаре.
Используя усеченные совокупности данных из Приложения Ж с помощью табличного редактора Excel, надстройки Анализа Данных (Ковариация) получаем выборочную ковариационную матрицу по Пуанкаре:
Рисунок 4 - Результаты расчета выборочной ковариационной матрицы по Пуанкаре
Анализируя оценку ковариационной матрицы по Пуанкаре, можно сделать вывод, что наиболее однородная совокупность наблюдается по признаку - общая площадь жилых помещений в среднем на 1 жителя (кв.м.), т.к.
=
; наименее однородна совокупность по показателю
- среднемесячная номинальная начисленная заработная плата (руб.), т.к.
=47652136. Положительные значения выборочной ковариации свидетельствуют о прямой зависимости между показателями.
Рассчитаем робастные оценки ковариационной матрицы по Винзору.
Используя винзорированные совокупности данных из Приложения Ж с помощью табличного редактора Excel, надстройки Анализа Данных (Ковариация) получаем выборочную ковариационную матрицу по Винзору:
Рисунок 5 - Результаты расчета выборочной ковариационной матрицы по Винзору
Анализируя оценку ковариационной матрицы по Винзору, можно сделать вывод, что наиболее однородная совокупность наблюдается по признаку - общая площадь жилых помещений в среднем на 1 жителя (кв.м.), т.к.
=
; наименее однородна совокупность по показателю
- среднемесячная номинальная начисленная заработная плата (руб.), т.к.
=73260607. Положительные значения выборочной ковариации свидетельствуют о прямой зависимости между показателями.