Работа со статистическими данными. Первичная группировка и обработка
Задания:
1. Определить 3 наиболее активных регионов по всем социально-экономическим позициям?
2. Определить наиболее значимый социально–экономический показатель по любым трем регионам?
3. Определить наиболее перспективный автономный округ по всей совокупности показателей? Приложение 2
Общие сведения по анализу статистических выборок.Последовательность случайных величин, условных единиц объемов добычи составляет выборку которую необходимо исследовать и сделать необходимые выводы, все операции необходимо проводить с учетом полю элементов выборки. По полученной выборке строят вариационный ряд, преобразуя выборку к виду , т.е. сортируют выборку по возрастанию (убыванию ). Кроме того, используют понятие группированной выборки, такая выборка может нести различную информацию об объектах исследования к тому же она устойчива к аномальным наблюдениям.
Рисунок 3 - Основные виды выборочных совокупностей
Известно, что закон распределения случайной величины можно задать различными способами. Например, случайную дискретную величину можно задать с помощью ряда распределения или интегральной функции, т.е. функции распределения, а непрерывную с помощью или интегральной, или дифференциальной функции по-другому, она называется функцией плотности.
Эмпирическая функция распределения является выборочным аналогом функции распределения и через полученную выборку определяется так, формула (1):
(1)
В формуле 1:
– значения эмпирических данных из выборки, N–объем выборки- количество элементов в выборке, n(x) – число вариант в выборке меньших x.
Гистограмма является выборочным аналогом плотности распределения, ее построение можно разбить на три этапа:
1)Выбор интервалов группирования Δi;
2)Подсчет частот, количество элементов попавших в интервал, т.е. ;
3)Непосредственное построение гистограммы.
Интервалы можно выбирать равномерно, равновероятно, оптимально, асимптотически оптимально- выбор зависит от цели исследования. Иногда, после построения графиков и диаграмм при удачном выборе интервалов группирования, уже визуально можно предположить, какому статистическому распределению соответствует выборка. Такая оценка на глаз весьма полезна, т.к. сужает область поиска нужного распределения во всем их многообразии.
Кроме выше введенных понятий иногда строят накопленную функцию распределения, она в отличие от эмпирической функции является робастной, т.е. устойчивой к аномальным наблюдениям[8], оценкой теоретической функции распределения. Важно что бы оценки были робастными, так как в реальных выборках возникает проблема аномальных измерений. Даже одно аномальное значение приводит к оценкам, которые не соответствовать выборочным данным.
Еще одной функцией, которую необходимо строить при исследовании случайных величин типа “времени жизни” является функция интенсивности отказов, определим ее в понятиях теории вероятностей, формула 2
(2)
В формуле 2:
- плотность распределения, - функция распределения.
Проводя аналогии с понятиями, функции распределения и плотности распределения в теории вероятности, в статистике используя определения гистограммы и эмпирической функции распределения определим интенсивность отказов следующим образом, формула 3
; (3)
Прикладной смысл функции интенсивности отказов, заключается в отношении количества объектов вышедших из строя за период времени к вероятности дожить объекту, до момента времени . По виду функции определяем случайные величины со старением- монотонно возрастает, с упрочнением- монотонно убывает, или состоять из нескольких периодов - приработки, нормальной эксплуатации, старения, в которых соответственно будет убывать, постоянна, возрастать.
Практическая работа №4