Обработка исходных данных

Курсовая работа по предмету

«Теория вероятностей и математическая статистика»

на тему:«Статистический анализ случайных величин»

Выполнил:

Щабло К.В.

Руководители:

Гришанина Г.Э

Дата защиты:_________________________

Оценка: ______________________________

______

(подпись руководителя)

Оглавление

Введение. 3

Постановка задачи. 4

Теоретическая часть. 5

Основные понятия. 5

Регрессионный анализ. 8

Обработка исходных данных. 10

Числовые характеристики X вычисленные при помощи выборки. 10

Числовые характеристики Y вычисленные при помощи выборки. 11

Диаграмма рассеивания. 13

Корреляционная таблица. 13

Исследование столбца X. 14

Исследование столбца Y. 15

Корреляционный момент и коэффициент корреляции. 16

Полигоны и гистограммы.. 17

Регрессионный анализ. 23

Список литературы.. 27


Введение

Математическая статистика — раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений, наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.

Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала (например, оценить необходимый объём выборки для получения результатов требуемой точности при выборочном обследовании).

Постановка задачи

Дана выборка (интернет ресурс: http://valuta.investfunds.ru/indicators/view/132/#beginf), состоящая из 100 пар чисел: Xi (Курс USD/RUR), Yi (Курс EUR/RUR), где i =1, 2, …, 100.

1. Построить диаграмму рассеивания.

2. Составить коррекционную таблицу размерностью ( 8 на 8).

3. Найти: дисперсии, средние квадратичные отклонения, моды и медианы выборки по X и по Y , корреляционный момент и коэффициент корреляции.

4. Построить полигоны, гистограммы нормированных относительных частот, эмпирические функции распределения по X и по Y.

5. Вычислить параметры для уравнения линейной регрессии, построить линию регрессии на диаграмме рассеивания.

6. Вычислить параметры для уравнения параболической регрессии, построить найденную параболу на диаграмме рассеивания.

Теоретическая часть

Основные понятия

Статистика— отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.

Выборка — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.

Генеральная совокупность— совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

Репрезентативность— соответствие характеристик выборки характеристикам генеральной совокупности в целом.

Теория вероятностей — математическая наука, изучающая закономерности случайных явлений. Под случайными явлениями понимаются явления с неопределенным исходом, происходящие при неоднократном воспроизведении определенного комплекса условий.

Дискретная величина — случайная величина, возможные значения которой есть отдельные изолированные числа, которые эта величина принимает с определенными вероятностями.

Частота— (p)число, которое показывает, сколько раз встречается данный вариант события:

обработка исходных данных - student2.ru , (1)

где ni — число события; n — полное число событий.

Относительная частота — (w) отношение частоты pi к объему выборки n.

обработка исходных данных - student2.ru , (2)

где pi — частота; n —интервал.

Математическое ожиданием — (M(x)) среднее значение дискретной случайной величины, распределение вероятностей случайной величины. Если дискретная случайная величина принимает счетное множество возможных значений, то:

обработка исходных данных - student2.ru , (3.1)

где xi — случайная величина; pi — частота.

обработка исходных данных - student2.ru , (3.2)

где xi — случайная величина; n — количество случайных величин.

Дисперсией(D(X)) дискретной случайной величины называют математическое ожидание квадрата отклонения случайной величины от ее математического ожидания:

обработка исходных данных - student2.ru (4)

Средним квадратичным отклонениемслучайной величины X называют квадратный корень из дисперсии:

обработка исходных данных - student2.ru (5)

МодойM0 называют случайную величину, которая имеет наибольшую частоту.

Медианой mi называют случайную величину, которая делит вариационный ряд на две части, равные по числу вариант.

Начальным моментом порядка kслучайной величины X называют математическое ожидание величины Xk:

обработка исходных данных - student2.ru (6)

В частности, начальный момент первого порядка равен математическому ожиданию.

Центральным моментом порядка kслучайной величины X называют математическое ожидание величины:

обработка исходных данных - student2.ru (7)

В частности, центральный момент первого порядка равен нулю:

обработка исходных данных - student2.ru (8)

центральный момент второго порядка равен дисперсии:

обработка исходных данных - student2.ru (9)

центральный момент третьего порядка равен:

обработка исходных данных - student2.ru (10)

центральный момент четвертого порядка равен:

обработка исходных данных - student2.ru (11)

Исправленной выборочной дисперсией называют произведение выборочной дисперсии на коэффициент:

обработка исходных данных - student2.ru (12)

Выборочным исправленным средним квадратичным отклонениемназывают квадратный корень от исправленной выборочной дисперсии:

обработка исходных данных - student2.ru (13)

Корреляционная таблица — является вспомогательными средствами при анализе выборочных данных. В каждой клетке корреляционной таблицы приводятся численности обработка исходных данных - student2.ru тех пар (X, Y), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной.

Корреляционным моментом— Сxy случайных величин X и Y называют математическое ожидание произведения отклонений этих величин:

обработка исходных данных - student2.ru (14)

Для вычисления корреляционного момента используют формулу:

обработка исходных данных - student2.ru (15)

Две случайные величины Y и X называются коррелированными, если их корреляционный момент отличен от 0; Y и X называются некоррелированными величинами, если их корреляционный момент равен 0.

Коэффициентом корреляции — rxy случайных величин X и Y называют отношение корреляционного момента к произведению средних квадратичных отклонений этих величин:

обработка исходных данных - student2.ru (16)

Гистограмма нормированных относительных частот — диаграмма, на которой изображены столбцы, при этом ось Х – это интервалы, а ось Y – это относительная частота встречаемости:

обработка исходных данных - student2.ru (17)

Полигон частот — представляет собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов.

Функцией распределения — называют функцию, определяющую вероятность того, что случайная величина Х в результате испытания примет значение, меньшее х:

обработка исходных данных - student2.ru (18)

Функцией распределения выборки является эмпирическая функция распределения.

Эмпирической функцией распределенияназывают функцию, определяющую для каждого значения х относительную частоту события Х < х:

обработка исходных данных - student2.ru (19)

где nx — число вариант, меньших х; n — объем выборки.

Регрессионный анализ

Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных X на зависимую переменную Y.

Линейная регрессия выражается уравнением прямой:

обработка исходных данных - student2.ru , (20)

где a, b — неизвестные параметры.

Определим коэффициенты линейной функции (20) методом наименьших квадратов. Для этого составим сумму:

обработка исходных данных - student2.ru (21)

Для того чтобы эта сумма была минимальной, необходимо, чтобы ее частные производные по параметрам a и b были равны нулю:

обработка исходных данных - student2.ru , (22)

обработка исходных данных - student2.ru . (23)

Раскрыв скобки, мы получим:

обработка исходных данных - student2.ru (24)

обработка исходных данных - student2.ru (25)

Перепишем (24) и (25) в удобном виде и запишем в систему, которую можно решить по методу Крамара:

обработка исходных данных - student2.ru (26)

Параболическая регрессия — уравнение выражается:

обработка исходных данных - student2.ru , (27)

где a, b и c – неизвестные параметры.

Определим коэффициенты параболической функции (27) методом наименьших квадратов. Для этого составим сумму:

обработка исходных данных - student2.ru (28)

Для того чтобы эта сумма была минимальной, необходимо, чтобы ее частные производные по параметрам a и b были равны нулю:

обработка исходных данных - student2.ru , (29)

обработка исходных данных - student2.ru , (30)

обработка исходных данных - student2.ru . (31)

После преобразований уравнения примут следующий вид:

обработка исходных данных - student2.ru . (32)

Подставив соответствующие значения в полученные формулы, и решив систему уравнений, мы получим искомую функцию параболической регрессии.

Обработка исходных данных

Дана выборка (интернет ресурс: http://valuta.investfunds.ru/indicators/view/132/#beginf), состоящая из 100 пар чисел: Xi (Курс USD/RUR), Yi (Курс EUR/RUR), где i =1, 2, …, 100.

x y x y x y x y
32,20 40,63 32,46 39,75 32,94 41,20 31,38 39,77
32,46 40,67 32,33 39,82 32,84 41,02 31,06 39,74
32,20 40,62 32,21 39,51 33,17 41,50 31,16 39,81
32,42 40,76 32,19 39,55 33,17 41,50 31,39 39,75
32,57 40,72 32,21 39,60 33,52 42,05 30,94 39,39
32,29 40,53 32,62 39,64 32,91 41,72 30,98 39,33
32,09 40,28 32,97 39,84 32,52 41,24 30,33 38,98
32,02 39,97 32,63 39,54 32,53 41,01 30,27 39,01
31,87 39,84 32,38 39,16 32,13 40,82 30,18 38,98
31,81 39,91 31,95 39,17 32,39 40,91 30,23 39,05
31,68 39,75 32,08 39,42 32,58 40,94 30,19 39,12
31,81 39,62 32,40 39,80 32,73 40,94 29,81 39,00
31,96 39,54 32,50 39,92 32,59 40,79 29,59 38,92
32,02 39,55 32,62 39,90 32,74 40,91 29,46 38,74
31,85 39,37 32,66 39,83 32,19 40,42 29,37 38,82
31,90 39,14 32,72 40,01 32,79 40,95 29,36 38,92
31,85 39,28 32,83 40,26 33,20 41,51 29,42 38,75
31,77 39,29 32,98 40,54 34,04 42,25 29,28 38,74
31,87 39,15 32,99 40,55 33,74 41,68 29,30 38,66
31,90 39,19 32,62 40,39 32,92 40,81 29,45 38,80
31,48 38,95 32,47 40,69 32,45 40,46 29,49 38,84
31,69 39,23 32,21 40,55 32,09 40,24 29,52 38,81
31,66 39,23 32,48 40,93 31,83 40,12 29,51 38,72
31,95 39,54 32,53 41,06 31,76 39,84 29,50 38,67
32,54 39,67 32,82 41,32 31,62 39,77 29,64 38,85

Таблица 1 Исходные данные

С помощью выборки можно посчитать оценки X и Y:

Наши рекомендации