Обработка исходных данных
Курсовая работа по предмету
«Теория вероятностей и математическая статистика»
на тему:«Статистический анализ случайных величин»
Выполнил:
Щабло К.В.
Руководители:
Гришанина Г.Э
Дата защиты:_________________________
Оценка: ______________________________
______
(подпись руководителя)
Оглавление
Введение. 3
Постановка задачи. 4
Теоретическая часть. 5
Основные понятия. 5
Регрессионный анализ. 8
Обработка исходных данных. 10
Числовые характеристики X вычисленные при помощи выборки. 10
Числовые характеристики Y вычисленные при помощи выборки. 11
Диаграмма рассеивания. 13
Корреляционная таблица. 13
Исследование столбца X. 14
Исследование столбца Y. 15
Корреляционный момент и коэффициент корреляции. 16
Полигоны и гистограммы.. 17
Регрессионный анализ. 23
Список литературы.. 27
Введение
Математическая статистика — раздел математики, разрабатывающий методы регистрации, описания и анализа данных наблюдений и экспериментов с целью построения вероятностных моделей массовых случайных явлений, наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.
Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надёжность и точность выводов, делаемых на основании ограниченного статистического материала (например, оценить необходимый объём выборки для получения результатов требуемой точности при выборочном обследовании).
Постановка задачи
Дана выборка (интернет ресурс: http://valuta.investfunds.ru/indicators/view/132/#beginf), состоящая из 100 пар чисел: Xi (Курс USD/RUR), Yi (Курс EUR/RUR), где i =1, 2, …, 100.
1. Построить диаграмму рассеивания.
2. Составить коррекционную таблицу размерностью ( 8 на 8).
3. Найти: дисперсии, средние квадратичные отклонения, моды и медианы выборки по X и по Y , корреляционный момент и коэффициент корреляции.
4. Построить полигоны, гистограммы нормированных относительных частот, эмпирические функции распределения по X и по Y.
5. Вычислить параметры для уравнения линейной регрессии, построить линию регрессии на диаграмме рассеивания.
6. Вычислить параметры для уравнения параболической регрессии, построить найденную параболу на диаграмме рассеивания.
Теоретическая часть
Основные понятия
Статистика— отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических (количественных или качественных) данных; изучение количественной стороны массовых общественных явлений в числовой форме.
Выборка — множество случаев (испытуемых, объектов, событий, образцов), с помощью определённой процедуры выбранных из генеральной совокупности для участия в исследовании.
Генеральная совокупность— совокупность всех объектов (единиц), относительно которых учёный намерен делать выводы при изучении конкретной проблемы.
Репрезентативность— соответствие характеристик выборки характеристикам генеральной совокупности в целом.
Теория вероятностей — математическая наука, изучающая закономерности случайных явлений. Под случайными явлениями понимаются явления с неопределенным исходом, происходящие при неоднократном воспроизведении определенного комплекса условий.
Дискретная величина — случайная величина, возможные значения которой есть отдельные изолированные числа, которые эта величина принимает с определенными вероятностями.
Частота— (p)число, которое показывает, сколько раз встречается данный вариант события:
, (1)
где ni — число события; n — полное число событий.
Относительная частота — (w) отношение частоты pi к объему выборки n.
, (2)
где pi — частота; n —интервал.
Математическое ожиданием — (M(x)) среднее значение дискретной случайной величины, распределение вероятностей случайной величины. Если дискретная случайная величина принимает счетное множество возможных значений, то:
, (3.1)
где xi — случайная величина; pi — частота.
, (3.2)
где xi — случайная величина; n — количество случайных величин.
Дисперсией(D(X)) дискретной случайной величины называют математическое ожидание квадрата отклонения случайной величины от ее математического ожидания:
(4)
Средним квадратичным отклонениемслучайной величины X называют квадратный корень из дисперсии:
(5)
МодойM0 называют случайную величину, которая имеет наибольшую частоту.
Медианой mi называют случайную величину, которая делит вариационный ряд на две части, равные по числу вариант.
Начальным моментом порядка kслучайной величины X называют математическое ожидание величины Xk:
(6)
В частности, начальный момент первого порядка равен математическому ожиданию.
Центральным моментом порядка kслучайной величины X называют математическое ожидание величины:
(7)
В частности, центральный момент первого порядка равен нулю:
(8)
центральный момент второго порядка равен дисперсии:
(9)
центральный момент третьего порядка равен:
(10)
центральный момент четвертого порядка равен:
(11)
Исправленной выборочной дисперсией называют произведение выборочной дисперсии на коэффициент:
(12)
Выборочным исправленным средним квадратичным отклонениемназывают квадратный корень от исправленной выборочной дисперсии:
(13)
Корреляционная таблица — является вспомогательными средствами при анализе выборочных данных. В каждой клетке корреляционной таблицы приводятся численности тех пар (X, Y), компоненты которых попадают в соответствующие интервалы группировки по каждой переменной.
Корреляционным моментом— Сxy случайных величин X и Y называют математическое ожидание произведения отклонений этих величин:
(14)
Для вычисления корреляционного момента используют формулу:
(15)
Две случайные величины Y и X называются коррелированными, если их корреляционный момент отличен от 0; Y и X называются некоррелированными величинами, если их корреляционный момент равен 0.
Коэффициентом корреляции — rxy случайных величин X и Y называют отношение корреляционного момента к произведению средних квадратичных отклонений этих величин:
(16)
Гистограмма нормированных относительных частот — диаграмма, на которой изображены столбцы, при этом ось Х – это интервалы, а ось Y – это относительная частота встречаемости:
(17)
Полигон частот — представляет собой ломаную, соединяющую точки, соответствующие срединным значениям интервалов группировки и частотам этих интервалов.
Функцией распределения — называют функцию, определяющую вероятность того, что случайная величина Х в результате испытания примет значение, меньшее х:
(18)
Функцией распределения выборки является эмпирическая функция распределения.
Эмпирической функцией распределенияназывают функцию, определяющую для каждого значения х относительную частоту события Х < х:
(19)
где nx — число вариант, меньших х; n — объем выборки.
Регрессионный анализ
Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных X на зависимую переменную Y.
Линейная регрессия выражается уравнением прямой:
, (20)
где a, b — неизвестные параметры.
Определим коэффициенты линейной функции (20) методом наименьших квадратов. Для этого составим сумму:
(21)
Для того чтобы эта сумма была минимальной, необходимо, чтобы ее частные производные по параметрам a и b были равны нулю:
, (22)
. (23)
Раскрыв скобки, мы получим:
(24)
(25)
Перепишем (24) и (25) в удобном виде и запишем в систему, которую можно решить по методу Крамара:
(26)
Параболическая регрессия — уравнение выражается:
, (27)
где a, b и c – неизвестные параметры.
Определим коэффициенты параболической функции (27) методом наименьших квадратов. Для этого составим сумму:
(28)
Для того чтобы эта сумма была минимальной, необходимо, чтобы ее частные производные по параметрам a и b были равны нулю:
, (29)
, (30)
. (31)
После преобразований уравнения примут следующий вид:
. (32)
Подставив соответствующие значения в полученные формулы, и решив систему уравнений, мы получим искомую функцию параболической регрессии.
Обработка исходных данных
Дана выборка (интернет ресурс: http://valuta.investfunds.ru/indicators/view/132/#beginf), состоящая из 100 пар чисел: Xi (Курс USD/RUR), Yi (Курс EUR/RUR), где i =1, 2, …, 100.
x | y | x | y | x | y | x | y |
32,20 | 40,63 | 32,46 | 39,75 | 32,94 | 41,20 | 31,38 | 39,77 |
32,46 | 40,67 | 32,33 | 39,82 | 32,84 | 41,02 | 31,06 | 39,74 |
32,20 | 40,62 | 32,21 | 39,51 | 33,17 | 41,50 | 31,16 | 39,81 |
32,42 | 40,76 | 32,19 | 39,55 | 33,17 | 41,50 | 31,39 | 39,75 |
32,57 | 40,72 | 32,21 | 39,60 | 33,52 | 42,05 | 30,94 | 39,39 |
32,29 | 40,53 | 32,62 | 39,64 | 32,91 | 41,72 | 30,98 | 39,33 |
32,09 | 40,28 | 32,97 | 39,84 | 32,52 | 41,24 | 30,33 | 38,98 |
32,02 | 39,97 | 32,63 | 39,54 | 32,53 | 41,01 | 30,27 | 39,01 |
31,87 | 39,84 | 32,38 | 39,16 | 32,13 | 40,82 | 30,18 | 38,98 |
31,81 | 39,91 | 31,95 | 39,17 | 32,39 | 40,91 | 30,23 | 39,05 |
31,68 | 39,75 | 32,08 | 39,42 | 32,58 | 40,94 | 30,19 | 39,12 |
31,81 | 39,62 | 32,40 | 39,80 | 32,73 | 40,94 | 29,81 | 39,00 |
31,96 | 39,54 | 32,50 | 39,92 | 32,59 | 40,79 | 29,59 | 38,92 |
32,02 | 39,55 | 32,62 | 39,90 | 32,74 | 40,91 | 29,46 | 38,74 |
31,85 | 39,37 | 32,66 | 39,83 | 32,19 | 40,42 | 29,37 | 38,82 |
31,90 | 39,14 | 32,72 | 40,01 | 32,79 | 40,95 | 29,36 | 38,92 |
31,85 | 39,28 | 32,83 | 40,26 | 33,20 | 41,51 | 29,42 | 38,75 |
31,77 | 39,29 | 32,98 | 40,54 | 34,04 | 42,25 | 29,28 | 38,74 |
31,87 | 39,15 | 32,99 | 40,55 | 33,74 | 41,68 | 29,30 | 38,66 |
31,90 | 39,19 | 32,62 | 40,39 | 32,92 | 40,81 | 29,45 | 38,80 |
31,48 | 38,95 | 32,47 | 40,69 | 32,45 | 40,46 | 29,49 | 38,84 |
31,69 | 39,23 | 32,21 | 40,55 | 32,09 | 40,24 | 29,52 | 38,81 |
31,66 | 39,23 | 32,48 | 40,93 | 31,83 | 40,12 | 29,51 | 38,72 |
31,95 | 39,54 | 32,53 | 41,06 | 31,76 | 39,84 | 29,50 | 38,67 |
32,54 | 39,67 | 32,82 | 41,32 | 31,62 | 39,77 | 29,64 | 38,85 |
Таблица 1 Исходные данные
С помощью выборки можно посчитать оценки X и Y: