Система дискретных случайных величин.
8. Система дискретных случайных величин задана таблицей:
Найти:
1) корреляционный момент;
2) коэффициент корреляции, сделать вывод о тесноте и направлении связи между величинами Х и Y;
3) функцию линейной регрессии Y на X;
4) функцию линейной регрессии X на Y;
5) построить в одной системе координат найденные линии регрессии.
8.1. | X | ||||
Y |
8.2. | X | ||||
Y |
8.3. | X | ||||
Y |
8.4. | X | ||||
Y |
8.5. | X | ||||
Y |
8.6. | X | ||||
Y |
8.7. | X | ||||
Y |
8.8. | X | ||||
Y |
8.9. | X | ||||
Y |
8.10. | X | ||||
Y |
ГЛАВА II. ВВЕДЕНИЕ В МАТЕМАТИЧЕСКУЮ СТАТИСТИКУ
1. Первичная обработка выборочных данных.
Группировка статистических данных
Статистическая совокупность
Для того, чтобы получить наиболее полную информацию об изучаемом явлении, необходимо анализировать результаты не отдельных наблюдений, а множества однородных наблюдений. Результаты отдельных наблюдений могут оказаться случайными, неполно выражать сущность изучаемого явления. Очевидно, что наблюдаемые объекты обладают множеством признаков; однако, поставив своей задачей изучение лишь одного признака, мы тем самым полагаем, что в отношении остальных объекты равноправны, то есть множество объектов однородно.
Некоторое множество относительно однородных объектов, объединяемых по тому или иному признаку для совместного изучения, называется статистической совокупностью. Отдельные объекты статистической совокупности называются членами совокупности.
Первичным результатом статистического исследования является простой статистический ряд. Он представляет собой перечень членов совокупности и соответствующих им значений признака.
Генеральная совокупность и выборка
Вся подлежащая изучению совокупность однородных объектов называется генеральной совокупностью. Множество объектов, случайно отобранных из генеральной совокупности, называется выборочной совокупностью или выборкой. Число объектов в генеральной совокупности или в выборке называют их объемами (в дальнейшем, N — объем генеральной совокупности, n — объем выборки).
Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы свойства объектов выборки правильно отражали свойства объектов генеральной совокупности и структуру генеральной совокупности, т.е. выборка должна правильно представлять пропорции генеральной совокупности. Другими словами, выборка должна быть репрезентативной (представительной). Репрезентативность выборки достигается, если ее производят случайным образом (т.е. все объекты генеральной совокупности имеют одинаковую вероятность попасть в выборку).
Виды признаков
Способы обработки данных зависят от характера исследуемого признака. Признаки делятся на качественные и количественные. Отдельные значения качественного признака выражаются понятиями, наименованиями, свойствами (специальность, национальность, место работы, виды преступлений, стандартность изделия и т.п.), количественного — числами (возраст, стаж работы, размер заработной платы, количество произведенной продукции и т.п.).
Количественный признак может быть дискретным и непрерывным. Дискретный признак принимает только отдельные изолированные значения, без промежуточных значений между ними, эти значения можно пронумеровать (например, число работников предприятия). Признак, который может принимать любые значения из некоторого числового промежутка, называется непрерывным (например, время написания теста).
В дальнейшем будем использовать обозначения:
Х — изучаемый признак или случайная величина,
— наблюдаемые значения признака или варианты.
Группировка данных. Вариационный ряд
Следующим шагом в изучении признака является группировка— разделение членов совокупности на группы, в которых члены совокупности принимают либо одни и те же значения, либо значения внутри определенного интервала. Способы группировки зависят от вида признака.
Группировка данных качественного признака
Пример 1.При изучении уровня образования 20 сотрудников отдела выяснено, что среди них 15 человек имеют высшее образование, 5 – среднее специальное. Данные сгруппированы в таблице 1.
Таблица 1
Группировка сотрудников по уровню образования
Уровень образования | высшее | среднее специальное | всего |
Количество |
Группировка данных количественного признака
Для группировки данных в случаеколичественного дискретного признака все варианты располагают в порядке возрастания и указывают частоты , с которыми они встречаются в данной совокупности. Частота варианты показывает, сколько раз варианта встречается в вариационном ряду. Дискретным вариационным рядом называется последовательность вариант , расположенных в порядке возрастания ( < < … < ), и соответствующих им частот (таблица 2). Отметим, что сумма всех частот вариационного ряда равна объему выборки n.
Таблица 2
Варианта | Частота |
… | … |
Относительной частотой варианты называется отношение ее частоты к объему выборки n:
.
Графическое изображение дискретного вариационного ряда называется полигоном. Полигон частот – ломаная, отрезки которой последовательно соединяют точки с координатами , , …, . Можно также строить полигон относительных частот.
Пример 2. Имеются данные о стаже работы 24 сотрудников предприятия.
Минимальное значение стажа , максимальное . Подсчитав частоту каждой варианты, оформим таблицу 3.
Таблица 3
Таблица 3 задает дискретный вариационный ряд. Для построения полигона частот на оси абсцисс отметим варианты, на оси ординат — соответствующие им частоты. Точки последовательно соединим отрезками. На следующем рисунке представлен полигон вариационного ряда таблицы 3.
Группировка данных в случае количественного непрерывного признака (или дискретного признака, когда число вариант велико)
В этом случае строят интервальный вариационный ряд. Интервальным вариационным рядом называется упорядоченная последовательность интервалов изменения признака вида и соответствующих им частот. Частотой интервала называется количество вариант, попавших в этот интервал. Для построения интервального вариационного ряда определяют величину (ширину) интервала, составляют шкалу интервалов и в соответствии с ней группируют результаты наблюдений. Для определения ширины интервала используют либо формулу (1), либо формулу (2).
, (1)
где h – ширина интервала,
–максимальная варианта,
–минимальная варианта,
k – число групп.
Формула (2) – формула Стэрджесса, позволяет определить оптимальную ширину интервала:
, (2)
где n — объем выборки.
Если h оказывается дробным числом, то за ширину интервала принимают либо ближайшее целое число, либо ближайшую конечную десятичную дробь..
За начало первого интервала рекомендуется принимать величину, равную . Максимальная варианта должна попасть в последний интервал.
Для подсчета числа вариант, входящих в тот или иной интервал, удобно, просматривая последовательно статистические данные, проставлять значки справа от соответствующего интервала. При этом в интервал включаются варианты, которые строго больше левой границы и меньше или равны правой границе.
Пример 3. В результате измерения некоторого психологического показателя у 25 человек были получены следующие значения:
3,2 | 4,5 | 5,2 | 5,6 | 6,6 |
3,8 | 4,7 | 5,2 | 5,7 | 6,3 |
4,1 | 4,9 | 5,3 | 5,8 | 6,4 |
4,3 | 5,0 | 5,3 | 5,8 | 6,7 |
4,3 | 5,1 | 5,4 | 5,9 | 7,3 |
Среди этих значений , . Найдем ширину интервала:
Можно взять . Тогда левой границей первого интервала будет число . Составим интервальный вариационный ряд (таблица 4).
Таблица 4
Интервалы | (частоты) |
(2,7; 3,7] | |
(3,7; 4,7] | |
(4,7; 5,7] | |
(5,7; 6,7] | |
(6,7; 7,7] | |
Графическое изображение интервального вариационного ряда называется гистограммой. На оси абсцисс откладывают отрезки, изображающие интервалы вариационного ряда, на этих отрезках, как на основаниях, строят прямоугольники с высотами, равными частотам соответствующих интервалов. В результате получается ступенчатая фигура из прямоугольников. На следующем рисунке изображена гистограмма вариационного ряда таблицы 4.
Расчет числовых выборочных характеристик
дискретного вариационного ряда
Рассмотрим генеральную совокупность объема N. Для изучения дискретного количественного признака из этой совокупности произведена выборка объема n.
Выборочной средней называется среднее арифметическое значение признака выборочной совокупности. Если все значения признака выборки различны, то
.
Если же значения признака имеют соответственно частоты , где , то
или .
Выборочной дисперсией называется среднее арифметическое квадратов отклонений наблюдаемых значений признака от выборочной средней .
Если все значения признака выборки различны, то
.
Если же значения признака имеют соответственно частоты , где , то
или .
Выборочным средним квадратическим отклонением называется квадратный корень из выборочной дисперсии
.
Пример 4. Найти выборочные характеристики , , и по распределению выборки, заданной таблицей 3.
Достроим таблицу 3 для расчета числовых выборочных характеристик (таблица 5).
Таблица 5
24 | 95 | 533 |
.
.
.
Расчет числовых выборочных характеристик
интервального вариационного ряда
Для расчета выборочных характеристик интервального вариационного ряда его преобразуют в дискретный, заменяя каждый интервал средним арифметическим его границ.
Пример 6. Найти числовые выборочные характеристики , , и по распределению выборки, заданной таблицей 4.
В таблице 4 представлен интервальный вариационный ряд, поэтому преобразуем его в дискретный. Для этого для каждого интервала найдем его середину. Оформим вычисления в виде таблицы 6.
Таблица 6
Интервал | Ср. знач. | Частота | |||
(2,7; 3,7] | 3,2 | 3,2 | 10,24 | 10,24 | |
(3,7; 4,7] | 4,2 | 25,2 | 17,64 | 105,84 | |
(4,7; 5,7] | 5,2 | 27,04 | 270,4 | ||
(5,7; 6,7] | 6,2 | 43,4 | 38,44 | 269,08 | |
(6,7; 7,7] | 7,2 | 7,2 | 51,84 | 51,84 | |
707,4 |
2. Оценки параметров генеральной совокупности
Оценки параметров генеральной совокупности
Пусть Х – изучаемый количественный признак генеральной совокупности. Как известно, исчерпывающую информацию о генеральной совокупности дает распределение вероятностей. Естественно, возникает задача оценки (приближенного нахождения) параметров, которыми определяется это распределение. Например, для нормального распределения таких параметров два – математическое ожидание и среднее квадратическое отклонение.
Как правило, известны лишь выборочные данные из генеральной совокупности, например, значения изучаемого признака , полученные в результате n наблюдений. На их основании и делается вывод относительно всей генеральной совокупности.
Точечные оценки
Точечной называют оценку, которая определяется одним числом.
Пусть Q — неизвестный параметр теоретического распределения, — его статистическая оценка. Оценку можно рассматривать как случайную величину. Для того, чтобы оценка была в определенном смысле наилучшей, к ней предъявляется ряд требований:
– Состоятельность. Точечная оценка называется состоятельной, если при неограниченном увеличении объема выборки (n ® ¥) она стремится к истинному значению параметра Q.
– Несмещенность. Оценка называется несмещенной, если она не содержит систематической ошибки, т.е. среднее значение оценки, определенное по многократно повторенной выборке любого объема из одной и той же генеральной совокупности, стремится к истинному значению параметра. Другими словами, математическое ожидание оценки М(Q*) = Q.
– Эффективность. Эффективной называют статистическую оценку, которая (при заданном объеме выборки) имеет наименьшую возможную дисперсию .
Доказано, что наилучшей в указанном смысле оценкой математического ожидания является ,т.е. .
В качестве оценки дисперсии признака Х в генеральной совокупности D(Х) берется исправленная выборочная дисперсия :
,где .
В качестве оценки среднего квадратического отклонения признака Х в генеральной совокупности принимается исправленное среднее квадратическое отклонение :
, где .
Интервальные оценки
При выборке малого объема точечная оценка неизвестного параметра может значительно отличаться от оцениваемого параметра, т.е. приводить к грубым ошибкам. По этой причине при небольшом числе наблюдений следует пользоваться интервальными оценками.
Интервальнойназывают оценку, определяемую двумя числами – концами интервала, которые находят по известной величине выборочной характеристики. Интервальные оценки позволяют установить точность и надежность оценок.
Пусть Q* – оценка неизвестного параметра Q генеральной совокупности. Вероятности, признанные достаточными для того, чтобы уверенно судить о параметрах генеральной совокупности на основании выборочных характеристик называются доверительными.
Доверительной вероятностью(или надежностью) оценки Q по Q* называется вероятность g, с которой осуществляется неравенство: или , т.е. .
Обычно в качестве доверительных вероятностей выбирают значения 0,95; 0,99; 0,999.
Величина доверительно интервала увеличивается с приближением доверительной вероятности g к единице. В этом случае мы выигрываем в вероятности, но проигрываем в точности. Величина доверительного интервала уменьшается с увеличением объема выборки.
Число δ ( ) называется точностью оценки. Очевидно, что чем меньше δ, тем оценка точнее.
Интервал , который с заданной доверительной вероятностью g покрывает оцениваемый параметр генеральной совокупности, называется доверительным интервалом.
Интервал является доверительным интервалом, который с вероятностью g покрывает математическое ожидание нормально распределенного признака Х генеральной совокупности, если среднее квадратическое отклонение признака Х неизвестно.
Интервал , если , и , если , является доверительным интервалом для среднего квадратического отклонения генеральной совокупности.
Коэффициенты tg, q находятся по таблицам приложений 1 и 2 для заданной доверительной вероятности g и объема выборки n.
Пример 7. Найти точечные и интервальные оценки с вероятностью γ = 0,95 параметров генеральной совокупности и по результатам примера 6.
Найдем точечные оценки.
.
.
.
Найдем интервальные оценки для математического ожидания и среднего квадратического отклонения.
.
Для и по таблице приложения 1 найдем значение , тогда
;
.
Итак, с доверительной вероятностью 0,95 неизвестный параметр генеральной совокупности заключен в интервале (4,85; 5,62).
.
Для и по таблице приложения 2 найдем значение q = 0,32, тогда
;
;
.
Итак, доверительный интервал (0,64; 1,24) покрывает неизвестный пара
3. Корреляционный и регрессионный анализ.
Линейная корреляция
Корреляция и регрессия
Корреляционной зависимостью называется статистическая зависимость между значениями одной случайной величины и групповыми средними другой случайной величины.
Задача корреляционного анализа– исследование наличия связи между случайными величинами, оценка ее тесноты и направления.
Задача регрессионного анализа – установление формы зависимости между случайными величинами.
Будем обозначать через (X, Y) двумерную случайную величину – величину, возможные значения которой определяются двумя числами.
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения двух признаков X и Y.
Расчет выборочного коэффициента корреляции
Выборочный коэффициент корреляции является оценкой коэффициента корреляции r генеральной совокупности и также служит для оценки тесноты линейной связи между величинами Х и Y.
Расчет выборочного коэффициента корреляции и выборочных прямых регрессии производится на основе данных выборки.
,
где n — объем выборки,
— частота пары вариант ,
— варианты Х,
— варианты Y,
, — выборочные средние Х и Y,
, — выборочные средние квадратические отклонения Х и Y.
Выборочные уравнения регрессии имеют вид:
.
Литература
1. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Юрайт, 2014. 479 с.
2. Ермолаев О.Ю. Математическая статистика для психологов. М.: НОУ ВПО МПСИ, Флинта, 2011. 336 с.
3. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. М.: Юрайт, 2011. 704 с.
4. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.: Юнити-Дана, 2010. 552 с.
5. Свешников А.А. Прикладные методы теории случайных функций. М.: Лань, 2011. 464 с.
6. Хрущева И.В., Щербаков В.И., Леванова Д.С. Основы математической статистики и теории случайных процессов. М.: Лань, 2009. 336 с.
7. Боровков А.А. Математическая статистика. М.: Лань, 2010. 704 с.
8. Гнеденко Б.В. Беседы о математической статистике. М.: Либроком, 2010. 88 с.
9. Ивченко Г.И., Медведев Ю.И. Введение в математическую статистику. М.: ЛКИ, 2010. 600 с.
10. Ивченко Г.И., Медведев Ю.И., Чистяков А.В. Задачи с решениями по математической статистике. М.: Дрофа, 2007. 320 с.
11. Королев В.Ю. Теория вероятностей и математическая статистика. М.: ТК Велби, Проспект, 2008. 160 с.
12. Кричевец А.Н. и др. Математика для психологов. М.: МПСИ, Флинта, 2006. 376 с.
13. Кузнецова О.С. Теория вероятностей и математическая статистика. Краткий курс. М.: Окей-книга, 2010. 192 с.
14. Лагутин М.Б. Наглядная математическая статистика. М.: Бином. Лаборатория знаний, 2009. 472 с.
15. Туганбаев А.А., Крупин В.Г. Теория вероятностей и математическая статистика. М.: Лань, 2011. 224 с.
16. Фадеева Л.Н., Лебедев А.В. Теория вероятностей и математическая статистика. М.: Эксмо, 2010. 496 с.
17. Чорней Р.К. Практикум по теории вероятностей и математической статистике. М.: Персонал, 2009. 336 с.
18. Шириков В.Ф., Зарбалиев С.М. Математическая статистика. М.: КолосС, 2009. 480 с.
Интернет-ресурсы
19. Романко, В. К. Статистический анализ данных в психологии [Электронный ресурс] : учебное пособие / В. К. Романко. - 2-е изд. (эл.). - М. : БИНОМ. Лаборатория знаний, 2012. - 312 с.
http://znanium.com/bookread.php?book=366136#none
20. Кремер, Н. Ш. Теория вероятностей и математическая статистика [Электронный ресурс] : учебник для студентов вузов, обучающихся по экономическим специальностям / Н. Ш. Кремер. - 3-е изд., перераб. и доп. - М.: ЮНИТИ-ДАНА, 2012. - 551 с.
http://znanium.com/bookread.php?book=394979
21. Кочетков, Е. С.Теория вероятностей и математическая статистика: Учебник / Е.С. Кочетков, С.О. Смерчинская, В.В. Соколов. - 2-e изд., испр. и перераб. - М.: Форум: НИЦ ИНФРА-М, 2014. - 240 с.
http://znanium.com/bookread.php?book=447828
22. Мхитарян, В. С. Теория вероятностей и математическая статистика [Электронный ресурс] : учеб. пособие / В. С. Мхитарян, Е. В. Астафьева, Ю. Н. Миронкина, Л. И. Трошин; под ред. В. С. Мхитаряна. - 2-е изд., перераб. и доп. - М.: Московский финансово-промышленный университет «Синергия», 2013
http://znanium.com/bookread.php?book=451329#none
Приложение 1
Таблица значений
n | g | n | g | ||||
0,95 | 0,99 | 0,999 | 0,95 | 0,99 0,999 | |||
2,78 2,57 2,45 2,37 2,31 2,26 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,11 2,10 | 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 | 8,61 6,86 5,96 5,41 5,04 4,78 4,59 4,44 4,32 4,22 4,14 4,07 4,02 3,97 3,92 | ¥ | 2,093 2,064 2,045 2,032 2,023 2,016 2,009 2,001 1,996 1,001 1,987 1,984 1,980 1,960 | 2,861 2,797 2,756 2,720 2,708 2,692 2,679 2,662 2,649 2,640 2,633 2,627 2,617 2,576 | 3,883 3,745 3,659 3,600 3,558 3,527 3,502 3,464 3,439 3,418 3,403 3,392 3,374 3,291 |
Приложение 2
Таблица значений
n | g | n | g | ||||
0,95 | 0,99 | 0,999 | 0,95 | 0,99 | 0,999 | ||
1,37 1,09 0,92 0,80 0,71 0,65 0,59 0,55 0,52 0,48 0,46 0,44 0,42 0,40 0,39 | 2,67 2,01 1,62 1,38 1,20 1,08 0,98 0,90 0,83 0,78 0,73 0,70 0,66 0,63 0,60 | 5,64 3,88 2,98 2,42 2,06 1,80 1,60 1,45 1,33 1,23 1,15 1,07 1,01 0,961 0,92 | 0,37 0,32 0,28 0,26 0,24 0,22 0,21 0,188 0,174 0,161 0,151 0,143 0,115 0,099 0,089 | 0,58 0,49 0,43 0,38 0,35 0,32 0,30 0,269 0,245 0,226 0,211 0,198 0,160 0,136 0,120 | 0,88 0,73 0,63 0,56 0,50 0,46 0,43 0,38 0,34 0,31 0,29 0,27 0,211 0,185 0,162 |
Содержание
ВВЕДЕНИЕ.. 3
ГЛАВА I. ОСНОВЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ.. 4
1. Комбинаторика. 4
2. Случайные события. 6
3. Вероятность события. 7
4. Теоремы сложения и умножения вероятностей. 9
5. Формула полной вероятности. 13
6. Формула Байеса. 14
7. Повторные испытания. Формула Бернулли. 15
8. Формула Пуассона. 16
9. Дискретные случайные величины. Числовые характеристики дискретных
случайных величин. Функция распределения. 16
10. Непрерывные случайные величины. Функция распределения. Плотность распределения. Числовые характеристики непрерывных случайных величин. 21
11. Нормальный закон распределения. 25
12. Системы дискретных случайных величин. 27
Задания для контрольной работы.. 32
ГЛАВА II. ВВЕДЕНИЕ В МАТЕМАТИЧЕСКУЮ СТАТИСТИКУ.. 39
1. Первичная обработка выборочных данных. Группировка статистических
данных. 39
2. Оценки параметров генеральной совокупности. 47
3. Корреляционный и регрессионный анализ. Линейная корреляция. 50
ЛИТЕРАТУРА.. 51
Приложение 1. 53
Приложение 2. 53