Выборочный коэффициент корреляции
Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи явлений.
Если известно (или предполагается), что между результативным и факторным признаками существует линейная связь, то для оценки ее тесноты используется выборочный коэффициент корреляции (или просто коэффициент корреляции). Он чаще всего рассчитывается по формуле:
. (25)
Коэффициент корреляции изменяется в пределах от –1 до +1. Равенство коэффициента нулю свидетельствует об отсутствиилинейной связи. Равенство коэффициента показывает наличие функциональной связи. Знак «+» указывает напрямую связь (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «–» – на обратную связь (увеличение или уменьшение одного признака сопровождается противоположным по направлению изменением другого признака).
В зависимости от того, насколько приближается к 1, различают линейную связь слабую – , умеренную – , заметную – , достаточно тесную – и весьма тесную – .
В отличие от коэффициента регрессии коэффициент корреляции не зависит от принятых единиц измерения признаков, а, следовательно, он сравним для любых признаков.
Как любая статистическая величина, коэффициент корреляции подвержен случайным колебаниям в результате выборочности исследования.
Для оценки значимости коэффициента корреляции применяется -критерий Стьюдента. При этом определяется эмпирическое значение критерия :
. (26)
Вычисленное по формуле (27) значение сравнивается с критическим, которое берется из таблицы значений распределения Стьюдента с учетом заданного уровня значимости ( ) и числа степеней свободы .
Если , то величина коэффициента корреляции признается значимой.
Случайные процессы
Случайным процессом называется процесс, значение которого при любом значении аргумента является случайной величиной. Обычно – это время.
Пусть с течением времени в случайные моменты происходит некоторое событие . Обозначим число событий, имевших место в интервале . Для определенности начинаем отсчет времени в момент , в который событие не произошло, т.е. .
Важнейшая математическая характеристика такого процесса – это вероятность того, что за время событие произойдет ровно раз:
, где ,
т.е. закон распределения целочисленной случайной величины .
Процесс называется процессом Пуассона (или простейшим потоком событий), если для него выполняются следующие предположения.
1. Процесс является стационарным, т.е. вероятность появления числа событий во временном промежутке , зависит только от длины этого промежутка (не зависит от начала отсчета).
2. Процесс – это процесс без последствий, т.е. вероятность появления событий на любом участке времени длины не зависит от того, сколько событий появилось на любом другом не пересекающемся с ним участком.
3. Процесс – это ординарный процесс, т.е. вероятность того, что за малый промежуток времени событие произойдет более одного раза, есть величина более высокого порядка малости чем .
Для пуассоновского процесса функция имеет вид:
, , (27)
Числовой параметр называется интенсивностью пуассоновского потока, т.е. – это среднее число событий , происходящих в единицу времени.
РЕШЕНИЕ ПРИМЕРНОГО ВАРИАНТА РГЗ
Задача 1. Стрелок ведет стрельбу по цели с вероятностью попадания при каждом выстреле 0,4. За каждое попадание он получает 5 очков, а в случае промаха очков ему не начисляют. Составить закон распределения случайной величины – числа очков, полученных стрелком за 3 выстрела, построить многоугольник распределения, вычислить математическое ожидание, дисперсию и среднее квадратическое отклонение этой случайной величины.
Решение.
Случайная величина может принимать 4 значения:
0 – если стрелок промахнулся 3 раза;
5 – если стрелок попал 1 раз при трех выстрелах;
10 – если стрелок попал 2 раза при трех выстрелах;
15 – если стрелок попал 3 раза.
Так как каждый выстрел можно рассматривать, как независимое испытание, в результате которого возможны только два исхода: попадание («успех») или промах («неудача»), то вероятности, соответствующие каждому значению случайной величины, можно найти по формуле Бернулли (5):
.
По условию задачи имеем: число испытаний , вероятность успеха , , значения будут изменяться от 0 до 3. Т.о. имеем:
,
,
,
.о
Следовательно, окончательно закон распределения случайной величины будет иметь вид:
0,216 | 0,432 | 0,288 | 0,064 |
Построим многоугольник распределения. Для этого по оси абсцисс отложим возможные значения случайной величины, а по оси ординат – соответствующие им вероятности и соединяем точки (xi, pi) отрезками прямых. Полученная при этом ломаная линия и есть многоугольникраспределения вероятностей случайной величины .
Рис. 1. Многоугольник распределения вероятностей |
Рассчитаем числовые характеристики случайной величины .
1. Математическое ожидание вычисляем по формуле (7)
.
2. Дисперсия вычисляется по формуле (9):
.
3. Среднее квадратическое отклонение
.
Ответ. Закон распределения случайной величины :
0,216 | 0,432 | 0,288 | 0,064 |
многоугольник распределения – на рисунке 1, , , .
Задача 2. Случайная величина распределена по нормальному закону с математическим ожиданием и дисперсией . Найти вероятность того, что в результате испытания примет значение, заключенное в интервале .
Решение.
Так как случайная величина имеет нормальное распределение, то вероятность ее попадания в интервал можно найти по формуле (11). Учитывая, что по условию имеем: , , , , то получим:
.
По таблице значений функции Лапласа находим: F(2)=0,4772, F(1)=0,3413. Значит, получаем: .
Ответ:
Задача 3. По выборке из генеральной совокупности нормально распределенного количественного признака X найти: 1) числовые характеристики выборки – выборочную среднюю, выборочную дисперсию, среднее квадратическое отклонение; 2) несмещенные оценки для генеральной средней и генеральной дисперсии; 3) доверительный интервал для оценки генеральной средней с надежностью .
33,2 | 38,2 | 43,2 | 48,2 | 53,2 | |
Решение.
1. Сначала вычислим числовые характеристики выборки.
Выборочную среднюю найдем по формуле (14).
Учитывая, что объем выборки , получаем:
.
Выборочную дисперсию удобнее вычислять по формуле (16):
.
Выборочное СКО:
.
2. Несмещенной оценкой для генеральной средней является выборочная средняя .
Несмещенной оценкой дисперсии генеральной совокупности является исправленная выборочная дисперсия , которая вычисляется по формуле (17):
.
3. Так как генеральная дисперсия неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия и данная выборка имеет небольшой объем ( ), то доверительный интервал для генеральной средней можно найти, используя формулы (19) и (21).
Значение находим по таблице распределения Стьюдента, где – доверительная вероятность, – объем выборки, - число степеней свободы.
Учитывая, что , , , находим сначала точность оценки по формуле (21):
.
Теперь искомый доверительный интервал определяем по формуле (19):
или .
Ответы: 1. , , ; 2. , ; 3. .
Задача 4. Один из регулировочных параметров дизеля характеризуется выборкой из n=40 вариант. Систематизировать выборку по интервалам и выполнить ее статистическую обработку по способу моментов для чего:
1. Построить полигон частот, гистограмму и эмпирическую функцию распределения(кумуляту)
2. Вычислить статистическое среднее , исправленную выборочную дисперсию = , исправленное СКО , моду , медиану , ассиметрию , эксцесс .
3. Найти доверительные интервалы Для М(Х) и б при заданной доверительной вероятности =0.95.
Решение.
Исходный признак является непрерывным, следовательно, по исходным данным необходимо построить интервальный вариационный ряд.
Обычно интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде , где - число интервалов, – длина интервала. Длину следует выбирать так, чтобы построенный ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины. Рекомендуется для использовать следующую формулу:
, (1)
где – наибольшее и наименьшее значения изучаемого признака, – объем выборочной совокупности. Если окажется, что – дробное число, то за длину интервала следует принять либо ближайшую по округления с избытком дробь, либо ближайшую целую величину. При этом необходимо выполнение условий: .
По исходным данным имеем: , , . Тогда
(мм).
67-41=26, число интервалов с таким шагом, равно 26/4=6.5. Поэтому, возьмем 7 интервалов, тогда размах выборки равен 4*7=28>26.
В качестве нижней границы первого интервала выберем мм, верхней , размах выборки равен 28. Тогда вариационный ряд будет иметь вид:
Номер интервала | |||||||
Границы интервала | 40-44 | 44 – 48 | 48- 52 | 52 – 56 | 56 – 60 | 60 –64 | 64 – 68 |
Число частот |
Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.
Эмпирической функцией распределения, построенной по выборке объема , называется функция , определяемая равенством
, где – накопленная частость.
x | ||||||||
n(частоты) | ||||||||
1/40 | 5/40 | 18/40 | 29/40 | 35/40 | 39/40 |
Под первичной статистической обработкой понимают построение полигона частот и гистограммы, кумуляты, а также нахождение моды , медианы , , (определяется по графику ).
Для вычисления , применим метод моментов с использованием условных вариант. Вычислим начальные и центральные моменты. Дальнейшее решение лучше выполнять, используя EXCEL.(см. приложение). Найдем
среднее | хср=m(1)+54= | 53,83 | ||
дисперсия | D(X)=v(2)*H^2= | 27,11 | ||
дисперсия испр | D*(X)=n/(n-1)D(x)= | 27,81 | ||
СКО=s(x)= | 5.27 | |||
ассиметрия | A=m(3)*H^3/б^3 | -0,08 | ||
эксцесс | E=m(4)*H^4/б^4-3 | -0,44 |
Ассиметрия отрицательна, это указывает на «скос» кривой распределения влево от М(Х). Эксцесс отрицательный, это указывает на то, что кривая данного распределения более «плосковершинная», чем кривая простейшего нормального распределения.
Коэффициент ассиметрии и эксцесс позволяют проверить гипотезу о нормальном распределении. При нормальном распределении случайной величины выполняются следующие неравенства ;
.
n=40, 0,08<1.093, 0.044<3.22, т.е. неравенства выполняются. Следовательно, выборка произведена из нормально распределенной генеральной совокупности.
Найдем доверительные интервалы для М(Х) и . В случае, когда генеральная дисперсия неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия , то точность оценки находится по формуле: , где ,причем значение числа определяется по таблице критических точек распределения Стьюдента при доверительной вероятности и числе степеней свободы .
При достаточно больших выборках(n>30) можно воспользоваться формулой , где . По условию =0.95 и , в таблице критических точек распределения Стьюдента при доверительной вероятности и числе степеней свободы находим =2.56. Т.о., . Оценка производится по формуле находим в таблице по доверительной вероятности и числу измерений, =0.24.
Задача 5. Массовую долю (%) оксида меди в минерале определили методом иодометрии и методом комплексометрии. По первому методу получили результаты: 38,20; 38,00; 37,66, а по второму: 37,70; 37,65; 37,55. Проверить, различаются ли средние результаты данных методов на уровне значимости , если известно, что результаты измерений имеют нормальный закон распределения с неизвестными, но равными дисперсиями.
Решение.
Вычисляем для каждого метода числовые характеристики, учитывая, что объем каждой выборки равен :
· выборочные средние значения по формуле (14):
=37,63;
· исправленные выборочные дисперсии по формуле (18):
,
=0,07453;
=0,00583.
Теперь проверим гипотезу о равенстве средних двух совокупностей.
1. Нулевая гипотеза: : .
Альтернативная гипотеза: :
2. Уровень значимости .
3. Проверку гипотезы будем проводить с помощью -критерия, так как выборки маленькие и по условию дисперсии генеральных совокупностей неизвестны, но равны. По таблице значений распределения Стьюдента при и числе степеней свободы находим критическое значение: .
4. Рассчитаем эмпирическое значение -критерия, используя формулу (22):
.
Сравним полученное значение с табличным значением . Так как , то гипотеза принимается.
5. Гипотеза о равенстве средних значений двух методов проверена на уровне значимости с помощью -критерия и принята. Следовательно, результаты обоих методов отражают истинное содержание в минерале.
Ответ: гипотеза о равенстве средних проверена на уровне значимости с помощью -критерия и принята.
Задача 5. Имеются следующие данные об уровне механизации работ (%) и производительности труда (т/чел.) для 14 однотипных предприятий:
№ п/п | |||||||
№ п/п | |||||||
Требуется: 1) оценить тесноту и направление связи между признаками с помощью коэффициента корреляции и оценить значимость коэффициента корреляции на уровне значимости ; 2) найти уравнение линейной регрессии на ; 3) в одной системе координат построить эмпирическую и теоретическую линии регрессии.
Решение.
1. Для удобства проведем все необходимые предварительные расчеты в таблице.
Таблица 1
Расчетная таблица
№ п/п | |||||
Всего |
Рассчитаем числовые характеристики выборки, используя итоговую строку расчетной таблицы и учитывая, что объем выборки :
· выборочные средние:
;
;
· средние по квадратам:
;
;
· средняя по произведениям:
;
· выборочные средние квадратические отклонения:
; ;
; .
Вычислим выборочный коэффициент корреляции по формуле (26):
.
Т.к. и , то, следовательно, линейная связь между изучаемыми признаками является прямой и весьма тесной.
Оценим значимость выборочного коэффициента корреляции. Для этого рассчитаем эмпирическое значение -критерия по формуле (26):
.
Для уровня значимости и числа степеней свободы находим критическое значение -критерия: по таблице значений распределения Стьюдента. Поскольку , то коэффициент корреляции между признаками и является значимым (или значимо отличается от нуля).
2. Найдем уравнение линейной регрессии на : , вычислив параметры уравнения регрессии по формулам (23) и (24):
;
.
Следовательно, уравнение прямой регрессии имеет вид:
.
3) Построим в одной системе координат эмпирическую и теоретическую линии регрессии. Эмпирическая линия – это ломаная, соединяющая точки с координатами , а теоретическая – это график прямой регрессии, уравнение которой было получено в п. 2. Теоретическую линию регрессии можно построить по двум точкам, абсциссы которых выбираются произвольно, а ординаты находятся по построенному уравнению регрессии. Найдем координаты точек для построения теоретической линии регрессии: , тогда ; , . Значит, теоретическую линию регрессии будем строить по двум точкам с координатами и .
Рис. 2. Эмпирическая и теоретическая линии регрессии |
Ответ: 1) , линейная связь прямая, весьма тесная, коэффициент корреляции значим на уровне значимости ; 2) выборочное уравнение прямой регрессии ; 3) линии регрессии представлены на рис. 2.
Задача 6. Среднее число заказов такси, поступающих на диспетчерский пункт в одну минуту, равно 3. Найти вероятность того, что за 2 минуты поступит: 1) четыре вызова; 2) менее четырех вызовов; 3) не менее четырех вызовов.
Решение.
Случайные события – заказы такси – представляют собой процесс Пуассона .
По условию имеем: интенсивность потока – среднее число заказов в единицу времени – , промежуток времени .
1) Искомая вероятность того, что за минуты поступит ровно вызова можно вычислить по формуле (28). Имеем:
.
2) Событие "поступило менее четырех вызовов" произойдет, если за время мин. наступит одно из следующих несовместных событий: «поступило три вызова» – , «поступило два вызова» – , «поступил один вызов» – , «не поступило ни одного вызова» – . Таким образом, искомую вероятность находим с помощью теоремы сложения вероятностей (1):
3) События "поступило не менее четырех вызовов" и "поступило менее четырех вызовов" противоположны, поэтому искомую вероятность того, что за две минуты поступит не менее 4 вызовов, можно найти по формуле (3):
.
Ответы: 1) ; 2) ; 3)
СПИСОК ЛИТЕРАТУРЫ
1. Кремер, Н. Ш. Теория вероятностей и математическая статистика : учеб. для вузов / Н. Ш. Кремер. – М. : ЮНИТИ-ДАНА, 2002. – 543 с.
2. Письменный, Д. Т. Конспект лекций по теории вероятностей и математической статистике / Д.Т. Письменный. – М. : Айрис-пресс, 2004. – 256 с. – (Высшее образование).
3. Гмурман, В. Е. Теория вероятностей и математическая статистика : учеб. пособие для вузов / В. Е. Гмурман. – М. : Высш. шк., 1997. – 479 с. : ил.
4. Гмурман, В. Е. Руководство к решению задач по теории вероятностей и математической статистике / В. Е. Гмурман. – М. : Высш. шк., 1998. – 400 с. : ил.
5. Данко, П. Е. Высшая математика в упражнениях и задачах. В 2 ч. Ч. 2 : учеб. пособие для вузов. / П. Е. Данко, А. Г. Попов, Т. Я. Кожевникова. – М. : Оникс : Мир и образование, 2005. – 416 с.
[1] Построение интервальных вариационных рядов целесообразно не только при непрерывной вариации признака, но и если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.