Вывод: график зависимости совместного изменения двух изучаемых параметров показывает наличие взаимосвязи, которая приближенно оценивается как линейная.
в) Вычисление (таблица 34) и оценка коэффициента корреляции методом Пирсона.
Таблица 34
Вычисление отклонений вариант от средней арифметической
Варианта № | Температура воздуха (x) | Запыленность мг/м3 (y) | dx=x-Mx | dy=y-My | dx*dy | dx2 | dy2 |
0,07 | -2,2 | -0,153 | 0,330 | 4,7 | 0,0233 | ||
0,08 | -2,2 | -0,143 | 0,309 | 4,7 | 0,0203 | ||
0,08 | -2,2 | -0,143 | 0,309 | 4,7 | 0,0203 | ||
0,2 | -1,2 | -0,023 | 0,026 | 1,4 | 0,0005 | ||
0,24 | -0,2 | 0,018 | -0,003 | 0,0 | 0,0003 | ||
0,25 | -0,2 | 0,028 | -0,005 | 0,0 | 0,0008 | ||
0,26 | -0,2 | 0,038 | -0,006 | 0,0 | 0,0014 | ||
0,27 | -0,2 | 0,048 | -0,008 | 0,0 | 0,0023 | ||
0,3 | 0,8 | 0,078 | 0,065 | 0,7 | 0,0060 | ||
0,28 | 0,8 | 0,058 | 0,048 | 0,7 | 0,0033 | ||
0,31 | 2,8 | 0,088 | 0,248 | 8,0 | 0,0077 | ||
0,33 | 3,8 | 0,108 | 0,412 | 14,7 | 0,0116 | ||
Средняя (М) = | 21,2 | 0,223 | Сумма (S) = | 1,725 | 39,7 | 0,0976 | |
n= |
Коэффициент корреляции вычисляется по формуле:
= 0,88 .
В программе Excel может использоваться функция =КОРРЕЛ(Диапазон1;Диапазон2) или модуль «Корреляция», который вызывается командой «Данные» - «Анализ данных». Он производит создание таблицы, которая называется «Корреляционная матрица», что позволяет вычислить коэффициент корреляции для нескольких признаков одновременно. Результат вычислений, выполненный с помощью указанного модуля, приведен в таблице 35.
Таблица 35
Вычисление корреляционной матрицы модулем «Корреляция»
Температура воздуха (x) | Запыленность мг/м3 (y) | |
Температура воздуха (x) | 0,876588407 | |
Запыленность мг/м3 (y) | 0,876588407 |
Оценка достоверности коэффициента корреляции с помощью критерия Стьюдента:
= 0,152 ,
где: n – число парных вариант.
Критерий достоверности Стьюдента для коэффициента корреляции вычисляется по формуле:
= 5,8
Вывод: зависимость изменения двух изучаемых параметров является сильной прямой и статистически достоверной при уровне значимости p<0,05.
г) вычисление и оценка коэффициента корреляции методом Спирмена.
В таблице вариационных рядов производится подсчет рангов как показано в таблице 36. Каждому из 12 чисел присваивается порядковый номер по возрастанию в соответствии с его значением. При этом наличие повторяющихся чисел влияет на ранг последующих чисел. Например, если в списке целых чисел трижды встречается число 19, имеющее ранг 1, число 20 будет иметь ранг 4 (ни одно из чисел не будет иметь ранги 2 и 3). Вычисление ранга в программе Excel возможно с помощью функции =РАНГ(Число; Диапазон; Порядок). Например: =РАНГ(C25;C$24:C$35;1). Затем вычисляется разность рангов, она возводится в квадрат и суммируется.
Таблица 36
Вычисление рангов и суммы квадратов их отклонений
Варианта | Температура воздуха (x) | Запыленность мг/м3 (y) | Ранг x | Ранг y | dr = ранг x - ранг y | dr2 | |
0,07 | |||||||
0,08 | -1 | ||||||
0,08 | -1 | ||||||
0,2 | |||||||
0,24 | |||||||
0,25 | -1 | ||||||
0,26 | -2 | ||||||
0,27 | -3 | ||||||
0,28 | |||||||
0,3 | -1 | ||||||
0,31 | |||||||
0,33 | |||||||
S=17 | |||||||
Вычисление коэффициента корреляции Спирмена: | |||||||
ρ = | 0,94 | ||||||
Вычисление ошибки репрезентативности коэффициента корреляции: | |||||||
m= | 0,107 | ||||||
Вычисление коэффициента достоверности Стьюдента для коэффициента корреляции: | |||||||
t= | 8,76 > 2 | ||||||
Вывод: корреляционная связь двух изучаемых параметров является сильной прямой и статистически достоверной при уровне значимости p<0,05.
ЗАДАНИЯ
Запустите программу Excel, откройте требуемый файл в папке своей учебной группы под именем «Статистика–Фамилии студентов». На листе «Коррел-я», решите требуемый вариант заданий, сохраните изменения и покажите результат работы преподавателю.
Вариант 1
Выполнены измерения признаков, характеризующих температуру в помещении на рабочих местах работников предприятия и концентрацию вредных веществ (таблица 37).
Таблица 37
Данные измерений на рабочих местах предприятия
Измерение на рабочем месте | Температура воздуха, Со | Концентрация вещества, мг/м3 |
1. Слесарь | 0,21 | |
2. Электрик | 0,26 | |
3. Сварщик | 0,25 | |
4. ... | 0,03 | |
5. ... | 0,04 | |
6. ... | 0,01 | |
7. ... | 0,31 | |
8. ... | 0,28 | |
9. ... | 0,36 | |
10. ... | 0,32 | |
11. ... | 0,21 | |
12. ... | 0,22 |
Определите силу и направление зависимости между температурой окружающей среды и концентрацией вредных веществ в помещении с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
Вариант 2
Выполнены измерения показателей физического развития школьников, характеризующих их рост стоя и объем грудной клетки (таблица 38).
Таблица 38
Данные физического развития школьников
Измерение | Рост, см | Объем грудной клетки, см |
1. Чернов А.С. | 70,8 | |
2. Галкин М.В. | 78,2 | |
3. Попов А.М. | 71,1 | |
4. ... | 73,2 | |
5. ... | 73,3 | |
6. ... | 78,2 | |
7. ... | 76,1 | |
8. ... | 76,3 | |
9. ... | 67,5 | |
10. ... | 76,1 | |
11. ... | 70,5 | |
12. ... | 76,6 |
Определите силу и направление зависимости между ростом и объем грудной клетки с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
Вариант 3
Врачом футбольной команды выполнены измерения показателей деятельности системы кровообращения и тренированности спортсменов, измерены частота пульса и систолический объем сердечного выброса (таблица 39).
Таблица 39
Данные измерений показателей деятельности сердечно-сосудистой системы спортсменов
Измерение | Пульс, уд/мин | Объем сердечного выброса, мл |
1. Васильев А.С. | ||
2. Морозов Н.Р. | ||
3. Родионов А.К. | ||
4. ... | ||
5. ... | ||
6. ... | ||
7. ... | ||
8. ... | ||
9. ... | ||
10. ... | ||
11. ... | ||
12. ... |
Определите силу и направление зависимости между пульсом и систолическим объемом с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
Вариант 4
В городе Н. было проведено изучение зависимости заболеваемости инфарктом миокарда по месяцам года от среднемесячной температуры воздуха (таблица 40).
Таблица 40
Заболеваемость инфарктом миокарда и температура воздуха по месяцам
Определите силу и направление зависимости между заболеваемостью инфарктом миокарда и среднемесячной температурой воздуха с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
X. Метод регрессии
Метод регрессии - это статистический способ поиска функции, которая позволяет по величине одного коррелируемого признака судить о величине другого. С помощью регрессии ставится задача выяснить, как количественно меняется одна величина при изменении другой величины на единицу. Для выполнения такого прогноза требуется определить коэффициент корреляции Пирсона, с использованием которого вычисляют коэффициент регрессии ( ). Он участвует в создании регрессионной функции вида y=ax+b, которая применяется для прогнозирования требуемых параметров.
Коэффициент регрессии вычисляется по формуле:
,
где: Ry/x – коэффициент регрессии;
rx/y – коэффициент корреляции Пирсона;
σx – среднее квадратическое отклонение признака x;
σy – среднее квадратическое отклонение признака y.
Среднее квадратическое отклонение (сигма) вычисляется по формуле:
,
а в программе Excel функцией = СТАНДОТКЛОН(Диапазон ячеек).
Значение коэффициента регрессии ( ) в программе Excel может быть вычислено функцией =НАКЛОН(Диапазон_y; Диапазон_х).
Формула определения значения зависимого признака:
y = My+Ry/x (x-Mx) ,
где: y – зависимая переменная;
My – средняя признака y;
Ry/x - коэффициент регрессии;
x - значение измеренного признака;
Mx – средняя арифметическая признака x.
В программе Excel значение зависимой переменной (y) при заданном значении x может быть вычислено функцией =ПРЕДСКАЗ(x ; Диапазон_y; Диапазон_x).
После получения прогнозируемого значения (y) выполняется определение его доверительного интервала с целью экстраполяции данных на генеральную совокупность с уровнем значимости p<0,05. Для этого вычисляется сигма регрессии , которая показывает меру вариабельности зависимого признака, вычисленного по уравнению регрессии, в генеральной совокупности.
Она определяется по формуле: . Вычисление значения может производиться функцией = СТАНДОТКЛОН(Диапазон_у).