Исследование связи между температурами
2.1 Формулировка задачи
На сайте прогноза погоды accuweather.com имеется архив прогнозов погод за 2013 и 2014 года, было решено выбрать октябрь в качестве рассматриваемого месяца для 2013 и 2014 годов, были зафиксированы максимальные за день температуры города Петропавловска с 1 по 15 октября за 2013 и 2014 год. С помощью коэффициента ранговой корреляции Спирмена необходимо определить, как колебания температур октября за 2013 и 2014 года связаны друг с другом. Необходимо проверить полученный результат на значимость.
Была составлена таблица 5 в которой содержится информация о максимальных температурах октября за 2013 и 2014 годов. Где определены переменные A и B, A – переменная со значением температур октября за 2013 год, B – переменная со значением температур октября за 2014 год.
Таблица 5
Переменные А и B, и их значения
Номер | A | B |
2.2 Коэффициент ранговой корреляции Спирмена
Перед тем как приступить к процессу решения задачи важно разобраться в том, что из себя представляет коэффициент ранговой корреляции Спирмена. Во первых, при вычислении коэффициента ранговой корреляции Спирмена необходимо помнить о том что существует ограничение, при соблюдении которого, коэффициент дает наиболее точное и значимое значение. Важным ограничением метода ранговой корреляции является то, что по каждой переменной должно быть представлено не менее 5 наблюдений. Верхняя граница выборки – меньше или равна 30. При большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным метод дает огрубленные значения. Поэтому в идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений. В случае несоблюдения такого условия вносится поправка на одинаковые ранги. Помимо этих ограничений, следует так же помнить об ограничениях корреляционного метода – невозможность обнаружения причинной связи между явлениями.
Из условия задачи переменных две, это год 2013 и 2014, а так же выборка на каждую переменную составляется из последовательности максимальных температур за 15 дней, то есть выборка больше 5 и меньше 30, это говорит о том что метод корректно задан в условии задачи.
Из метода Спирмена немаловажен тот факт, что из себя представляет корреляция.
Корреляция это мера согласованности одного признака с другим, с несколькими, либо взаимная согласованность группы признаков.
Так как по условию задачи необходимо найти связь между температурами двух городов, это сводит к мысли о корреляционной связи, поэтому так же важно выяснить что из себя представляет корреляционная связь.
Корреляционная связь отражает тот факт, что изменения одного признака находятся в некотором соответствии с изменениями другого признака. Корреляционная же зависимость указывает на причинно-следственную связь изменений двух признаков, что, строго говоря, не всегда соответствует действительности, так как корреляционные методы не выявляют этой причинности, а лишь указывают на наличие некоторого соответствия. Признаки могут находиться не только во взаимной зависимости друг от друга, но и оба в зависимости от какого-либо третьего воздействия, не включенного в область рассмотрения. Таким образом, более корректно употреблять понятие корреляционная связь.
Другими словами метод ранговой корреляции Спирмена может дать возможность выявить некую связь между температурами двух городов, но причину почему существует или не существует та или иная связь между температурами выяснить не удастся.
Основой метода ранговой корреляции Спирмена является ранги. Под понятием рангов подразумеваются порядковые номера значений случайной величины в ранжированном ряду. То есть если существует какая-либо последовательность элементов, в тематике задачи это температуры, то к каждому отдельному элементу должен быть присвоен порядковый номер или по другому ранг. Ранг задается по определенному правилу, наименьшему элементу будет присвоен наименьший ранг, а наибольшему элементу будет присвоен наибольший ранг.
2.3 Вычисление коэффициента ранговой корреляции Спирмена
Первым делом необходимо в Excel составить таблицу содержащую исходные данные. Получится исходная таблица содержащая три столбца «Номер», «А» и «B». Заполнять таблицу нужно строго не нарушая порядка номеров дней, а так же температур этих дней.
Чтобы распределить ранги для переменной А первым делом нужно скопировать столбцы «Номер» и «А», чуть левее таблицы исходных данных, образуется таблица со столбцами «Номер» и «А», далее необходимо выделить всю получившуюся таблицу и отсортировать ее по убыванию по столбцу «А», далее нужно создать еще один столбец «Ранг А» и в него сверху вниз последовательно прописать значения от 15 до 1, это нужно для того чтобы максимальному значению соответствовал максимальный ранг, а минимальному минимальный, так как показано в таблице 6.
Таблица 6
Значение переменной А, и ранги соответствующие этим значениям
Номер | A | Ранг A |
Ранги расставлены, но была допущена ошибка которая может конкретно повлиять на точность расчетов. Ошибка заключается в том что столбец «А» содержит в себе группы повторяющихся значений, а ранги для этих повторяющихся значений были присвоены разные. Повторяющиеся значения переменной должны иметь одинаковые ранги. Рангом каждого повторяющегося значения в такой группе считается среднее арифметическое рангов принадлежащих к этой группе повторяющихся значений.
Как видно из таблицы 6, переменная А содержит 4 группы повторяющихся значений. Поэтому в каждой такой группе отдельно, для каждого повторяющегося значения переменной нужно исправить соответствующий ранг на значение среднего арифметического рангов ранее присвоенных повторяющимся значениям этой группы. В таблице 7 представлено как будут выглядеть ранги после исправления.
Таблица 7
Значение переменной А, и исправленные ранги соответствующие этим значениям
Номер | A | Ранг A |
10,5 | ||
10,5 | ||
Перед тем как перейти к расстановке рангов для переменной B, необходимо составить дополнительную таблицу, которая будет содержать информацию о поправках, которые могут существенно увеличить точность расчетов. Для этого считаем сколько у нас групп со связными рангами, и сколько в каждой группе связных рангов. Затем необходимо посчитать поправки для каждой отдельной группы связных рангов с помощью формулы:
,
где – номер группы связных рангов,
– количество связных рангов в группе.
Дополнительная таблица будет выглядеть так как это показано на таблице 4, но остается еще посчитать общую сумму поправок.
Таблица 4
Дополнительная таблица содержащая информацию о поправках
Номер группы, | Размер группы, | |
0,5 | ||
На таблице 5 изображены поправки, а так же вычислена сумма поправок.
Таблица 5
Дополнительная таблица содержащая информацию о поправках, а так же сумму поправок
Номер группы, | Размер группы, | |
0,5 | ||
Сумма | 14,5 |
Далее после того как таблица поправок готова, можно вернуться к таблице 3, эту таблицу необходимо отсортировать по возрастанию по столбцу «Номер», и правее столбца «Ранг А» вставить столбец «B» и в него внести значения переменной B из исходных данных таблицы 1. Затем необходимо снова отсортировать таблицу по убыванию по столбцу «B», и добавив столбец «Ранг B» заполнить его значениями от 15 до 1, проверив что максимальному значению принадлежит максимальный ранг, и соответственно минимальному минимальный. Аналогично как и с рангами переменной А, в столбце «Ранг B» исправляются ранги групп где значения переменной B повторяются. Таким образом образуется таблица 6.
Таблица 6
Значение переменной А и B, и ранги соответствующие значениям этих переменных
Номер | A | Ранг A | B | Ранг B |
10,5 | ||||
10,5 | ||||
10,5 | ||||
10,5 | ||||
К рангам переменной B тоже необходима составить дополнительную таблицу с информацией о поправках, то есть посчитать поправки и обязательно просуммировать их, на таблице 7 изображены полученные результаты.
Таблица 7
Дополнительная таблица содержащая информацию о поправках, а так же сумму поправок
Номер группы, | Размер группы, | |
0,5 | ||
Сумма | 4,5 |
После этого таблицу 6 следует отсортировать по возрастанию по столбцу «Номер», образуется следующая таблица 8, эта таблица готова к дальнейшим расчетам, таким как разность рангов А и B, и возведение в квадрат результатов разности рангов.
Таблица 8
Значение переменной А и B, и ранги соответствующие значениям этих переменных
Номер | A | Ранг A | B | Ранг B |
10,5 | ||||
10,5 | ||||
10,5 | ||||
10,5 | ||||
Далее необходимо найти разность между рангами А и B, лежащих на одной строке, для этого нужно создать новую таблицу со столбцами «Ранг А» и «Ранг B», и заполнив их значениями соответствующих столбцов таблицы 8, получится таблица 9.
Таблица 9
Ранги переменных А и B
Ранг A | Ранг B |
10,5 | |
10,5 | |
10,5 | |
10,5 | |
Далее в таблице 9 создается еще один столбец «Разность рангов». В каждой строчке этого столбца нужно вписать значение разности соответствующих рангов А и B. На таблице 10 изображены значения разности рангов А и B.
Таблица 10
Разность рангов А и B
Ранг A | Ранг B | Разность рангов |
10,5 | -2,5 | |
10,5 | -3,5 | |
-3 | ||
10,5 | -3,5 | |
-6 | ||
-3 | ||
10,5 | 1,5 | |
-1 | ||
После того как столбец «Разность рангов» был заполнен, необходимо в другой, уже в созданный четвертый столбец «Квадрат разности рангов» произвести ввод значений квадратов разности рангов А и B, то есть возвести значение каждой строки из столбца «Разность рангов» в квадрат и вписать в соответствующую строку столбца «Квадрат разности рангов» таким образом образуется таблица 11.
Таблица 11
Квадрат разности рангов А и B
Ранг A | Ранг B | Разность рангов | Квадрат разности рангов |
10,5 | -2,5 | 6,25 | |
10,5 | -3,5 | 12,25 | |
Продолжение таблицы 11
-3 | |||
10,5 | -3,5 | 12,25 | |
-6 | |||
-3 | |||
10,5 | 1,5 | 2,25 | |
-1 | |||
Теперь когда готова таблица 11 содержащая информацию о рангах, а так же две дополнительных таблицы содержащие информацию о поправка, можно начать расчет коэффициента ранговой корреляции, подставив нужные значения в формулу.
Формулы могут быть две, в первом случае если в ряде рангов А и B отсутствовали группы связных рангов нужно использовать формула:
,
где – число выборки,
– квадрат разности рангов,
– сумма квадратов разности рангов.
Во втором случае, когда в рядах рангов А и B существуют связные ранги, то следует использовать формулу, которая должна учесть поправки:
,
где – число выборки,
– квадрат разности рангов,
– сумма квадратов разности рангов,
и соответственно равны формулам:
,
,
где – число выборки,
и вычисляются путем суммирования соответствующих значений , найденных по формулам:
,
,
где , – номер группы,
, – количество связных рангов в группе.
Из формул видно что посчитать сумму квадратов разности рангов нужно обязательно, поэтому сразу можно посчитать , просуммировав значения столбца «Квадрат разности рангов» таблицы 11 получится:
.
Из за того что в рядах рангов А и B существовали связные ранги, необходимо использовать именно формулу, поэтому нужно произвести расчеты поправок. Так как суммы и были посчитаны ранее, значение их находятся в дополнительных таблицах содержащих информацию о поправках, поэтому можно сразу найти значения и подставив нужные значения в формулы:
,
,
.
Получится результат:
,
.
Теперь остается подставить найденные значения в формулу рассчитывающую коэффициент корреляции:
.
Если в целях эксперимента посчитать коэффициент используя формулу не учитывающую поправки, то получится:
.
Из результата можно заметить, что отклонение от результата разниться всего на одну сотую, но это не значит, что можно пренебрегать поправками и все считать по формуле без поправок, если взять какую-нибудь другую выборку, другие значения, отклонение может стать существенным, а следовательно вывод который будет основываться на коэффициенте с большим отклонением может стать искаженным или ложным.
Перед тем как перейти к выводу следует проверить результаты вычислений, для этого можно использовать встроенные в Excel статистические функции. Одна из функции позволяет находить коэффициент ранговой корреляции Спирмена в пару шагов. Эта функция выглядит так как это показано на рисунке 5.
Рисунок 5. Формула расчета коэффициента корреляции
Записав формулу в любую пустую ячейку в скобках прописав два диапазона соответствующих столбцов рангов для переменной А и B как показано на рисунке 6.
Рисунок 6. Формула с диапазоном на столбцы с рангами
На рисунке 7 изображен результат вычисления коэффициента ранговой корреляции автоматически с помощью Excel.
Рисунок 7. Коэффициент корреляции найденный автоматически
Коэффициент посчитанный специальной функцией в Excel ничем не отличается от посчитанного вручную по формулам, из этого следует, что коэффициент найден правильно.
2.4 Проверка коэффициента на значимость
Теперь когда коэффициент корреляции посчитан, необходимо проверить его на значимость. Для этого нужно определиться с уровнем значимости, а так же выдвинуть две гипотезы, нулевую и альтернативную.
Определив стандартный уровень значимости , можно приступить к формулировке гипотез.
Нулевая гипотеза: коэффициент корреляции ежедневных максимальных температур за 15 дней октября между 2013 и 2014 годов равен нулю.
Альтернативная гипотеза: коэффициент корреляции ежедневных максимальных температур за 15 дней октября между 2013 и 2014 годов больше нуля. (Односторонняя критическая область)
Теперь нужно рассмотреть таблицу 12, содержащую критические значения коэффициентов корреляции Спирмена, по условию задачи выборка равна , а выбранный уровень значимости . Поэтому для гипотез критическим коэффициентом корреляции будет значение равное .
Таблица 12
Фрагмент таблицы критических значений коэффициента ранговой корреляции Спирмена
0.05 | 0.025 | 0.01 | 0.005 | |
0.9 | ||||
0.829 | 0.886 | 0.943 | ||
0.714 | 0.786 | 0.893 | ||
0.643 | 0.738 | 0.833 | 0.881 | |
0.6 | 0.683 | 0.783 | 0.833 | |
0.564 | 0.648 | 0.745 | 0.794 | |
0.523 | 0.623 | 0.736 | 0.818 | |
0.497 | 0.591 | 0.703 | 0.78 | |
0.475 | 0.566 | 0.673 | 0.745 | |
0.457 | 0.545 | 0.646 | 0.716 | |
0.441 | 0.525 | 0.623 | 0.689 | |
0.425 | 0.507 | 0.601 | 0.666 | |
0.412 | 0.49 | 0.582 | 0.645 | |
0.399 | 0.476 | 0.564 | 0.625 | |
0.388 | 0.462 | 0.549 | 0.608 | |
0.377 | 0.45 | 0.534 | 0.591 |
Поскольку эмпирическое значение больше, чем критическое , нулевая гипотеза отвергается. Существует достоверная (значимая на уровне ) отличная положительная корреляционная связь ежедневных максимальных температур за 15 дней октября между 2013 и 2014 годов.
ЗАКЛЮЧЕНИЕ
В данной курсовой работе было выяснено, что первый туз встречается чаще в начале колоды и тогда действительно вероятность победы в некоторых карточных играх будет зависеть от порядкового номера игрока. Этому свидетельствуют результаты эксперимента, а так же теоретические расчеты частот. Большая точность вычислений может быть получена при увеличении числа экспериментальных растасовок.
Также было установлено, что температуры в октябре за 2013 и 2014 годы действительно имеют корреляционную связь с коэффициентом с вероятностью 95%. Показано, что, по крайней мере, между двумя этими месяцами действительно есть связь. Исследование может быть продолжено в виде сравнений других месяцев других годов.
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
1. Критерий , http://psystat.at.ua/publ/1-1-0-29 (Актуальная дата: 15.11.2014 г.).
2. Квантили распределения , http://dic.academic.ru/dic.nsf/ruwiki/292943 (Актуальная дата: 17.11.2014 г.).
3. Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.: ЮНИТИ-ДАНА, 2004. – 573 с.
4. Халафян А.А. STATISTICA 6. Статистический анализ данных. 3-е издание. – ООО "Бином-Пресс", 2007. – 512стр.
5. Ранговая корреляция, http://cito-web.yspu.org/link1/metod/theory/node42.html (Актуальная дата: 18.11.2014 г.).
6. Ивченко. Г.И., Медведев. Ю.И. Математическая статистика. – М.: Высшая школа, 1984. – 248 с.
7. Критерии согласия, http://mathhelpplanet.com/static.php?p=kriterii-soglasiya.html (Актуальная дата: 18.11.2014 г.).
8. Правила карточных игр, http://pravilakart.com/ (Актуальная дата: 28.11.2014 г.).
9. Microsoft Excel для Начинающих, http://excel.pcsecrets.ru/course.php (Актуальная дата: 19.11.2014 г.).
10. История развития моделей прогнозирования погоды, http://www.mbureau.ru/articles/istoriya-razvitiya-modeley-prognozirovaniya-pogody (Актуальная дата: 20.11.2014 г.).
11. Ряды распределения, http://hi-edu.ru/e-books/xbook096/01/part-007.htm (Актуальная дата: 20.11.2014 г.).
12. Представление числовых данных в виде таблиц и диаграмм, http://baguzin.ru/wp/?p=5316 (Актуальная дата: 22.11.2014 г.).
13. Обработка статистических данных, http://festival.1september.ru/articles/213989/ (Актуальная дата: 23.11.2014 г.).
14. Коэффициент Спирмена, http://vpluse.net/polzovatelskie-indikatory/628-rangovaya-korrelyatsiya-koeffitsient-spirmena (Актуальная дата: 25.11.2014 г.).
15. Гмурман В.Е. Теория вероятностей и математическая статистика. – М.: Высшая школа, 2003. – 479 с.