Теоретические положения. Лабораторная работа № 1
Лабораторная работа № 1
«Климатическая обработка многолетних рядов наблюдений»
Цель работы:
научиться обрабатывать многолетние ряды наблюдений метеорологических характеристик, включая оценку однородности эмпирических распределений, стационарности средних значений и дисперсий по статистическим критериям, оценку наличия внутрирядной связанности, восстановление пропусков наблюдений и увеличение продолжительности рядов, построение дифференциальных и интегральных эмпирических распределений, расчет их параметров и квантилей на основе выбранных аналитических аппроксимаций.
Исходный материал
Архив многолетних рядов среднемесячных температур воздуха и сумм месячных осадков по 455 метеорологическим станциям России и ближнего зарубежья с началом наблюдений конец 19 века и с окончанием 2004 г. в формате редактора Excel.
Общая последовательность обработки
Для каждой метеорологической станции и за каждый из 12 месяцев отдельно для рядов среднемесячной температуры воздуха и сумм месячных осадков выполняется следующая последовательность обработки.
1. Расчет основных параметров рядов наблюдений (среднее значение, дисперсия, асимметрия, автокорреляция) и их эмпирических распределений (ранжирование ряда и расчет эмпирической обеспеченности).
2. Оценка случайных погрешностей и статистической значимости параметров распределений.
3. Оценка однородности интегральных эмпирических распределений по статистическим критериям Диксона и Смирнова – Граббса на резко отклоняющиеся экстремумы.
4. Оценка стационарности средних значений и дисперсий двух частей временного ряда (при разбиении ряда на две равные части и при произвольном разбиении ряда) по критериям Стьюдента и Фишера.
5. Восстановление пропусков наблюдений и увеличение продолжительности рядов методами регрессионного анализа (связь одинаковых метеорологических характеристик на разных станциях и разных – на одной станции).
6. Оценка эффективности восстановления пропусков и удлинения рядов (обобщенные показатели и оценка однородности и стационарности полученных восстановленных рядов по критериям Диксона, Стьюдента и Фишера).
7. Построение дифференциального эмпирического распределения и нахождение его основных параметров: среднее значение, мода, медиана, среднее квадратическое отклонение, дисперсия, коэффициент асимметрии.
8. Построение интегрального эмпирического распределения, расчет его параметров, аппроксимация аналитическим распределением и определение его квантилей разной обеспеченности.
9. Оценка эффективности аппроксимации эмпирических распределений аналитическими (показатели эффективности и статистические критерии согласия).
Лабораторная работа состоит из трех основных частей:
- оценка однородности и стационарности (пункты 1-4);
- восстановление пропусков наблюдений и приведение непродолжительных рядов наблюдений к многолетнему периоду (пункты 5-6);
- расчет параметров и квантилей распределений (пункты 7-9).
Результатылабораторной работы должны быть представлены в файле Word, включающем таблицы и графики. Для выполнения расчетов и построения графиков рекомендуется использовать редактор Excel.
Оценка однородности и стационарности
Теоретические положения
Наблюденные и приведенные к многолетнему периоду ряды метеорологических характеристик являются основой для определения расчетных климатических характеристик в пунктах наблюдений на основе построения эмпирических распределений и их аппроксимации аналитическими кривыми. Прежде чем применять аппарат математической статистики и теории функций распределения необходимо оценить адекватность временных рядов требуемым предпосылкам этого аппарата. Основные требования состоят в:
- однородности выборки, т.е. требуется, чтобы все случайные величины выборки были из одного и того же распределения «генеральной совокупности»;
- стационарности во времени основных выборочных параметров: среднего значения и дисперсии.
Только при выполнении этих условий можно применять аппарат математической статистики и эффективно определять расчетные климатические характеристики.
Первым шагом исследования является оценка однородности эмпирических распределений метеорологических характеристик, которая может нарушаться из-за резко отклоняющихся от общей совокупности максимальных и минимальных значений. Оценка однородности рядов наблюдений за метеорологическими характеристиками осуществляется на основе генетического и статистического анализа исходных данных наблюдений. Генетический анализ заключается в выявлении физических причин, обуславливающих неоднородность исходных данных наблюдений. Для оценки статистической значимости однородности применяются критерии резко отклоняющихся экстремальных значений в эмпирическом распределении: критерии Смирнова-Граббса и Диксона. Существуют три основные причины такой неоднородности:
- резко отклоняющиеся метеорологические величины имеют особые условия формирования, например, сформированы тайфунами, ураганами и т.д.;
- экстремальное событие имеет более редкую вероятность появления, чем та, которая определяется по эмпирической формуле для короткого ряда наблюдений при включении экстремума в общую последовательность наблюдений;
- резко отклоняющаяся величина обусловлена значительной погрешностью измерений.
Последовательность оценки однородности состоит в том, что вначале сомнительные резко отклоняющие от эмпирического распределения экстремумы проверяются по статистическим критериям и в случае отклонения гипотезы однородности устанавливается ее причина на основе генетического анализа.
Особенность критериев оценки однородности Смирнова-Граббса и Диксона состоит в том, что они разработаны для условий нормального симметричного закона распределения генеральной совокупности и отсутствия автокорреляции. В тоже время эмпирические распределения гидрометеорологических характеристик могут иметь асимметрию, и в ряде случаев, во временных рядах может иметь место статистически значимая автокорреляция между смежными членами ряда (r(1)). Для учета таких особенностей гидрометеорологической информации были проведены работы по расширению таблиц статистических критериев наиболее часто применяемых в гидрологии (критерии Диксона, Смирнова-Граббса, Стьюдента, Фишера).
Статистики критериев Диксона рассчитываются на основании эмпирических данных по следующим формулам:
а) для максимального члена ранжированной в возрастающем порядке выборки (Yn):
D1n = (Yn -Yn-1)/ (Yn -Y1), ( 1 )
D2n = (Yn -Yn-1)/ (Yn -Y2), ( 2 )
D3n = (Yn –Yn-2)/ (Yn -Y2), ( 3 )
D4n = (Yn –Yn-2)/ (Yn -Y3), ( 4 )
D5n = (Yn –Yn-2)/ (Yn -Y1), ( 5 )
б) для минимального члена ранжированной в возрастающем порядке выборки (Y1):
D11 = (Y1-Y2)/ (Y1-Yn), ( 6 )
D21 =(Y1-Y2)/ (Y1-Yn-1), ( 7 )
D31 = (Y1-Y3)/ (Y1-Yn-1), ( 8 )
D41= (Y1-Y3)/ (Y1-Yn-2), ( 9 )
D51 = (Y1-Y3)/ (Y1-Yn), ( 10 )
где: Y1< Y2 < … < Yn , и n – объем выборки.
Статистика критерия Смирнова-Граббса для максимального члена ранжированной последовательности (Yn) рассчитывается по формуле:
Gn = (Yn -Ycp)/ σY, ( 11 )
и для минимального (Y1):
G1 = (Yср -Y1)/ σY, ( 12 )
где: Ycp, σY - среднее значение и среднее квадратическое отклонение анализируемой выборки, определяемые по формулам:
Ycp= ∑ Yi /n , ( 13 )
σ2Y = ∑ (Yi - Ycp )2/(n – 1), ( 14 )
где: σ2Y - дисперсия.
Оценка однородности по критериям состоит в сравнении расчетного значения статистики критерия, полученной по эмпирических данным, с ее критическим значением из таблиц при заданном уровне значимости (α), объеме выборки (n), коэффициентах автокорреляции (r(1)) и асимметрии (Cs). Уровень значимости обычно задается равным 5%, что соответствует принятию нулевой гипотезы об однородности с вероятностью 95%. В результате гипотеза однородности может быть принята в том случае, если расчетное значение статистики меньше соответствующего критического.
Критические значения статистик критерия Диксона приведены в таблицах 1-10 Приложения, а Смирнова-Граббса – в табл.11 -12 Приложения.
Коэффициенты асимметрии (Cs) и автокорреляции (r(1)) определяются по следующим формулам:
Cs = ∑ (Yi - Ycp )3/n σ3 или ( 15 )
( 15’ )
r(1) = ∑ (Yi - Ycp1 )(Yi+1 - Ycp2 )/ nσ1σ2 или( 16 )
________________________
r(1) = ∑ (Yi - Ycp1 )(Yi+1 - Ycp2 )/√( ∑(Yi - Ycp1 )2∑(Yi+1 - Ycp2 )2) , ( 16’ )
где: Cv – коэффициент вариации, равный Cv = σY /Yср и ki=Yi /Ycp.
n
Ycp1= ∑ Yi /n ,
n-1
Ycp2= ∑ Yi /n .
После вычисления Cs и r(1) необходимо оценить их статистическую значимость. С учетом удвоенной стандартной случайной погрешности (sPar) значение любого параметра (Par) будет находиться внутри доверительного интервала:
Par-2sPar ≤Par≤ Par+2sPar ( 17 )
Если этот интервал не включает нулевое значение, то параметр является статистически значимым. Случайные погрешности основных параметров распределения вычисляются по формулам:
sYcp=s/√(n-1) (17’)
sσ=s/√(2n-1) ( 17’’)
sCs ≈√(6/n) ( 17”’)
sr(1) ≈(1-r(1)2)/√n ( 17’’’’)
Для практической оценки статистической значимости коэффициента автокорреляции, который характеризует также и отличие структуры временного ряда от случайной структуры, можно использовать статистику t-распределения:
t = r(1) * √(n-2) / (√(1-r(1)2), ( 18 )
c n-2 степенями свободы.
Критические значения статистики tкр приведены в табл.1. Если t > tкр, то нулевая гипотеза об отсутствии внутрирядной связанности отклоняется.
Таблица 1.
Проверка коэффициента автокорреляции на значимость (относительно нуля)
Число степеней свободы | Уровень значимости | |
5% | 1% | |
0.576 | 0.708 | |
0.553 | 0.684 | |
0.532 | 0.661 | |
0.514 | 0.641 | |
0.497 | 0.623 | |
0.482 | 0.606 | |
0.468 | 0.590 | |
0.456 | 0.575 | |
0.444 | 0.561 | |
0.433 | 0.549 | |
0.423 | 0.537 | |
0.413 | 0.526 | |
0.404 | 0.515 | |
0.396 | 0.505 | |
0.388 | 0.496 | |
0.381 | 0.487 | |
0.374 | 0.478 | |
0.367 | 0.470 | |
0.361 | 0.463 | |
0.355 | 0.456 | |
0.349 | 0.449 | |
0.325 | 0.418 | |
0.304 | 0.393 | |
0.273 | 0.354 | |
0.250 | 0.325 | |
0.232 | 0.302 | |
0.217 | 0.283 | |
0.205 | 0.267 | |
0.195 | 0.254 | |
0.178 | 0.232 | |
0.159 | 0.208 | |
0.138 | 0.181 | |
0.124 | 0.162 | |
0.113 | 0.148 |
Обобщенные для асимметричного распределения Пирсона III типа с учетом внутрирядной связанности критерии Диксона и Смирнова-Граббса имеют следующие особенности. Значимая асимметрия в анализируемых выборках приводит к увеличению критических значений статистик, определенных для исходного нормального распределения, если проверяется максимальное значение ряда, и к уменьшению критических значений этих статистик при проверке минимального члена ряда. Влияние автокорреляции на статистики критериев не столь существенно, как асимметрии. При этом, чем больше асимметрия, тем в большей степени сказывается влияние автокорреляции. Поэтому, если использовать критерии Диксона и Смирнова-Граббса, основанные на нормальном распределении, можно допустить существенную ошибку. Ошибка состоит в том, что можно принять минимальное отклоняющееся значение принадлежащим к данной совокупности, тогда как в действительности оно является неоднородным и принадлежит к другому распределению и, наоборот, считать аномальным одно или несколько максимальных значений, тогда как они принадлежат тому же асимметричному распределению.
При оценке стационарности средних значений и дисперсий для последовательных частей ряда применяются критерии Стьюдента и Фишера, также обобщенные для особенностей гидрометеорологической информации. Анализ по этим критериям осуществляется после того, как проведена оценка на отсутствие резко отклоняющихся экстремумов, существенно влияющих на значения средних значений и особенно дисперсий. Для оценки стационарности дисперсий и средних значений соответственно по критериям Фишера и Стьюдента временной ряд разбивается на две или несколько подвыборок одинаковой или разной длины, причем границы разбиения желательно связать с датами предполагаемого нарушения стационарности. По каждой подвыборке вычисляются значения средних (Yср j) и дисперсий (σ2j). которые используются для получения расчетных значений статистики Фишера:
F=σ 2j / σ 2j+1 . ( 19)
при σ2j >σ 2j+1. где σ2j. σ2j+1 – соответственно дисперсии двух следующих друг за другом подвыборок (j и j+1) объемом n1 и n2 .
Гипотеза о стационарности дисперсий принимается при заданном уровне значимости a(%). если расчетное значение статистики критерия меньше критического (F<F*) при заданных степенях свободы. соответствующих объемам выборок (n 1 и n 2 ).
Критические значения статистики Фишера (F*) в зависимости от уровня значимости a(%), коэффициентов внутрирядной (r(1)) и межрядной корреляции (R) при равных объемах двух выборок (nx =ny) были получены методом статистических испытаний и приведены в табл.13 Приложения.
|
|
|
При объемах выборок n1 и n2 больше или равных 25 членам ряда можно использовать классическое F-распределение для нормально распределенных независимых случайных величин с новыми степенями свободы. которые зависят от автокорреляции и асимметрии и определяются по формулам:
где: g – коэффициент, учитывающий влияние асимметрии исходной совокупности и определяемый по табл.2
r – коэффициент автокорреляции между смежными членами ряда.
Таблица 2
Зависимость коэффициента g от Cs при определении новых степеней свободы для критерия Фишера
Cs | 0.5 | 1.0 | 1.5 | 2.0 | 2.5 | 3.0 | 3.5 | 4.0 | |
G | 1.0 | 0.82 | 0.62 | 0.45 | 0.30 | 0.24 | 0.17 | 0.14 | 0.10 |
Критические значения статистик F-распределения для нормально распределенных независимых случайных величин при a= 5% приведены в табл.14 Приложения.
Расчетное значение статистики критерия Стьюдента для оценки стационарности двух средних значений последовательных подвыборок определяется по формуле
где: YcpI. YcpII. σ 2I. σ 2II – средние значения и дисперсии двух последовательных выборок. n1 и n2 - объемы выборок.
Критические значения статистики Стьюдента определяются при равных объемах выборок из табл.15 Приложения или рассчитываются по уравнению:
t'б=Ct · tб . ( 23 )
где: t'б – критическое значение статистики Стьюдента при наличии автокорреляции,
tб – критическое значение статистики Стьюдента для случайной совокупности (таблица 16 Приложения) при том же числе степеней свободы k=n1+ n2-2;
Ct – переходный коэффициент, определяемый в зависимости от коэффициента автокорреляции по табл.3.
Таблица 3.
Коэффициенты Ct в зависимости от коэффициента автокорреляции r(1), предназначенные для пересчета критических значений статистики Стьюдента
r(1) | 0.00 | 0.01 | 0.02 | 0.03 | 0.04 | 0.05 | 0.06 | 0.07 | 0.08 | 0.09 |
0.0 | 1.00 | 1.00 | 1.01 | 1.02 | 1.02 | 1.03 | 1.04 | 1.05 | 1.06 | 1.07 |
0.1 | 1.07 | 1.08 | 1.09 | 1.10 | 1.11 | 1.12 | 1.13 | 1.14 | 1.16 | 1.17 |
0.2 | 1.18 | 1.19 | 1.20 | 1.22 | 1.23 | 1.24 | 1.26 | 1.27 | 1.29 | 1.31 |
0.3 | 1.33 | 1.34 | 1.35 | 1.37 | 1.39 | 1.41 | 1.42 | 1.44 | 1.46 | 1.49 |
0.4 | 1.51 | 1.52 | 1.54 | 1.56 | 1.59 | 1.67 | 1.63 | 1.65 | 1.68 | 1.70 |
0.5 | 1.72 | 1.75 | 1.78 | 1.81 | 1.84 | 1.88 | 1.92 | 1.95 | 1.99 | 2.03 |
0.6 | 2.06 | 2.07 | 2.13 | 2.17 | 2.21 | 2.24 | 2.28 | 2.32 | 2.36 | 2.40 |
Оценка стационарности по критерию Стьюдента осуществляется также путем сравнения расчетных и критических значений статистик. Если расчетное значение меньше критического при заданном уровне значимости. гипотеза об однородности (стационарности) не отклоняется.