Восстановление пропусков и продление ряда данных методом множественной корреляции

Выполнение этой операции производится с помощью отдельной программы ConCor2008, управление которой передается после выбора расчетного ряда применением опции «Множественная корреляция» основного меню головной программы.

В соответствии с [1,3] расчет восстановленных значений ряда выполняется по уравнению регрессии

Y = k0 + k1X1 + k2X2 + k3X3 (1)

с использованием данных одного, двух или трех аналогов в зависимости от наличия данных и при условии выполнения пяти установленных критериев. Группа радиальных кнопок на окне программы «Наибольшее число используемых аналогов» позволяет пользователю ограничить использование аналогов двумя или даже одним. По умолчанию предполагается возможность использования трех аналогов.

Программе передаются основные параметры, управляющие выполнением расчетов, установленные посредством опции «Параметры» основного меню головной программы. Это критерии восстановления отсутствующих данных, предусмотренные в [1,3]: допустимая длина ряда совместных наблюдений Ncr (по умолчанию 10), минимальное допустимое значение коэффициента множественной корреляции R0 (по умолчанию 0.7), отношения R0 Ro и ki / σki (по умолчанию 2.0). Также вводится критерий восстановления данных – отношение стандарта ошибки связи к восстанавливаемому значению характеристики за конкретный год – y / σy ,предусмотренный в [3] (по умолчанию 0.2).

Кроме того, определяется метод решения задачи выбором одного из двух возможных вариантов: собственно метод наименьших квадратов, или применение единого решения, при котором к регрессионной оценке восстановленного значения характеристики Y применяется поправка

Y’ = (Y – Y) / Ro + Y (2).

Панель опции «Параметры», с помощью которой задаются основные параметры операции продления расчетного ряда, приведена на рисунке 1.1.

Восстановление пропусков и продление ряда данных методом множественной корреляции - student2.ru

Рис.1.1 Панель опции «Параметры» основного меню головной программы.

Перед вызовом программы ConCor2008 автоматически производится отбор рядов данных, из числа записанных в вызванном файле, обладающих потенциалом использования в качестве аналогов для продления расчетного ряда, по двум признакам:

- продолжительность периода совместных наблюдений расчетного ряда и данного аналога должна быть не менее установленного значения Ncr;

- аналог должен иметь хотя бы одно наблюденное значение характеристики за период отсутствия таковых в расчетном ряду.

Обычно число аналогов, отобранных по этим двум признакам существенно меньше числа рядов, записанных в файле.

Числовой код гидрологического поста, которому принадлежит расчетный ряд данных, и число рядов аналогов, отобранных по двум названным признакам, отображаются в заголовке окна программы ConCor2008 (рис. 1.2). Установленные критические значения параметров, контролирующих действие процедуры восстановления данных, отображаются в соответствующих редакционных окнах программы. Пользователю предоставляется возможность изменить значения этих параметров непосредственно перед выполнением расчетов для вызванного ряда данных.

Нажатием клавиши «Произвести расчет вариантов связей» запускается процедура расчета параметров уравнения (1) при всех вариантах сочетаний рядов данных по ранее отобранным аналогам. Если n - число отобранных потенциальных аналогов, то общее число возможных вариантов уравнения (1) составляет n + Cn2 + Cn3. Так в примере, приведенном на рисунке 1.2, при n = 54 число вариантов связи, подлежащих расчету, достигает 52578. Даже на современных компьютерах эти расчеты выполняются с ощутимой задержкой, продолжительность которой может достигать 1 минуты. Поэтому процесс выполнения расчетов отображается на линейке типа ProgressBar.

По результатам расчетов программа производит отбор вариантов уравнения (1), параметры которых удовлетворяют первым четырем из установленных критериев. После окончания расчетов из окна программы удаляются редакционные окна использованных критериев, выдается сообщение о числе вариантов уравнения, пригодных для применения (в приведенном примере 982) и при наличии таковых становится доступной клавиша «Выполнить продление ряда»(рисунок 1.3).

Восстановление пропусков и продление ряда данных методом множественной корреляции - student2.ru

Рис.1.2. Вид окна программы ConCor2008 до выполнения расчета вариантов связей.

Восстановление пропусков и продление ряда данных методом множественной корреляции - student2.ru

Рис.1.3. Вид окна программы ConCor2008 после расчета вариантов связей.

По умолчанию вычисление восстановленных значений расчетного ряда производится на основе «единого решения», при котором в значения характеристики, полученной по уравнению (1) вводится поправка в соответствии с (2). Пользователь имеет возможность отменить применение этого варианта методики расчетов. Кроме того, предполагается, что значения расходов воды (или модулей расхода) не могут принимать отрицательные значения. Если в результате расчетов получается отрицательное значение этой характеристики (за какой либо год), в расчетном ряду сохраняется пропуск данных. Применение этого правила, установленного по умолчанию, пользователь также имеет возможность отменить.

После нажатия на клавишу «Выполнить продление ряда» последовательно производится восстановление отсутствующих данных расчетного ряда в хронологическом порядке, начиная с года, за который в рядах аналогов, используемых удовлетворительными вариантами связей, имеется хотя бы одно действительное значение характеристики.

При восстановлении данных расчетного ряда за каждый конкретный год производится выбор варианта уравнения (1) с наибольшим значением коэффициента множественной корреляции R0, при условии, что для всех аналогов данного сочетания за этот год имеются действительные значения расчетной характеристики. К значению, вычисленному по уравнению (1) применяется поправка в соответствии с (2), если пользователем не отменено применение методики «единого решения». Полученное значение характеристики yi проверяется на соответствие условию yi / σy > C5, и если оно не удовлетворяет этому соотношению, ряд данных за этот год оставляется не восстановленным. В том случае, если пользователем допущено применение для восстановления ряда отрицательных значений расчетной характеристики, проверка на выполнение данного критерия не производится.

В процессе выполнения операций по восстановлению данных расчетного ряда производится запись протокола расчетов. В нем достаточно полно отображаются все заданные пользователем условия расчетов и параметры уравнения (1), примененного для восстановления данных за каждый конкретный год. Протокол записывается в директории «Протоколы» в виде текстового файла с названием «Продление.txt» в формате, обеспечивающем его беспрепятственное чтение с помощью Excel (с разделителем полей строки – знаком табуляции). Первая заглавная строка записи создается без разделителя полей и помещается в одну клетку таблицы Excel. Чтобы сделать ее видимой всю следует произвести объединение клеток верхней строки. При выполнении последующих аналогичных расчетов для других рядов производится дополнение записи этого файла при сохранении сделанных ранее.

Протокол расчетов позволяет детально проанализировать результаты выполнения расчетов по восстановлению данных расчетного ряда и при необходимости принять решение о повторномвыполнении расчетов с изменением тех или иных критериальных параметров. В то же время, запись этого файла не следует рассматривать как способ сохранения восстановленных значений расчетного ряда. Для сохранения продленного ряда предусмотрена возможность его записи в формате, удобном для последующих применений (п. 1.5). Сохранять продленные ряды следует после их предварительного анализа, при котором надлежит удостовериться в удовлетворительности результата выполненного продления (п. 1.5).

Как следует из изложенного, операции по восстановлению данных расчетного ряда выполняются программой формально. Практически не возможно поставить выполнение столь больших расчетов под непосредственный контроль пользователя. При этом ошибки занесения исходных данных в любой части файла могут явиться причиной грубых ошибок в результатах расчетов. Особую опасность представляет, часто допускаемый, пропуск точки, отделяющей дробную часть числа, при котором значение характеристики изменяется на один или несколько порядков. Такая ошибка может вызвать резкое завышение некоторых значений коэффициентов парной корреляции и повлечь за собой грубейшие ошибки в ряду восстановленных данных. Для предотвращения подобных ошибок целесообразно произвести предварительный анализ однородности всех рядов записанного файла данных. В выявленных случаях проявления явной неоднородности тех или иных рядов следует выполнить их более детальную проверку путем построения хронологических графиков (п.п. 1.3 и 1.5).

После завершения расчетов программа ConCor2008 автоматически прекращает действие и возвращает управление головной программе HydroStatCalc. При этом в колонке расчетного ряда таблицы появляются все восстановленные значения характеристики, помеченные знаком «*».

Наши рекомендации