Методологія теоретико-множинного-інтервального підходу.
Розглянемо основні етапи інтервального аналізу в розширеному вигляді.
I.Формулювання гіпотез:
Розглянемо основні припущення, на яких базуються методи аналізу інтервальних даних у випадку побудови моделей “вхід-вихід” статичних систем.
У вітчизняній літературі (скоріше всього) ці гіпотези вперше були сформульовані в рамках теоретико-множинного підходу до задач параметричної ідентифікації працях Кунцевича В.М., Личака М.М., та дещо у більш розширеному вигляді (без умови адитивності обмеженої похибки) у працях Вощинина О.П.:
Гіпотеза 1. Статична система (об’єкт) описується лінійно-параметричним рівнянням
(7.10)
де – істинне невідоме значення виходу системи; – вектор вхідних змінних; – вектор невідомих параметрів; – вектор відомих базисних функцій.
Гіпотеза 2. Результати експерименту представлені у вигляді матриці значень вхідних змінних і відповідних інтервальних значень вихідної змінної :
(7.11)
Припускають, що в довільному -у спостереженні істинне значення виходу належить інтервалу , тобто
II. Знаходження множини оцінок параметрів моделі.
Завданням аналізу інтервальних даних є оцінювання невідомого вектора так, щоб значення функції в точках експерименту належали відповідним інтервалам виходу. Якщо оцінка вектора існує, то одержану функцію називатимемо моделлю статичної системи.
Згідно сформульованих гіпотез, шуканий вектор повинен задовольняти таку систему нерівностей з невідомими :
(7.12)
Оскільки кожна -та нерівність у системі (7.12) забезпечує належність значення функції в -тій точці експерименту, відповідному -тому інтервалу виходу, то одночасне виконання умов, заданих нерівностями системи, означає існування розв’язку задачі, тобто “проходження” функції через усі інтервали.
Розглянемо деякі важливі властивості системи (7.12) та її розв’язків. у працях.
Система (7.12) є системою лінійних нерівностей відносно невідомих .
Нелінійність функцій в (7.12) не суперечить попередньому твердженню, тому, що при відомому аргументі вони стають відомими коефіцієнтами.
Якщо згадані коефіцієнти позначити через , то систему (7.12) можна переписати у такому вигляді:
звідки очевидна її лінійність. В майбутньому нам зручно буде розглядати систему (1.24) в матричному вигляді
, (7.13)
де – вектори, складені із верхніх та нижніх меж інтервалів , відповідно;
– відома матриця значень базисних функцій.
Система (7.13) може не мати жодного розв’язку, тобто бути несумісною або мати багато розв’язків.
Стосовно задач аналізу інтервальних даних, несумісність системи (7.13) означає, що не виконуються припущення методу, тобто або невірно задано вигляд функції (7.10), або невірно визначені інтервали . Обидва порушення гіпотез не забезпечують належність значень функції в точках експерименту до відповідних інтервалів виходу.
Нехай система (7.13) є сумісною. Позначимо через множину її розв’язків, тобто
(7.14)
Наведемо основні властивості множини оцінок.
1. У просторі параметрів множина є опуклий многогранник. Це означає, що довільна точка множини є розв’язком системи (7.13).
2. Довільний розв’язок системи породжує модель , що “проходить” через усі інтервали , яку надалі називатимемо інтервальною моделлю (статичної системи).
3. Множина розв’язків породжує множину рівнозначних (з точки зору наявної інтервальної невизначеності) інтервальних моделей, кожна з яких задовольняє умовам задачі. При цьому, всі інтервальні моделі знаходяться у коридорі:
(7.15)
де та – нижня та верхня межі функціонального коридору.
4. Істинний невідомий вектор є одним із розв’язків системи (7.13), тобто . Тому можна стверджувати, що довільна точка множини може бути істинним вектором параметрів. Ця властивість множини розв’язків дозволяє трактувати її як множину можливих значень невідомих параметрів .
IIІ. Аналіз точності оцінок параметрів моделі.
Точність оцінок параметрів визначається розмірами області параметрів. Чим “ширша” множина , тим більша невизначеність відносно істинних параметрів статичної системи.
Розмір множини характеризується діаметром , який визначається як відстань між двома найбільш віддаленими точками множини:
, (7.16)
де , – відповідні вершини області .
Діаметр множини тісно пов’язаний з матрицею системи (7.13). Зокрема, якщо кількість різних точок спостережень у матриці буде менша від кількості невідомих параметрів , то множина буде “розірвана”. Тобто, якщо , то . З іншого боку, якщо , то діаметр обмежений.
Наведені математичні властивості множини дозволяють перейти до більш детального розгляду методу, який варто розпочати із найпростішого випадку, що дозволяє графічну ілюстрацію.
Приклад 1.
Нехай кількість невідомих коефіцієнтів у рівнянні (7.10) дорівнює 2. У цьому випадку система (7.12) спрощується і набуває такого вигляду:
(7.17)
Кожна нерівність системи на площині задає “смугу”, обмежену двома прямими, що відповідають межам інтервалів (рисунок 7.1).
Рис.7.1. Зображення розв’язків рівняння інтервальної системи у просторі параметрів.
Сукупність нерівностей, тобто перетин усіх “смуг”, утворює шукану множину розв’язків системи (7.17), зображену на рис.7.2 для =3. Координати вершин можуть бути визначені графічно або аналітично, шляхом розв’язування системи лінійних рівнянь. Наприклад, координати вершини можна знайти як розв’язок системи двох лінійних рівнянь:
Порівняно простий випадок =2 добре ілюструє загальні властивості множини можливих значень істинних параметрів .
Рис.7.2. Область розв’язків системи (7.13) для N=3.
На рисунку 7.1 зображена множина , діаметр якої дорівнює нескінченості, а рисунок 7.2 ілюструє опуклість множини , структуру і характер впливу на діаметр множини додаткових спостережень. Внутрішню точку множини можна знайти як центр діагоналі, що з’єднує відповідні вершини, тобто:
Приклад 2. (N=m).
Зупинимося на аналізі цього випадку експерименту, який називається насиченим .
В насиченому експерименті, тобто у випадку співпадіння кількості спостережень в експерименті з кількістю невідомих параметрів , матриця системи (7.13) буде квадратною . Якщо визначник матриці відмінний від нуля, то можна отримати матрицю , обернену до і, відповідно, розв’язок такої системи лінійних алгебраїчних рівнянь :
(7.18)
де – вектор, складений з межових значень інтервалів , наприклад, він може мати такий вигляд
Запишемо розв’язок цієї системи у такому вигляді:
. (7.19)
Вектор є однією із вершин многогранника , утвореною перетином відповідних площин, заданих нерівностями (інтервальними рівняннями) системи (7.13).
Аналіз можливих комбінацій межових значень інтервалів виходу об’єкта, дозволив побудувати таблицю 7.1, з якої видно, що загальна кількість розв’язків складає .
Таблиця 7.1
Комбінації межових значень інтервалів
Для даного випадку важливим є твердження: “При множина є симетричним опуклим многогранником з кількістю вершин, які визначаються за формулою (7.19)”. На рис.7.3 зображений многогранник для і .
|
|
Рис.7.3. Многогранник для N=m=2 i N=m=3.
Відомо, що довільний відрізок, який з’єднує вершини і многогранника, називається його діагоналлю.
При перетин головних діагоналей многогранника збігається з його центром ваги , який визначається за формулою
, (7.20)
де – вектор є середнім арифметичним усіх векторів складених з межових значень, а його компоненти – середні інтервальні значення , , тобто
.
Центр ваги множини є одночасно МНК-оцінкою, обчисленою за середньо - інтервальними значеннями . Це безпосередньо випливає з формули (1.5), із урахуванням, що при справедливе співвідношення , із заміною вектора на .
Кожна вершина многогранника породжує інтервальну модель , яка проходить через межові точки інтервальних спостережень, як це зображено на рисунку .7.4 для лінійної моделі при .
Рис.7.4. Відображення вершин многогранника параметрів у просторі інтервальних спостережень.
Зображені прямі відповідають ситуаціям, коли, пряма проходить через точки ( ), ( ), а пряма - через точки ( ), ( ) і т.д. Заштрихований коридор описує всю множину прямих, які можуть бути проведені в межах двох інтервалів.
Зазначимо, що вершини многогранника , та його центр ваги знаходять шляхом розв’язування квадратної системи лінійних рівнянь з однією і тією самою не виродженою матрицею і різними векторами вільних членів. З цією метою можуть бути використані відомі методи та алгоритми лінійної алгебри.
IV. Аналіз точності інтервальної моделі.
Властивості множини розв’язків лінійної системи інтервальних рівнянь безпосередньо визначають властивості інтервальних моделей статичних систем та меж функціонального коридору, побудованих на основі цих розв’язків.
Точність інтервальної моделі є її основною характеристикою. Оцінювання точності вимагає певних обчислювальних витрат. Розглянемо точність прогнозування моделі в точці, тобто при фіксованому наборі входів .
Під прогнозуванням інтервальної моделі, будемо розуміти розрахунок виходу системи при заданому наборі входів , поза експериментальними точками на основі яких будувалась модель, але в межах області експерименту . Основною характеристикою точності інтервальної моделі є похибка прогнозування, яка задається різницею меж коридору (7.15):
Як випливає із наведеної формули, для визначення похибки прогнозування у фіксованій точці необхідно розв’язати дві задачі лінійного програмування
, ,
розв’язки яких знаходиться у вершинах многогранника . Із урахуванням викладеного, вираз для знаходження похибки прогнозування у фіксованій точці набуває такого вигляду:
(7.21)
де – вершини опуклого многогранника (множини) .
Із виразу (7.21) видно, що значення похибки прогнозування залежить від розмірів множини . Зокрема, значення в заданій точці тим менше, чим менша відстань між вершинами множини . Якщо для всіх , тобто множина стискується до точки, то значення похибки для всіх точок дорівнює нулю.
Зменшення розмірів множини , а відповідно, і зменшення похибки прогнозування моделі можливо досягнути шляхом оптимального вибору точок експерименту та зменшенням інтервальних похибок спостережень у вибраних точках.
Для загального випадку показано, що функція (7.21) є кусково-неперервною. Це зумовлено тим, що для різних фіксованих значень похибка прогнозування у формулі (7.21) може визначатись різними векторами , тобто різними парами вершин многогранника .
Важливим є аналіз властивостей лінійної по вхідних змінних інтервальної моделі . Формула (7.21) у цьому випадку набуває такого вигляду:
(7.22)
У випадку нормування незалежних змінних у такий спосіб, щоб центр експерименту співпадав з нульовою точкою , функція буде симетричною відносно центру , а її максимальне значення досягається на межі області . Якщо область експерименту задати як n-вимірну кулю, радіусом і з центром в точці
, (7.23)
то максимальна на області похибка прогнозування лінійної інтервальної моделі обчислюватиметься за формулою:
, (7.24)
де = - визначає в просторі параметрів довжину максимальної діагоналі многогранника .
Із формули (7.24) випливає, що для області планування експерименту, заданої у вигляді кулі радіусом максимальне значення похибки прогнозування лінійної моделі дорівнює довжині максимальної діагоналі (діаметру ), збільшеній у раз.
Проведений аналіз дозволяє зробити висновок, що функція похибки прогнозування інтервальних моделей, побудованих на основі множини розв’язків системи інтервальних рівнянь (7.12), в загальному випадку є кусковою, що суттєво збільшує обчислювальні витрати на визначення коридору прогнозування. Своєю чергою це спонукає до розробки та застосування методів локалізації розв’язків системи (7.12), що забезпечують аналітичність задання функціональних меж коридору інтервальних моделей.
V. Перевірка гіпотез.
На цьому етапі перевіряється адекватність моделі. Адекватною є модель у якої структура при відомих інтервальних даних забезпечує сумісність системи (7.10).
Аналогічним чином у випадку справдження гіпотези про адекватність моделі проводиться перевірка належності інтервалам виходу істинного значення, тобто аналізується сумісність системи (7.10). Якщо ця гіпотеза порушується, то необхідно розширити інтервали для вихідної змінної з метою забезпечення сумісності системи (7.10).
7.5. Планування насичених експериментів у випадку інтервального представлення вихідних змінних моделей статичних систем
При розгляді основних положень методів аналізу інтервальних даних висувалося припущення, що у розпорядженні дослідника є такі експериментальні дані, які забезпечують повний ранг матриці розміром ( ), зокрема, кількість спостережень у експерименті не менше від кількості невідомих параметрів . При цьому не досліджувалося питання про те, яким чином одержані ці дані. Застосування методів оптимального планування експерименту в задачах ідентифікації дозволяє підвищити точність математичної моделі. Зауважимо, що в цьому випадку задачі називаються активною ідентифікацією.
Переважно розрізняють планування апріорного експерименту і планування послідовного (динамічного) експерименту. У першому випадку план усього експерименту складається до його проведення, у другому – програма реалізації експерименту послідовно уточнюється в міру одержання і залежно від результатів опрацювання результатів попередніх спостережень.
Розглянемо можливості планування оптимального апріорного експерименту з метою побудови моделі статичної системи в умовах інтервальних похибок. При цьому припустимо:
– модель статичної системи задана лінійно-параметричним рівнянням відомої структури (7.10) і є можливість змінювати вхідні змінні в деякій обмеженій області , тобто ;
– шуканий план експерименту включає дослідів, тобто є насиченим
– для довільного задано інформацію про абсолютну інтервальну похибку . При цьому може бути задана або функція на , або відомо, що інтервальна похибка є постійною, тобто .
Задача полягає у знаходженні апріорного, насиченого плану , який забезпечує мінімально можливі розміри многогранника , що є областю можливих значень параметрів .
Враховуючи, що кожній матриці плану експерименту відповідає квадратна не вироджена матриця базисних функцій із системи (7.13), задачу планування зручно трактувати як задачу знаходження матриці .
Очевидно, що апріорний план експерименту неможливо побудувати, поки не визначено, який зміст вкладається в поняття оптимальності. Тому, розглянемо питання вибору критеріїв оптимальності планів експерименту.
З постановки задачі випливає, що оптимальний експеримент на відміну від неоптимального, повинен забезпечити більшу точність оцінок параметрів тобто менший розмір многогранника .
Очевидно, що до проведення експерименту не можна обчислити вершини , оскільки вектори інтервальних спостережень виходу є невідомими, і отже, не можливо визначити вектор . Проте, ця обставина не заважає апріорі визначити розміри многогранника при деякому фіксованому плані і, зокрема, довжину його діагоналей між парами вершин , :
.
Приймаючи до уваги, що вектори , утворюються як можливі комбінації меж інтервальних даних (див. табл. 7.3), то компоненти різниці можуть набувати одного з двох значень чи – якщо вершини утворюють головну діагональ (що не належить ні одній із граней) многогранника . Кількість головних діагоналей дорівнює .
Використовуючи вираз для довжини довільної діагоналі, можна отримати простий вираз для квадрату довжини -ї головної діагоналі
,
де – матриця, яку надалі називатимемо інформаційною; – вектор, компонентами якого є відповідні інтервальні похибки , із додатними або від’ємними знаками.
Користуючись аналогією між плануванням регресійних та інтервальних експериментів введено кількісні критерії, що характеризують розміри многогранника , такі як квадрат об’єму V, суму квадратів довжин його діагоналей, квадрат довжини максимальної діагоналі і які визначаються формулами, відповідно
.
Вирази, що зв’язують вказані критерії з інформаційною матрицею мають такий вигляд
, (7.25)
(7.26)
(7.27)
де – діагональна матриця інтервальних похибок; – означає слід матриці, який дорівнює сумі її діагональних елементів.
Умови -оптимальності планів інтервального експерименту записуються так:
, ;
, ; (7.28)
. (7.29)
Зазначимо, що у розглянутих формулах виключені постійні множники, які не впливають на шуканий оптимальний план.
Наведені критерії дозволили, з одного боку, визначити поняття оптимального плану при аналізі інтервальних даних, а з другого, – отримати співвідношення між інтервальними і регресійними оптимальними планами.
Розглянемо ці співвідношення детальніше.
Коли інтервальна похибка експерименту є постійною, тобто , тоді матриця у формулах (7.29) стає скалярною і перестає впливати на результати мінімізації.
Порівнюючи формули (7.29) для цього випадку з формулами (7.9), відповідно, для - і -критеріїв регресійного експерименту, виявляється їх збіг. Це означає, що - і -оптимальні плани насиченого інтервального експерименту еквівалентні - і -оптимальним регресійним планам, побудованим для відповідної моделі (7.10).
Показана еквівалентність планів дозволяє застосовувати результати, отримані для - і -оптимальних регресійних планів при побудові - і -оптимальних планів інтервального експерименту. Зокрема, можуть бути використані наявні каталоги насичених - і -оптимальних планів для поліноміальних моделей першого та другого порядку.
Між -оптимальністю та -оптимальністю регресійних експериментів подібної еквівалентності не встановлено, хоча вони і є близькими за фізичним змістом, а саме: -оптимальний план мінімізує максимальну вісь довірчого еліпсоїда оцінок параметрів регресійної моделі і -оптимальний план мінімізує максимальну діагональ многогранника .
Не менш важливими є плани, які дозволяють зменшити коридор інтервальних моделей, заданий формулою (7.15). Ширину функціонального коридору , якою визначається точність інтервальної моделі можна обчислити як різницю його границь
. (7.30)
Це в свою чергу дозволило ввести показники , та критерії - , -оптимальності планів
, (7.31)
Задача знаходження - та -оптимальних планів є надзвичайно складною, через кусочність меж функціонального коридору і, відповідно, функції . Наближені до - та -оптимальних планів можна знайти, використовуючи таку лему: “Навколо області можна описати еліпсоїд, який пройде через усі її вершини, заданий рівнянням
. (7.32)
Із леми витікає, що верхню оцінку функції похибки прогнозування інтервальної моделі можна обчислити за такою формулою
(7.33)
Отже, задачі знаходження наближених до - та -оптимальних планів записують, відповідно, так:
; .
Дані задачі розв’язуються методами математичного програмування і частково спрощуються, коли область експерименту є кубом чи сферою.
Розглянуті критерії можна використовувати виключно для планування оптимальних насичених експериментів ( ). На практиці кількість дослідів може перевищувати кількість невідомих параметрів. В цих умовах побудова апріорних оптимальних планів без врахування додаткових властивостей інтервальних похибок не можлива. Тим часом залишається можливість побудови процедур послідовного планування. При послідовному плануванні експерименту на k-тому кроці процедури шукається не вся матриця F, а тільки її одна стрічка (інші N m стрічок матриці є відомими), тобто оптимальний за визначеним критерієм набір значень входів .