Середньоквадратичне наближення функцій
Позначимо вузли вихідної таблиці даних через хі, де – номер вузла. Вважаємо відомими значення даних у вузлових точках . Вводимо неперервну функцію у вигляді узагальненого багаточлена (полінома) порядку m для апроксимації залежності . Узагальнений багаточлен має вигляд
(5.1)
де – базисні функції;
с0, с1, … , сm – деякі постійні.
У вузлових точках функції і будуть відрізнятися на величину Відхилення можуть приймати додатні та від’ємні значення. Щоб не враховувати знаки, піднесемо кожне відхилення в квадрат и знайдемо суму квадратів відхилень по всіх вузлах
(5.2)
Метод побудови апроксимуючої функції за умови забезпечення мінімуму величини Q називається методом найменших квадратів (МНК). Цей метод був розвинений зусиллями Лежандра і Гауса більше 150 років тому. Він є одним з ефективних методів наближення функцій іншими (простішими) функціями і часто виявляється корисним при обробці результатів спостережень. При заміні точного (невідомого) параметра моделі наближеним значенням необхідно мінімізувати різницю між експериментальними даними, що містять випадкові помилки, і теоретичними (обчисленими за допомогою запропонованої моделі).
Розглянемо основні ідеї МНК на прикладі найпростішої лінійної залежності. Необхідно встановити зв'язок між однією незалежною змінною х і залежною змінною у. Зазвичай вважається, що незалежна змінна х неперервна і може контролюватися експериментатором. Тоді, вибирають певні значення х і спостерігають відповідні значення у. Приклад подібних спостережень у графічному вигляді показаний на рис. 2.
Дивлячись на представлені на рис. 2 результати експерименту, можна припустити, що зв'язок між у і х лінійний. Один із варіантів можливої лінійної залежності (лінійної регресії) цих даних показаний на рис. 3. Зрозуміло, що кожний дослідник може провести графік цієї лінійної залежності, тобто прямої лінії, за власним розсудом. При чому не буде гарантії, що побудована пряма забезпечить мінімальну суму, взятих за модулем, або мінімальну суму квадратів відхилень εi експериментальних точок від побудованої прямої. Під εi розуміється відстань i-ої експериментальної точки від прямої, що вимірюється паралельно осі y.
Зазначимо, що на практиці досить часто виявляється можливим при обробці експериментальних даних обмежитися побудовою лінійної апроксимуючої функції
де a і b – параметри, що визначають шукану пряму лінію або лінійну регресію.
Функцію називають лінійною, оскільки вона лінійно залежить від невідомих коефіцієнтів a і b.
Якщо є n пар експериментальних даних (у1, х1), (у2, х2), … , (уn, хn), то застосувавши МНК можна знайти невідомі коефіцієнти a і b. За характеристику точності підбору прямої можна прийняти суму квадратів, що розраховується за виразом, отриманим із залежності (5.2), яка набуде вигляду:
Чим менші за абсолютною величиною мають відхилення εі дослідної точки від прямої, тим краще буде підібрана пряма.
Задачу МНК аналітично можна визначити наступним чином:
Записаний вираз у словесній формі стисло можна визначити так: сума квадратів відхилень вздовж осі ординат має бути мінімальною (принцип Лежандра).
Для розв'язання задачі мінімізації, як відомо з математичного аналізу, необхідно визначити частинні похідні від функції Q по коефіцієнтах a і b і прирівняти їх до нуля
(5.3)
(5.4)
Умови (5.3) і (5.4) можна записати в такому вигляді
(5.5)
Отриману систему рівнянь розв’яжемо методом Крамера, який передбачає знаходження визначників. Будемо мати
;
де Δ – основний визначник системи рівнянь має наступний вигляд:
Запишемо вирази для визначників Δ1 і Δ2:
Коефіцієнти a і b рівняння прямої визначаються за наступними виразами:
(5.6)
(5.7)
Розглянемо для прикладу задачу побудови прямої лінії, яка найкращим чином визначає зв’язок між випадковою і регульованою величинами. Нехай в деякому сільськогосподарському експерименті встановлена залежність урожаю від кількості води. Експериментальні дані, виміряні у відповідних одиницях, подані в табл. 1.
Табл. 1
Вода (х) | ||||||||||
Урожай (у) | 5,17 | 5,73 | 5,80 | 6,15 | 6,35 | 7,05 | 7,31 | 7,96 | 8,59 | 8,67 |
Як і інші статистичні розрахунки, визначення коефіцієнтів регресії зручно проводити в табличній формі. На прикладі побудови лінії регресії за даними табл. 1 можна розглянути практичну методику розрахунку коефіцієнтів регресії, яка наведена в табл. 2.
Для перевірки правильності розрахунків в табл. 2 застосуємо вираз
Табл. 2
№ досліду | х | у | х2 | у2 | ху | х + у | (х + у) 2 |
5,17 | 26,73 | 62,04 | 17,17 | 294,81 | |||
5,73 | 32,83 | 80,22 | 19,73 | 389,27 | |||
5,80 | 33,64 | 104,40 | 23,80 | 566,44 | |||
6,15 | 37,82 | 129,15 | 27,15 | 737,12 | |||
6,35 | 40,32 | 152,40 | 30,35 | 921,12 | |||
7,05 | 49,70 | 190,35 | 34,05 | 1159,40 | |||
7,31 | 53,44 | 219,30 | 37,31 | 1392,04 | |||
7,96 | 63,36 | 286,56 | 43,96 | 1932,48 | |||
8,59 | 73,79 | 360,78 | 50,59 | 2559,35 | |||
8,67 | 75,17 | 416,16 | 56,67 | 3211,52 | |||
Σ | 68,78 | 486,80 | 2001,36 | 340,78 | 13163,52 |
Будемо мати
.
Отже, розрахунки, які наведені в табл. 2, виконані вірно, тому можна перейти до розрахунків коефіцієнтів регресії по формулам (5.6) і (5.7). Підставляємо в ці формули відповідні значення із табл. 2, у результаті отримаємо:
Рівняння регресії або формула, що відображає залежність у від х, яка побудована за експериментальними даними табл. 1, має вигляд
(5.8)
На рис. 4 показані графічні результати розв’язання поставленої задачі. Точки на цьому рисунку відповідають експериментальним даним, наведеним в табл. 1. Пряма лінія побудована із застосуванням рівняння (5.8). Ці графічні дані наочно показують розташування експериментальних точок відносно прямої лінії, розрахованої із застосуванням МНК. Зазначимо, що в певних межах рівняння регресії дозволяє виконувати екстраполяцію і дозволяє здійснювати прогнозні оцінки явища чи процесу, який вивчається.
Коефіцієнти регресії мають певну геометричну інтерпретацію. Так, коефіцієнт а (вільний член рівняння регресії) геометрично визначає собою відстань від початку координат до точки перетину лінії регресії з віссю ординат, або інакше, це відрізок, який відсікається на осі ординат прямою лінією.
Коефіцієнт b є тангенсом кута нахилу лінії регресії до осі абсцис. У розглянутому вище прикладі цей кут дорівнює 5°2' (з першого погляду на рис. 4 здається, що кут нахилу лінії регресії значно більший, ніж розрахований за величиною коефіцієнта b. Пояснюється це суттєвою різницею шкал координатних осей х і у).