Статистичне дослідження масива показників
У дослідженнях часто вирішують задачу виявлення чинників, визначальний рівень і динаміку деякого процесу. Таке завдання найчастіше вирішується метода-ми кореляційного, регресійного аналізу.
Для достовірного відображення процесів, що об'єктивно існують, необхідно виявити суттєві взаємозв'язки і не тільки виявити, але і дати їм кількісну оцінку. Цей підхід вимагає розкриття причинних залежностей. Під причинною залежністю розуміється такий зв'язок між процесами, коли зміна одного з них є наслідком зміни іншого.
Не всі чинники, що впливають на досліджувані процеси, є випадковими величинами. Тому при аналізі технічних систем зазвичай розглядаються зв'язки між випадковими і невипадковими величинами. Такі зв'язки називаються регресійними, а метод математичної статистики, що їх вивчає, називається регресійним аналізом.
Основні поняття
З метою математичного опису конкретного виду залежностей з використанням регресійного аналізу підбирають клас функцій, що зв'язують результативний показник у і аргументи x1, x2, …, хk , відбирають найбільш інформативні аргументи, обчислюють оцінки невідомих значень параметрів рівняння зв'язку і аналізують точність отриманого рівняння.
Функція f(x1, x2, …, хk), що описує залежність умовного середнього значення результативної ознаки у від заданих значень аргументів, називається функцією (рівнянням) регресії.
Для точного опису рівняння регресії необхідно знати закон розподілу результативного показника. У статистичній практиці таку інформацію отримати зазвичай| не вдається, тому обмежуються пошуком відповідних апроксимацій для функції f(x1, x2, …, хk ), заснованих на вихідних статистичних даних.
В рамках окремих модельних допущень про тип розподілу вектора показників (у, x1|, x2|, …, хk ) може бути отриманий загальний вид рівняння регресії f(x)=M(Y /Х) , Х=|( x1, x2, …, хk).
З метою якнайкращого відновлення за початковими (вихідними) статистичними даними умовного значення результатирующего показника у(х) і невідомій функції регресії f(x)= M(y/x) найчастіше використовують наступні критерії адекватності (функції втрат).
1. Метод найменших квадратів, згідно якому мінімізується квадрат відхилення спостережуваних значень результативного показника yi (i=1,2.,n) від модельних значень f(xi β), де i= (1,…,k- коефіцієнти рівняння регресії, xi– значення вектора аргументів у i-му спостереженні:
.
Вирішується завдання відшукання оцінки вектора b. Отримувана регресія називається середньоквадратичною. мати
2. Метод найменших модулів, згідно якому мінімізується сума абсолютних відхилень спостережуваних значень результативного показника від модельних значень f(xi , b), тобто
.
Отримувана|одержувати| регресія називається среднеабсолютной| (медіаною).
3. Метод мінімакса зводиться до мінімізації максимуму модуля відхилення спостережуваного значення результативного показника yi| від модельного значення f(xi, b), тобто
.
Отримувана при цьому регресія називається мінімаксною.
(Ми в своїх дослідженнях будемо користуватися методом пайменших квадратів.)
Між різними явищами і їх ознаками необхідно перш за все виділити два типи зв'язків: функціональний (жорстко детермінований) і статистичний (стохастично детермінований).
Стахостичний зв'язок – це зв'язок між величинами, при якому одна з них, випадкова величина Y реагує на зміну іншої величини X зміною закону розподілу. Це обумовлено тим, що залежна змінна (результативна ознака), окрім даних незалежних, схильна до впливу ряду неврахованих або неконтрольованих (випадкових) чинників а також деяких неминучих помилок вимірювання змінних. Оскільки значення залежної змінної схильні до випадкового розкиду, вони не можуть бути передбачені з достатньою точністю, а тільки вказані з певною ймовірністю.
Характерною особливістю стахостических зв'язків є те, що вони виявляються у всій сукупності, а не в кожній її одиниці. Причому невідомий ні повний перелік чинників, що визначають значення результативної ознаки, ні точний механізм їх функціонування і взаємодії з результативною ознакою. Завжди має місце вплив випадковості. Різні значення залежної змінної, що з'являються, – реалізація випадкової величини.
Модель стохастичного зв'язку може бути представлена в загальному вигляді рівнянням: ŷi = f(xi) + ei
де ŷi - розрахункове значення результативної ознаки;
f(xi) - частка результативної ознаки, що сформувалася під впливом врахованих відомих факторних ознак (одної або множини), що знаходяться в стахостичному| зв'язку з ознакою;
ei - частина результативної ознаки, що виникла внаслідок дії неконтрольованих або неврахованих чинників, а також вимірювання ознак, що неминуче супроводиться деякими випадковими помилками. Прояви стохастичних зв'язків схильні до дії закону великих чисел: лише у достатньо великому числі одиниць індивідуальні особливості згладяться, випадковості взаимопогасятся, і залежність, якщо вона має суттєву силу, виявиться досить чітко.
Лінійна регресія
Проста лінійна регресія дозволяє знайти лінійну залежність між однією вхідною і однією вихідною змінними. Для цього визначається рівняння регресії - модель, що відбиває залежність значень y, залежної величини Y від значень х, незалежної змінної X генеральної сукупності, яке запишемо у вигляді:
y |
x |
( |
) |
A1 |
х |
1× |
+ |
:= |
A0 |
де у(x)- теоретичні значення результативної ознаки, отримані за рівнянням регресії;
A0 - вільний член рівняння регресії;
А1 - коефіцієнт рівняння регресії.
Оскільки A0 є середнім значенням у в точці х=0, інтерпретація його часто утруднена або взагалі неможлива. Коефіцієнт парної лінійної регресії А1 має сенс показника сили зв'язку між варіацією факторної ознаки х і варіацією результативної ознаки у. Наведене вище рівняння показує середнє значення зміни результативної ознаки у| при зміні факторної ознаки х на одну одиницю його вимірюванн|, тобт| варіацію у, що припадає на одиницю варіації х. Знак А1 вказує напрям цієї зміни.
Параметри рівняння А0|, А1 | знаходять методом найменших квадратів (метод розв’язування систем рівнянь, при якому за розв’язок приймається точка мінімуму| суми квадратів відхилень), тобто| в основу цього методу покладена вимога мінімальності сум квадратів відхилень емпіричних даних yi від тих, що вирівнюються у:
S(y – ŷ)2 = S(y – А0 – А1x)2 ® min
Для знаходження мінімуму даної функції прирівняємо до нуля її частинні похідні і отримаємо систему двох лінійних рівнянь, яка називається системою нормальних рівнянь:
.
Розв’зок ієї системи в загальному вигляді:
Потім будується відповідна пряма, звана лінією регресії. Коефіцієнти А1 і A0, звані також параметрами моделі, вибираються так, щоб сума квадратів відхилень точок, відповідних реальним спостереженням даних, від лінії регресії, була б мінімальною. Підбір коефіцієнтів виробляється по методу найменших квадратів. Іншими словами, проста лінійна регресія описує лінійну модель, яка якнайкраще апроксимує залежність між однією вхідною і однією вихідною змінними.
Цілі регресійного аналізу
Визначення наявностьіі характер у зв'язку між змінними (математичного рівняння, що описує залежність)
Спрогнозувати значення залежної змінної за допомогою незалежної
Визначити вклад незалежних змінних у варіацію залежної
Знайдемо значення коефіцієнта регресії (А1) і вільного члена рівняння (A0)
Виміри вхідного параметра Х і вихідного Y задані таблицею:
X1 | 16,24 | 16,19 | 16,25 | 16,41 | 16,36 | 16,52 | 16,64 | 16,81 | 16,93 | 16,83 | 16,90 | 16,23 | 16,30 | 16,33 | 16,74 | 16,72 |
Y1 |
Обчислення будемо виконувати, застосовуючи пакет Mathcad
Розв’яжемо задачу спочатку для Х1.
Предстадставимо початкову інформацію у вигляді векторів, вводячи перепозначення:
, ,
Визначимо суми елементів векторів і добутки векторів :
,
=136 =264,4
SXX = XX, SYY = YY , SYX = XY,
SXX = 1496 SYY = 4370 SYX = 2255
Визначимо параметри рівняння регресії, позначивши:
N=16, |
, A=16*1496 -1362 =5440,
B |
N |
SYX |
× |
SX |
SY, |
× |
- |
:= |
C |
× |
:= |
SY-X×SXY, |
× |
SXX |
Вільний член рівняння регресії А0:
A0 = = 16,326.
Коефіцієнт рівняння регресії А1
A1= , A1 = = 0,023.
y(x) = 0,023x +16,326.
Графічне зображення лінії рівняння регресії і точок кореляции
Рис.1 Пряма регресії
Рис.2 Багатокутник розподілу