Понятие о регрессионно - корреляционном анализе
Пусть требуется изучить зависимость некоторого признака Y (будем его называть результирующим) от признака Х (который будем называть факторным). Зависимость эта изучается экспериментально, т.е. снимаются показания приборов, производятся опыты и т.д. Результаты экспериментов оформляют в виде таблиц, которые называются корреляционными.
Пример 9. Пусть имеются наблюдения среди 20 предприятий о зависимости средней месячной выработанной продукции на одного рабочего (Y тыс. руб.) от стоимости основных производственных средств (Х млн. руб.). Статистические данные помещены в таблице 5.
Таблица 5. Зависимость средней месячной выработки одного рабочего
(Y) от стоимости основных производственных средств (Х).
Х Y | 9,9 | 10,0 | 10,1 | 10,2 | 10,3 | 10,4 | 10,5 |
0,8 | |||||||
0,9 | |||||||
1,0 | |||||||
1,1 | |||||||
1,2 | |||||||
1,3 |
В клетках таблицы стоят соответствующие частоты. Так, например, имеется 3 предприятия, у которых стоимость основных производственных средств равна 10,4 млн. руб., а месячная выработка на одного рабочего равна 1,1 тыс. руб. Ясно, что сумма всех частот таблицы равна 20-числу всех предприятий.
При наличии функциональной зависимости между двумя переменными каждому значению одной из них соответствует единственное значение другой. На практике чаще бывает так, что одному значению признака Х соответствует несколько значений результирующего Y, т.е. некоторое распределение признака Y. Например, в таблице 5 значению признака Х, равного 10,0 млн. руб. соответствуют значения признака Y: 0,8 тыс. руб. с частотой 2; 0,9 тыс. руб. с частотой 1 и 1,2 тыс. руб. с частотой 1.
Зависимость между признаками Х и Y называется статистической, если каждому значению одного из них соответствует распределение другого.
С одной стороны, уже визуальное знакомство с корреляционной таблицей дает общее представление о наличии прямой или обратной связи между признаками. Если частоты группируются вдоль главной диагонали таблицы, т.е. с увеличением факторного признака увеличивается и результирующий, то имеется прямая связь. Если частоты группируются вдоль побочной диагонали, имеется обратная связь.
С другой стороны, из-за того, что каждому значению признака Х соответствует несколько значений признака Y с различными частотами оказывается затруднительным визуально установить вид этой зависимости. Задача установления вида зависимости признака Y от Х значительно облегчается, если для каждого значения признака Х вычислить среднее значение признака Y. Нанося на координатную плоскость точки , получим так называемое корреляционное поле, откуда вид зависимости можно угадать значительно легче. В нашем примере: равен среднему признака Y при условии, что признак Х принял значение . Коротко это обозначается так: Таким образом, получаем:
Поле рассеяния представляет собой изображение всех двадцати выборочных точек, имеющихся в табл.5. По этим точкам можно предварительно судить о степени их разброса. Крестиками обозначены точки ( и для наглядности соединены ломаной линией. Можно предположить что разброс значений признака Y относительно ломаной значительный, сама ломаная имеет положительную тенденцию и достаточно близкую к линейной (прямой линии).
Построим корреляционное поле (рис. 5). Первой задачей регрессионно - корреляционного анализа является установление вида уравнения связи. По корреляционному полю делаются первые предположения о виде зависимости между признаками. Корреляционной зависимостью признака Y от Х называется функциональная зависимость условной средней от значений признака Х. Уравнение называется уравнением регресии на .
Рис. 5.
При выборе вида функции всегда присутствуют два противоборствующих момента. Во-первых, желательно, чтобы график функции проходил как можно «ближе» к точкам корреляционного поля. Во-вторых, желательно, чтобы вид функции не был бы слишком громоздким и не приводил бы к сложным вычислениям и выводам сложных формул. В частности, из рис. 5. можно высказать предположение о наличии линейной зависимости. В экономике наиболее часто функции регрессии выбираются линейными : .
Следующими этапами корреляционного анализа являются нахождение коэффициентов функции регрессии и оценка тесноты связи признаков Х и Y.