Тема 6. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ
МЕЖДУ ЯВЛЕНИЯМИ
6.1. Причинность, регрессия, корреляция
В процессе статистического исследования зависимостей вскрываются причинно-следственные отношения между явлениями, что позволяет выявлять факторы (признаки), оказывающие основное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины, ведет к изменению другого – следствия.
Признаки по их значению для изучения взаимосвязи делятся на два вида: факторные и результативные.
Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.
В основе первого этапа статистического изучения связи лежит качественный анализ изучаемого явления, т.е. исследование его природы методами экономической теории, социологии, конкретной экономики. Второй этап – построение модели связи. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления.
В статистике различают функциональную связь и стохастическую. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Такая связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.
Связи между признаками и явлениями ввиду их большого разнообразия классифицируются по ряду оснований: по степени тесноты связи, направлению и аналитическому выражению.
Степень тесноты корреляционной связи количественно может быть оценена с помощью коэффициента корреляции, величина которого определяет характер связи (табл.).
Количественные критерии тесноты связи
Величина коэффициента корреляции | Характер связи |
До ½± 0,3½ | Практически отсутствует |
½± 0,3½ - ½± 0,5½ | Слабая |
½± 0,5½ - ½± 0,7½ | Умеренная |
½± 0,7½ - ½± 1,0½ | Сильная |
По направлению выделяют связь прямую и обратную.
При прямой связи с увеличением или уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного. В случае обратной связи с увеличением значений факторного признака значения результативного убывают, и наоборот.
По аналитическому выражению выделяют связи: прямолинейные (или просто линейные) и нелинейные. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии, то ее называют линейной; если же она выражается уравнением какой-либо кривой линии (параболы, гиперболы, показательной, экспоненциальной и т.п.), то такую связь называют нелинейной или криволинейной.
Для выявления наличия связи, ее характера и направления в статистике используются методы: приведения параллельных данных; аналитических группировок; статистических графиков; корреляции.
Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить наличие связи и получит представление о ее характере. Например, изменение двух величин представлено следующими данными.
Х | |||||||||
У |
Как видно, с увеличением величины Х величина У также возрастает. Поэтому связь между ними прямая, и описать ее можно уравнением прямой, либо уравнением параболы второго порядка.
График поля корреляции |
Графически взаимосвязь двух признаков изображается с помощью поля корреляции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Чем сильнее связь между признаками, тем теснее будут группироваться точки вокруг определенной линии, выражающей форму связи (рис.).
При отсутствии тесных связей имеет место беспорядочное расположение точек на графике.
Для социально-экономических явлений характерно, что наряду с существенными факторами, формирующими уровень результативного признака, на него оказывают влияние многие другие неучтенные и случайные факторы. Это свидетельствует о том, что взаимосвязи явлений, которые изучает статистика, носят корреляционный характер.
Корреляция – это статистическая взаимосвязь между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания (средней величины) другой.
В статистике принято различать следующие виды зависимостей.
1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).
2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.
3. Множественная корреляция – зависимость результативного и двух или более факторных признаков, включенных в исследование.
Задачей корреляционного анализа является количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Теснота связи количественно выражается величиной коэффициентов корреляции, которые дают возможность определить «полезность» факторных признаков при построении уравнений множественной регрессии. Кроме того, величина коэффициента корреляции служит оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
6.2. Оценка тесноты связи
Теснота корреляционной связи между факторным и результативным признаками может исчисляться с помощью таких коэффициентов: эмпирический коэффициент корреляционной связи (коэффициент Фехнера); коэффициент ассоциации; коэффициент взаимной сопряженности Пирсона и Чупрова; коэффициент контингенции; ранговые коэффициенты корреляции Спирмэна и Кендэла; линейный коэффициент корреляции; корреляционное отношение и др.
Наиболее совершенно тесноту связи характеризует линейный коэффициент корреляции: , где – средняя из произведений значений признаков ху; – средние значения признаков х и у; - средние квадратические отклонения признаков х и у. Он используется в том случае, если связь между признаками линейная
Линейный коэффициент корреляции может быть положительным или отрицательным.
Положительная его величина свидетельствует о прямой связи, отрицательная – об обратной. Чем ближе к ±1, тем связь теснее. При функциональной связи между признаками = ±1. Близость к 0 означает, что связь между признаками слабая.
6.3. Методы регрессионного анализа
С понятием корреляции тесно связано понятие регрессии. Первая служит для оценки тесноты связи, вторая - исследует ее форму. Корреляционно-регрессионный анализ, как общее понятие, включает в себя измерение тесноты и направления связи (корреляционный анализ) и установление аналитического выражения (формы) связи (регрессионный анализ*).
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, переходят к математическому описанию конкретного вида зависимостей с использованием регрессионного анализа. Для этого подбирают класс функций, связывающий результативный показатель у и аргументы х1 , х2 ,… хk , отбирают наиболее информативные аргументы, вычисляют оценки неизвестных значений параметров связи и анализируют свойства полученного уравнения.
Функция, описывающая зависимость среднего значения результативного признака у от заданных значений аргументов, называется функцией (уравнением) регрессии. Регрессия – линия, вид зависимости средней результативного признака от факторного.
Наиболее разработанной в теории статистики является методология парной корреляции, рассматривающая влияние вариации факторного признака х на результативный у
Уравнение прямолинейной корреляционной связи имеет вид: .
Параметры а0 и а1 называют параметрами уравнения регрессии.
Для определения параметров уравнения регрессии используется способ наименьших квадратов, который даёт систему двух нормальных уравнений:
.
Решая эту систему в общем виде, можно получить формулы для определения параметров уравнения регрессии: ,
6.4. Множественная регрессия
Производственные взаимосвязи, как правило, определяются большим числом одновременно и совокупно действующих факторов. Например, овальность после чистового шлифования зависит от припуска на чистовое шлифование и от овальности после предварительного шлифования. Себестоимость продукции зависит от стоимости материала, основной зарплаты рабочих, премиальных, расходов на содержание оборудования, отчислений на соцстрахование. В связи с этим возникает задача исследования зависимости между факторными признаками (называемыми также регрессорами или предикторами) , , . . ., и результативным признаком . Для этого используется множественный регрессионный анализ.
Построение многофакторной регрессионной модели начинается с установления формы связи, используя графический метод для пространства и метод перебора различных уравнений. От правильности выбора вида уравнения зависит, насколько построенная модель будет адекватна не только имеющимся экспериментальным данным, но и истинной зависимости между изучаемыми показателями. При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров, так как для их оценки требуется меньшее количество эмпирических данных.
После выбора формы многофакторной регрессионной модели проводят отбор факторных признаков и включение их в модель. Принято считать, что в уравнение множественной регрессии можно включать только независимые друг от друга факторные признаки . Вопрос о включении факторных признаков в уравнение регрессии решают следующим образом. Пусть, например, имеется три факторных признака , , , влияющих на результативный признак , и модель является линейной. Чтобы выяснить, какие факторные признаки включить в модель, находят коэффициенты парной корреляции , , . Если их значения меньше 0,8, то их можно включить в модель. Если же их значение больше 0,8, то следует какие-то из этих факторов исключить из модели. Если, например, , то какой-то из признаков или надо исключить из модели. Для этого находят парные коэффициенты корреляции между каждым из факторов и и результативным признаком , то есть вычисляют и . Затем сравнивают и . Пусть оказалось, что . Это означает, что факторный признак сильнее связан с результативным признаком , чем признак . Поэтому фактор следует включить в модель, а исключить из нее. Этот вывод подтверждается путем вычисления коэффициентов частной корреляции и . При исключении факторов из модели можно руководствоваться правилом. Если , где , то один из факторов, либо , либо следует исключить.
Рассмотрим случай построения многофакторной модели, когда результативный признак зависит от двух факторных признаков и . Если зависимость между ними носит линейный характер, то уравнение регрессии записывают в виде:
.
Коэффициенты уравнения регрессии , , находят по методу наименьших квадратов, решая систему нормальных уравнений
Коэффициенты , , можно находить по формулам:
, , ,
где , , - коэффициенты парной корреляции между признаками и , и , и ; , , - средние квадратические отклонения; , , - средние признаков , , .
Если уравнение линейной регрессии имеет вид , то коэффициенты , , , . . ., находят, решая систему нормальных уравнений:
Множественный регрессионный анализ легко реализуется с помощью пакетов анализа данных MS Office Excel, IBM SPSS и др.
УПРАЖНЕНИЯ
Задача 6.1. Установите характер и форму связи между проницаемостью нефти Y и насыщенностью породы нефтью X по данным задания 5.1 методами приведения параллельных данных, статистических графиков и корреляционно-регрессионного анализа.
Исходные данные и промежуточные расчеты коэффициента корреляции и параметров уравнения регрессии оформите в виде таблицы.
Номер наблюдения | X | Y | X2 | Y2 | XY | Теоретическое значение Y (вычислить по полученной модели регрессии) |
Итого | ||||||
Средняя | ||||||
СКО | - | - | - | - |
Задача 6.2. Установите характер и форму связи между количеством израсходованных долот Y и механической скоростью проходки X по данным задания 5.2 методами приведения параллельных данных, статистических графиков и корреляционно-регрессионного анализа.
Исходные данные и промежуточные расчеты коэффициента корреляции и параметров уравнения регрессии оформите в виде таблицы.
Номер наблюдения | X | Y | X2 | Y2 | XY | Теоретическое значение Y (вычислить по полученной модели регрессии) |
Итого | ||||||
Средняя | ||||||
СКО | - | - | - | - |
Задача 6.3. Установите характер и форму связи между скоростью бурения в твердых породах Y (м/час) и нагрузкой на долото X (атм.) по данным задания 5.3 методами приведения параллельных данных, статистических графиков и корреляционно-регрессионного анализа.
Исходные данные и промежуточные расчеты коэффициента корреляции и параметров уравнения регрессии оформите в виде таблицы.
Номер наблюдения | X | Y | X2 | Y2 | XY | Теоретическое значение Y (вычислить по полученной модели регрессии) |
Итого | ||||||
Средняя | ||||||
СКО | - | - | - | - |
Задача 6.4. С помощью пакета анализа данных MS Office Excel, IBM SPSS или др. установите форму связи между факторными и результативным признаками, построив корреляционные поля на плоскости для каждой пары признаков-показателей деятельности НГДУ: - коэффициент эксплуатации скважин, - дебит скважин (тн/сут.), - уровень автоматизации труда (%), - производительность труда (тн/чел.).
Признак | Значение признака в НГДУ | |||||||||
0,92 | 0,93 | 0,89 | 0,90 | 0,90 | 0,89 | 0,92 | 0,91 | 0,93 | 0,89 | |
Запишите уравнение модели множественной регрессии.
Произведите отбор факторов, включаемых в модель.
Определите тесноту связи между факторами, включенными в модель множественной линейной регрессии.
Найдите оценки уравнения регрессии.
Проверьте адекватность полученной модели регрессии тремя способами:
– с помощью коэффициента детерминации ;
– по критерию Фишера;
– с помощью критерия Дарбина-Уотсона.
Дайте экономическую интерпретацию найденных оценок параметров уравнения регрессии.
Задача 6.5. С помощью пакета анализа данных MS Office Excel, IBM SPSS или др. установите форму связи между факторными и результативным признаками, построив корреляционные поля на плоскости для каждой пары признаков-показателей разработки одного из месторождений Тюменской области: добыча нефти с начала разработки , суммарная добыча нефти из скважин предыдущего года , падение добычи нефти , коэффициент нефтеизвлечения .
(тыс.т) | (тыс. т) | (тыс.т) | (%) |
-0,7 | 0,9 | ||
22,7 | -0,9 | 1,2 | |
86,9 | 31,7 | -0,9 | 1,9 |
117,3 | 31,2 | -0,8 | 2,5 |
147,1 | 30,5 | -0,8 | 3,2 |
176,1 | 29,7 | -0,8 | 3,8 |
204,5 | -0,7 | 4,4 | |
232,2 | 28,4 | -0,7 | 5,0 |
259,2 | 27,7 | -0,6 | 5,6 |
285,6 | 26,4 | -0,6 | 6,2 |
311,4 | 25,8 | -0,6 | 6,7 |
336,6 | 25,2 | -0,5 | 7,3 |
361,2 | 24,6 | -0,5 | 7,8 |
385,3 | -0,5 | 8,3 | |
408,7 | 23,5 | -0,5 | 8,8 |
Запишите уравнение модели множественной регрессии.
Произведите отбор факторов, включаемых в модель.
Определите тесноту связи между факторами, включенными в модель множественной линейной регрессии.
Найдите оценки уравнения регрессии.
Проверьте адекватность полученной модели регрессии тремя способами:
– с помощью коэффициента детерминации ;
– по критерию Фишера;
– с помощью критерия Дарбина-Уотсона.
Дайте экономическую интерпретацию найденных оценок параметров уравнения регрессии.