Требования к формированию множественной корреляционной модели
МНОЖЕСТВЕННЫЙ КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ИЗМЕРЕНИЯ ВЗАИМОСВЯЗЕЙ
1. Основные требования к формированию множественной корреляционной модели.
2. Обоснование формы связи и определение тесноты связи при множественном корреляционном анализе.
3. Корреляционный анализ в рядах динамики.
4. Корреляция качественных признаков. Непараметрические показатели корреляционной связи.
Вопрос 1.
Если ограничиться проведением только парного корреляционного анализа, т.е. зависимости между одним результатом и одним факторным признаком, то может создаться ложное впечатление, что на данный результативный признак наибольшее влияние оказывает именно рассматриваемый признак, т.е. "У" или переменная величина преимущественно зависит от того фактора, который был введен в модель.
На самом деле это не так, ведь в природе и в обществе явления и процессы связаны друг с другом и зависят друг от друга. Т.е. на любой результативный признак действует одновременно большое множество факторных признаков.
Например, совокупное влияние на величину урожайности удобрений, вносимых в почву, степени увлажнения ее, сроков сева, глубины вспашки и т.д.
Совместное влияние на производительность труда образования работника, его стажа, фондовооруженности, оплаты труда и т.д. – это примеры такой множественной корреляции, которую экономист может изучить с помощью статистических методов.
Для того чтобы изучить влияние на результат двух и более факторов, применяют множественную корреляцию.
Под множественной корреляцией понимается исследование статистической зависимости результативного признака от нескольких факторных признаков.
Требования к формированию множественной корреляционной модели
1. Логический анализ для предотвращения "ложной" корреляции.
2. Проверка совокупности на качественную однородность по результативному признаку "У" и по всем вводимых факторным признаком "Х".
На практике чаще всего совокупность на качественную однородность проверяется по результативному признаку "У".
3. Многочисленность совокупности
Эмпирически было установлено, что на каждый дополнительно вводимый фактор, совокупность должна увеличиваться на 8-10 единиц.
4. Из всей массы факторов, оказывающих влияние на "У" отбирают те факторы, которые, по мнению исследователя, в первую очередь характеризуют вариацию результативного признака "У".
5. Факторы должны иметь количественное выражение.
Наряду с факторами, значение которых может быть выражено количественно, существуют так называемые "неуловимые факторы", которые не могут иметь количественного значения, хотя их влияние на результативный признак может быть довольно значительным. В большинстве своем они относятся к, скажем так, "человеческому фактору".
Например, условия труда работников, использование достижений научно-технического прогресса, уровень жизни работников, моральный климат в коллективе.
В некоторых случаях влияние таких признаков может быть выражено опосредованно через другие, имеющие количественное значение, например, использование достижений НТП через обеспеченность новой техникой, выраженной количеством новых машин на 1 га или на 1 голову животных или через сумму затрат, в денежных единицах, направленных на приобретение новой техники, находящейся в рабочем состоянии.
Однако не всегда такой подход удачен. Поэтому еще может быть использована субъективная оценка неуловимых факторов в баллах.
6. Факторы не должны дублировать друг друга.
Каждый фактор, включаемый в модель, должен быть представлен один раз либо в натуральной, либо в стоимостной форме, абсолютной или относительной величиной, но не тем и другим одновременно.
7. В корреляционную модель не включаются взаимозависимые факторы, т.е. между факторами должна отсутствовать коллинеарность и мультиколлинарность.
При экономическом анализе множественных связей возникает задача рассмотрения большого числа факторов, влияющих на результативный признак, и выбора наиболее значительных, совместное влияние которых формирует его величину.
Наличие тесной линейной связи между двумя факторами называют коллинеарностью, а между несколькими факторами – мультиллинеарностью.
Эта проблема решается посредством двух подходов.
I-й подход. Факторы систематизируются по уровням в следующие группы:
а) природно-климатические:
- качество почв;
- климатические условия;
- количество выпавших осадков;
- сумма активных температур;
- метеоусловия;
б) технологические и технико-экономические:
- сроки проведения агромероприятий;
- качество проведения агромероприятий;
- удобренность полей;
- нормы высева;
- качество семян;
- способ уборки;
- обеспеченность агротехникой;
- уровень кормления животных;
- способ содержания;
- себестоимость, трудоемкость;
в) организационно-экономические:
- уровень специализации хозяйства;
- уровень концентрации производства;
- уровень интенсивности производства;
- уровень материального стимулирования;
- обеспеченность трудоресурсами;
- фондообеспеченность и фондовооруженность отрасли;
- энергообеспеченность и энерговооруженность.
Во множественную модель желательно вводить факторы, относящиеся к одному уровню, поскольку один уровень подготавливает другой.
Однако применение этого способа часто ограничивается недостатком имеющегося числа исходных данных. И Вы в этом убедитесь на практике, при написании курсовой работы, когда подобрать 5-6 факторных признаков из одной из выше перечисленных групп не представляется возможным.
II-й подход. Суть второго подхода заключается в недопустимости тесной связи между факторами.
Прежде всего нельзя допустить наличия функциональной связи между признаками х1 и х2, когда | r |=1.
Кроме того, исключению из анализа обычно подлежат те факторы, которые при парном коррелировании друг с другом дают высокий линейный коэффициент корреляции, превышающий по абсолютной величине 0,85 (| rх1х2 | ³ 0,85)
В крайнем случае, эти факторы можно поместить в модель, если соблюдается такое условие:
ryx1 > rx1x2
ryx2 > rx1x2
Если это условие не соблюдается, то исключению из модели подлежит тот фактор, который наименее тесно связан с результативным признаком "у".
8. Желательно, чтобы все факторы и "у" были рассчитаны на одну и ту же хозяйственную единицу (на 1 год, 1 га, 1 час и т.д.).
9. Количество факторов должно быть минимальным, но достаточным для объяснения основной доли вариации результативного признака.
Введение в анализ большого числа факторов и поиски такого их сочетания, которое почти целиком определяло бы поведение изучаемого признака, вовсе не так целесообразно, как иногда кажется.
Правильнее произвести отбор лишь сравнительно небольшого числа факторов, которые носят характер основных. Присоединение к ним еще ряда других дополнительных факторов может не прояснить, а, напротив, затушевать всю картину множественных связей.
При необоснованном уменьшении числа факторов, вводимых в модель, происходит упрощение модели, она перестает отражать основные свойства моделируемого процесса или явления.
Вопрос 2.
При проведении множественной корреляции не строится график, отражающий зависимость между результативным признаком и всеми факторными признаками одновременно. Строится столько графиков, сколько рассматривается факторных признаков.
Затем, используя метод аналитических группировок, подбираются факторные признаки для проведения множественного корреляционного анализа.
После этого проводят столько парных корреляционных анализов, сколько отобрано факторов для множественной модели.
В том случае, если коэффициенты парной корреляции показывают достаточно тесную связь между результативным и факторными признаками, критерии существенности подтверждают ее не случайность, а между самими факторными признаками отсутствует тесная связь, можно переходить ко множественному корреляционному анализу.
Введем условные обозначения:
у – результативный признак;
х1, х2, х3 и т. д. – факторные признаки.
Мы уже говорили о том, что корреляционный анализ предусматривает решение 2-х задач:
- определение формы связи с помощью регрессионного уравнения;
- определение тесноты связи.
Если результативный признак находится в корреляционной зависимости от многих факторов, то выражающие эту зависимость уравнения называются многофакторными корреляционными уравнениями.
Если исследователь не может заранее однозначно решить вопрос о форме множественной связи, он исходит из того, что связь прямолинейная и использует линейное уравнение или уравнения приводимые к линейному виду с последующей оценкой на криволинейность.
Вычисленное уравнение связи может иметь практическое значение только для той массы случаев, для которой оно вычислено. Распространить его на другие массы возможно лишь в том случае, если доказана аналогия условий места, времени и однотипность явлений, на которые распространяются выводы.
Формула линейного уравнения множественной корреляции имеет вид:
Ух1х2х3…хn = а0 + а1х1 + а2х2 + …+аnхn
Для дальнейшего рассмотрения множественной модели мы будем использовать два признака-фактора х1 и х2. Для данного конкретного случая формула линейного уравнения примет вид:
Ух1х2 = а0 +а1х1 +а2х2
Параметры корреляционного уравнения могут быть найдены различными способами, но наибольшее распространение получил метод наименьших квадратов.
В ходе решения отыскиваются параметры а0, а1, а2. При методе наименьших квадратов оптимизирующим условием является следующее: сумма квадратов отклонений теоретических уровней от фактических должна быть минимальной, т. е.:
Для того, чтобы выполнялось это условие, неизвестные параметры должны быть найдены из системы "нормальных" уравнений:
После решения системы уравнений и нахождения неизвестных параметров, рассчитывают теоретические уровни.
Сумма теоретических уровней должна совпадать с суммой эмпирических значений "у":
Логический прием проверки. Для проверки можно ориентироваться на размерность коэффициентов регрессии парной корреляции:
Раскроем экономическое содержание параметров линейного уравнения множественной корреляции:
а 0 – математическое начало отсчета, экономического смысла не имеет;
а1 – коэффициент регрессии, показывает как изменяется результативный признак при увеличении первого факторного на единицу своего измерения, при условии, что второй факторный признак, забирая долю влияния, остается на неизменном зафиксированном уровне;
а2 - коэффициент регрессии, показывает, как изменяется результативный признак при увеличении второго факторного признака на единицу своего измерения, при условии, что первый факторный признак остается неизменным, но забирает долю своего влияния.
Коэффициенты а1, а2, ….аn - называют чистыми (или частными) коэффициентами регрессии. Термин «чистый» добавляется для обозначения того, что эти коэффициенты показывают отношение зависимости "у" от х1, ….хn при исключении (очищении) сопутствующего влияния одной или нескольких независимых переменных.
Прямое сравнение коэффициентов регрессии в уравнении множественной регрессии дает представление о степени влияния факторных признаков на результативный признак только тогда, когда они выражаются в одинаковых единицах измерения и имеют примерно одинаковую колеблемость.
В общем случае, чтобы сделать коэффициент регрессии сопоставимым, применяют коэффициенты регрессии (Эi):
Коэффициент эластичности приводит к единым единицам измерения (%), позволяет выявить какой из факторных признаков оказывает более существенное влияние на результативный признак при фиксированном значении остальных факторов на каком-либо уровне.
b – коэффициент показывает, на сколько s (s - мера колеблемости) изменяется результативный признак "у" при увеличении соответствующего "х" на одну сигму.
b – коэффициент не имеет экономического содержания, чисто математический показатель, указывает, какой из факторов оказывает наибольшее влияние на результативный признак.
Вторая задача корреляционного анализа – выявление тесноты связи.
Метод частной корреляции позволяет выявить "чистую" зависимость результативного признака (у) от каждого факторного признака и установить каково было бы влияние этого факторного признака на величину результативного при условии, что другой факторный признак (х2) оставался бы неизменным.
Формулы для расчета частных коэффициентов корреляции имеют вид:
Для определения тесноты линейной связи между результативным признаком и двумя или несколькими факторными используется множественный коэффициент корреляции:
Коэффициент множественной детерминации показывает, какая доля вариации результативного признака связана с действием введенных в модель факторов и определяется по формуле:
По коэффициенту множественной детерминации можно судить о правильности подбора факторных признаков.
Если D = 60% и более, то говорят, что факторы подобраны удачно.
Существенность и достоверность коэффициента множественной корреляции определяется:
а) с помощью критерия Стьюдента:
,
где: n – объем исследуемых пар;
k – число факторов.
Число степеней свободы определяется по формуле:
у = n – k – 1
б) с использованием критерия Снедекора:
,
где: F – критерий Снедекора с n 1 = k – 1 и n2 = n – k
в) по критерию Фишера:
f1 = m; m – число факторов
f2 = n – m – 1
Вопрос 3.
Очень важной задачей для экономиста является изучение рядов динамики, которые характеризуются изменением явлений во времени. Составление и анализ таких рядов имеет большое значение в экономической статистике.
Изучая ряды динами, экономист вынужден обращаться к математико-статистическим методам. Без применения этих методов он не может, например, исследовать корреляцию между рядами динамики.
Изучение корреляции в рядах динамики имеет существенные особенности. Они состоят в том, что любые два ряда, имеющие тренды одинаковой направленности (оба в сторону увеличения уровней или оба в сторону их уменьшения), всегда окажутся связанными прямой корреляционной связью.
Ряды, имеющие разную направленность тенденций, окажутся всегда связанными обратной корреляцией. Таким образом, без качественного анализа нельзя отличить реальные связи динамических рядов (причинно – следственные или на основе общих факторов развития) и «ложные» корреляции. Как, например, связь между динамическими рядами численности населения Бразилии и рядами урожайности хлопчатника в Узбекистане (Пасхавер).
Специфика корреляционного анализа в динамическом ряду:
1. В экономике длинные динамические ряды встречаются редко.
2. Особенности подбора факторного признака заключается в том, что помимо фактора, включаемого в модель, влияющим на результативный признак "у" фактором является и время. Это приводит к ситуации, в которой каждый последующий уровень динамического ряда в некоторой степени зависит от предыдущего. Это явление в статистике называется автокорреляцией.
Наиболее сильно автокорреляция проявляется между рядом стоящими годами. Как правило, в динамических рядах проводят парную корреляцию и довольно редко – множественную.
Парному корреляционному анализу предшествует проверка на наличие автокорреляции.
Коэффициент автокорреляции исчисляют по формуле:
,
где: х i – уровень динамического ряда;
х i + 1 – последующий уровень в динамическом ряду.
По такой же формуле рассчитывается коэффициент автокорреляции и для результативного признака. Чем выше коэффициент, тем сильнее автокорреляция.
Если по результативному признаку автокорреляция отсутствует, то пытаются найти такой факторный признак "х", который бы тоже не содержал автокорреляции. И если это удается, то тесноту связи между признаками определяют по уже известной нам формуле:
Если же расчет показал на существование большой автокорреляции ( ), то для устранения автокорреляции в динамическом ряду существует ряд способов.
Первый способ устранения влияния предыдущего уровня на последующий состоит в вычитании из каждого последующего уровня предыдущего, т.е. требуется получить первые разности и изучить связь не между первоначальными рядами, а между полученными разностями.
Коэффициент корреляции первых разностей рассчитывается по формуле:
где Dx = xi+1 - xi
Dy = yi+1 - yi
D - отклонение предыдущих уровней динамического ряда от последующих
Второй способ.
При изучении динамических рядов приходится учитывать еще одну их особенность, связанную с возможным наличием лага во времени. Под лагом понимают период отставания в развитии одного из двух взаимосвязанных рядов.
Лаг – это промежуток времени, за который изменение аргумента приведет к изменению результативного показателя.
Наличие запаздывания означает, что влияние переменной "х" на переменную "у" не проявляется немедленно, а растягивается на какой – то промежуток времени.
Например, при изучении влияния урожайности на поголовье скота лаг равен одному году, потому что урожайность данного года сказывается на численности поголовья в следующем году.
Эффект капитальных вложений сказывается через определенный период, необходимый для строительства и ввода в действие новых объектов, измеряемых часто несколькими годами.
Поэтому для учета лага пользуются вторым способом исключения автокорреляции. Он заключается в изучении отклонений не от предыдущего уровня, а от тренда - основной линии развития явления.
В зависимости от формы движения динамического ряда тренд может быть выражен либо уравнением прямой, либо кривой.
Затем рассчитываются теоретические уровни и для результативного признака и для факторного.
Для вычисления коэффициента корреляции с учетом лага определяются отклонения фактических уровней от тренда.
Формула для расчета коэффициента корреляции в динамическом ряду с учетом лага имеет вид:
где: – (х-хt) – отклонения индивидуальных значений признака от тренда (основной тенденции развития во времени) для факторного признака;
(у-уt) - отклонения индивидуальных значений признака от тренда для результативного признака.
При применении метода регрессий к динамическим рядам выявляется особенность, состоящая в том, что в уровнях динамических рядов возникает авторегрессия, проявляющаяся так же, как и автокорреляция.
Авторегрессия выражает зависимость величины уровня динамического ряда от предыдущих значений уровня в момента времени
Для исключения искажающего влияния авторегрессии необходимо в уравнение регрессии вводить показатель времени, что позволяет выявить истинную картину связи:
yxt = a0 + a1x + a2t
a1 – отражает чистую регрессию между "х" и "у";
a2 – коэффициент при t показывает либо уменьшение значения признака (-), либо увеличение (+).
Приведенное уравнение регрессии исключает авторегрессию. Такую модель можно использовать для прогнозирования.
Вопрос 4.
Методы аналитических группировок и корреляционно-регрессионного анализа основаны на использовании основных параметров распределений (средних величин и дисперсий). Поэтому их называют параметрическими методами.
Применение формул расчета коэффициентов парной корреляции предполагает, что совокупности, по которым эти коэффициенты считаются, подчиняются закону нормального распределения.
В статистике применяются также непараметрические методы изменения взаимосвязей, не требующие использования количественных значений признаков, а, следовательно, и вычисления параметров их распределения.
В тех случаях, когда характер изучаемой совокупности даже предположительно неизвестен, либо данных слишком мало, либо признаки выражены атрибутивно, определение тесноты связи основывается на непараметрических методах.
Сфера применения непараметрических методов шире, чем параметрических. Если для применения корреляционно-регрессионного анализа все признаки должны быть количественными, а для построения аналитической группировки количественной должна быть зависимая переменная, то непараметрические методы измерения связи применимы и в тех случаях, когда все признаки качественные.
При определении степени тесноты связи между качественными признаками, каждый из которых представлен в виде альтернативных признаков, возможно использовать коэффициенты ассоциации и контингенции.
Для определения вышеуказанных коэффициентов расчетная таблица имеет вид:
Признак 1 Признак 2 | Варианты | Итого | |
а | в | а + в | |
c | d | c + d | |
Итого: | а + с | в +d | а + c + b + d |
Например, нужно определить наличие связи между студентами, распределенными по полу и удовлетворенности учебой в агротехнологическом университете.
Обучение в агротехнологическом университете | Девушки | Юноши | Итого: |
Интересно | 68 (а) | 22 (в) | 90 (а+в) |
Неинтересно | 35 (с) | 31(d) | 66 (с+d) |
Итого: | 103 (а + с) | 53 (в + d) | 156 (а + с + в + d) |
Коэффициент ассоциации определяется по формуле:
Величина коэффициента в нашем примере соответствует среднему размеру связи, несмотря на различие мнений о своей учебе ребят и девушек. Близость коэффициента ассоциации к единице свидетельствует о тесной связи.
Коэффициент контингенции определяется по формуле:
Кк изменяется от 1 до -1, но всегда меньше коэффициента ассоциации.