Регрессионный анализ. Множественная линейная регрессия.
Регрессионный анализ. Простая линейная регрессия.
Регрессионный анализ – статистический метод исследования зависимости между зависимой переменной и одной или несколькими независимыми переменными. Независимые переменные иначе называют регрессорами или предикторами, а зависимые
переменные – критериальными. Существую различные виды регрессионного анализа – одномерная и многомерная, линейная и нелинейная, параметрическая и непараметрическая. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия.
Порядковую регрессию можно использовать, когда зависимые переменные относятся к порядковой шкале. И, конечно же, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.
Рассмотрим линейные модели простую и множественную регрессию.
Простая линейная регрессия.
Простой регрессионный анализ предназначен для выявления взаимосвязи одной зависимой переменной и одной независимой переменной. Аналогом простой регрессии является однофакторный ANOVA при условии, что независимая переменная будет измерена в номинальной шкале.
Основные требования к простому регрессионному анализу:
- переменные должны быть измерены в шкале интервалов или отношений;
- предположительно нормальное распределение переменных;
- отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной; исходя из этого, следует избегать включения в анализ переменных, корреляции между которыми больше 0,8.
- число варьирующих признаков в сравниваемых переменных должно быть одинаковым.
Основными показателями простого регрессионного анализа являются:
β-коэффициенты (Beta) – стандартизированные __________коэффициенты регрессии, знак которых
соответствует знаку корреляции независимой и зависимой переменной;
B – коэффициенты регрессии;
R – коэффициент множественной корреляции;
R2 – коэффициент множественной детерминации (чем он выше, тем больше процентов
дисперсии зависимой переменной объясняет данная модель);
F – критерий Фишера и его достоверность;
В простом линейном регрессионном анализе квадратный корень из коэффициента
детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При
множественном анализе эта величина менее наглядна, нежели сам коэффициент детерминации. Величина "смещенный R-квадрат" всегда меньше, чем несмещенный.
Принципиальный вопрос о том, может ли вообще имеющаяся связь между переменными
рассматриваться как линейная, проще и нагляднее всего решать, глядя на соответствующую диаграмму рассеяния. Кроме того, в пользу гипотезы о линейной связи говорит также высокий уровень дисперсии, описываемой уравнением регрессии.
Регрессионный анализ. Множественная линейная регрессия.
Множественная регрессия состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Во множественной линейной регрессии предпосылки регрессионного анализа и его проведение полностью совпадают с простой линейной регрессией. Особенностью множественной регрессии является корреляция независимых переменных. Для множественного анализа с несколькими независимыми переменными не рекомендуется оставлять метод включения всех переменных, установленный по умолчанию. Этот метод соответствует одновременной обработке всех независимых переменных, выбранных для анализа, и поэтому он может рекомендоваться для использования только в случае простого анализа с одной независимой переменной.
Основные требования и показатели множественного регрессионного анализа такие же, как и для простой регрессии.
Требования - отсутствие линейных взаимосвязей между переменными, переменные должны быть измерены в шкале интервалов или отношений и предположительно должны иметь нормальное распределение.
Показатели - стандартизированные коэффициенты регрессии, коэффициенты регрессии, коэффициент множественной корреляции, коэффициент множественной детерминации, критерий Фишера и его достоверность.
Желательно отбирать для множественного регрессионного анализа те независимые
переменные, которые сильно коррелируют с зависимой переменной, в то же время, они должны слабо коррелировать друг с другом. Если независимых переменных много, то целесообразно перед множественным регрессионным анализом провести факторный анализ (направлен на редукцию данных).
Существует 3 вида методов множественной регрессии. Стандартный метод – учитывает все зависимые переменные. Пошаговые методы (прямой и обратный) позволяют подобрать наиболее оптимальную комбинацию независимых переменных. Поэтому, на мой взгляд, для множественного анализа следует выбрать один из пошаговых методов.
При прямом методе независимые переменные, которые имеют наибольшие коэффициенты частичной корреляции с зависимой переменной пошагово увязываются в регрессионное уравнение.
При обратном методе начинают с результата, содержащего все независимые переменные и затем исключают независимые переменные с наименьшими частичными корреляционными коэффициентами, пока соответствующий регрессионный коэффициент не оказывается незначимым.
Необходимо отметить, что разные варианты пошагового метода могут давать разные результаты, поэтому Вы можете применить каждый из них, а потом выбрать более подходящий конечный результат.
Множественный регрессионный анализ может применяться как в исследовательских целях, так и для решения прикладных задач. Обычно множественная регрессия применяется для изучения возможности предсказания некоторого результата по ряду предварительно измеренных характеристик.
Также помимо предсказания и определения степени его точности множественная регрессия позволяет определить и то, какие показатели, или независимые переменные, наиболее существенны и важны для предсказания, а какие переменные можно просто исключить из анализа.
Аналогом множественной регрессии является многофакторный дисперсионный анализ в том случае, когда независимые переменные измерены в номинальной шкале.
К тому же, если зависимая переменная измерена в номинальной шкале, то стоит воспользоваться вторым аналогом множественной регрессии – дискриминантным анализом.
Однако, дискриминантный анализ это не просто аналог множественной регрессии, он выполняет не только функцию поиска предикторов, но еще и позволяет оптимально точно классифицировать объекты на группы, соответствующие разным градациям зависимой переменной, предсказать с какой точностью были разделены объекты исследователем (например, исследователем были выделены группы испытуемых с высокой, средней и низкой ответственностью), а также научить данный метод самостоятельно классифицировать последующие объекты по выявленной модели переменных. Поэтому дискриминантный анализ еще называется классификационный анализ с обучением.
Основными целями множественного линейного регрессионного анализа являются:
1) Определение того, в какой мере зависимая переменная связана с совокупностью
независимых переменных и, какова статистическая значимость этой взаимосвязи. Рассматриваемые показатели – коэффициент множественной корреляции и его статистическаязначимость по критерию F (Фишера).
2) Определение существенности вклада каждой независимой переменной в оценку зависимой переменной, отсев несущественных для предсказания независимых переменных. Рассматриваемые показатели – регрессионные β-коэффициенты и их статистическая значимость по t-критерию Стьюдента.
3) Анализ точности предсказания и вероятных ошибок оценки зависимой переменной. Рассматриваемые показатели – коэффициент множественной детерминации.
В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях. В общем, множественная регрессия позволяет исследователю задать вопрос о том, «что является лучшим предиктором для...». Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида.