Основы регрессионного анализа
Регрессионный анализ основан на предположении о том, что между показателями теста и критериальной переменной существует линейная связь. Если такая связь действительно существует, то для того, чтобы спрогнозировать значение критериальной переменной исходя из показателей теста способностей, можно воспользоваться следующей формулой прямой линии:
Ŷ= a + b(X),
где Ŷ – прогнозируемое значение критериальной переменной для отдельно взятого респондента, a – свободный член (прогнозируемое значение критериальной переменной при условии, что тестовый балл равен нулю), b – угловой коэффициент регрессии, или наклон линии регрессии по отношению к осям координат (число, которое показывает, как изменится показатель Ŷ при увеличении показателя Х на 1 пункт), а X – балл, полученный респондентом в тесте способностей. Для проведения регрессионного анализа и вычисления значений a и b используется множество видов статистического программного обеспечения.
После вычисления значений свободного члена и наклона линии регрессии появляется возможность оценить способность теста к прогнозированию. Так, можно взять индивидуальный балл респондента по тесту способностей (X), подставить его в регрессионное уравнение и рассчитать для этого человека прогнозируемую экспертную оценку работодателя (Ŷ).
Чтобы проиллюстрировать этот процесс, используем данные из Таблицы 11.1. В этой таблице приведены баллы, полученные четырьмя респондентами по тесту способностей, а также (для каждого из респондентов) значение критериальной переменной, т.е. экспертная оценка профессиональной успешности (следует заметить, что подобный анализ предполагает наличие гораздо большего числа участников). На основании регрессионного анализа в пакете SPSS величина a (свободный член) составляет 56.03, а угловой коэффициент регрессии (b) составляет 0.58. Эти результаты говорят о том, что прогнозируемое значение критериальной переменной у респондента с тестовым баллом, равным нулю, равняется 56.03, и что при увеличении тестового балла на 1 пункт критериальная переменная увеличивается на 0.58.
Таблица 11.1. Данные, иллюстрирующие пример регрессионного анализа
Респондент | Балл по тесту способностей | Экспертная оценка руководителя (критериальная переменная) | Прогнозируемая оценка руководителя (прогнозируемое значение критериальной переменной) |
74.59 | |||
79.23 | |||
89.09 | |||
90.83 |
Как было упомянуто ранее, эти величины могут быть использованы для того, чтобы получить прогнозируемые значения критериальной переменной для всех участников тестирования путем подстановки их тестовых баллов в следующее регрессионное уравнение:
Ŷ=56.03 +0.58(X)
Прогнозируемая оценка руководителя = 56.03 + 0.58 (тестовый балл).
Например, для респондента с тестовым баллом 69 прогнозируемая оценка руководителя составляет 96.05:
Ŷ=56.03 + 0.58(69),
Ŷ=96.05.
Сходным образом, для респондента с тестовым баллом 70 прогнозируемая оценка руководителя составляет 96.63:
Ŷ=56.03+ 0.58(70),
Ŷ=96.63.
Заметьте, что разница между этими двумя прогнозируемыми показателями составляет 0.58 (96.63 – 96.05 = 0.58), что соответствует наклону линии регрессии в регрессионном уравнении. Другими словами, отклонение в тестовом балле на 1 пункт влечет за собой отклонение в значении критериальной переменной на 0.58.
Если подсчитать прогнозируемые значения критериальной переменной для большого числа тестовых баллов, можно построить линейный график регрессии (линию наилучшего соответствия). Каждая точка на графике линейной регрессии связана с прогнозируемым значением Y для каждого из X. Этот график используется для того, чтобы проиллюстрировать связь между прогнозируемыми значениями критериальной переменной и тестовыми баллами. В Таблице 11.1 приведены прогнозируемые показатели Ŷ для каждого из респондентов. На графике на Рисунке 11.4 для каждого из респондентов изображены показатели по тесту и по критериальной переменной (точками), а также показана линия регрессии, которая отражает прогнозируемые оценки кандидата руководителем.
«Универсальная мера»: общее регрессионное уравнение
Рисунок 11.4.Баллы респондента по тесту способностей и экспертные оценки руководителя: график рассеивания и линия регрессии
Оценка прогностической ошибки теста обычно начинается с определения того, что произойдет, если ошибки обнаружено не будет. Если тест не подвержен систематической прогностической ошибке, одно регрессионное уравнение должно быть одинаково применимо к разным группам респондентов. Предположение о том, что к разным группам респондентов подходит общее регрессионное уравнение, основано на рассмотрении теста как «универсальной меры», не зависящей от пола, этнической принадлежности, культуры и любых других групповых различий. В этом случае прогностическая способность теста должна адекватно выражаться одним и тем же регрессионным уравнением.
Представьте, что вы предлагаете тест способностей большому количеству кандидатов на прохождение обучающей программы (напр., 100 человек). Предположим, в выборке равное количество мужчин и женщин, и вы хотите убедиться, что тест не подвержен систематической ошибке относительно пола респондентов. Чтобы начать исследование этой проблемы, вы можете рассчитать регрессионное уравнение, основанное на данных всей выборки вне зависимости от пола. Представьте, что в этом уравнении a = 56.03, а наклон линии регрессии b = 0.58. Эти величины характеризуют общее регрессионное уравнение и, следовательно, будут называться общим свободным членом и общим наклоном линии регрессии. Таким образом, если ваш тест на выявление способностей не подвержен систематической ошибке относительно пола, общее регрессионное уравнение должно быть одинаково применимо как к мужчинам, так и к женщинам.
Чтобы оценить наличие прогностической ошибки, необходимо провести дополнительные серии регрессионного анализа. Чтобы определить, действительно ли общее регрессионное уравнение одинаково применимо как для мужчин, так и для женщин, необходимо рассчитать одно регрессионное уравнение для мужчин и одно - для женщин. Затем нужно сравнить эти уравнения с общим регрессионным уравнением. Если коэффициенты внутригрупповых регрессионных уравнений не совпадают с коэффициентами общего регрессионного уравнения, можно предположить, что тестовые баллы подвержены систематической ошибке. На практике для такого рода анализа существует множество сложных статистических процедур, однако представленное здесь обсуждение будет сконцентрировано на более концептуальном уровне. Чтобы разъяснить специфику интерпретации различного рода результатов, сперва сосредоточимся на систематической ошибке свободного члена, а затем на систематической ошибке наклона линии регрессии. На практике, однако, группы с большей степенью вероятности будут различаться в обоих элементах регрессии сразу. Поэтому ниже будет также проиллюстрирован эффект систематической ошибки одновременно как в свободном члене регрессии, так и в наклоне регрессионной линии.