Иллюстрация зависимости друг от друга признаков, являющихся результатом дихотомизации одной номинальной переменной
Заданные значения признаков | Теоретически определяемое значение признака | |
X1 | X2 | X3 |
(если человек – не русский и не грузин, то он – чукча; если он русский, а не грузин, то он и не чукча; если же он не русский, но грузин, то он тоже не чукча; быть же одновременно и русским, и грузином он не может).
Поэтому во избежание недоразумений, могущих возникнуть при интерпретации результатов регрессионного анализа, желательно не включать в уравнение все три дихотомические переменные. Именно так обычно и поступают. Один дихотомический признак как бы отбрасывают (ниже мы увидим, что это отбрасывание в содержательном плане является фиктивным: в процессе интерпретации коэффициентов найденного уравнения сведения об отброшенном признаке будут присутствовать). Таким образом, число аргументов искомого уравнения будет на единицу меньше, чем число альтернатив в рассматриваемом номинальном признаке. В нашем случае вместо трех предикторов мы включаем в уравнение только два. Ниже будем считать, что мы отбросили Х3.
Теперь рассмотрим ситуацию с зависимой переменной Y. Она так же, как и Х превращается в несколько дихотомических признаков. Пусть, например, в нашей анкете предусмотрено три варианта ответа - учитель, торговец, дворник. Тогда вместо Y возникают три следующие дихотомические признака:
Встает вопрос: какой из этих новых Y-ков необходимо взять в качестве независимой переменной искомого уравнения регрессии (ясно, что использование сразу нескольких зависимых переменных бессмысленно). Выход довольно очевиден: надо строить три уравнения регрессии, каждое из которых отвечает своему Yi..
Итак, задача сводится к построению следующей системы уравнений регрессии (термин “система” здесь употреблен не случайно: уравнения взаимосвязаны и содержательно дополняют друг друга):
Y1 = f1(Х1, Х2),
Y2 = f2(Х1, Х2),
Y3 = f3(Х1, Х2),
Как мы уже отмечали, техника нахождения конкретного вида каждого уравнения традиционна - это техника “числового” регрессионного анализа.
Попытаемся ответить на вопрос о том, почему такая подмена возможна,т.е. почему к числам, полученным по произвольной номинальной шкале, применять регрессионную технику (равно как и любой другой “количественный” метод) нельзя, а к отвечающим номинальной же шкале 0 и 1 – можно (и это “разрешение” тоже касается не только регрессионного анализа). Напомним, что аналогичный вопрос применительно к вычислению среднего арифметического уже рассматривался нами в п.1.2. В настоящем и следующем параграфе мы обсудим его в более общей постановке.
Во-первых, с формальной точки зрения упомянутую дихотомическую номинальную шкалу можно рассматривать как частный случай интервальной. Здесь мы имеем дело только с одним интервалом – между 0 и 1. И представляется вполне допустимой истинность утверждения: за равными числовыми интервалами стоят некоторые реальные равные эмпирические разности между объектами.
Во-вторых, допустимость применения количественного метода к дихотомическим данным опирается на то, что, как оказывается, многие известные математические статистики, будучи вычисленными для таких данных, как правило, оказывается возможным проинтерпретировать вполне разумным образом, чего отнюдь нельзя сказать об интерпретации соответствующих показателей, вычисленных для многозначных номинальных шкал.
Пример вычисления среднего арифметического для пола респондента, приведенный в разделе 1, подтверждает это (отметим, однако, что полу отвечает естественная дихотомия, а не искусственная, как в рассмотренных выше ситуациях; иногда естественные и искусственные дихотомии противопоставляют друг другу; однако для нас это не актуально). Демонстрация того, что осмысленная интерпретация возможна и для найденных рассматриваемым образом коэффициентов уравнения регрессии, будет осуществлена в п. 2.6.4.
Последнее обстоятельство, на котором нам хотелось бы остановиться в данном параграфе, состоит в том, что, как оказывается, задача применения традиционной регрессионной техники остается осмысленной и для того случая, когда Y измеряется по интервальной шкале. Специфика такой ситуации проявляется в интерпретации результатов регрессионного анализа. Ниже на этом мы также остановимся.