Пример: Распространенность ручного труда на предприятиях одной отрасли в зависимости от уровня автоматизации производства
Уровень автоматизации производства | Число заводов | Процент рабочих ручного труда в общей численности рабочих | |
На каждом заводе данной группы | В среднем по группе | ||
Высокий | 31, 37, 38, 39, 35, 32, 34, 34 | 35,0 | |
Средний | 40, 45, 47, 48, 46, 48, 50, 52, 39, 43, 44, 56 | 46,5 | |
Низкий | 47, 54, 59, 55, 57, 56, 65, 57, 55, 61 | 56,6 | |
Итого | 46,8 |
По данным этой таблицы рассматривается следующая регрессионная модель:
,
где – процент рабочих ручного труда в общей численности рабочих;
– уровень автоматизации производства;
В качестве базовой группы, с которой ведется сравнение уровня занятости ручным трудом, выступают предприятия с низким уровнем автоматизации производства.
Регрессионная модель, исходя из средних уровней, приведенных в последней графе таблицы, составит:
Она показывает, что на предприятиях с низким уровнем автоматизации производства средний процент рабочих ручного труда равен 56,6. На предприятиях с высоким уровнем автоматизации производства распространенность ручного труда ниже на 21,6 проц. пункта , а на предприятиях со средним уровнем автоматизации производства - ниже на 10,1 проц. пункта по сравнению с предприятиями третьей группы.
В справедливости данного уравнения регрессии можно убедиться, обратившись к методу наименьших квадратов.
Индекс детерминации для данной модели составит:
,
что статистически значимо: -критерий при и при степенях свободы 2 и 27, .
Поскольку коэффициенты при фиктивных переменных в модели, не содержащей других экономических факторов, характеризуют величину эффектов -го уровня фактора , то регрессионная модель по своему содержанию тождественна дисперсионной модели. В основе нашего примера лежит дисперсионная модель вида
,
где – -е наблюдение результативного признака на -м уровне исследуемого фактора (в примере ; );
– среднее значение результативного признака в целом по совокупности (в примере );
– эффект, обусловленный -м уровнем фактора ;
– случайная ошибка в -м наблюдении на -м уровне изучаемого фактора; величина, на которую фактический уровень результативного признака отличается от его среднего значения для -ro уровня фактора, т. е. .
Так, подставляя в уравнение регрессии , , получим для каждого завода первой группы по уровню автоматизации производства, что является средней величиной для данной группы (см. табл.). Соответственно подставляя в уравнение регрессии , , получим: .
Ввиду того, что теоретические значения результативного признака в рассматриваемой модели представляют собой групповые средние ( ), общая сумма квадратов отклонений раскладывается на одни и те же составляющие как в регрессионном, так и в дисперсионном анализе. Так, для дисперсионного анализа имеем:
.
Для регрессионной модели данное равенство примет следующий вид:
.
Но так как , то факторная и остаточная суммы квадратов, найденные по регрессионной модели и по модели дисперсионного анализа, совпадают (см. следующую таблицу).
Источники вариации | Число степеней свободы | Сумма квадратов, SS | Дисперсия на одну степень свободы, D | F-отношение | |
фактическое | Табличное, | ||||
Различия между факторами (за счет регрессии) | 2075,4 | 1037,7 | 54,6 | 3,35 | |
Различия внутри фактора (остаточная) | 513,4 | 19,0 | – | ||
Общая | 2588,8 | – | – | – |
Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид:
.
Модель является вероятностной линейной моделью. В ней принимает значения 1 и 0, которым соответствуют вероятности и . Поэтому при решении модели находят оценку условной вероятности события при фиксированных значениях . Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив.
Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная рассматривается как функция ряда экономических факторов и фиктивных переменных . Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т. е. в результате неоднородной структуры пространственного или временного характера.
Пример. Проанализируем с использованием фиктивных переменных зависимость урожайности пшеницы от вида вспашки и количества внесенного органического удобрения .
По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило:
;
; ; ; .
Для его расчета использовалась следующая система нормальных уравнений:
Уравнение регрессии статистически значимо – , , превышают табличные значения: (при 5 %-ном уровне существенности и числе степеней свободы 23: ; ; ).
По виду вспашки поля характеризовались двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайности. Чтобы убедиться в этом, введем в уравнение регрессии фиктивную переменную для отражения эффекта вида вспашки, а именно: для зяблевой вспашки и для весенней вспашки. Уравнение регрессии примет вид:
.
Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:
Ввиду того, что принимает лишь два значения (1 и 0), (число полей с зяблевой вспашкой), (количество внесенных удобрений на полях с зяблевой вспашкой), , (сумма по полям зяблевой вспашки).
В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой – 13 полей и с весенней - 12 полей, т. е. и . Соответственно разделению на эти две группы имеем:
;
.
Тогда система нормальных уравнений примет вид:
Peшая ее, получим уравнение регрессии .
Уравнение регрессии статистически значимо: , , , , , .
Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объясненной вариации выросла с 27,5% до 58,7% . При этом сила влиянии количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициент регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует: .
Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц с 1 га для весенней вспашки). Частный -критерий для фактора составил 16,58, что выше табличного знамения при числе степеней свободы 1 и 22 (4,30 при ). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.
Уравнения парной регрессии по отдельным видам вспашки показывают, практически, единую меру влияния количества внесенного удобрения на урожайность:
, – при зяблевой вспашке;
, – при весенней вспашке.
Поэтому вполне реально предположить единую меру влияния данного фактора независимо от вида вспашки, что и имеет место в уравнении регрессии с фиктивной переменной. Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции оценивающий в чистом виде влияние данного фактора, составил , что несколько выше, чем аналогичный показатель для фактора , т.е. .
Частные уравнения регрессии по отдельным видам вспашки составили:
– для зяблевой вспашки;
– для весенней вспашки.
Как видим, функция урожайности для первой группы (при ) параллельна функции для второй группы, но сдвинута вверх.
Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади . При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.
При использовании трех категорий домов вводятся две фиктивные переменные: и . Пусть переменная принимает значение 1 для панельного дома и 0 для всех остальных типов домов; переменная принимает значение 1 для кирпичных домов и 0 для остальных; тогда переменные и принимают значения 0 для домов типа «хрущевки».
Предположим, что уравнение регрессии с фиктивными переменными составило:
.
Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:
· «хрущевки» – ;
· панельные – ;
· кирпичные – .
Параметры при фиктивных переменных и представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых . Параметр при (2200) означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при показывает, что в кирпичных домах цена выше в среднем на 1600 долл. при неизменной величине полезной площади по сравнению с указанным типом домов.
Пример. Рассмотрим зависимость среднего уровня квалификации рабочих от сферы применения ручного труда. Если неоднородность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассматриваемой связи признаков и , то фиктивные переменные мало изменят результаты анализа. В этом случае более результативным является построение уравнений регрессии по отдельным группам совокупности (см. таблицу).
Зависимость среднего уровня квалификации рабочих от сферы применения ручного труда
Исследуемая совокупность | Уравнение регрессии | |
Общая совокупность | 0,016 | |
с включением фиктивной переменной по видам технологий: – прогрессивная – традиционная | 0,220 | |
Частная совокупность: а) по заводам с традиционной технологией | 0,941 | |
б) по заводам с прогрессивной технологией | 0,692 |
Результаты свидетельствуют о целесообразности построения модели по отдельным частным совокупностям. Ввиду разной зависимости уровня квалификации рабочих от уровня занятости ручным трудом по заводам с традиционной и прогрессивной технологиями производства уравнение регрессии по совокупности в целом не позволило выявить наличие связи. Не улучшился результат модели и с введением фиктивной переменной, ибо этот метод предполагает равенство коэффициентов регрессии при : по частным совокупностям и возможность их замены общим коэффициентом регрессии .