Основные предпосылки модели парной линейной регрессии
1. Связь между переменными х, у является линейной.
2. Независимая переменная х может быть использована для прогноза у.
3. Остатки (то есть ошибки) нормально распределены.
4. Для всех данных х математическое ожидание ошибки равно нулю и дисперсия ошибки постоянна.
5. Ошибки независимы.
Задача № 1.Изучается зависимость себестоимости единицы изделия (y, тыс. руб.) от величины выпуска продукции (x, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал n = 5предприятий и получил следующие результаты (2-й и 3-й столбцы). Полагая, что между переменными x, y имеет место линейная зависимость, определим выборочное уравнение линейной регрессии. Заполним таблицу.
Номер | Выпуск продукции (тыс. шт.) x | Себестоимость единицы изделия ( тыс. руб.) y | x2 | ху |
1,9 | 3,8 | |||
1,7 | 5,1 | |||
1,8 | 7,2 | |||
1,6 | ||||
1,4 | 8,4 | |||
Сумма | 8,4 | 32,5 |
Поясним, как заполняется таблица. В 4-м столбце указаны квадраты соответствующих чисел 2-го столбца. Каждое число 2-го столбца умножаем на соответствующее число 3-го столбца и результат пишем в 5-м столбце. В последней строке указана сумма чисел соответствующего столбца.
Замечание.Вместо вычислений коэффициентов a и b по формулам можно воспользоваться соответственно статистическими функциями ОТРЕЗОК (изв_знач_y; изв_знач_x) и НАКЛОН (изв_знач_y; изв_знач_x) мастера функций fx пакета Excel. Здесь изв_знач_y и изв_знач_x – это ссылки на ячейки, содержащие значения переменных y и xсоответственно.
Обозначим через и средние значения переменных y и x соответственно.
Задача № 2.Найдем остатки ei, коэффициент корреляции Пирсона и коэффициент детерминации в примере 1.
y = 2,12 – 0,11x. Заполним таблицу.
Номер | Выпуск продукции (тыс. шт.) x | Себестоимость единицы изделия ( тыс. руб.) y | y2 | ỹ =2,12 – 0,11x | е = у – ỹ |
1,9 | 3,61 | 1,90 | 0,00 | ||
1,7 | 2,89 | 1,79 | -0,09 | ||
1,8 | 3,24 | 1,68 | 0,12 | ||
1,6 | 2,56 | 1,57 | 0,03 | ||
1,4 | 1,96 | 1,46 | -0,06 | ||
Сумма | 8,4 | 14,26 |
Поясним, как заполняется таблица. В 4-м столбце указаны квадраты соответствующих чисел 3-го столбца. Каждое число 2-го столбца подставляем в выражение 2,12 – 0,11x: и результат пишем в 5-м столбце. В 6-м столбце указана разность чисел 3-го и 5-го столбцов. В последней строке указана сумма чисел соответствующего столбца.
Это значение близко k–1, что свидетельствует об очень сильной отрицательной связи (с ростом х значения у убывают). Знаки b = –0,11 и r = –0,904 совпадают.
Коэффициент детерминации r2 = (–0,904)2 ≈ 0,817, то есть 81,7% общей вариации себестоимости y зависит от выпуска продукции х.
Наша модель не объясняет 18,3% вариации себестоимости. Эта часть вариации объясняется факторами, не включенными в модель.
Замечание. Для вычисления коэффициента корреляции Пирсона можно воспользоваться статистическими функциями ПИРСОН (массив 1; массив 2) или КОРРЕЛ (массив 1; массив 2) мастера функций fx пакета Excel. Массив 1 (х) и массив 2 (у) – это ссылки на ячейки, содержащие значения переменных. Для вычисления коэффициента детерминации можно воспользоваться статистической функцией КВПИРСОН (изв_знач_y; изв_знач_x).
Задача № 3.Найдем ожидаемое значение себестоимости y при выпуске продукции x = 5,5 тыс. шт.
y = 2,12 – 0,11x.
Тогда y(5,5) = 2,12 – 0,11 ∙ 5,5 = 1,515 тыс. руб.
Замечание. Для прогноза значений переменной у можно воспользоваться статистической функцией ТЕНДЕНЦИЯ (изв_знач_y; изв_знач_x; нов_знач_х; константа) мастера функций fx пакета Ехсе1. Нов_знач_х – это ссылка на ячейки, содержащие значения переменной x, для которых ищется прогноз. Если необязательный аргумент константа = 0, то коэффициент a = 0. По известным значениям переменных x, y функция сама подбирает уравнение прямой линии и дает прогноз. Функцию ТЕНДЕНЦИЯ можно использовать и в случае множественной линейной регрессии. Для парной линейной регрессии можно воспользоваться и статистической функцией ПРЕДСКАЗ (х;изв_знач_y; изв_знач_x), где x –это значение переменной x, для которого ищется прогноз.