Парная регрессия на основе метода наименьших квадратов и группировки
Парная регрессия- регрессия между двумя переменными у и х, т.е. модель вида: у = f (x)+E, где у- зависимая переменная (результативный признак); x - независимая, обьясняющая переменная (признак-фактор); E- возмущение, или стохастическая переменная, включающая влияние неучтенных факторов в модели. В случае парной линейной зависимости строится регрессионная модель по уравнению линейной регрессии. Параметры этого уравнения оцениваются с помощью процедур, наибольшее распространение получил метод наименьших квадратов.
Метод наименьших квадратов (МНК) - метод оценивания параметров линейной регрессии, минимизирующий сумму квадратов отклонений наблюдений зависимой переменной от искомой линейной функции.
где уi- статические значения зависимой переменной; f (х) - теоретические значения зависимой переменной, рассчитанные с помощью уравнения регрессии.
Экономический смысл параметров уравнения линейной парной регрессии. Параметр b показывает среднее изменение результата у с изменением фактора х на единицу. Параметр а = у, когда х = 0. Если х не может быть равен 0, то а не имеет экономического смысла. Интерпретировать можно только знак при а: если а > 0. то относительное изменение результата происходит медленнее, чем изменение фактора, т. е. вариация результата меньше вариации фактора: V < V. и наоборот.
То есть МНК заключается в том, чтобы определить а и а, так, чтобы сумма квадратов разностей фактических у и у. вычисленных по этим значениям a0 и а1 была минимальной:
Рассматривая эту сумму как функцию a0 и a1дифференцируем ее по этим параметрам и приравниваем производные к нулю, получаем следующие равенства:
n - число единиц совокупности (заданны параметров значений x и у). Это система «нормальных» уравнений МНК для линейной функции (yx)
Расчет параметров уравнения линейной регрессии:
, a = y – bx
Нахождение уравнения регрессии по сгруппированным данным.Если совокупность сгруппирована по признаку x, для каждой группы найдены средние значения другого признака у, то эти средние дают представление о том, как меняется в среднем у в зависимости от х. Поэтому группировкаслужит средством анализа связи в статистике. Но ряд групповых средних уx имеет тот недостаток, что он подвержен случайным колебаниям. Они создают колебания уx отражающие не закономерность данной зависимости, а затушевывающий ее «шум».
Групповые средние хуже отражают закономерность связи, чем уравнение регрессии, но могут быть использованы в качестве основы для нахождения этого уравнения. Умножая численность каждой группы nч на групповую среднюю уч мы получим сумму у в пределах группы Суммируя эти суммы, найдем общую сумму у. Несколько сложнее с суммой ху. Если при сумме ху интервалы группировки малы, то можно считать значение x для всех единиц в рамках группы одинаковым Умножив на него суммуу, получим сумму произведений x на у в рамках группы и, суммируя эти суммы, общую суммуxу. Численность nx, здесь играет такую же роль, как взвешивание в вычислении средних.