Производные величины для определения коэффициента корреляции
Показатель | n | х | у | ху | ||
Первый | ||||||
Второй | ||||||
Третий | ||||||
Четвертый | ||||||
Пятый | ||||||
Шестой | ||||||
Седьмой | ||||||
Итого: | 37 042 | 22 418 |
Рассчитаем коэффициент корреляции:
r= =
= =
= .
Полученное значение коэффициента корреляции достаточно трудно истолковать, поскольку оно является промежуточным между единицей и нулем, т.е. между высокой корреляцией и ее отсутствием. При выборке 50 пар значений коэффициент корреляции, равный 0,35, будет иметь большую значимость, чем 0,63 при выборке 10 пар.
Рассчитаем коэффициент детерминации:
= 0,4704*0,4704=0,2212 = 22,12%.
Следовательно, более 22% изменений в выручке от продаж связаны с изменениями в расходах на рекламу.
Показатели тесноты связи, исчисленные по данным сравнительно небольшой статистической совокупности, могут искажаться действием случайных причин, что вызывает необходимость проверки их существенности, дающей возможность распространять выводы по результатам выборки на генеральную совокупность.
Для оценки значимости линейного коэффициента корреляции используют t- критерий Стьюдента.
При линейной однофакторной связи t- критерий можно рассчитать по формуле:
,
где (n-2)- число степеней свободы[1] при заданном уровне значимости[2] и объеме выборки n.
Полученное значение сравнивают с табличным значением t-критерия (по таблице Стьюдента)с учетом принятого уровня значимости ( ) и числом степеней свободы . В социально- экономических исследованиях уровень значимости обычно принимают равным 0,05. Параметр признается значимым (существенным) при условии, если > . В таком случае практически невероятно, что найденное значение параметра обусловлено только случайными совпадениями.
Например:Так, для коэффициента корреляции между выручкой от продаж и затратами на рекламу получим:
=0,4704 1,2.
Это значительно меньше критического значения t для n-2=5 степеней свободы и ( =2,571), что свидетельствует о несущественности связи между выручкой и затратами на рекламу.
5.2. Однофакторный регрессионный анализ
Важнейшим этапом построения регрессионной модели (уравнения регрессии) является установление в анализе исходной информации математической функции. Сложность заключается в том, что из множества функций необходимо найти такую, которая лучше других выражает реально существующие связи между анализируемыми признаками.
Аналитически связь между результативным и факторным признаками может описываться уравнениями:
прямой ;
параболы + ;
гиперболы и т.д,
где, - теоретические значения результативного признака, полученные по уравнению регрессии;
- коэффициенты (параметры) уравнения регрессии.
Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о наличии линейной связи между ними, а при обратной связи - гиперболической. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная функция.
Параметры уравнения находятся методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т.е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных от выровненных :
min.
Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
;
{
.
Решим эту систему в общем виде:
; .
Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:
, или ;
.
Определив значения и подставив их в уравнение связи , находим значения , зависящие только от заданного значения х. В некоторых случаях эти расчеты могут быть использованы при прогнозировании.
Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n<30) осуществляют с помощью t- критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t- критерия:
для параметра
;
для параметра
,
где n- объем выборки;
- среднее квадратическое отклонение результативного признака у от выровненных значений ;
или - среднее квадратическое отклонение факторного признака х от общей средней .
Например: Рассмотрим построение однофакторного уравнения регрессии зависимости производительности труда у от стажа работы х по данным табл.3.
Таблица 3