ПРИМЕР. Internet-революция в торговле
Многие эксперты по розничной торговле считают, что продажа товаров через Internet ре волюционизирует розничную торговлю. Рассмотрим результаты маркетингового исследова ния, в рамках которого проводился корреляционный анализ предпочтений потребителей i электронным покупкам посредством видеотекса (услуга покупки товаров на дому с помо шью компьютера). Для объяснения потребительских предпочтений были выбраны предла гаемые в литературе психографическая, демографическая и информационная переменные Исследование проводилось в Южной Флориде, где с 1983 года функционирует компании Viewtron, предлагающая видеотекс-услуги. Компания Vievttron, филиал корпорации Knight Ridder Corporation, тратит миллионы на рекламу в этой сфере услуг. Все респонденты знако мы с понятием компьютеризированной покупки товаров на дому.
Для анализа данных маркетологи воспользовались множественной регрессией. Ее обща] модель оказалась значимой при уровне значимости, равном 0,05. Одномерная проверка < помощью /-критерия показала, что следующие переменные значимы при уровне значимо сти, равном 0,05 или ниже: ценовая ориентация, пол, возраст, род деятельности, этническа) принадлежность и образование. Ни одна из трех информационных переменных (СМИ, уст ная информация, реклама) не связаны статистически значимым образом с зависимой пере менной, которой являлось предпочтение потребителей.
Полученные результаты означают, что покупать товары через Internet предпочитают бе лые, женщины, среднего возраста, хорошо образованные, руководители, и ориентированны* на цену товара. Информация такого типа представляет ценность для целевого маркетинга i сфере электронной торговли [2].
Эти примеры иллюстрируют использование регрессионного анализа для определения нез висимых переменных, которые обуславливают статистически значимую вариацию в исследу мой зависимой переменной; установления структуры и формы взаимосвязи, силы взаимосвя: и определения предсказанных значений зависимой переменной. Главное в регрессионном ан лизе — это понять, что такое парная корреляция.
ПАРНАЯ КОРРЕЛЯЦИЯ
Часто при проведении маркетингового исследования нас интересует связь между двумя метрическими переменными, как, например, в следующих ситуациях.
• Насколько сильно связан объем продаж с расходами на рекламу?
• Существует ли связь между долей рынка и количеством торгового персонала?
• Связано ли восприятие качества товаров потребителями с их восприятием цены?
В таких ситуациях наиболее широко используемой статистикой является коэффициент парной корреляции, г (product moment correlation г), который характеризует степень тесноты связи между двумя метрическими (измеряемыми с помощью интервальной или относительной шкал) переменными, скажем, X и Y. Этот коэффициент используют, чтобы определить, существует ли между переменными линейная зависимость. Он показывает степень, в которой вариация одной переменной ^связана с вариацией другой переменной У, т.е. меру зависимости между переменными^и Y.
Коэффициент парной корреляции г (product moment correlation r)
Статистический показатель, характеризующий степень тесноты связи между двумя метрическими переменными.
Поскольку этот коэффициент первоначально предложил Карл Пирсон (Karl Pearson), его также называют коэффициентом корреляции Пирсона. Кроме того, он известен как простой коэффициент корреляции, линейный коэффициент корреляции или просто коэффициент корреляции. Имея выборку, размером п наблюдений, коэффициент парной корреляции г, для переменных Хи К можно вычислить по формуле:
Разделив числитель и знаменатель на (п — 1) получим:
В этих уравнениях X и Y обозначают выборочные средние, a. sxh Sy — соответствующие стандартные отклонения. СОУ^ представляет собой ковариацию (covariance) между А" и У, являясь мерой зависимости XnY.
Ковариация (covariance)
Систематическая взаимосвязь между двумя переменными, при которой изменение одной переменной вызывает соответствующее изменение другой переменной (COVxy).
Ковариация может быть как положительной, так и отрицательной. Деление на SxSy привс дит к нормированному виду, так что коэффициент корреляции г находится в пределах от м* нус 1 до плюс 1. Обратите внимание, что коэффициент корреляции никак не связан с един* цами измерения, в которых выражены переменные.
Предположим, что исследователь хочет выяснить, зависит ли отношение респондента к м< стожительству от длительности проживания его в этом городе. Отношение выражают в 1] балльной шкале (1 — не нравится город, 11 — очень нравится город), а продолжительное! проживания измеряют количеством лет, которые респондент прожил в этом городе. Получеь ные от 12 респондентов данные приведены в табл. 17.1.
(Таблица 17.1 Отношение респондентов к своему городу в зависимости от длительности проживания в нем
Номер респондента Отношение к городу Длительность проживания Влияние погодных условий
Коэффициент корреляции можно вычислить по формуле: | |||
— (10 + 12 + 12 + 4 + 12 + 6 + 8 + 2 + | 18 + 9 + 17 + 2) | ||
- (6 + 9 + 8 + 3 + 10 + 4 + 5 + 2 + 11 + 9 + 10 + 2) |
12 %(Х, - X )(У, - К) = (10 - 9,33) (6 - 6,58) + (12 - 9,33) (9 - 6,58)+-
+ (12 - 9,33) (8 - 6,58) + (4 - 9,33) (3 - 6,58)+ + (12 - 9,33) (10 - 6,58) + (6 - 9,33) (4 - 6,58)+ + (8 - 9,33) (5 - 6,58) + (2 - 9,33) (2 - 6,58)+ + (18 - 9,33) (11 - 6,58) + (9 - 9,33) (9 - 6,58)+ + (17 - 9,33) (10 - 6,58) + (2 - 9,33) (2 - 6,58)+ = - 0,3886 + 6,4614 + 3,7914 + 19,0814+ + 9,1314 + 8,5914 + 2,1014 + 33,5714+ + 38,3214 - 0,7986 + 26,2314 + 33,5714 = 179,6668
]Г (X, - X) = (Ю - 9,33)2 + (12 - 9,33)2 + (12 - 9,33)2 + (4 - 9,33)2
+ (12 - 9,33)2 + (6 - 9,33)2 + (8 - 9,33)2 + (2 - 9,33)2 +
+ (18 _ 9,33)2 + (9 - 9,33)2 + (17 - 9,33)2 + (2 - 9,33)2 =
= 0,4489 + 7,1289 + 7,1289 + 28,4089+
+ 7,1289 + 11,0889 + 1,7689 + 53,7289+
+ 75,1689 + 0,1089 + 58,8289 + 53,7289 = 304,6668
£(}, _у)" = (6 - 6,58)2 + (9 - 6,58)2 + (8 - 6,58)2 + (3 - 6,58)2
+(10 - 6,58)2 + (4 - 6,58)2 + (5 - 6,58)2 + (2 - 6,58)2+
+ (11 - 6,58)2 + (9 - 6,58)2 + (10 - 6,58)2 + (2 - 6,58)2=
= 0,3364 + 5,8564 + 2,0164 + 12,8164+
+ 11,6964 + 6,6564 + 2,4964 + 20,9764 +
+ 19,5364 + 5,8564 + 11,6964 + 20,9764 = 120,9168
Таким образом
179-6668 -—
,/(304,6668)(120,9168)
В этом примере г = 0,9361, что близко к 1. Это означает, что отношение респондента к своему городу сильно зависит от времени проживания в нем. Более того, положительный знак г указывает на прямую связь (прямопропорциональную): чем дольше респондент проживает в городе, тем больше он ему нравится, и наоборот.
Так как коэффициент корреляции показывает меру, в которой вариация значений одной переменной зависит от вариации другой, то г можно выразить через разложение полной вариации (см. главу 16). Другими словами, 2 объяснимое изменение
полная вариация
55,
_ полная вариация - вариация ошибки _ полная вариация
ss v
Следовательно, г2 показывает, какая доля вариации одной переменной обусловлена вариацией другой. И г, и г2 являются симметричными показателями связи между переменными. Иначе говоря, корреляция между Хи У та же, что и корреляция между yk X. Корреляция не зависит от того, какая из переменных взята в качестве зависимой, а какая в качестве независимой. Коэффициент корреляции является мерой линейной зависимости, и он не предназначен для измерения силы связи в случае нелинейной зависимости. Таким образом, г = 0 просто означает отсутствие линейной зависимости между X и Y. Это не означает, что X и Y не взаимосвязаны. Между ними может существовать нелинейная зависимость, которую нельзя опредет лить с помощью коэффициента корреляции г (рис. 17.1).
Если коэффициент корреляции вычисляют не для выборки, а для всей генеральной совокупности, то он обозначается греческой буквой р (ро). Коэффициент г— это оценка р. Обратите внимание, что расчет г предполагает, что Хи Y— метрические переменные, кривые распределения которых имеют одинаковую форму. Если эти допущения не удовлетворяются, то значение г уменьшается и р получается недооцененным. В маркетинговых исследованиях данные, полученные с использованием относительной шкалы при небольшом числе категорий, могут не быть строго интервальными. Это приведет к снижению г и недооценке р [3].
Рис. 17. 1. Нелинейная зависимость, для которой г = 0
Статистическую значимость связи между двумя переменными, измеренную коэффицие том корреляции г, можно легко проверить. Гипотезы имеют такой вид:
Я0:р = 0
Статистику, лежащую в основе критерия для проверки гипотезы, вычисляют по формуле:
/ = j
которая имеет /-распределение с п — 2 степенями свободы [4]. Для коэффициента коррел ции, вычисленного на основе данных, приведенных в табл. 17.1, значение /-статистики равнс
Т'2
= 0,9361
12-2
______
1-(0,9361)2J
= 8,414,
а число степеней свободы —12-2=10. Из таблицы /-распределения (табл. 4 Статистическо приложения) критическое значение t-статистики для двусторонней проверки и уровне знач мости а = 0,05 равно 2,228. Следовательно, нулевую гипотезу об отсутствии связи между пер менными X и У отклоняют. Это наряду с положительным знаком коэффициента коррелят показывает, что отношение респондента к своему городу прямо пропорционально зависит продолжительности проживания его в городе. Более того, высокое значение г показывает, ч эта связь сильная.
При выполнении многомерного анализа данных часто полезно изучить простую коррел цию между каждой парой переменных. Эти результаты представляют в форме корреляционн< матрицы, которая показывает коэффициент корреляции между каждой парой данных. Обы но, рассматривают только самую нижнюю треугольную часть матрицы. Все элементы по диаг нали равны 1,00, так как переменная коррелирует сама с собой. Верхняя треугольная часть ма рицы — зеркальное отражение нижней треугольной части матрицы, поскольку г— симметри ный показатель связи между переменными. Форма корреляционной матрицы для пя' переменных от F7 до V5 представлена ниже:
V1 V2 Уз
V4
Vs
V1
0,5 0,3 0,1 0,2
0,4 0,3 0,5
0,6 0,3
0,7
Хотя матрица простых коэффициентов корреляций позволяет уяснить суть попарных связей, иногда исследователю хочется изучить связи между двумя переменными при условии управления одной или несколькими переменными. В последнем случае следует оценивать частную корреляцию.
ЧАСТНАЯ КОРРЕЛЯЦИЯ
В то время как линейный коэффициент корреляции — это показатель силы связи, описывающий линейную зависимость между двумя переменными, частный коэффициент корреляции(partial correlation coefficient) — это мера зависимости между двумя переменными при фиксированных (исключенных) или скорректированных эффектах одной или нескольких переменных.