Определение и интерпретация связей между двумя переменными
Очень часто маркетолог ищет ответы на вопросы типа: «Увеличится ли показатель рыночной доли при увеличении числа дилеров?», «Есть ли связь между объемом сбыта и рекламой?» Такие связи не всегда имеют причинно-следственный характер, а могут иметь просто статистическую природу. В поставленных вопросах можно определенно говорить о влиянии одного фактора на другой. Однако степень влияния изучаемых факторов может быть различной; скорее всего, влияние могут оказывать также какие-то другие факторы. Выделяют четыре типа связей между двумя переменными: немонотонная, монотонная, линейная и криволинейная.
Немонотонная связь характеризуется тем, что присутствие (отсутствие) одной переменной систематически связано с присутствием (отсутствием) другой переменной, но ничего неизвестно о направлении этого взаимодействия (приводит ли, например, увеличение одной переменной к увеличению или уменьшению другой). Например, известно, что посетители закусочных в утренние часы предпочитают заказывать кофе, а в середине дня — чай.
Немонотонная связь просто показывает, что утренние посетители предпочитают также заказывать яйца, бутерброды и бисквиты, а в обеденное время скорее заказывают мясные блюда с гарниром.
Монотонная связь характеризуется возможностью указать только общее направление связи между двумя переменными без использования каких-либо количественных характеристик. Нельзя сказать, насколько, например, определенное увеличение одной переменной приводит к увеличению другой переменной. Существуют только два типа таких связей: увеличение и уменьшение. Например, владельцу обувного магазина известно, что более взрослые дети обычно требуют обувь бoльших размеров. Однако невозможно четко установить связь между конкретным возрастом и точным размером обуви.
Линейная связь характеризует прямолинейную зависимость между двумя переменными. Знание количественной характеристики одной переменной автоматически предопределяет знание величины другой переменной:
у=а+bх, (4.3)
где у — оцениваемая или прогнозируемая зависимая переменная (результативный признак);
а — свободный член уравнения;
b — коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения — вариация у, приходящаяся на единицу вариации х;
х — независимая переменная (факторный признак), используемая для определения зависимой переменной.
Коэффициенты а и b рассчитываются на основе наблюдений величин у и х с помощью метода наименьших квадратов [10].
Предположим, что торговый агент продает детские игрушки, посещая квартиры случайным образом. Отсутствие посещения какой-то квартиры означает отсутствие продажи, или а = 0. Если в среднем каждый десятый визит сопровождается продажей на 62 доллара, то стоимость продажи на один визит составит 6,2 доллара, или b = 6,2.
Тогда
у=0 + 6,2х.
Таким образом, можно ожидать, что при 100 визитах доход составит 620 долларов. Надо помнить, что эта оценка не является обязательной, а носит вероятностный характер.
Криволинейная связь характеризует связь между переменными, носящую более сложный характер по сравнению с прямой линией. Например, связь между переменными может описываться 5-образной кривой (см. раздел 7.3).
В зависимости от своего типа связь может быть охарактеризована путем определения: ее присутствия (отсутствия), направления и силы (тесноты) связи.
Присутствие характеризует наличие или отсутствие систематической связи между двумя изучаемыми переменными; оно имеет статистическую природу. Проведя испытание статистической значимости, определяют, существует ли зависимость между данными. Если результаты исследования отвергают нулевую гипотезу, это говорит о том, что зависимость между данными существует.
В случае монотонных линейных связей последние могут быть описаны с точки зрения их направления — в сторону увеличения или уменьшения.
Связь между двумя переменными может быть сильной, умеренной, слабой или отсутствовать. Сильная зависимость характеризуется высокой вероятностью существования связи между двумя переменными, слабая — малой вероятностью.
Существуют специальные процедуры для определения указанных выше характеристик связей. Первоначально надо решить, какой тип связей может существовать между двумя изучаемыми переменными. Ответ на этот вопрос зависит от выбранной шкалы измерений.
Шкала низкого уровня (наименований) может отразить только неточные связи, в то время как шкала отношений, или интервальная, — очень точные связи. Определив тип связи (монотонная, немонотонная), надо установить, существует ли эта связь для генеральной совокупности в целом. Для этого проводятся статистические испытания.
После того как найдено, что для генеральной совокупности существует определенный тип связи, устанавливается ее направление. Наконец, необходимо установить силу (тесноту) связи.
Для определения, существует или нет немонотонная зависимость, используется таблица сопряженности двух переменных и критерий хи-квадрат. Как правило, критерий хи-квадрат применяется для анализа таблиц сопряженности номинальных признаков, однако он может использоваться и при анализе взаимосвязи порядковых, или интервальных, переменных. Если, скажем, было выяснено, что две переменные не связаны друг с другом, то их дальнейшим исследованием заниматься не стоит. Некоторые указания на связь скорее были обусловлены ошибкой выборки. Если же тест на хи-квадрат указал на связь, то она существует в реальности для генеральной совокупности и ее, возможно, следует изучать. Однако этот анализ не указывает на характер связи.
Предположим, что изучалась лояльность к определенной марке пива среди служащих и рабочих (двумя переменными, измеренными в шкале наименований). Результаты опроса затабулированы в следующем виде (табл. 4.16).
Таблица 4.16
Матрицы сопряженности частоты
Результаты первоначальной табуляции
Первоначальные процентные данные (деление на 200)
Проценты по колонкам
Проценты по рядам | |||
Покупатели | Непокупатели | Сумма | |
Служащие | 95% (152) | 5% (8) | 100%(160) |
Рабочие | 35% (14) | 65%(26) | 100%(40) |
Сумма | 83%(166) | 17%(34) | 100%(200) |
Первая из приведенных матриц содержит наблюдаемые частоты, которые сравниваются с ожидаемыми частотами, определяемыми как теоретические частоты, вытекающие из принимаемой гипотезы об отсутствии связи между двумя переменными (выполняется нулевая гипотеза). Величина отличия наблюдаемых частот от ожидаемых выражается с помощью величины х-квадрата. Последняя сравнивается с ее табличным значением для выбранного уровня значимости. Когда величина хи-квадрата мала, то нулевая гипотеза принимается, а следовательно, считается, что две переменные являются независимыми и исследователю не стоит тратить время на выяснение связи между ними, поскольку связь является результатом выборочной ошибки.
Вернемся к нашему примеру и рассчитаем ожидаемые частоты, пользуясь таблицей частот:
=
где fni — наблюдаемая частота в ячейке i;
fai — ожидаемая частота в ячейке i;
n — число ячеек матрицы.
Из таблицы критических значений х-квадрата вытекает, что для степени свободы, равной в нашем примере 1, и уровня значимости альфа =0,05 критическое значение х-квадрата равно 3,841 [25]. Видно, что расчетное значение х-квадрата существенно больше его критического значения. Это говорит о существовании статистически значимой связи между родом деятельности и лояльностью к исследованной марке пива, и не только для данной выборки, но и для совокупности в целом. Из таблицы следует, что главная связь заключается в том, что рабочие покупают пиво данной марки реже по сравнению со служащими.
Теснота связи и ее направление определяются путем расчета коэффициента корреляции, который изменяется от -1 до +1. Абсолютная величина коэффициента корреляции характеризует тесноту связи, а знак указывает на ее направление [10].
Вначале определяется статистическая значимость коэффициента корреляции. Безотносительно к его абсолютной величине коэффициент корреляции, не обладающий статистической значимостью, бессмыслен. Статистическая значимость проверяется с помощью нулевой гипотезы, которая констатирует, что для совокупности коэффициент корреляции равен нулю. Если нулевая гипотеза отвергается, это означает, что коэффициент корреляции для выборки является значимым и его значение для совокупности не будет равно нулю. Существуют таблицы, с помощью которых, для выборки определенного объема, можно определить наименьшую величину значимости для коэффициента корреляции.
Далее, если коэффициент корреляции оказался статистически значимым, с помощью некоторого общего правила «большого пальца» определяется сила связи (табл. 4.17).
Таблица 4.17
Сила связи в зависимости от величины коэффициента корреляции
Коэффициент корреляции | Сила связи |
От±0, 81 до±1,00 | Сильная |
От ±0,61 до ±0, 80 | Умеренная |
От±0,41 до±0,6 | Слабая |
От ±0,21 до ±0,4 | Очень слабая |
От±0,00до ±0,19 | Отсутствует |
Рассмотрим пример. Исследуется возможная взаимосвязь между суммарными продажами компании на отдельных двадцати территориях и числом сбытовиков, осуществляющих эти продажи. Были рассчитаны средние величины продаж и средние квадратические отклонения. Средняя величина продаж составила 200 миллионов долларов, а среднее квадратическое отклонение — 50 миллионов долларов. Среднее число сбытовиков равнялось 12 при среднем квадратическом отклонении, равном 4. Для стандартизации полученных чисел в целях проведения унифицированных сравнений объемы продаж в каждом регионе переводятся в величины средних квадратических отклонений от средней величины для всех регионов (путем вычитания объема продаж для каждого региона из среднего для регионов объема продаж и деления полученных величин на среднее квадратическое отклонение). Такие же расчеты проводятся и для сбытовиков, обслуживающих разные регионы (рис. 4.7). Из рис. 4.7 видно, что две линии изменяются подобным образом. Это говорит о положительной, очень тесной связи двух исследуемых переменных.
Рис. 4.7. Корреляция между числом сбытовиков и объемами продаж
Исходные данные в рассматриваемом примере также возможно представить по-другому (рис. 4.8). Из рис. 4.8 вытекают относительно слабый разброс точек (если бы все они легли на одну линию, коэффициент корреляции был бы равен +1) и достаточно большой угол наклона воображаемой кривой, проведенной через эти точки, что говорит о сильном влиянии численности сбытовиков на объем продаж.
Число сбытовиков
Рис. 4.8. Зависимость объема продаж от числа сбытовиков
Данные результаты можно получить также расчетным методом, используя уравнение прямой линии, рассмотренное нами ранее, и используя различные аналитические методы, в частности метод наименьших квадратов.
Для определения тесноты связи переменных, измеренных в шкале рангов, используются коэффициенты корреляции рангов. В разделе для определения степени согласованности экспертов используется коэффициент ранговой корреляции Кендэла.