Построение таблиц сопряженности признаков, кросс-табуляция (cross-tabulation)

Статистический метод, который одновременно характеризует две или больше переменных изаключается в создании таблиц сопряженности признаков, отражающих совместное распре­деление двух или больше переменных с ограниченным числом категорий или определен­ными значениями.

Кросс-табуляция представляет собой процесс объединения распределений частот значений двух или больше переменных в одну таблицу. Она объясняет, как одна переменная, например лояльность торговой марке, связана с другой переменной, такой как пол. В таблицах сопряженности признаков показывается совместное распределение значений двух или больше переменных, обладающих ограниченным числом категорий или принимающих определенные значения. Категории одной переменной помещают в таблицу так, чтобы они размещались в ней (сопрягались) в соответствии с категориями другой или другими несколькими переменными. Таким образом, распределение частот одной переменной подразделяется на группы в зависимости от категорий других переменных.

Предположим, нас интересует, действительно ли использование Internet связано с полом.] Чтобы построить таблицу сопряженности признаков, респондентов разделили в зависимости от того, сколько времени они пользуются сетью. Пользующихся Internet пять часов и меньше отнесли к мало пользующимся, а остальных — ко много. Итог процедуры кросс-табуляции приведен в табл. 15.3.

Таблица 15.3. Пол и использование Internet
Пол
Использование Internet Мужчины Женщины Итого
Мало(1) Много (2) Итого  

Кросс-табуляция предусматривает создание ячейки для каждой комбинации категорий двух переменных. Число в каждой ячейке показывает количество респондентов, давших эту комбинацию ответов. В табл. 15.3 видим, что 10 респондентов, ответивших, что они мало используют Internet — женщины. Итоговые значения таблицы показывают, что из 30 респондентов с достоверными ответами по обеим переменным 15 человек ответили, что они мало используют Internet, a 15 — много. Что касается пола, то 15 респондентов оказались женщинами, а 15 — мужчинами. Обратите внимание, что эту информацию можно было бы получить из отдельного распределения частот для каждой переменной. Таблицы кросс-табуляции также называют таблицамисопряженности признаков(contingency tables).

Таблицы сопряженности признаков (contingency tables)

Таблица кросс-табуляции состоит из ячеек, в которых приведены комбинации категорий двух переменных.

Рассматриваемые данные должны быть качественными или категориальными, по­скольку предполагается, что каждая переменная должна измеряться только по номиналь­ной шкале [7].

Таблицами сопряженности широко пользуются при проведении прикладных маркетинго­вых исследований, поскольку

• менеджеры, которые недостаточно владеют статистическими методами, легко интерпре­тируют и понимают процедуру кросс-табуляции и ее результаты;

• очевидность трактовки результатов анализа ясно свидетельствует о возможных управ­ленческих действиях;

• ряд операций кросс-табуляции позволяет лучше понять сложное явление, чем это сде­лал бы один многовариантный анализ;

• кросс-табуляция облегчает проблему разбросанных ячеек, которая затрудняет дискрет­ный многовариантный анализ;

• анализ методом кросс-табуляции прост для выполнения и поэтому обращен к исследо­вателям, менее искушенным в вопросах статистики [8].

Мы рассмотрим построение таблиц сопряженности для двух и трех переменных.

Две переменные

Кросс-табуляцию с двумя переменными можно рассматривать как двумерную. Сначала рассмотрим кросс-табуляцию данных, касающихся пола и использования Internet, представ­ленную в табл. 15.3. Связано ли использование Internet с полом? Это можно выяснить из табл. 15.3. Мы видим, что непропорционально большое количество респондентов, проводя­щих много времени в Internet, — мужчины. Лучше понять этот вопрос поможет процентное вычисление.

Исходя из того, что обе переменные подвергаются процедуре кросс-табуляции, мы можем посчитать проценты применительно к колонке (табл. 15.4) либо к строке (табл. 15.5).

Таблица 15.4. Использование Internet в зависимости от пола
Пол
Использование Internet Мужчины Женщины
Мало Много Итого 33,3% 66,7% 100,0% 66,7% 33,3% 100,0%
Таблица 15.5. Пол человека в зависимости от использования Internet
Использование Internet
Пол Мало Много Итого
Мужчины Женщины 33,3% 66,6% 66,7% 33,3% 100,0% 100,0%

Какая из этих двух таблиц полезнее? Ответ на данный вопрос зависит от того, какая пере­менная рассматривается как независимая, а какая как зависимая [9]. Общее правило, которое необходимо соблюдать, гласит —проценты необходимо вычислять для каждой категории неза­висимой переменной (так, чтобы суммарное значение категорий зависимой переменной при­менительно к каждой категории независимой переменной давало 100%). В нашем анализе пол можно рассматривать как независимую переменную, использование Internet — как зависимую, а правильный способ вычисления процентов показан в табл. 15.4. Заметим, что мужчины больше используют Internet, чем женщины. Это видно из того, что 66,7%, активно пользующихся Internet, составляют мужчины, тогда как на долю женщин в этой категории приходится всего лишь 33,3%.

Вычисление процентов в направлении зависимой переменной через независимую, как показано в табл. 15.5, бессмысленно. Табл. 15.5 подразумевает, что интенсивное пользование Internet — причина того, что такими людьми являются мужчины. Это последнее утверждение неправдоподобно. Однако, возможно, что связь между пользованием Internet и полом человека опосредована третьей переменной, например возрастом или доходом. Поэтому необходимо проверить влияние третьей переменной.

Три переменные

Часто введение третьей переменной позволяет маркетологу четче уяснить природу исходной связи между двумя переменными. Как показано на рис. 15.7, третья переменная может привести к четырем возможностям.

1. Уточнить связь, наблюдаемую между двумя исходными переменными.

2. Указать на отсутствие связи между двумя переменными, хотя первоначально связь наблюдалась. Другими словами, третья переменная покажет, что исходная связь между двумя переменными была ложной.

3. Показать некоторую связь между двумя переменными, хотя первоначально она не наблюдалась. В этом случае третья переменная показывает скрытую связь между первыми двумя переменными.

4. Не показать никаких изменений в первоначальной связи [10].

Построение таблиц сопряженности признаков, кросс-табуляция (cross-tabulation) - student2.ru

Рис. 15.7. Введение третьей переменной в кросс-табуляцию

Эти возможности объясняются на примерах, в основе которых лежит выборка в тысячу респондентов.

Уточнение исходной связи. В результате изучения связи между покупкой модной одежды и семейным положением получены данные, приведенные в табл. 15.6.

Таблица 15.6. Покупка модной одежды в зависимости от семейного положения
Семейное положение
Покупка модной одежды Женат (замужем) Не женат (не замужем)
Много Мало Итого Число респондентов 31% 69% 100% 52% 48% 100%

Респондентов поделили на две категории покупателей модной одежды: много покупающие и мало покупающие. Семейное положение тоже имело две категории: женат (замужем) либо не женат (не замужем). Как видно из табл. 15.6, в категорию лиц, покупающих много модной одежды, попали 52% несемейных респондентов и только 31% семейных. Перед тем как заклю­чить, что респонденты, не имеющие семьи, покупают больше модной одежды, чем имеющие семью, в анализ была введена третья переменная — пол.

Таблица 15.7. Связь покупки модной одежды с семейным положением
Пол
Мужской Женский
Покупка модной одежды Женат Не женат Замужем Не замужем
Много Мало Итого Число респондентов 35% 65% 100% 40% 60% !00% 25% 75% 100% 60% 40% 100%

Пол респондентов вводился в качестве третьей переменной на основании результатов предшествующего маркетингового исследования. Связь между покупкой модной одежды и се­мейным положением пересмотрена в свете третьей переменной, как показано в табл. 15.7. Что касается женщин, то из них 60% незамужних попали в категорию покупающих больше модной одежды по сравнению с 25% замужних женщин. С другой стороны, для мужчин эта разница в процентах не так велика: 40% холостых и 35% женатых попали в категорию покупателей, при­обретающих много модной одежды. Следовательно, третья переменная, уточнила связь между семейным положением и покупкой модной одежды (начальными переменными). Вероятность попадания в категорию покупателей, приобретающих много модной одежды, выше для несе­мейных респондентов по сравнению с семейными, причем она выше для женщин.

Исходная связь между двумя переменными ложна. Маркетолог проводит исследование для рекламного агентства, разрабатывающего рекламу для автомобилей стоимостью свыше 30 тысяч долларов. Он попытался проанализировать факторы, влияющие на владение дорогими автомо­билями (табл. 15.8).

Таблица 15.8. Зависимость владения дорогими автомобилями от образовательного уровня
Образование
Наличие дорогого автомобиля Выпускник колледжа Без степени колледжа
Да Нет Итого Число респондентов 32% 68% 100% 21% 79% 100%

Изтаблицы видно, что 32% выпускников колледжа имеют дорогой автомобиль, в то время как среди не окончивших колледж дорогим автомобилем владеют только 21%. Исследователь убежден, что уровень образования влияет на приобретение дорогого автомобиля. Решив, что на его покупку влияет и доход, исследователь перепроверил связь между образованием и наличием дорогого автомобиля в свете уровня доходов. Результаты приведены в табл. 15.9.

Таблица 15.9 Влияние образования и уровня дохода на наличие дорогого автомобиля
Доход
Низкий Высокий
Наличие дорогого автомобиля Образование Образование
  Колледж Нет Колледж Нет
Да Нет Итого: Число респондентов 20% 80% 100% 20% 80% 100% 40% 60% 100% 40% 60% 100%

Заметим, что процент тех, кто имеют дорогой автомобиль, среди окончивших колледж или не окончивших его одинаков для каждой из групп, разбитых по доходу. Если данные по группам с высокими и низкими доходами проверить отдельно, то связь между образованием и наличием дорогого автомобиля исчезает, а это значит, что первоначально наблюдаемая связь между этими двумя переменными была ложной.

Третья переменная показывает подавленную связь между первыми двумя переменными. Маркетолог, исследующий сферу туристических поездок за границу, предположил, что на желание путешествовать влияет возраст. Однако таблица сопряженности двух переменных (табл. 15.10) не выявила никакой связи. Когда в качестве третьей переменной ввели пол, получили данные, представленные в табл. 15.11.

Таблица 15.10. Зависимость желания совершить туристическую поездку за границу от возраста
Возраст
Желание совершить туристическую поездку за границу До 45 лет 45 и старше
Да Нет Итого Число респондентов 50% 50% 100% 50% 50% 100%
Таблица 15.11. Связь между желанием совершить туристическую поездку за границу, возрастом и полом
Пол
Желание совершить путешествие за границу Мужчины Женщины
  До 45лет 45 и старше До 45лет 45 и старше
Да Нет Итого Число респондентов 60% 40% 100% 40% 60% 100% 35% 65% 100% 65% 35% 100%

Среди мужчин до 45 лет 60% изъявили желание отправиться в турпоездку заграницу, а по­сле 45 лет — всего лишь 40%. Обратная ситуация наблюдалась для женщин: в возрасте до 45 лет желающих отправиться посмотреть мир оказалось 35%, а после 45 лет — 65%. Поскольку связь между желанием путешествовать и возрастом различна для мужчин и женщин и с противопо­ложной направленностью, связь между этими двумя переменными была скрыта, пока данные не учитывали переменную "пол, как это сделано в табл. 15.10. Но при проверке влияния пола, как показано в табл. 15.11, проигнорированная связь между желанием путешествовать и воз­растом была обнаружена для отдельных категорий: мужчин и женщин.

Никаких, изменений в первоначальной связи. В некоторых случаях третья переменная не из­меняет первоначально наблюдаемую связь, независимо от того, были ли исходные переменные взаимосвязаны. Это означает, что третья переменная никак не влияет на связь между двумя первыми переменными. Рассмотрим кросс-табуляцию двух переменных: размер семьи и часто­ту посещения ресторанов быстрого питания, представленную в табл. 15.12.

Таблица 15.12. Связь частоты посещения ресторанов быстрого питания с размером семьи
Размер семьи
Частота посещения ресторана быстрого питания Небольшая Большая  
Большая Маленькая Итого Число респондентов 65% 35% 100% 65% 35% 100%

Респондентов разделили (используя медиану) на две равные по размеру категории по 500 респондентов в каждой: небольшая и большая семья. Не наблюдалось никакой связи. Затем по этому же принципу респондентов разделили на категории: семьи с большим и малым доходом. При введении в анализ третьей переменной получили табл. 15.13. И снова не наблюдалось ни­какой связи.

Таблица 15.13. Связь частоты посещения ресторанов быстрого питания с размером семьи и уровнем дохода
Доход
Семьи с низким доходом Семьи с высоким доходом
Частота посещения ресторанов быстрого питания Малая Большая Малая Большая
Большая Маленькая Итого Число респондентов 65% 35% 100% 65% 35% 100% 65% 35% 100% 65% 35% 100%

Наши рекомендации