Поиск закономерностей для качественных данных. Анализ «хи-квадрат»

Критерий хи-квадрат используют для проверки гипотез о качественных данных, представленных не числами, а категориями. Здесь принято оперировать подсчетом частоты (поскольку ранжирование или арифметические действия выполнять невозможно).

Критерий (тест) «хи-квадрат» основан на частотах, которые представляют собой количество объектов выборки, попадающих в ту или иную категорию. Суть показателя хи-квадрат (χ2): он измеряет разницу между наблюдаемыми (экспериментальными) частотами fЭ и ожидаемыми (теоретическими) частотами fТ. Конкретно он рассчитывается как сумма квадратов разности этих частот, выраженная в долях частоты теоретической. Это утверждение можно записать следующим образом:

Поиск закономерностей для качественных данных. Анализ «хи-квадрат» - student2.ru

Использование этого статистического подхода рассмотрим на следующем примере.

Мы решили провести маркетинговое исследование, чтобы уяснить, какую марку минеральной воды предпочитают мужчины и женщины. Для каждой покупки фиксировались две качественные переменные – марка воды и пол покупателя. В качестве продаваемой воды фигурировали «Нарзан», «Ессентуки» и «Тагарская».

Полученные данные статистического опроса представлены в табличной форме (табл.4), в которой для каждого вида минеральной воды указано количество совершаемых покупок тем или иным покупателем.

Необходимо дать заключение по итогам статистической проверки по критерию «хи-квадрат», т.е. сформулировать вывод и пояснить результат с практической точки зрения – определить, какую рыночную стратегию необходимо принять, т.е., на какого покупателя и на какую марку минеральной воды необходимо ориентироваться.

Таблица 4.– Экспериментальные данные о результатах опроса

посетителей аптеки

Марка воды Частота предпочтений Итого
Мужчины Женщины
Нарзан
Ессентуки
Тагарская
Итого

Чисто визуально трудно ответить, есть ли взаимосвязь между этими признаками: разными категориями покупателей и марками минеральной воды. Поэтому необходимо дать анализ распределения частот в таблице по строкам и графам.

При этом исходят из следующего положения. Если признак, положенный в основу группировки по строкам (марка минеральной воды), не зависит от признака, положенного в основу группировки по столбцам (пол покупателя), то в каждой строке (столбце) распределение частот должно быть пропорционально распределению их в итоговой строке (столбце). Такое распределение можно рассматривать как теоретическое (ожидаемое), частоты которого рассчитаны в предположении отсутствия связи между изучаемыми совокупностями.

Рассчитаем ожидаемые частоты внутри таблицы пропорционально распределению частот в итоговой строке.

Так, «Нарзан» как одна из марок минеральной воды в зависимости от поведения посетителей аптеки по частоте попадания в категории «Мужчины» и «Женщины» имеет следующие показатели:

Поиск закономерностей для качественных данных. Анализ «хи-квадрат» - student2.ru ; Поиск закономерностей для качественных данных. Анализ «хи-квадрат» - student2.ru

Для второй строки, т.е. для воды «Ессентуки», эти показатели имеют следующие значения:

Поиск закономерностей для качественных данных. Анализ «хи-квадрат» - student2.ru ; Поиск закономерностей для качественных данных. Анализ «хи-квадрат» - student2.ru

Для третей строки – категория «Тагарская»:

Поиск закономерностей для качественных данных. Анализ «хи-квадрат» - student2.ru ; Поиск закономерностей для качественных данных. Анализ «хи-квадрат» - student2.ru

Полученные результаты поместим в таблицу 5.

Таблица 5. – Теоретические данные о результатах опроса

посетителей аптеки

Марка воды Частота предпочтений Итого
Мужчины Женщины
Нарзан 27,7 25,3
Ессентуки 28,8 26,2
Тагарская 23,5 21,5
Итого

Наши рекомендации