Перекрестная группировка, среднее значение, дисперсия. Их назначение
ГРУППИРОВКА – элементарная процедура упорядочения имеющихся в распоряжении исследователя данных. Различают два вида группировки – простую и перекрёстную. Простая группировка представляет собой упорядочение данных по одному признаку. Связывание данных при этом осуществляется в соответствии с индикативным признаком, который в явном виде содержит главное содержание исследовательской гипотезы.
Перекрестная группировка (или перекрестная классификация) — это связывание данных предварительно упорядоченных по двум признакам (свойствам, показателям) с целью:
1) обнаружить какие-то взаимозависимости, 2) осуществить взаимоконтроль показателей (например, ответов на основной и контрольный вопросы), 3)сформировать новый составной показатель (индекс) на основе совмещения двух свойств или состояний объекта, определить направление связей влияния одного явления (характеристики, свойства) на другое.
Перекрестная классификация (группировка) производится в таблицах, где указывается наименование таблицы (какие признаки, свойства сопрягаются) и общая численность включенных в группировку объектов.
Одна из задач перекрестной классификации — поиск устойчивых связей, выявляющих структурные свойства изучаемого явления. Например, можно выявить типические соотношения возрастов мужей и жен.
Типичный случай использования перекрестной группировки - поиск тенденции, динамики процесса.
Примером простой группировки потребителей, например, может быть их группировка по половому признаку – на мужчин и женщин. Если этих же потребителей сгруппировать по другому признаку, например по признаку принадлежности (или непринадлежности) к учащимся, будет получено две группы – учащиеся и неучащиеся. Перекрёстную группировку можно осуществить, если использовать эти два признака – половой признак и признак принадлежности к учащимся. Легко убедиться в том, что применение такой перекрёстной группировки позволяет выделить четыре группы потребителей: 1) потребителей мужского пола, которые где-либо учатся; 2) потребителей мужского пола, которые нигде не учатся;3) потребителей женского пола, которые где-либо учатся; 4) потребителей женского пола, которые нигде не учатся.
Среднее значение:
То, какие величины можно применять для оценки средних параметров, а какие нельзя, зависит от типа шкалы. Оценку средних параметров еще называют измерением центральной тенденции. Эта задача, наряду с оценкой разброса значений, входит в раздел описательной статистики и является одним из первых шагов при обработке социологического опроса.
При номинальной шкале измерения мы можем лишь указать наиболее популярный ответ. Наиболее популярный ответ называется модой. Моду можно вычислить и при любой шкале. Однако это будет иметь смысл делать только тогда, когда число опрошенных значительно больше, чем число вариантов ответов.
мода – это вариант ответа, а не число человек, которые выбрали этот вариант. Мод может быть несколько.
Если шкала порядковая, то помимо моды можно вычислить также медиану. Медиана – это ответ, стоящий в середине упорядоченной выборки. Медиана – это вариант ответа, а не то, сколько раз этот ответ встречается в выборке. Медиану можно вычислить и при интервальных шкалах, поскольку эти шкалы также позволяют расположить ответы в порядке возрастания. Для номинальной шкалы вычислить медиану нельзя!
Для интервальных (метрических) шкал оценкой средних параметров является среднее арифметическое значение. Оно равно сумме всех значений, деленной на число этих значений:
Среднее арифметическое более точно отражает средние параметры выборки, чем медиана, поскольку медиана не учитывает величины отклонений отдельных измерений от средних показателей. Ни для порядковой шкалы, ни для номинальной шкалы среднее арифметическое значение вычислить нельзя. Ведь сумма значений для этих шкал не имеет смысла, даже если ее можно формально вычислить, просуммировав коды ответов.
Помимо оценки средних показателей выборки необходимо оценить, насколько сильно могут отличаться данные отдельных респондентов от этих средних показателей.
Мерами разброса для интервальной шкалы служат дисперсия и стандартное отклонение.
Разброс характеризуется отклонениями экспериментальных значений xi от среднего значения.
Сумма всех отклонений всегда равна 0, поэтому средняя величина отклонения не может быть взята за меру разброса. Используют средний квадрат отклонения, который называют дисперсией.
Неудобством использования дисперсии является то, что если, например, рост измеряется в сантиметрах, среднее значение роста – в сантиметрах, то дисперсия по росту будет иметь размерность квадратных сантиметров. Поэтому для оценки разброса значений чаще используют не дисперсию, а квадратный корень из дисперсии, называемый стандартным отклонением, или среднеквадратичным отклонением.