Одномерный анализ: табулирование и представление данных
Результатом упорядочения наблюдений будет их группировка. Работать с упорядоченными данными значительно проще, чем с исходным «сырым» массивом.
Необходимость объединить значения переменной в 10—15 крупных классов-категорий часто возникает и при работе со «слишком хорошо измеренными» признаками, соответствующими шкалам интервалов или отношений (возраст, доход и т. п.). Во-первых, чрезмерное количество градаций переменной препятствует ее компактному представлению — табличному или графическому. Во-вторых, для конечной выборки обычно соблюдается следующая закономерность: число градаций (категорий) признака обратно пропорционально их заполненности.
Самым целесообразным выходом обычно оказывается перекодирование, «сжатие» исследовательской переменной. Здесь существует два основных подхода:
1) исходные градации объединяются в более крупные классы на основании каких-то содержательных соображений, причем полученные классы имеют приблизительно равную ширину (например, данные о возрасте часто перекодируют в более широкие «десятилетние» категории — 20—29 лет, 30—39 лет и т. п.);
2) решение о способе «сжатия» переменной принимают, основываясь на распределении наблюдений («случаев») по оси переменной, например, границы между «низким», «средним» и «высоким» доходом устанавливают так, чтобы в каждую категорию попало 33% наблюдений.
Стремление к компактности и «читабельности» данных не должно вести к крайностям.
Первым шагом в анализе данных всегда является построение частотных распределений для каждой изучавшейся переменной. Полученные результаты принято представлять в виде таблицы частотного распределения (или просто — таблицы распределения) для каждой существенной переменной.
Помимо табличного представления частотных распределений обычно используют и различные методы графического представления. Самый распространенный метод графического представления одномерных распределений — это гистограмма.
Если просто соединить между собой точки, соответствующие абсолютным или относительным частотам (ось ординат) для середин интервалов, мы получим так называемый полигон распределения. Эта операция, разумеется, будет иметь какой-то смысл лишь для количественных переменных, которые мы в принципе можем представить себе как непрерывные.
Какую бы форму представления данных мы ни избрали, полученное частотное распределение все еще содержит «слишком много» деталей.
Для облегчения работы с частотными распределениями, а также для обобщенного представления их характеристик, обычно используют определенные числовые значения — статистики.
Наибольшее практическое значение имеют две группы статистик: меры центральной тенденции и меры изменчивости (разброса).
Меры центральной тенденции указывают на расположение среднего, или типичного, значения признака, вокруг которого сгруппированы остальные наблюдения.
Отличие статистической трактовки среднего значения (или, точнее, мер центральной тенденции) от его «житейской» трактовки заключается прежде всего в том, что в статистике, в отличие от повседневной жизни, понятие среднего значения может быть строго задано лишь для одномерного распределения переменной-признака.
Самой простой из мер центральной тенденции является мода (Мо). Для номинальных переменных мода — это единственный способ указать наиболее типичное, распространенное значение. Мода — это такое значение в совокупности наблюдений, которое встречается чаще всего (Например, если в выборке содержится 60% православных, 30% мусульман и 10% представителей других конфессий, то модальным значением будет «православный»).
Недостатки моды:Во-первых, в распределении могут быть две и более моды (соответственно оно является бимодальным или мультимодальным). Кроме того, мода чрезвычайно чувствительна к избранному способу группировки значений переменной. Объединяя категории ответа, мы резко увеличиваем число наблюдений в отдельных категориях.Поэтому «правилом хорошего тона» при вычислении модального значения для сгруппированных количественных данных является выравнивание ширины для всех интервалов класса.
Другая мера центральной тенденции — медиана — обычно используется для ординальных переменных, т. е. таких переменных, значения которых могут быть упорядочены от меньших к большим.медиана (Md) — это значение, которое делит упорядоченное множество данных пополам, так что одна половина наблюдений оказывается меньше медианы, а другая — больше. Иными словами, медиана — это 50-й процентиль распределения. Медиану иногда называют «позиционным средним», так как она указывает именно среднюю позицию в упорядоченном ряду наблюдений.На медиану не влияют величины «крайних» очень больших или малых значений.
И все же для количественных переменных самойважной и распространенной является другая мера центральной тенденции— среднее арифметическое, которое чаще всего называют просто средним(и обозначают как ).Процедура определения среднего общеизвестна: нужно просуммировать все значения наблюдений и разделить полученную сумму на число наблюдений. В общем случае:
где Х1 ... Xi — наблюдаемые значения,
n — число наблюдений,
å — знак арифметической суммы.
Среднее обладает рядом важных свойств. В частности, если сложить все значения отклонений от среднего значения, т. е. разности между X и X1 X2 ... Xi(которые могут быть и положительными, и отрицательными), то сумма отклонений будет равна нулю. Кроме того, сумма квадратов отклонений наблюдаемых значений от их арифметического среднего меньше суммы квадратов отклонений от любой другой точки.
Выбирая меру центральной тенденции, нужно руководствоваться знанием ее свойств, общей формой распределения и, наконец, здравым смыслом. Если при взгляде на гистограмму исследователь обнаруживает, что имеет дело с унимодальным симметричным распределением (половины гистограммы слева и справа от модального значения зеркально совпадают), то среднее, медиана и мода будут равны между собой. Если речь идет о выборке из большой совокупности, где интересующая исследователя переменная-признак распределена нормально (т.е. большие и малые крайние значения встречаются редко, а средние — часто), наилучшим показателем будет среднее. Если в унимодальном распределении встречаются крайние значения, могущие значительно повлиять на среднее, нужно отдать предпочтение медиане.
Вопрос о сравнимости средних значений не так тривиален, как это может показаться. Сравнение значений средних показателей для различных выборок или для одной и той же выборки в разные моменты времени — весьма распространенный способ анализа результатов. Следует, однако, помнить о том, что заведомо некорректны сравнения различных мер центральной тенденции, например медианы и среднего. Причина здесь в том, что различные меры описывают разные характеристики распределения: медиана — среднее положение, мода — самое часто встречающееся значение и т. д.
Очевидно, важно не только знать, что типично для выборки наблюдений, но и установить, насколько выражены отклонения от типичных значений. Чтобы определить, насколько хорошо та или иная мера центральной тенденции описывает распределение, нужно воспользоваться какой-либо мерой изменчивости, разброса.
Самая грубая мера изменчивости — размах (диапазон) значений. Эта мера не учитывает индивидуальные отклонения значений, описывая лишь диапазон их изменчивости. Под размахом понимают разность между максимальным и минимальным наблюдаемым значением.
Еще одна грубая мера разброса значений — это коэффициент вариации (V), который определяется просто как процент наблюдений, лежащих вне модального интервала, т. е. процент (доля) наблюдений, не совпадающих с модальным значением. Если от модального отличаются 60% значений, то V = 60% (или V = 0,6).
Все эти меры изменчивости, как уже говорилось, можно считать скорее грубыми и приблизительными. Ни одна из них не уделяет должного внимания информации об отклонениях каждого отдельного наблюдаемого значения от среднего, хотя эта информация в большинстве случаев может быть получена из анализа распределения.
Для того чтобы вычислить значение дисперсии, нужно вычесть из каждого наблюдаемого значения среднее, возвести в квадрат все полученные отклонения, сложить квадраты отклонений и разделить полученную сумму на объем выборки.