Одномерный анализ: табулирование и представление данных

Результатом упорядочения наблюдений будет их группировка. Работать с упорядоченными данными значительно проще, чем с исходным «сырым» массивом.

Необходимость объединить значения переменной в 10—15 крупных классов-категорий часто возникает и при работе со «слишком хорошо измеренными» признаками, соответствующими шкалам интервалов или отношений (возраст, доход и т. п.). Во-первых, чрезмерное количество градаций переменной препят­ствует ее компактному представлению — табличному или графическому. Во-вторых, для конечной выборки обычно соблюдается следующая закономер­ность: число градаций (категорий) признака обратно пропорционально их за­полненности.

Самым целесообразным выходом обычно оказывается перекодирование, «сжатие» исследовательской переменной. Здесь существует два основных подхода:

1) исходные градации объединяются в более крупные классы на основа­нии каких-то содержательных соображений, причем полученные классы имеют приблизительно равную ширину (например, данные о возрасте часто перекодируют в более широкие «десятилетние» категории — 20—29 лет, 30—39 лет и т. п.);

2) решение о способе «сжатия» переменной принимают, основываясь на рас­пределении наблюдений («случаев») по оси переменной, например, границы между «низким», «средним» и «высоким» доходом устанавливают так, что­бы в каждую категорию попало 33% наблюдений.

Стремление к компактности и «читабельности» данных не должно вести к край­ностям.

Первым шагом в анализе данных всегда является постро­ение частотных распределений для каждой изучавшейся переменной. Полу­ченные результаты принято представлять в виде таблицы частотного распреде­ления (или просто — таблицы распределения) для каждой существенной переменной.

Помимо табличного представления частотных распределений обычно исполь­зуют и различные методы графического представления. Самый распространен­ный метод графического представления одномерных распределений — это гис­тограмма.

Если просто соединить между собой точки, соответствующие абсолютным или относительным частотам (ось ординат) для середин интервалов, мы получим так называемый полигон распределения. Эта операция, разумеется, будет иметь какой-то смысл лишь для количественных переменных, которые мы в принци­пе можем представить себе как непрерывные.

Какую бы форму представления данных мы ни избрали, полученное частотное распределение все еще содержит «слишком много» деталей.

Для облегчения работы с частотными распределениями, а также для обобщенного пред­ставления их характеристик, обычно используют определенные числовые зна­чения — статистики.

Наибольшее практическое значение имеют две группы статистик: меры цент­ральной тенденции и меры изменчивости (разброса).

Меры центральной тенденции указывают на расположение среднего, или ти­пичного, значения признака, вокруг которого сгруппированы остальные наблю­дения.

Отличие статистической трактовки среднего значения (или, точнее, мер цент­ральной тенденции) от его «житейской» трактовки заключается прежде всего в том, что в статистике, в отличие от повседневной жизни, понятие среднего зна­чения может быть строго задано лишь для одномерного распределения пере­менной-признака.

Самой простой из мер центральной тенденции является мода (Мо). Для номи­нальных переменных мода — это единственный способ указать наиболее ти­пичное, распространенное значение. Мода — это такое значение в совокупнос­ти наблюдений, которое встречается чаще всего (Например, если в выборке содержится 60% православных, 30% мусульман и 10% представителей других конфессий, то модальным значением будет «православный»).

Недостатки моды:Во-первых, в распределении могут быть две и более моды (со­ответственно оно является бимодальным или мультимодальным). Кроме того, мода чрезвы­чайно чувствительна к избранному способу группировки значений переменной. Объединяя категории ответа, мы резко увеличиваем число наблюдений в от­дельных категориях.Поэтому «правилом хорошего тона» при вычислении модального значения для сгруппированных количественных дан­ных является выравнивание ширины для всех интервалов класса.

Другая мера центральной тенденции — медиана — обычно используется для ординальных переменных, т. е. таких переменных, значения которых могут быть упорядочены от меньших к большим.медиана (Md) — это зна­чение, которое делит упорядоченное множество данных пополам, так что одна половина наблюдений оказывается меньше медианы, а другая — боль­ше. Иными словами, медиана — это 50-й процентиль распределения. Медиану иногда назы­вают «позиционным средним», так как она указывает именно среднюю по­зицию в упорядоченном ряду наблюдений.На медиану не влияют величины «крайних» очень больших или малых значений.

И все же для количественных переменных самойважной и распространен­ной является другая мера центральной тенденции— среднее арифметическое, которое чаще всего называют просто средним(и обозначают как Одномерный анализ: табулирование и представление данных - student2.ru ).Процедура определения среднего общеизвестна: нужно просуммировать все значения наблюдений и разделить полученную сумму на число наблюдений. В общем случае:

Одномерный анализ: табулирование и представление данных - student2.ru

где Х1 ... Xi — наблюдаемые значения,

n — число наблюдений,

å — знак арифметической суммы.

Среднее обладает рядом важных свойств. В частности, если сложить все значения отклонений от среднего значения, т. е. разности между X и X1 X2 ... Xi(которые могут быть и положительными, и отрицательными), то сумма отклонений будет равна нулю. Кроме того, сумма квадратов отклонений наблюдаемых значений от их арифметического среднего меньше суммы квадратов отклонений от любой другой точки.

Выбирая меру центральной тенденции, нужно руководствоваться знанием ее свойств, общей формой распределения и, наконец, здравым смыслом. Если при взгляде на гистограмму исследователь обнаруживает, что имеет дело с унимо­дальным симметричным распределением (половины гистограммы слева и справа от модального значения зеркально совпадают), то среднее, медиана и мода бу­дут равны между собой. Если речь идет о выборке из большой совокупности, где интересующая исследователя переменная-признак распределена нормаль­но (т.е. большие и малые крайние значения встречаются редко, а средние — часто), наилучшим показателем будет среднее. Если в унимодальном распреде­лении встречаются крайние значения, могущие значительно повлиять на сред­нее, нужно отдать предпочтение медиане.

Вопрос о сравнимости средних значений не так тривиален, как это может пока­заться. Сравнение значений средних показателей для различных выборок или для одной и той же выборки в разные моменты времени — весьма распростра­ненный способ анализа результатов. Следует, однако, помнить о том, что заведомо некорректны сравнения различных мер центральной тенденции, например ме­дианы и среднего. Причина здесь в том, что различные меры описывают раз­ные характеристики распределения: медиана — среднее положение, мода — са­мое часто встречающееся значение и т. д.

Очевидно, важно не только знать, что типично для выборки наблюдений, но и установить, насколько выражены отклонения от типичных значений. Чтобы определить, насколько хорошо та или иная мера центральной тенденции опи­сывает распределение, нужно воспользоваться какой-либо мерой изменчивос­ти, разброса.

Самая грубая мера изменчивости — размах (диапазон) значений. Эта мера не учитывает индивидуальные отклонения значений, описывая лишь диапазон их изменчивости. Под размахом понимают разность между максимальным и ми­нимальным наблюдаемым значением.

Еще одна грубая мера разброса значений — это коэффициент вариации (V), который определяется просто как процент наблюдений, лежащих вне модаль­ного интервала, т. е. процент (доля) наблюдений, не совпадающих с модальным значением. Если от модального отличаются 60% значений, то V = 60% (или V = 0,6).

Все эти меры изменчивости, как уже говорилось, можно считать скорее грубы­ми и приблизительными. Ни одна из них не уделяет должного внимания инфор­мации об отклонениях каждого отдельного наблюдаемого значения от средне­го, хотя эта информация в большинстве случаев может быть получена из анали­за распределения.

Одномерный анализ: табулирование и представление данных - student2.ru

Для того чтобы вычислить значение дисперсии, нужно вычесть из каждого наблюдаемого значения среднее, возвести в квадрат все полученные откло­нения, сложить квадраты отклонений и разделить полученную сумму на объем выборки.

Наши рекомендации