Анализ одномерных распределений.
Зачастую анализ графиков и таблиц не даёт достаточных сведений для решения исследовательских задач, и приходится прибегать к статистике. Статистика с этой точки зрения – это количественные значения, которые оценивают распределения градаций или взаимосвязи между переменными. Даёт нам возможность визуально и с большой точностью оценить, что показывают (а иногда – что не показывают) данные.
Для описания распределения признаков по значениям одной переменной используют два типа статистических процедур. Первый – измерение средней арифметической величины признака, тенденции (средние значения ряда) – помогает нам выявить наиболее типичные значения, одно или несколько, которые наилучшим способом представляют весь комплекс признаков по этой переменной.
А насколько правильно эти усредненные признаки отражают распределение свойств всех единиц массива по данной переменной можно показать используя другой тип статистических расчетов – дисперсию. Измеряя дисперсию, мы узнаем, как колеблется (варьирует) отклонение от того среднего значения, которое мы нашли, в каких случаях можно быть уверенным, что наше среднее значимо, и не является ли отклонение настолько большим, что наиболее типичный признак на самом деле не является репрезентативным для всей совокупности.
Каждое измерение средней арифметической должно быть взвешено или оценено сопутствующим измерением дисперсии. И еще (мы обсудим это позже): всегда, когда мы имеем дело с расчетами, каждое измерение взаимосвязей между двумя переменными следует сопровождать измерением статистической значимости, т.е. следует обозначить, насколько точно найденные величины представляют существенные связи между данными переменными.
Любое измерение средней тенденции и дисперсии основано на общей оценке градаций переменных и единиц массива, которая называется частотным распределением – это упорядоченный подсчет количества признаков по каждому значению какой-либо переменной. Здесь исследователь просто перечисляет все значения переменной и показывает, сколько имеется случаев каждого значения. Используя эту информацию, можно выделить наиболее типичный случай и определить его репрезентативность.
X,— значения признака; ∑ — сумма; N — число респондентов. При обработке данных массовых опросов чаще используется взвешенная арифметическая:
где X, — числовое значение i-й позиции признака, Ni,- число респондентов, выделенных по Ni позиции признака, N - общее число респондентов.
Для номинального уровня измерения (например, поддержки того или иного политического объединения), где цифры не связаны с порядком расположения категорий (а потому использование средней арифметической лишено смысла), для измерения средней тенденции используют моду. Мода — наиболее часто встречающееся значение признака в серии зарегистрированных наблюдений. Возможно унимодальное, бимодальное или многомодальное распределение признака. Определение моды в номинальных и порядковых рядах распределения не вызывает сложностей. В интервальном ряду говорят не о нахождении моды, а об определении модального интервала. Для этого переходят от деления на интервалы, основанного на содержательном критерии, к делению на интервалы по формальным критериям. Значение моды для интервального ряда (с равными интервалами) определяется по формуле
где Хо - нижняя граница модального интервала; δ — величина интервала; n mo —частота модального класса; n- — частота интервала, предшествовавшего модальному; п+ — частота интервала, следующего за модальным.
Недостатки моды: а) невозможность использовать ее в дальнейших вычислениях; б) вероятность существования нескольких модальных величин в вариационном ряду; в) зависимость ее величины от интервала группировки.
Для оценки дисперсии (разброса) номинальных данных используют коэффициент вариации. Он показывает процентную долю всех признаков, которые не входят в модальную категорию.
Для измерения среднего значения порядковых и интервальных данных чаще всего используют медиану. Для номинальных этот показатель шкал не используется. Медиана — значение среднего признака в упорядоченном (ранжированном по возрастанию или убыванию признака) ряду, причем до и после него находится равное число наблюдений.
(например, при 1001 наблюдении медианой будет величина 501-го наблюдения).
При числе наблюдений, равном 1000, медиана рассчитывается как средняя арифметическая 500-го и 501-го наблюдения:
где Хо — нижняя граница медианного интервала; δ — величина интервала; пмo — частота (относительная) медианного интервала; п — сумма частот (относительных частот) интервалов; nh — частота (относительная), накопленная до медианного интервала.
14. Анализ «поведения» динамических рядов
При анализе динамических рядов эмпирическая кривая распределения строится по конкретным значениям признака. На рисунке изображен динамический ряд ¾ изменение коэффициента рождаемости за сто лет в некоторой стране X. По горизонтали обозначены 10 точек, каждая из которых соответствует пятилетнему интервалу. По вертикали отложены значения коэффициента рождаемости в среднем за соответствующую пятилетку. Пример модельный. Мы не знаем, какая это страна и какое это столетие.
Все рассмотренные выше меры центральной тенденции могут использоваться и для анализа временных рядов. Если изменения значения признака наблюдаются (как в нашем случае), то основным вопросом при анализе временных рядов является его «выравнивание» и определение «тренда», т. е. кривой, характеризующей общую тенденцию изменения признака, т. е. закон поведения коэффициента рождаемости. Другими словами, появляется необходимость в описании эмпирической кривой с помощью математической функции или определение теоретического закона распределения, максимально приближенного к эмпирической кривой. Только после определения тренда можно предсказать значение признака в следующих временных точках. Кстати сказать, найти закон не всегда удается. Тогда анализ проводится по отдельным частям эмпирической кривой распределения.
Если на эмпирической кривой распределения наблюдаются цикличности, то выравнивание заменяется сглаживанием «скользящей средней» из значений, число которых охватывает цикл. Можно изучать и «лаги». «Лаг» ¾ показатель опережения или отставания одного явления (в нашем случае коэффициента рождаемости) от другого. Например, от мероприятий, принятых для повышения рождаемости.
Существует целая область науки, которая занимается проблемами анализа динамических рядов. В социологии такие ряды встречаются при работе с первым из пяти выделенных нами типов информации, а именно с государственной статистикой. В основном с временными рядами работают специалисты в области анализа социальных систем и социальной демографии.