Часть i. измерения и классификация
СОДЕРЖАНИЕ
ПРЕДИСЛОВИЕ.. 4
ВВЕДЕНИЕ.. 9
ЧАСТЬ I. ИЗМЕРЕНИЯ И КЛАССИФИКАЦИЯ. 19
Глава 1. ИЗМЕРЕНИЯ И ШКАЛЫ. 19
Вопросы для самостоятельной работы.. 22
Глава 2. Классификация наблюдений. Кластерный анализ. 23
ЧАСТЬ II. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ. 39
Глава 3. Задача сопоставления и сравнения. 39
3.1. Критерии различий. 39
Q - критерий Розенбаума. 40
Примеры для самостоятельного решения. 45
3.2 U- критерий Манна-Уитни. 54
Примеры для самостоятельного решения. 58
3.3. Выбор критерия различий. 64
ГЛАВА 4. ЗАДАЧА ИССЛЕДОВАНИЯ ИЗМЕНЕНИЙ. 64
Критерии изменений. 64
4.1 G – критерий знаков. 65
Примеры для самостоятельного решения. 67
4.2. T – критерий Вилкоксона. 75
Примеры для самостоятельного решения. 79
4.3 Выбор критерия оценки сдвига. 83
Глава 5. Задача выявления различий в распределении признака. 84
Критерии согласия распределений. 84
5.1. λ – критерий Колмогорова – Смирнова. 84
Примеры для самостоятельного решения. 88
5.2. χ2 – критерий Пирсона. 92
Примеры для самостоятельного решения. 99
Глава 6. Многофункциональные статистические критерии. 101
6.1. φ* – критерий Фишера. 101
Примеры для самостоятельного решения. 104
6.2 Биноминальный m – критерий. 106
Примеры для самостоятельного решения. 109
6.3 Классификация задач и непараметрических методов их решения. 110
ЧАСТЬ III. ПАРАМЕТРИЧЕСКИЕ МЕТОДЫ. 111
Глава 7. Однофакторный дисперсионный анализ. 111
Глава 8. Анализ и моделирование парной корреляционной связи. 118
8.1 Назначение корреляционного анализа. 119
Свойства выборочного коэффициента корреляции: 120
8.2. Регрессионный анализ. 124
8.3. Ранговая корреляция. 129
ЗАКЛЮЧЕНИЕ.. 133
Литература. 136
ПРЕДИСЛОВИЕ
Применение математических методов в экономике, социологии, психологии позволяет на базе реальных статистических данных строить, анализировать и совершенствовать модели реальных процессов, количественно оценивать и сравнивать различные явления, делает обозримыми длинные словесные описания, проясняет мысль. В частности, одним из важнейших направлений, в котором используются методы математической статистики, является построение обоснованных прогнозов будущих событий по различным статистическим показателям. Социологические процессы выражаются в массовых, а не в единичных фактах. Именно массовость этих явлений требует применения статистических методов исследования и статистических показателей, характеризующих массовые случайные явления и связи между ними – средних величин, характеристик распределения, корреляции, динамики и структуры массовых явлений. Поэтому основой используемых в социологии математических методов служит математическая статистика.
В связи с демократизацией общественных процессов в России к середине 90-ых годов прошлого века актуальной социально-политической задачей становится анализ общественного мнения с целью оптимальной организации федеральных и региональных избирательных компаний. Другой, не менее важной, задачей является получение объективной информации о предпочтениях покупателей потребительских рынков в условиях конкуренции производителей. Решение этих проблем на современном уровне невозможно без использования методов математической статистики для анализа социума.
Результаты исследования, полученные с помощью математических методов – это не строго подлежащая исполнению «инструкция», а лишь общие указания о путях и методах возможных решений практических задач. Изучившему их специалисту самому придется решать, насколько в реальной обстановке применима та или иная методика, насколько полна и надежна имеющаяся информация, какими требованиями науки можно поступиться, а какими нельзя пренебречь ни в коем случае.
В настоящее время имеется достаточное количество публикаций по этим проблемам в различных пособиях по социальным исследованиям, в том числе и в учебно-методических изданиях. Однако, как правило, эти издания не учитывают реальные учебные планы обучения студентов вузов по социологическим специальностям. Настоящее пособие должно помочь тем, кто осваивает этот раздел методов математической обработки данных.
За основу пособия принят материал курсов лекций, читаемых в Российском государственном социальном университете. По каждой теме после необходимого минимума теоретических сведений подробно разбираются примеры, затем приводятся задачи для самостоятельного решения. Лекционная практика показала, что рассмотрение реальных исследований в качестве учебных примеров слишком сложно для понимания студентами. Поэтому в настоящем пособии примеры, с помощью которых демонстрируется сущность математических методов, специально были составлены с приданием этим примерам правдоподобной окраски. В тоже время приводится информация о некоторых реальных социологических исследованиях, которые проводились в России со ссылкой на литературу, которую можно рекомендовать студентам для самостоятельного изучения.
Предполагается, что студенты, изучающие методы математической обработки данных в экономике, социологии, психологии уже прослушали курс теории вероятностей и математической статистики, поэтому во введении приводятся лишь необходимые для понимания последующего материала основные понятия математической статистики. В первой главе описаны основные шкалы измерения социологических данных. Глава вторая посвящена одному из методов классификации статистической информации – методу кластерного анализа. Главы с третьей по шестую посвящены непараметрическим методам, которые, по мнению зарубежных и отечественных социологов, при работе с реальными социологическими и социально-экономическими данными дают гораздо более надежные результаты. В главе седьмой рассматривается однофакторный дисперсионный анализ. Глава восьмая посвящена вопросам парной линейной регрессии. Представлен фундаментальный метод оценки параметров уравнения регрессии – метод наименьших квадратов. Кроме того, рассмотрен метод ранговой корреляции.
Автор глубоко благодарен декану факультета информационных технологий-профессору Галине Севастьяновне Жуковой за создание на кафедре атмосферы дружеской поддержки и высоких интеллектуалных требований.
Автор признателен за помощь и поддержку в работе сотрудникам кафедры математики и информатики Д.В. Хакимовой, к.э.н. С.Н. Бойкову, а также своей дочери к.м.н. С.В. Ломидзе.
Автор выражает благодарность студентам кафедры социологии РГСУ, которые принимали активное участие в составлении примеров для этого пособия.
ВВЕДЕНИЕ
Методической основой математической статистики являются законы теории вероятностей. Правомерность их использования доказана законом больших чисел, который является связующим звеном между теорией вероятностей как математической наукой и закономерностями случайных явлений при массовых наблюдениях над ними. Теоремы, являющиеся различными формами закона больших чисел устанавливают факт асимптотического приближения средних характеристик массовых случайных явлений при большом числе опытов к некоторым определенным постоянным. Этот факт позволяет уверенно оперировать с этими величинами, предсказывать результаты массовых случайных явлений почти с полной определенностью. Например, теорема Бернулли устанавливает тот факт, что при неограниченном увеличении числа опытов n частота события А сходится по вероятности к его вероятности Р. Теорема Бернулли обосновывает статистическое определение вероятности, заключающееся в том, что вероятность события А – постоянная величина, вокруг которой колеблются значения частот m/n при неограниченном возрастании числа n.
Условия теорем закона больших чисел сводятся к требованию большой серии независимых и однородных наблюдений. Любые социальные системы по своей природе являются стохастическими. Серьезные объемы выборочных данных и независимость наблюдений в прикладной социологии обеспечиваются.
Основные понятия математической статистики
Генеральной совокупностью называется полное множество объектов, свойства которых интересуют исследователя. Генеральная совокупность может быть очень большой, поэтому с целью экономии времени и материальных ресурсов случайным образом производят выборку из генеральной совокупности.
Выборка – это часть генеральной совокупности, подмножество статистических данных, свойства которых реально изучаются. Пусть некоторый признак генеральной совокупности описывается случайной величиной . Рассмотрим выборку объема из генеральной совокупности. Элементы этой выборки представляют собой значения случайной величины . На первом этапе статистической обработки производят упорядочивание чисел по возрастанию. Различные элементы выборки называются вариантами.
Частотой варианты называется число , которое показывает, сколько раз эта варианта встречается в выборке.
Относительной частотой называется число . Число называется накопленной частотой, а отношение накопленной частоты к общему числу наблюдений - накопленной относительной частотой.
Эмпирической функцией распределения называется функция, значение которой в точке равно накопленной частоте, т.е. .
Основной характеристикой вариационного ряда является его средняя выборочная
.
Мода случайной величины – это ее наиболее вероятное значение. В социологических исследованиях часто мода показательнее, чем среднее выборочное в тех случаях, когда необходимо знать наиболее типичное значение признака, а не его усредненное значение.
Выборочной дисперсией называется средняя арифметическая квадратов отклонений вариант от их выборочной средней
.
Выборочное среднее квадратическое отклонение определяется как корень из дисперсии:
.
Средняя выборочная, выборочная дисперсия, выборочное среднее квадратическое отклонение называются точечными статистическими оценками параметров и дают лишь приближенные значения этих параметров. Чтобы получить представление о точности и надежности этих оценок, используют интервальные оценки.
Интервальной оценкой любого параметра генеральной совокупности называется интервал (α, β), который с заданной вероятностью γ «накрывает» истинное неизвестное значение параметра генеральной совокупности. Этот интервал называется доверительным интервалом, а вероятность γ доверительной вероятностью или уровнем надежности. Обычно доверительный интервал симметричен относительно точечной оценки параметра и имеет вид: , то есть неравенства < < выполняются с вероятностью γ.
В этих неравенствах точечная оценка параметра, - истинное значение параметра генеральной совокупности.
Наибольшее отклонение ε выборочного значения параметра от его истинного значения для генеральной совокупности называется предельной ошибкой выборки.
Доверительный интервал уровня надежности γ для генеральной средней М имеет вид
< Μ < ,
где ε - предельная ошибка выборки, зависящая от γ и вычисляемая по формуле в случае, если известно среднее квадратическое отклонение σ, то t вычисляется из условия Ф(t)=γ, где Ф(t)-функция Лапласа, в случае если среднее квадратическое отклонение неизвестно, то ε вычисляется по формуле
. Здесь S определяют по выборочным данным, а t в этом случае находят в таблице распределения Стьюдента по известным значениям γ, n.
По известным из литературы [6, 7] формулам доверительный интервал можно определить для любого параметра генеральной совокупности.
Функцией распределения случайной величины называется функция , равная при каждом вероятности того, что в результате испытания примет значение, меньшее : .
Функция распределения случайной величины , распределенной по равномерному закону на отрезке , имеет вид: .
Очень важным в статистических исследованиях является нормальный закон распределения. Функция распределения нормальной случайной величины для выборки с параметрами и связаны с функцией Лапласа соотношением:
.
Значения функции Лапласа затабулированы (см. приложение, таблица 11)
Для решения статистических задач используются специальные распределения случайных величин, сконструированных на основе нормального распределения, но при этом закон распределения зависит только от объема выборки и от вида распределения случайной величины , и не зависит от неизвестных параметров этого распределения. Такими распределениями являются распределение , распределение Стьюдента, распределение Фишера. Эти распределения приведены в статистических таблицах 12, 13, 14 в приложении.
Как оценить свойства генеральной совокупности, зная эти свойства для выборки? С этой целью проводят проверку статистических гипотез. Статистической гипотезой называется предположение исследователя о свойствах распределения вероятностей, лежащих в основе наблюдаемых явлений. По своему содержанию статистические гипотезы можно разделить на несколько основных типов:
1. Гипотезы о виде закона распределения случайностей. 2. Гипотезы о числовых значениях параметров случайных величин. 3. Гипотезы о принадлежности некоторого признака к тому или иному классу. 4. Гипотезы об общем виде модели, описывающей статистическую зависимость между признаками.
Гипотеза является основной в том смысле, что нам было бы желательно убедиться в ее справедливости. Гипотезе противопоставляют гипотезу , которую называют альтернативной.
Вероятность отвергнуть гипотезу , если она верна (т.е. принять гипотезу ) называется вероятностью ошибки первого рода или уровнем значимости и обозначается : .
Величина , равная вероятности принять верную гипотезу, называется доверительной вероятностью, отражает степень уверенности исследователя в том, что выдвинутая им основная гипотеза верна.
Вероятность принять основную гипотезу, если она неверна, называется ошибкой второго рода и обозначается : .
Вероятность принять гипотезу , если она верна, называется мощностью критерия .
Правило , по которому принимается или отвергается гипотеза, называется критерием. Процедура построения критерия происходит следующим образом. По результатам обработки данных выборки определяется величина, которую будем называть эмпирическим значением статистического критерия. Алгоритм вычисления эмпирического значения критерия зависит от типа решаемой задачи. Но в любом случае статистический критерий является такой случайной величиной, чтобы в случае, если гипотеза верна, закон распределения был бы известным. Распределения критериев, используемых в описываемых в настоящем издании статистических методах, приведены в приложении. Таким образом, для проверки статистической гипотезы сначала по выборочным данным вычисляется эмпирическое значение критерия , имеющее известное распределение, затем задается доверительная вероятность (или уровень значимости ) для принятия гипотезы, и, наконец, делаются выводы о справедливости гипотезы .
Схема проверки статистической гипотезы не дает точного вывода о ее верности или неверности, так как принятие решения происходит на некотором (субъективно) принятом уровне надежности и основывается на значениях конечной выборки. Принятие гипотезы означает, что на принятом уровне надежности гипотеза не противоречит имеющимся у нас выборочным данным. По значениям α и n в соответствующих решаемой задаче таблицах находят значение величины, которую называют критическим значением критерия. По соотношению статистического и критического значений критерия можно судить о том, подтверждается или опровергается нулевая гипотеза . Правила принятия или опровержения приведены в описании каждого из представленных в пособии критериев.
Признаками называют те свойства выборки, которые интересуют исследователя. Уровень признака – это количественно измеренное значение признака. Именно эти значения и являются элементами выборки, которые подвергаются статистической обработке. Используемые при этом статистические критерии делят на параметрические и непараметрические.
Параметрические критерии включают в формулу расчета параметры распределения признака (средние и дисперсии) и позволяют прямо оценить различия в параметрах двух выборок, при этом параметрические критерии следует применять только тогда, когда известно или доказано, что значения признака распределены по нормальному закону.
Непараметрические критерии не включают в формулу расчета средние значения и дисперсию, не требуют проверки совпадения эмпирического распределения признака с нормальным законом распределения. С их помощью можно ответить на вопрос, чаще ли в выборке А встречаются более высокие значения, а в выборке В – более низкие значения признака. Они позволяют также оценить различия в диапазонах изменения признака, выявить тенденции в изменении признака при переходе от условия к условию. Большинство непараметрических критериев не требуют длительных и сложных расчетов. И в социологических исследованиях их использование занимает значительное место. Методы, которые рассматриваются в главах 3-6, являются непараметрическими, что значительно расширяет их возможности по сравнению с традиционными параметрическими методами. Некоторые из методов могут быть применимы по отношению к любым данным, имеющим хоть какое-то числовое выражение.
ЧАСТЬ I. ИЗМЕРЕНИЯ И КЛАССИФИКАЦИЯ.