Часть i. измерения и классификация

СОДЕРЖАНИЕ

ПРЕДИСЛОВИЕ.. 4

ВВЕДЕНИЕ.. 9

ЧАСТЬ I. ИЗМЕРЕНИЯ И КЛАССИФИКАЦИЯ. 19

Глава 1. ИЗМЕРЕНИЯ И ШКАЛЫ. 19

Вопросы для самостоятельной работы.. 22

Глава 2. Классификация наблюдений. Кластерный анализ. 23

ЧАСТЬ II. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ. 39

Глава 3. Задача сопоставления и сравнения. 39

3.1. Критерии различий. 39

Q - критерий Розенбаума. 40

Примеры для самостоятельного решения. 45

3.2 U- критерий Манна-Уитни. 54

Примеры для самостоятельного решения. 58

3.3. Выбор критерия различий. 64

ГЛАВА 4. ЗАДАЧА ИССЛЕДОВАНИЯ ИЗМЕНЕНИЙ. 64

Критерии изменений. 64

4.1 G – критерий знаков. 65

Примеры для самостоятельного решения. 67

4.2. T – критерий Вилкоксона. 75

Примеры для самостоятельного решения. 79

4.3 Выбор критерия оценки сдвига. 83

Глава 5. Задача выявления различий в распределении признака. 84

Критерии согласия распределений. 84

5.1. λ – критерий Колмогорова – Смирнова. 84

Примеры для самостоятельного решения. 88

5.2. χ2 – критерий Пирсона. 92

Примеры для самостоятельного решения. 99

Глава 6. Многофункциональные статистические критерии. 101

6.1. φ* – критерий Фишера. 101

Примеры для самостоятельного решения. 104

6.2 Биноминальный m – критерий. 106

Примеры для самостоятельного решения. 109

6.3 Классификация задач и непараметрических методов их решения. 110

ЧАСТЬ III. ПАРАМЕТРИЧЕСКИЕ МЕТОДЫ. 111

Глава 7. Однофакторный дисперсионный анализ. 111

Глава 8. Анализ и моделирование парной корреляционной связи. 118

8.1 Назначение корреляционного анализа. 119

Свойства выборочного коэффициента корреляции: 120

8.2. Регрессионный анализ. 124

8.3. Ранговая корреляция. 129

ЗАКЛЮЧЕНИЕ.. 133

Литература. 136

ПРЕДИСЛОВИЕ

Применение математических методов в экономике, социологии, психологии позволяет на базе реальных статистических данных строить, анализировать и совершенствовать модели реальных процессов, количественно оценивать и сравнивать различные явления, делает обозримыми длинные словесные описания, проясняет мысль. В частности, одним из важнейших направлений, в котором используются методы математической статистики, является построение обоснованных прогнозов будущих событий по различным статистическим показателям. Социологические процессы выражаются в массовых, а не в единичных фактах. Именно массовость этих явлений требует применения статистических методов исследования и статистических показателей, характеризующих массовые случайные явления и связи между ними – средних величин, характеристик распределения, корреляции, динамики и структуры массовых явлений. Поэтому основой используемых в социологии математических методов служит математическая статистика.

В связи с демократизацией общественных процессов в России к середине 90-ых годов прошлого века актуальной социально-политической задачей становится анализ общественного мнения с целью оптимальной организации федеральных и региональных избирательных компаний. Другой, не менее важной, задачей является получение объективной информации о предпочтениях покупателей потребительских рынков в условиях конкуренции производителей. Решение этих проблем на современном уровне невозможно без использования методов математической статистики для анализа социума.

Результаты исследования, полученные с помощью математических методов – это не строго подлежащая исполнению «инструкция», а лишь общие указания о путях и методах возможных решений практических задач. Изучившему их специалисту самому придется решать, насколько в реальной обстановке применима та или иная методика, насколько полна и надежна имеющаяся информация, какими требованиями науки можно поступиться, а какими нельзя пренебречь ни в коем случае.

В настоящее время имеется достаточное количество публикаций по этим проблемам в различных пособиях по социальным исследованиям, в том числе и в учебно-методических изданиях. Однако, как правило, эти издания не учитывают реальные учебные планы обучения студентов вузов по социологическим специальностям. Настоящее пособие должно помочь тем, кто осваивает этот раздел методов математической обработки данных.

За основу пособия принят материал курсов лекций, читаемых в Российском государственном социальном университете. По каждой теме после необходимого минимума теоретических сведений подробно разбираются примеры, затем приводятся задачи для самостоятельного решения. Лекционная практика показала, что рассмотрение реальных исследований в качестве учебных примеров слишком сложно для понимания студентами. Поэтому в настоящем пособии примеры, с помощью которых демонстрируется сущность математических методов, специально были составлены с приданием этим примерам правдоподобной окраски. В тоже время приводится информация о некоторых реальных социологических исследованиях, которые проводились в России со ссылкой на литературу, которую можно рекомендовать студентам для самостоятельного изучения.

Предполагается, что студенты, изучающие методы математической обработки данных в экономике, социологии, психологии уже прослушали курс теории вероятностей и математической статистики, поэтому во введении приводятся лишь необходимые для понимания последующего материала основные понятия математической статистики. В первой главе описаны основные шкалы измерения социологических данных. Глава вторая посвящена одному из методов классификации статистической информации – методу кластерного анализа. Главы с третьей по шестую посвящены непараметрическим методам, которые, по мнению зарубежных и отечественных социологов, при работе с реальными социологическими и социально-экономическими данными дают гораздо более надежные результаты. В главе седьмой рассматривается однофакторный дисперсионный анализ. Глава восьмая посвящена вопросам парной линейной регрессии. Представлен фундаментальный метод оценки параметров уравнения регрессии – метод наименьших квадратов. Кроме того, рассмотрен метод ранговой корреляции.

Автор глубоко благодарен декану факультета информационных технологий-профессору Галине Севастьяновне Жуковой за создание на кафедре атмосферы дружеской поддержки и высоких интеллектуалных требований.

Автор признателен за помощь и поддержку в работе сотрудникам кафедры математики и информатики Д.В. Хакимовой, к.э.н. С.Н. Бойкову, а также своей дочери к.м.н. С.В. Ломидзе.

Автор выражает благодарность студентам кафедры социологии РГСУ, которые принимали активное участие в составлении примеров для этого пособия.

ВВЕДЕНИЕ

Методической основой математической статистики являются законы теории вероятностей. Правомерность их использования доказана законом больших чисел, который является связующим звеном между теорией вероятностей как математической наукой и закономерностями случайных явлений при массовых наблюдениях над ними. Теоремы, являющиеся различными формами закона больших чисел устанавливают факт асимптотического приближения средних характеристик массовых случайных явлений при большом числе опытов к некоторым определенным постоянным. Этот факт позволяет уверенно оперировать с этими величинами, предсказывать результаты массовых случайных явлений почти с полной определенностью. Например, теорема Бернулли устанавливает тот факт, что при неограниченном увеличении числа опытов n частота события А сходится по вероятности к его вероятности Р. Теорема Бернулли обосновывает статистическое определение вероятности, заключающееся в том, что вероятность события А – постоянная величина, вокруг которой колеблются значения частот m/n при неограниченном возрастании числа n.

Условия теорем закона больших чисел сводятся к требованию большой серии независимых и однородных наблюдений. Любые социальные системы по своей природе являются стохастическими. Серьезные объемы выборочных данных и независимость наблюдений в прикладной социологии обеспечиваются.

Основные понятия математической статистики

Генеральной совокупностью называется полное множество объектов, свойства которых интересуют исследователя. Генеральная совокупность может быть очень большой, поэтому с целью экономии времени и материальных ресурсов случайным образом производят выборку из генеральной совокупности.

Выборка – это часть генеральной совокупности, подмножество статистических данных, свойства которых реально изучаются. Пусть некоторый признак генеральной совокупности описывается случайной величиной часть i. измерения и классификация - student2.ru . Рассмотрим выборку часть i. измерения и классификация - student2.ru объема часть i. измерения и классификация - student2.ru из генеральной совокупности. Элементы этой выборки представляют собой значения случайной величины часть i. измерения и классификация - student2.ru . На первом этапе статистической обработки производят упорядочивание чисел часть i. измерения и классификация - student2.ru по возрастанию. Различные элементы выборки называются вариантами.

Частотой варианты часть i. измерения и классификация - student2.ru называется число часть i. измерения и классификация - student2.ru , которое показывает, сколько раз эта варианта встречается в выборке.

Относительной частотой называется число часть i. измерения и классификация - student2.ru . Число часть i. измерения и классификация - student2.ru называется накопленной частотой, а отношение накопленной частоты к общему числу наблюдений часть i. измерения и классификация - student2.ru - накопленной относительной частотой.

Эмпирической функцией распределения часть i. измерения и классификация - student2.ru называется функция, значение которой в точке часть i. измерения и классификация - student2.ru равно накопленной частоте, т.е. часть i. измерения и классификация - student2.ru .

Основной характеристикой вариационного ряда является его средняя выборочная

часть i. измерения и классификация - student2.ru .

Мода случайной величины – это ее наиболее вероятное значение. В социологических исследованиях часто мода показательнее, чем среднее выборочное в тех случаях, когда необходимо знать наиболее типичное значение признака, а не его усредненное значение.

Выборочной дисперсией называется средняя арифметическая квадратов отклонений вариант от их выборочной средней

часть i. измерения и классификация - student2.ru .

Выборочное среднее квадратическое отклонение определяется как корень из дисперсии:

часть i. измерения и классификация - student2.ru .

Средняя выборочная, выборочная дисперсия, выборочное среднее квадратическое отклонение называются точечными статистическими оценками параметров и дают лишь приближенные значения этих параметров. Чтобы получить представление о точности и надежности этих оценок, используют интервальные оценки.

Интервальной оценкой любого параметра часть i. измерения и классификация - student2.ru генеральной совокупности называется интервал (α, β), который с заданной вероятностью γ «накрывает» истинное неизвестное значение параметра генеральной совокупности. Этот интервал называется доверительным интервалом, а вероятность γ доверительной вероятностью или уровнем надежности. Обычно доверительный интервал симметричен относительно точечной оценки параметра часть i. измерения и классификация - student2.ru и имеет вид: часть i. измерения и классификация - student2.ru , то есть неравенства часть i. измерения и классификация - student2.ru < часть i. измерения и классификация - student2.ru < часть i. измерения и классификация - student2.ru выполняются с вероятностью γ.

В этих неравенствах часть i. измерения и классификация - student2.ru точечная оценка параметра, часть i. измерения и классификация - student2.ru - истинное значение параметра генеральной совокупности.

Наибольшее отклонение ε выборочного значения параметра от его истинного значения для генеральной совокупности называется предельной ошибкой выборки.

Доверительный интервал уровня надежности γ для генеральной средней М имеет вид

часть i. измерения и классификация - student2.ru < Μ < часть i. измерения и классификация - student2.ru ,

где ε - предельная ошибка выборки, зависящая от γ и вычисляемая по формуле часть i. измерения и классификация - student2.ru в случае, если известно среднее квадратическое отклонение σ, то t вычисляется из условия Ф(t)=γ, где Ф(t)-функция Лапласа, в случае если среднее квадратическое отклонение неизвестно, то ε вычисляется по формуле

часть i. измерения и классификация - student2.ru . Здесь S определяют по выборочным данным, а t в этом случае находят в таблице распределения Стьюдента по известным значениям γ, n.

По известным из литературы [6, 7] формулам доверительный интервал можно определить для любого параметра генеральной совокупности.

Функцией распределения случайной величины часть i. измерения и классификация - student2.ru называется функция часть i. измерения и классификация - student2.ru , равная при каждом часть i. измерения и классификация - student2.ru вероятности того, что часть i. измерения и классификация - student2.ru в результате испытания примет значение, меньшее часть i. измерения и классификация - student2.ru : часть i. измерения и классификация - student2.ru .

Функция распределения случайной величины часть i. измерения и классификация - student2.ru , распределенной по равномерному закону на отрезке часть i. измерения и классификация - student2.ru , имеет вид: часть i. измерения и классификация - student2.ru .

Очень важным в статистических исследованиях является нормальный закон распределения. Функция распределения нормальной случайной величины часть i. измерения и классификация - student2.ru для выборки с параметрами часть i. измерения и классификация - student2.ru и часть i. измерения и классификация - student2.ru связаны с функцией Лапласа соотношением:

часть i. измерения и классификация - student2.ru .

Значения функции Лапласа затабулированы (см. приложение, таблица 11)

Для решения статистических задач используются специальные распределения случайных величин, сконструированных на основе нормального распределения, но при этом закон распределения зависит только от объема выборки часть i. измерения и классификация - student2.ru и от вида распределения случайной величины часть i. измерения и классификация - student2.ru , и не зависит от неизвестных параметров этого распределения. Такими распределениями являются распределение часть i. измерения и классификация - student2.ru , распределение Стьюдента, распределение Фишера. Эти распределения приведены в статистических таблицах 12, 13, 14 в приложении.

Как оценить свойства генеральной совокупности, зная эти свойства для выборки? С этой целью проводят проверку статистических гипотез. Статистической гипотезой называется предположение исследователя о свойствах распределения вероятностей, лежащих в основе наблюдаемых явлений. По своему содержанию статистические гипотезы можно разделить на несколько основных типов:

1. Гипотезы о виде закона распределения случайностей. 2. Гипотезы о числовых значениях параметров случайных величин. 3. Гипотезы о принадлежности некоторого признака к тому или иному классу. 4. Гипотезы об общем виде модели, описывающей статистическую зависимость между признаками.

Гипотеза часть i. измерения и классификация - student2.ru является основной в том смысле, что нам было бы желательно убедиться в ее справедливости. Гипотезе часть i. измерения и классификация - student2.ru противопоставляют гипотезу часть i. измерения и классификация - student2.ru , которую называют альтернативной.

Вероятность отвергнуть гипотезу часть i. измерения и классификация - student2.ru , если она верна (т.е. принять гипотезу часть i. измерения и классификация - student2.ru ) называется вероятностью ошибки первого рода или уровнем значимости и обозначается часть i. измерения и классификация - student2.ru : часть i. измерения и классификация - student2.ru .

Величина часть i. измерения и классификация - student2.ru , равная вероятности принять верную гипотезу, называется доверительной вероятностью, отражает степень уверенности исследователя в том, что выдвинутая им основная гипотеза верна.

Вероятность принять основную гипотезу, если она неверна, называется ошибкой второго рода и обозначается часть i. измерения и классификация - student2.ru : часть i. измерения и классификация - student2.ru .

Вероятность принять гипотезу часть i. измерения и классификация - student2.ru , если она верна, называется мощностью критерия часть i. измерения и классификация - student2.ru .

Правило часть i. измерения и классификация - student2.ru , по которому принимается или отвергается гипотеза, называется критерием. Процедура построения критерия происходит следующим образом. По результатам обработки данных выборки определяется величина, которую будем называть эмпирическим значением статистического критерия. Алгоритм вычисления эмпирического значения критерия зависит от типа решаемой задачи. Но в любом случае статистический критерий является такой случайной величиной, чтобы в случае, если гипотеза часть i. измерения и классификация - student2.ru верна, закон распределения был бы известным. Распределения критериев, используемых в описываемых в настоящем издании статистических методах, приведены в приложении. Таким образом, для проверки статистической гипотезы часть i. измерения и классификация - student2.ru сначала по выборочным данным вычисляется эмпирическое значение критерия часть i. измерения и классификация - student2.ru , имеющее известное распределение, затем задается доверительная вероятность часть i. измерения и классификация - student2.ru (или уровень значимости часть i. измерения и классификация - student2.ru ) для принятия гипотезы, и, наконец, делаются выводы о справедливости гипотезы часть i. измерения и классификация - student2.ru .

Схема проверки статистической гипотезы часть i. измерения и классификация - student2.ru не дает точного вывода о ее верности или неверности, так как принятие решения происходит на некотором (субъективно) принятом уровне надежности и основывается на значениях конечной выборки. Принятие гипотезы означает, что на принятом уровне надежности гипотеза часть i. измерения и классификация - student2.ru не противоречит имеющимся у нас выборочным данным. По значениям α и n в соответствующих решаемой задаче таблицах находят значение величины, которую называют критическим значением критерия. По соотношению статистического и критического значений критерия можно судить о том, подтверждается или опровергается нулевая гипотеза часть i. измерения и классификация - student2.ru . Правила принятия или опровержения часть i. измерения и классификация - student2.ru приведены в описании каждого из представленных в пособии критериев.

Признаками называют те свойства выборки, которые интересуют исследователя. Уровень признака – это количественно измеренное значение признака. Именно эти значения и являются элементами выборки, которые подвергаются статистической обработке. Используемые при этом статистические критерии делят на параметрические и непараметрические.

Параметрические критерии включают в формулу расчета параметры распределения признака (средние и дисперсии) и позволяют прямо оценить различия в параметрах двух выборок, при этом параметрические критерии следует применять только тогда, когда известно или доказано, что значения признака распределены по нормальному закону.

Непараметрические критерии не включают в формулу расчета средние значения и дисперсию, не требуют проверки совпадения эмпирического распределения признака с нормальным законом распределения. С их помощью можно ответить на вопрос, чаще ли в выборке А встречаются более высокие значения, а в выборке В – более низкие значения признака. Они позволяют также оценить различия в диапазонах изменения признака, выявить тенденции в изменении признака при переходе от условия к условию. Большинство непараметрических критериев не требуют длительных и сложных расчетов. И в социологических исследованиях их использование занимает значительное место. Методы, которые рассматриваются в главах 3-6, являются непараметрическими, что значительно расширяет их возможности по сравнению с традиционными параметрическими методами. Некоторые из методов могут быть применимы по отношению к любым данным, имеющим хоть какое-то числовое выражение.

ЧАСТЬ I. ИЗМЕРЕНИЯ И КЛАССИФИКАЦИЯ.

Наши рекомендации