Тема 1. Статистические методы в социологии
Тема 1. Статистические методы в социологии
Cоциология предполагает изучение множества отдельных единиц совокупности и их свойств, а также выявление на их основе существенных черт и взаимосвязей изучаемых явлений и их закономерностей во времени и пространстве. Выявление закономерностей, присущих изучаемым явлениям, позволяет определить их уровень, рассмотреть структуру, определить основные тенденции развития, тем самым позволяя предотвратить возможные негативные последствия протекания этих процессов для общества. Важным принципом статистики является стремление показать явление дифференцировано, выявить особенности различных групп единиц, развивающихся в различных условиях. Статистика необходима для того, чтобы знать, для того, чтобы предвидеть, для того, чтобы действовать и проверять.
Статистика– наука, характеризующая количественную сторону качественно определенных массовых социально-экономических процессов и явлений в конкретных условиях места и времени.
Как наука, статистика представляет собой совокупность научных методов планирования эксперимента, сбора данных, их организации, представления, обобщения, анализа и интерпретации выводов изучаемого явления.
Значительная часть статистической науки основывается на теоретико-вероятностных моделях и методах, разрабатываемых математической статистикой.
Математической статистикойназывают область науки, разрабатывающей математические методы получения количественных характеристик массовых социально-экономических явлений.
Составными частями математической статистики являются описание данных, статистическое оценивание результатов исследования и проверка гипотез.
Данные – результаты наблюдений, испытаний, накапливаемые с целью их последующего изучения.
Примеры: результаты анкетирования, интервью, сведения из официальных источников
Переменная (признак) – это некоторая общая для всех изучаемых объектов характеристика или свойство, конкретные проявления которых варьируют (изменяются) от одной единицы совокупности к другой.
Проявления признака называют значениями, альтернативами, градациями.
Выбор переменных и их градаций определяется исследователем в прямой зависимости от цели исследования. Так, например, при изучении успеваемости студентов можно выделить как атрибутивные (качественные, нечисловые) признаки – успевающий и неуспевающий, так и числовые признаки – 5,4,3,2.
Статистика описывает массовые явления. Одна и та же переменная может принимать различные значения на различных объектах, поэтому говорят о распределении переменной.
Социологическое исследование предполагает несколько этапов.
Изложение теоретической модели.
Теория предполагает корректное определение изучаемых понятий и категорий, обзор публикаций и материалов предыдущих исследований, развитие предметной области.
Операционализация понятий.
Как переход от теоретических понятий и категорий к величинам, которые могут быть измерены количественно. Исследователь выделяет переменные, признаки исследуемых объектов, описывает их возможные значения, формулирует гипотезы.
Гипотеза — это научное предположение, выдвигаемое для объяснения каких-либо фактов, явлений и процессов.
Гипотезы являются важным инструментом в познании окружающей действительности, так как они могут быть проверены при помощи данных, полученных в ходе наблюдения.
Пример простейшей гипотезы – не существует связи между успеваемостью студентов и формой обучения.
При разработке системы гипотез целесообразно стремится к тому, чтобы эта система была бы связана с какой-либо теорией, принятой в социологии или вытекала из нее, для чего после определения темы исследования необходимо сделать обзор литературы. Таким образом, обзор должен стать аналитическим документом, способствующим выявлению тех проблем, которые нашли отражение в результатах предшествующих исследований (изложенных в монографиях, периодических и малотиражных изданиях, Интернет-источниках, в результатах опроса исследовательских центров, таких, как ФОМ, ВЦИОМ). В обзоре необходимо указать на расхождения в материалах разных исследований (если таковые имеются), сопоставить результаты с теоретическими разработками, выявить недостаточно изученные аспекты проблемы. Обзор литературы должен предварять формулировку гипотез.
3. Определить границы генеральной совокупности и описать ее. Выбрать такую стратегию определения выборки, которая обеспечила бы ее репрезентативность.
Сбор данных.
Таблица 1. Вид деятельности и удовлетворенность оплатой труда.
УДОВЛЕТВОРЕННОСТЬ РАЗМЕРОМ ОПЛАТЫ ТРУДА | ВИД ДЕЯТЕЛЬНОСТИ | ВСЕГО | |
РАБОЧИЙ | СЛУЖАЩИЙ | ||
Низкая | |||
Высокая | |||
ВСЕГО |
Если изучается связь между независимой и зависимой переменной, то зависимая чаще размещается в строках (удовлетворенность оплатой труда), а независимая (вид деятельности) в столбцах. Если в таблице рассчитываются проценты, то они размещаются по направлению независимой переменной.
Таблица 2 показывает связь между местом проживания и предпочитаемой формой досуга. Тело таблицы показывает измерения выборки 469 респондентов из четырех различных городов. Место проживания рассматривается как независимая переменная, и считается, что форма досуга зависит от места проживания. Проценты рассчитаны для независимой переменной (в столбце), чтобы показать процент людей, предпочитающих ту или иную форму досуга, в зависимости от места проживания. Если сложить проценты в любом столбце, получим 100%.
Таблица 2. Форма досуга и место жительства,
% от опрошенных.
ФОРМА ДОСУГА | МЕСТО ЖИТЕЛЬСТВА | ||
МОСКВА | ПИТЕР | КРАСНОДАР | |
спорт | 13,2 | 28,4 | 32,4 |
автомобили | 64,1 | 43,3 | 12,4 |
компьютер | 22,7 | 28,3 | 56,2 |
итого |
Тема 2. Измерения. Шкалы.
В социологии измерения вызывают определенные трудности, так как в большинстве случаев исследователю приходится иметь дело с объектами, так называемой, нечисловой природы. Однако эти объекты могут быть описаны количественно, с помощью характеристик, то есть изучаемым объектам или явлениям присваиваются числовые значения.
Измерение – присвоение чисел характеристикам изучаемых объектов или явлений.
Измеряется не сам объект, а его отдельные характеристики.
Шкала – это алгоритм, в соответствии с которым изучаемым объектам или явлениям присваиваются числа.
Собранные в ходе наблюдения данные подлежат автоматической обработке на компьютере, поэтому логично каждому зафиксированному признаку поставить в соответствие определенно число. Например, для признака «пол» присваиваем «мужчина»=1, «женщина»=2 или для признака «брачное положение»: «состоит в браке»=1, «никогда не состоял в браке»=2, «разведен»=3, «вдов»=4. Числовые данные могут быть дискретными как в случае, описанном выше, так и непрерывными. Например, возраст респондента может быть дискретной величиной, по числу прожитых лет или непрерывной, если использовать, например, пятилетние интервалы.
Итак, дискретные значения признака выражают конкретным натуральным числом, непрерывные могут принимать любое значение в некотором интервале. В социальных исследованиях чаще имеют дело с дискретными данными.
Для проведения измерения в социологии необходимо выбрать один из пяти типов шкал в соответствии с имеющимися типами данных:
Шкала | Особенности шкалы | Примеры данных, измеряемых шкалой | Операции, применимые к результатам шкалирования и допустимые статистики |
Номинальная (дискретна) | Содержит категории для классификации объектов, явлений по некоторому признаку. Результаты измерений, полученных с помощью этой шкалы, не могут быть упорядочены или подвергнуты математическим операциям. | Пол, профессия, брачное состояние, увлечения. Объектам присваивают числовые значения: «м» = 1, «ж» = 2 | Ранжирование качественных признаков. Число случаев, мода, корреляция качественных переменных. |
Порядковая (дискретна) | Содержит упорядоченные категории, позволяющие сравнивать единицы выборки по некоторому признаку. К результатам шкалирования неприменима операция разности. | Занятое в ходе спортивного соревнования место. | Сравнение значений признаков («лучше-хуже», «выше-ниже»). Медиана, ранговая корреляция. |
Интервальная (непрерывна) | Позволяет указать количественное значение измеряемого признака, с которым можно проводить операции сложения, вычитания, умножения и деления. | Измерение возраста, температуры, времени. | Количественное сравнение значений признаков («больше/меньше на столько-то или во столько-то раз»). Среднее арифметическое, корреляция количественных переменных. |
Относи-тельная (непрерывна) | Отличается от интервальной только наличием точки отсчета, что позволяет строить отношение значения признака к этой точке. | Измерение роста. | Количественное сравнение значений признаков («больше/меньше на столько-то или во столько-то раз»). Все операции математической статистики. |
Дихото-мическая | Является номинальной шкалой, содержащей только две категории. К результатам шкалирования могут быть применены некоторые арифметические операции, например, деления. | «да»=1, «нет»=0. | Количественное сравнение значений признаков (доля носителей признака в общем числе выборки) |
Итак, измерения необходимы для определения характеристик и выявления закономерностей и взаимозависимостей изучаемых социальных явлений. Измерения должны быть надежны, т.е. должны позволить получить тот же результат для изучаемого объекта в тех же условиях, они должны быть достоверными, т.е. адекватно отображать действительность, используемая шкала должна содержать все возможные значения признака.
Номинальные шкалы позволяют описывать наблюдения в терминах качественных признаков. Порядковые шкалы позволяют упорядочить объекты по некоторой характеристике от меньшего к большему. Номинальные и порядковые шкалы являются дискретными. Интервальные шкалы и шкалы отношений содержат равные интервалы, позволяющие определить количественное значение признака. Дихотомические шкалы являются уникальными номинальными, с которыми можно осуществлять те же действия, что и с интервальными.
Пример 4. Политические предпочтения, чел.
Категории | fi |
Демократы | |
Коммунисты | |
Либералы | |
Всего |
Пример 5. Данные просмотра фильма, чел.
Категории | fi |
Очень понравился | |
Понравился | |
Фильм средний | |
Не понравился | |
Всего |
Для построения интервального ряда дадим определение интервала группировки как значения варьирующего признака, лежащего в определенных границах, причем нижней границей xmin интервала назовем наименьшее, а верхней границей xmax– наибольшее значение признака.
Группировка с равными интервалами используется в том случае, если вариация признака проявляется в узких границах, а распределение единиц носит равномерный характер; ее используют обычно внутри типичных групп для количественной оценки единиц, составляющих группу. Величина равного интервала может быть рассчитана по формуле
h = (xmax – xmin) /n (1)
где h – величина интервала, n — число групп.
Группировка с неравными интервалами используется в том случае, если размах вариации признака велик и значения признака варьируются неравномерно. Неравные интервалы могут быть прогрессивно возрастающими или прогрессивно убывающими в арифметической или геометрической прогрессии. Соответственно определяется величина интервала:
Арифметически возрастающий интервал | a>0 | hi+1 = hi + a | а=3, hi=5, hi+1=5+3=8 hi+2=8+3=11 |
Арифметически убывающий интервал | a<0 | hi+1 = hi – a | |
Геометрически возрастающий интервал | g>0 | hi+1 = hi g | g=3, hi=5, hi+1=5*3=15 hi+2=15*3=45 |
Геометрически убывающий интервал | g<0 | hi+1 = hi / g |
Интервалы группировок могут быть закрытыми (т.е. иметь верхнюю и нижнюю границы) и открытыми (указана или верхняя или нижняя граница). Открытые интервалы используются в том случае, если признак изменяется неравномерно или в широких пределах, а так же когда отсутствуют качественные различия единиц, включаемых в группу. Рассмотрим построение интервального ряда с равными интервалами на примере: известны данные о результатах сдачи абитуриентами вступительных экзаменов (в баллах
Пример 6. Построение интервального ряда с равными интервалами.
Известны данные о результатах сдачи абитуриентами вступительных экзаменов:
18 | 16 | 20 | 17 | 19 | 20 | 17 |
17 | 12 | 15 | 20 | 18 | 19 | 18 |
18 | 16 | 18 | 14 | 14 | 17 | 19 |
16 | 14 | 19 | 12 | 15 | 16 | 20 |
Произвольно определим число групп (n=4) и по формуле (1) рассчитаем величину интервала h = 2 (балла), выделим группы с интервалом в 2 балла и подсчитаем частоту по каждой группе.
Таблица 5. Распределение абитуриентов по количеству набранных баллов.
Группы абитуриентов по числу баллов | Количество, чел | Накопленные частоты |
12-14 | ||
14-16 | ||
16-18 | ||
18-20 | ||
Всего |
Следует отметить, что если верхняя граница одного интервала совпадает с нижней границей последующего интервала, то единица, обладающая этим значением, относится к той группе, где эта величина выступает в роли верхней границы. Так, в нашем примере, к первой группе относятся абитуриенты, набравшие 12, 13 и 14 баллов, ко второй группе — набравшие 15 и 16 баллов и т.д.
Пример 7. построения интервального ряда с неравными интервалами.
Таблица 6. Распределение работников по уровню дохода
Группы работников , руб. | Число работников, чел. | Удельный вес, % к итогу |
до 5000 | 52,2 | |
5000-7500 | 39,1 | |
7500 и более | 8,7 | |
Всего |
Вариационные ряды могут быть построены по самым разным объектам, в т.ч. по временным (месяцам, кварталам, годам, т.д.) и территориальным единицам (городам, округам, т.д.). Примеры построения таких рядов приведены в приложении.
Анализ рядов распределения наглядно можно проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения. Так, полигон используется для изображения дискретных вариационных рядов; в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываются ранжированные значения варьирующего признака, а по оси абсцисс строится шкала для выражения частот. Полученные на пересечении абсцисс и ординат точки соединяют прямыми линиями и получают ломаную линию.
Группировки, построенные за один и тот же период времени, но для разных регионов или, наоборот, для одного региона, но за два разных периода времени могут быть несравнимы из-за различного числа выделенных групп или неодинаковости границ интервалов. Вторичная группировка, или перегруппировка сгруппированных данных применяется для лучшей характеристики изучаемого явления либо для приведения к сопоставимому виду группировок с целью проведения сравнительного анализа.
Пример 8: Имеются данные о продолжительности телефонных разговоров. Построить распределение частот по 7 интервалам.
- определить величину интервала
- определить нижние границы
- 6+5=11, 11+5=16 и т.д.
- определить верхние границы 11-1=10 и т.д.
- определить точные границы (+ или – 0,5)
интервал | Точные границы | частота |
6-10 | 5,5-10,5 | |
11-15 | 10,5-15,5 | |
16-20 | 15,5-20,5 | |
21-25 | ||
26-30 | ||
31-35 | ||
36-40 | 35,5-40,5 |
Самостоятельная работа
1. Дать понятие следующим терминам:
статистика, параметр, генеральная совокупность, выборка, репрезентативность выборки, данные, дискретные данные, непрерывные данные, переменная, признак, зависимая переменная, независимая переменная, описательная статистика, аналитическая статистика, гипотеза, измерение, шкала, номинальная шкала, порядковая шкала, интервальная шкала, относительная шкала, дихотомическая шкала
2. Ответьте на вопросы по теме:
а) Что такое статистика?
б) Почему в статистике рассматривают выборку?
в) Опишите разницу между выборочной и генеральной статистикой?
г) В чем различие между описательной статистикой и аналитической?
д) В чем различие между пятью различными видами шкал?
e) Почему статистики стоят распределение частот?
f) Чем отличается отношение частот, проценты, доли?
g) Какие способы графических представлений вам известны?
h) Для ответа на какие вопросы требуется строить кумуляту?
3. Задачи и упражнения для самостоятельной работы
I. В следующих утверждениях укажите, где используется описательная, а где аналитическая статистика:
а) Средний возраст студента в вашей группе равен 19, 3 лет.
б) Средний возраст студентов факультета находится в пределах 19-20 лет.
в) На отделении «менеджмент» среди первокурсников 44% юношей и 56% девушек.
г) Обучение при помощи компьютера эффективнее, чем при прослушивании лекции.
д) Исследования перед выборами показывают, что действующий кандидат получит 63% голосов, а новый – 37%.
е) Существует связь между курением и риском заболевания раком легких.
ж) В соответствии с данными страховых компаний шанс любого человека дожить до 83 лет составляет 62,8%.
II. В приведенных ниже примерах указать, какие переменные являются дискретными, а какие непрерывными:
а) Время, необходимое водителю, чтобы проехать определенную дистанцую.
б) Рост студента – первокурсника.
в) Рейтинг передач (плохо, средне, хорошо, отлично).
г) Зарплата кассиров крупных универмагов.
д) Семейное положение клиентов сберегательных банков.
е) Возраст студентов, записавшихся на военную кафедру.
ж) Температура внутри и вне самолета.
з) Вес новорожденного младенца.
и) Число книг на полке.
к) Километры, проезжаемые определенным автобусом в течение дня.
III. Укажите, какие из признаков, приведенных ниже количественные:
а) Цвет автомобилей в автосалоне.
б) Число мест в кинотеатре.
в) Длина кошек особых пород.
г) Число жалоб, полученных авиалинией за месяц.
IV. В приведенных ниже примерах переменных, указать, шкалой какого типа измеряется значение этих переменных:
a) Температура воздуха в лекционной аудитории.
b) Возраст сотрудника.
c) Пол студента
d) Семейное положение
e) Место жительства
f) Религиозные предпочтения
g) Время на подготовку домашнего задания
h) Трудолюбие
V. В следующих примерах указать исследуемую переменную (признак), границы генеральной совокупности и выборку:
а) Среди 200 случайно выбранных телезрителей 19% включат телевизор в течение ближайших 15 минут.
б) 4 из 15 опрошенных читателей газеты поддержат кандидатуру нынешнего губернатора на очередных выборах.
в) Время подготовки к занятиям превышает 3 часа в день у половины студентов.
г) 48% выпускников университета работают по специальности.
VI. По материалам газет и журналов приведите пример некорректного, с вашей точки зрения, статистического заключения. Объясните вашу точку зрения и укажите, как можно было избежать подобной ошибки.
VII. Вам предстоит провести исследование по поводу отношения людей к смертной казни. Какие гипотезы вы можете предложить? Какова генеральная совокупность и как вы предполагаете делать выборку? Описательная или аналитическая статистика будет использоваться вами для получения выводов?
VIII. Задачи и упражнения
1. Исследование показало, что в течение дня несколько испытуемых выпили количество чашек кофе, приведенное ниже. Постройте распределение частот. Нарисуйте гистограмму. Сделайте выводы.
0,0,5,5,4.3,5,4,0,1,4,3,2,1,3,2.1,0,4,4
2. Ниже собраны данные о возрасте 40 преподавателей одной из школ. Постройте распределение частот, используя восемь интервалов. Нарисуйте гистограмму. Сделайте выводы.
3. Посетители магазина. В течение 60 дней подсчитывалось число посетителей магазина. Постройте распределение частот, используя шесть категорий. Нарисуйте гистограмму. Сделайте выводы.
4. После проведения тестирования 108 случайно выбранных студентов были получены знания IQ Нарисуйте гистограмму, полигон и кумуляту для этих величин.
Интервал | Частота |
90-98 | |
99-107 | |
108-116 | |
117-125 | |
126-134 |
5. В ходе опроса 100 работающих женщин изучались основные причины, по которым каждая женщина работает вне дома. Постройте круговую диаграмму.
Материальная независимость | |
Дополнительные деньги | |
От нечего делать | |
Другое |
6. Откуда берутся новости? В результате опроса 25 респондентов о получении новостей имеются следующие данные. Постройте частотное распределение для следующих данных ( Г=газета, Т=телевидение, Р=радио, Ж=журналы):
Г | Г | Р | Е | Е | Р | Г |
Т | Ж | Р | Ж | Ж | Г | Р |
Ж | Т | Р | Ж | Г | Ж | Т |
Р | Р | Г | Г |
Относительный показатель динамики (ОПД) представляет собой отношение уровня исследуемого процесса или явления за данный период времени (по состоянию на данный момент времени) и уровня этого же процесса или явления в прошлом. При расчете ОПД может быть использована постоянная или переменная база сравнения.
Пример 2. Имеются данные о численности учащихся школ одного из округов города N.
Год | ||||
Численность Учащихся, тыс. чел. |
Рассчитаем ОПД с постоянной базой сравнения:
ОПД 1 = 258/347 = 0,76 ОПД 2 = 254/347 = 0,73 ОПД 3 =149/347 = 0,43
Рассчитаем ОПД с переменной базой сравнения:
ОПД 1 = 258/347 = 0,76 ОПД 2 = 254/258 = 0,98 ОПД 3 =149/254 = 0,59
Эти величины могут быть представлены в процентном соотношении. Полученные данные могут представлять собой показатели, свидетельствующие о динамике изменения численности учащихся школ.
Относительныйпоказатель структуры (ОПС)представляет собой соотношение структурных частей изучаемого объекта и их целого, т.е. представляет собой отношение показателя, характеризующего часть совокупности к показателю по всей совокупности в целом.
Пример 3. По результатам переписи 2002 г. численность населения страны составила 145,2 млн. чел., в том числе 77,6 млн. женщин и 67,6 млн. мужчин, тогда доля женщин в населении составит 53,4 %, а мужчин – 47,6%.
Относительный показатель интенсивности (ОПИ)характеризует степень распространения изучаемого процесса и представляет собой отношение показателя, характеризующего явление А к показателю, характеризующему среду распространения явления А. Этот показатель рассчитывается в тех случаях, когда необходимо сделать выводы о масштабах явления, его размерах, плотности распространения.
Пример 4: для определения уровня обеспеченности населения предметами длительного пользования подсчитывается их число, приходящееся на 100 семей, для определения плотности населения рассчитывается число людей, приходящееся на 1 км2. Таким же образом можно рассчитать число студентов на одного преподавателя в вузе, размер платы за обучение к количеству аудиторных часов, количество телефонов или автомобилей в семье и т.д.
Среднее значение признака
как взвешенное значение
xi | fi |
Среднее линейное отклонение (d)представляет собой среднюю величину из отклонений вариантов признака от их средней. Его можно рассчитать по формуле средней арифметической, как невзвешенной, так и взвешенной, в зависимости от отсутствия или наличия частот в ряду распределения:
– невзвешенное среднее линейное отклонение;
– взвешенное среднее линейное отклонение.
Дисперсия представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины.
– взвешенная дисперсия
Пример расчета дисперсии для уровня бедности, тыс.руб./чел./мес.
Центр города | Окраина города | ||||||
x | x | ||||||
24,5 | 27,4 | ||||||
23,8 | 24,6 | ||||||
23,1 | 23,0 | ||||||
22,4 | 22,5 | ||||||
21,7 | 21,8 | ||||||
21,0 | 21,6 | ||||||
21,0 | 20,9 | ||||||
20,3 | 19,7 | ||||||
19,6 | 18,1 | ||||||
19,6 | 17,4 | ||||||
∑ =217,0 | ∑ = 26,46 | ∑ = 217,0 | ∑ = 79,34 | ||||
Для центра = 26,46, для окраины = 79,34
Таким образом, вариация доходов в центре ниже, чем на окраине.
Другая формула для расчета дисперсии выборки:
Пример расчета дисперсии: имеется выборка из четырех значений
2,3,6,9
∑ = 20 | ∑ = 130 |
= 10
Дисперсия для сгруппированных данных:
Пример расчета дисперсии
Стаж работы | F | x (середина интервала) | fx | fx2 |
2-4 | ||||
5-7 | ||||
8-10 | ||||
11-13 | ||||
14-16 | ||||
∑ = 23 | ∑ = 204 | ∑ =2034 |
= 10,2
Стандартное отклонение – квадратный корень из дисперсии
Стандартное отклонение интерпретируется как мера разброса, так как имеет те же единицы измерения, как и результаты наблюдений.
Дисперсия измеряется как первоначальные единицы измерения в квадрате.
Для целей сравнения вариации различных признаков в одной и той же совокупности или же при сравнении вариации одного и того же признака в нескольких совокупностях вычисляются относительные показатели вариации. Базой для сравнения служит средняя арифметическая. Эти показатели вычисляются как отношение размаха, или среднего линейного отклонения, или среднего квадратического отклонения к средней арифметической. Чаще всего они выражаются в процентах и характеризуют не только сравнительную оценку вариации, но и дают характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (для распределений, близких к нормальному). Различают следующие относительные показатели вариации
Коэффициент осцилляции: 100%
Линейный коэффициент вариации: 100%
Коэффициент вариации: 100%
Наиболее часто используется коэффициент вариации, например, в случаях, когда необходимо сравнить несколько совокупностей, измеряемых в разных величинах или сравнить несколько совокупностей, измеряемых в одинаковых величинах, но имеющие сильно отличающиеся средние.
Пример: по имеющимся данным для двух совокупностей, выявить, различие в вариации признака: δ1 = 3, , δ1 = 20, .
Пример расчета:
и
Вывод – коэффициенты вариации равны, поэтому вариация признака в сравниваемых совокупностях одинакова.
Пример:в городе N в 2008 г. средняя цена 1 м2 жилья составила 30,88 тыс. руб., а в 2009 г. – 50,82 тыс. руб. Известно, что среднее квадратическое отклонение в 2008 г. составило 7,6, а в 2009 г. – 9,8. Необходимо сделать выводы о вариации цен за жилье.
Пример расчета:
или 25%, или 19%.
Вывод –так как значение второго коэффициента меньше, чем первого, то вариация цен за жилье в 2009 г. снизилась по сравнению с 2008 г.
В социологических исследованиях часто возникает необходимость оценки вариации качественных признаков, эквивалентом которых будет служить бинарная переменная со значениями 0 и 1. Например, при изучении успеваемости студентов, их можно разделить на две группы – успевающих и неуспевающих, причем значение 1 присваивается успевающему студенту.
Пример:имеются данные для совокупности, число единиц которой равно n, а число единиц, обладающих признаком – f.
Значение переменной | Частота | Число студентов |
f | ||
n-f | ||
Итого | n |
Пример расчета средней арифметической предложенного ряда:
= p,
Таким образом, значениесредней арифметической равняется относительной частоте, т.е. p – доля единиц, обладающих этим признаком, а доля единиц, не обладающих этим признаком – q (как известно, p + q = 1).
Тогда дисперсия альтернативного (бинарного) признака:
Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и оценку его симметричности островершинности или плосковершинности. Симметричным называется распределение, в котором частоты любых двух вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. В статистике дня характеристики асимметрии пользуются несколькими показателями.
Ассиметрия.
Представляет собой характеристику распределения, позволяющую судить о том, насколько симметричны исследуемые данные относительно центральных мер тенденции (моды, медианы и среднего).
В практике исследования приходится иметь дело с самыми различными распределениями. Однородные совокупности характеризуются, как правило, одновершинными распределениями. Появление двух и более вершин свидетельствует о неоднородности изучаемой совокупности и необходимости перегруппировки данных с целью выделения более однородных групп. Выяснение общего характера распределения предполагает оценку степени его однородности, а также вычисление показателей асимметрии и эксцесса. Симметричным является распределение, в котором частоты любых двух вариантов, равно отстоящих в обе стороны от центра распределения, равны между собой. Для симметричных распределений имеет место ра