Статистические характеристики и их расчет в системе SPSS Base
ОРЛОВСКий филиал Российской академии народного хозяйства и ГОСУДАРСТВЕННОЙ СЛУЖБЫ
Кафедра «Математика и математические методы в управлении»
Контрольная работа
«статистическая обработка данных и сравнение средних»
Дисциплина «Cтатистический анализ в юриспруденции»
Тема: преступность в регионах ЦФО
Вариант 18. Москва
Выполнил: магистрант группы 1ЮЗВ м
_________________________
Проверил: преподаватель
_________________________
Орел 2011
Теоретические основы статистической обработки данных и сравнения средних
Типы и виды данных
В юриспруденциивстречаются три типа данных: пространственные данные (cross-sectional data), временные ряды (time-series data) и панельные данные, которые являются одновременно и пространственными, и временными. Примером пространственных данных является, например, набор сведений (число зарегистрированных преступлений на 100 тыс. человек населения, число зарегистрированных убийств и покушений на убийство и др.) по разным регионам в один и тот же момент времени (пространственный срез). Пространственные данные часто используются для построения моделей классификации. Примерами временных данных могут служить ежегодные данные по этим же показателям. Отличительной чертой временных данных является то, что они естественным образом упорядочены во времени.
Вид представления данных определяется типом шкалы измерения. Виды данных отличаются по тому, как наблюдаемый объект измеряется или описывается (табл. 1).
Таблица 1
Основные виды данных
Вид данных | Примеры |
1. Данные классификации (номинальные) | Регионы РФ, классифицированные по принадлежности к федеральным округам. |
2. Ранжированные (ординарные, порядковые) | Ранжирование регионов по уровню преступности |
3. Данные измерения на интервальной шкале | Температура объекта (шкала с произвольной нулевой точкой и масштабом) |
4. Данные измерений на относительной шкале | Измерения веса, высоты, объема и т.п. (шкалы с произвольным масштабом, но фиксированной нулевой точкой) |
Наименее информативной является номинальная шкала (шкала наименований, классификационная шкала), по которой объектам дается некоторый признак. Этот тип шкал соответствует простейшему виду измерения, при котором шкальные значения используются лишь как имена объектов. Единственная цель таких измерений – выявление различий между объектами разных классов.
Шкала является ранговой (шкалой порядка), если множеству измеряемых объектов можно присвоить монотонно возрастающие шкальные значения. Тем самым допускается не только номинальное различение объектов, но и их упорядочение по измеряемым свойствам. Таковы балльные, рейтинговые оценки.
Шкалы интервалов являются одним из наиболее важных типов шкал. Их отличительная особенность – возможность положительного линейного преобразования, когда меняется масштаб и начало отсчета, но сохраняется направленность измеряемого свойства. Классическим примером служат температурные шкалы Цельсия t°C и Фаренгейта t°F, связанные линейным преобразованием шкальных значений
t °F = 1,8 t °C + 32. (1)
Шкалы интервалов сохраняют не только различие и упорядочение объектов, но и отношение «расстояний» между парами. Однако отношение самих шкальных значений при этом не сохраняется. Например, в случае температурных шкал Цельсия и Фаренгейта нельзя сказать, что вода, нагретая до 80°C вдвое горячее, чем вода при 40°C, поскольку в шкале Фаренгейта соотношение температур воды будет уже другим: 176°F и 104°F соответственно. В то же время отношение разностей этих температур в обеих шкалах сохраняется. Так, если отсчитывать разность температур двух упомянутых объектов в обеих шкалах относительно третьего объекта, охлажденного до 0°C (32°F), то отношение разностей в обеих температурных шкалах составляет одну и ту же величину 2:
(80 °C – 0 °C)/(40 °C – 0 °C) = (176 °F – 32 °F)/( 104 °F – 32 °F) = 2.
Частным случаем шкал интервалов являются шкалы отношений, когда нулевая точка означает отсутствие измеряемого свойства. Шкалы отношений сохраняют не только отношения свойств объектов, но и отношения «расстояний» между парами объектов. Примерами измерений в шкалах отношений являются стоимостные измерения.
Часто рассматривают также абсолютные шкалы. Абсолютные шкалы характеризуются единственностью измерения и применяются, например, для измерения количества объектов.
Шкалы измерения следует учитывать при вычислении средних величин. В общей теории статистики различают структурные и степенные средние. К первым относятся мода и медиана, ко вторым – арифметическая, геометрическая, квадратическая и гармоническая средние.
Наименее информативная номинальная шкала допускает лишь один вид средних – моду. При переходе к более информативной порядковой шкале к моде добавляется медиана как мера центральной тенденции.
В шкале интервалов центральную тенденцию адекватно отражает среднее арифметическое, в шкале отношений – среднее геометрическое. В абсолютной шкале можно пользоваться любым средним, т.е. с усложнением типа шкалы измерения число средних, адекватных в этой шкале, увеличивается.
Статистические характеристики и их расчет в системе SPSS Base
К важнейшим статистическим характеристикам количественных данных относятся средние и показатели вариабельности (разброса). В настоящее время имеются разнообразные программы анализа данных, универсальные и специализированные. Первые называют также пакетами статистических программ(ПСП); они содержат большое число разнообразных процедур, каждая из которых предназначена для реализации определенного класса методов (описательная статистика, регрессионный, кластерный, факторный и другие виды анализа). Эти пакеты позволяют проводить комплексный статистический анализ, начиная от управления данными и расчета выборочных характеристик исходных признаков и заканчивая использованием разнообразных «тонких» методов, и рекомендуются для выполнения большинства работ по анализу данных в юриспруденции.
Популярным среди специалистов пакетом является SPSS (Statistical Package for the Social Sciences) – комплекс программ анализа данных общественных наук. Система SPSS развивается, начиная с 1975 года, и в настоящее время в продаже в России имеется версия 18.0 этого пакета, однако уже версия базового модуля SPSS Base 8.0 для Windows 95, вышедшая в 1997 году, практически полностью покрывает потребности в анализе данных в юриспруденции.
Для системы SPSS, являющейся «стандартом де факто» для специалистов, работающих в государственных и региональных органах статистики, имеются руководства по эксплуатации и применению на русском языке, поставляемые фирмой СПСС Русь вместе с пакетом SPSS Base для Windows; наряду с этими пособиями рекомендуется также книга: Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб.: ООО «ДиаСофтЮП», первое издание которой вышло в 2002 году.
Из множества аналитических процедур, предусмотренных в пакете SPSS Base, основными в юриспруденции являются описательные статистики и критерии сравнения средних.
Описательные статистики являются первым шагом в изучении набора данных. Эта процедура реализует:
· подсчет частот и процентов для числовых и строковых переменных;
· расчет накопленных процентов для количественных переменных и переменных с упорядоченными категориями;
· расчет робастных (устойчивых) статистик (медиана, квартили, процентили) для количественных переменных, которые не обязательно подчиняются нормальному распределению;
· определение статистик типа среднего и стандартного отклонения для переменных с нормальным или симметричным распределением;
· построение столбиковых диаграмм для представления переменных с неупорядоченными и упорядоченными категориями;
· построение гистограмм для представления количественных переменных.
Такие же возможности имеются и в процедуре дескриптивные статистики. Кроме того, в этой процедуре можно также вычислить z-статистики (результат преобразования исходных данных к нормированному виду).
Приведем пример. Имеется набор данных по показателю «число зарегистрированных преступлений на 100 тыс. человек населения» в федеральных округах РФ за 1990 и 2009 гг. – табл. 2.
Таблица 2
Число зарегистрированных преступлений на 100 тыс. человек населения
Федеральный округ | 1990 г. | 2009 г. |
ЦФО СЗФО ЮФО ПФО УФО СФО ДФО |
С помощью процедуры «частоты» для этих данных рассчитаем следующие статистические характеристики – табл. 3:
среднее арифметические невзвешенное (Mean);
медиану (Median);
среднее квадратическое отклонение (Std. Deviation);
минимальное значение (Minimum);
максимальное значение (Maximum).
В табл. 3 приведены также размах (разность между максимальным и минимальным значениями) и относительная характеристика вариабельности – коэффициент вариации, выраженный в процентах.
Таблица 3
Число зарегистрированных преступлений на 100 тыс. человек населения
(выборка – федеральные округа РФ)
Статистика | 1990 г. | 2009 г. |
N | ||
Mean | 1288,00 (РФ: 1243) | 2148,43 (РФ: 2110) |
Median | 1305,00 | 2118,00 |
Std. Deviation | 267,195 | 479,047 |
Minimum | ||
Maximum | ||
Размах | 1685 – 882 = 803 | 2640 – 1355 = 1285 |
Коэф. вариации | 20,7% | 22,3% |
Видно, что изучаемый показатель характеризуется значительной пространственной и временной изменчивостью – величина коэффициента вариации по выборке федеральных округов превышает 20%, а средние значения показателя по РФ в 1990 и 2009 гг. – 1288 и 2148 на 100 тыс. человек населения – заметно отличаются.
Наглядно это видно из диаграмм последовательности, построенных в графическом редакторе пакета SPSS Base 11.0 – рис. 1.