Инструменты дескриптивного анализа
Для описания информации, полученной на основе выборочных измерений, широко используется две группы мер. Первая включает меры "центральной тенденции" или меры, которые описывают типичного респондента или типичный ответ. Вторая включает меры вариацииили меры, описывающие степень схожести или несхожести респондентов или ответов от "типичных" респондентов или ответов.
Существуют и другие описательные меры, например, меры ассиметрии (насколько найденные кривые распределения отличаются от нормальных кривых распределения). Однако они используются не столь часто, как вышеупомянутые и не представляют особого интереса для заказчика.
1. К числу мер центральной тенденции относится мода, медиана и средняя.
Мода характеризует величину признака, появляющуюся наиболее часто по сравнению с другими величинами данного признака. Мода носит относительный характер и не обязательно, чтобы большинство респондентов указало именно эту величину признака.
Медиана характеризует значение признака, занимающее срединное место в упорядоченном ряду значений данного признака.
Третьей мерой центральной тенденции является средняя величина, которая чаще всего рассчитывается как средняя арифметическая величина. При ее вычислении общий объем признака поровну распределяется между всеми единицами совокупности.
Очевидно, что степень информативности средней величины больше, чем медианы, а медианы — чем моды.
Однако рассмотренные меры не характеризуют вариацию ответов на какой-то вопрос или, говоря другими словами, несходство, различие респондентов или измеренных характеристик. Очевидно, что помимо знания величин мер центральной тенденции является важным установить, насколько близко к этим величинам расположены остальные полученные оценки. Обычно используют три меры вариации: распределение частот, размах вариации и среднее квадратическое отклонение.
Распределение частот представляет в табличной или графической форме число случаев появления каждого значения измеренной характеристики (признака) в каждом выбранном диапазоне ее значений. Распределение частот позволяет быстро сделать выводы о степени подобности результатов измерений.
Размах вариации определяет абсолютную разность между максимальным и минимальным значениями измеренного признака. Говоря другими словами, это разница между конечными точками в распределении упорядоченных величин измеренного признака. Данная мера определяет интервал распределения значений признака.
Среднее квадратическое отклонение является обобщающей статистической характеристикой вариации значений признака. Если эта мера мала, то кривая распределения имеет узкую, сжатую форму (результаты измерений обладают высокой степенью схожести); если мера велика, то кривая распределения имеет широкий, растянутый вид (велика степень различия оценок).
Ранее было отмечено, что выбор шкалы измерений, а, следовательно, типа вопросов в опросном листе, предопределяет количество получаемой информации. Подобным образом, количество информации, получаемой при использовании рассмотренных выше мер, является различным. Общим правилом является то, что статистические меры дают возможность получить больше информации при применении наиболее информативных шкал измерений. Выбор шкалы измерений предопределяет выбор статистических мер. Например, один из вопросов демографического исследования, при поведении которого использовалась шкала наименований, касался национальности. Русским был присвоен код 1, украинцам — 2, татарам - 3 и т.д. В данном случае конечно можно вычислить среднее значение. Но как интерпретировать среднюю национальность, равную, скажем, 5,67? Для вычисления средних надо использовать интервальную шкалу или шкалу отношений. Однако в нашем примере можно использовать моду.
Что касается мер вариации, то при использовании номинальной шкалы применяется распределение частот, при использовании шкалы порядков — кумулятивное распределение частот, а при использовании интервальной шкалы и шкалы отношений — среднее квадратическое отклонение. Более подробную информацию можно получить из книг по математической статистике.
Практические задания
Вариант 1
Крупный производитель электронных компонентов для автомобилей провел исследование для определения средней стоимости электронных компонентов на один автомобиль. Персональные интервью проводились по случайной выборке из 400 респондентов, имеющих автомобили. Была получена следующая информация:
Стоимость электронного оборудования, приходящаяся на автомобиль $ | Количество респондентов, указавших данный ответ |
Менее или равно 50 | |
От 51 до 100 | |
От 101 до150 | |
От 151 до 200 | |
От 201 до 250 | |
От 251 до 300 | |
От 301 до 350 | |
От 351 до 400 | |
Более 400 | |
Всего автомобилей |
Вопросы:
1. Какой вид табулирования использован при преобразовании данных?
2. Обратите приведенную информацию в проценты.
3. Вычислите накопленные абсолютные частоты.
4. Вычислите накопленные относительные частоты.
5. Подготовьте гистограмму и полигон частот со средней стоимостью электронного оборудования по оси х и абсолютной частотой по оси у.
6. Постройте график эмпирической функции накопленного распределения со средней стоимостью электронного оборудования по оси х и относительной частотой по оси