Вычисление среднего возраста посетителей библиотеки

Возраст абсолютная частота, fi Xi x fi Вычисление среднего возраста посетителей библиотеки - student2.ru
18   5   90   Вычисление среднего возраста посетителей библиотеки - student2.ru (где i = 1...7 — число различных значений)
19 2 38  
21 4 84  
22 6 132  
30 1 30  
35 1 35  
80 1 80  
  Всего Вычисление среднего возраста посетителей библиотеки - student2.ru Вычисление среднего возраста посетителей библиотеки - student2.ru  

Среднее обладает рядом важных свойств. В частности, если сложить все значения отклонений от среднего значения, т. е. разности между X и X1 X2 ... Xi(которые могут быть и положительными, и отрицательными), то сумма отклонений будет равна нулю. Кроме того, сумма квадратов отклонений наблюдаемых значений от их арифметического среднего меньше суммы квадратов отклонений от любой другой точки[28]. Эти свойства среднего определяют его уникальную роль в решении ряда статистических задач, о кото­рых мы будем говорить ниже. Сейчас достаточно отметить то обстоятельство, что при использовании среднего в качестве «представителя» (т. е. статистичес­кой оценки) каждого из наблюдаемых значений, ошибка, определяемая как сумма квадратов отклонений, будет минимальной. Не стоит, однако, забывать о том, что и минимальная ошибка может быть достаточно большой. Так, для малых выборок, имеющих более чем одну моду, любая мера центральной тенденции, включая среднее, будет недостаточно хороша. Центральной тенденции в таком распределении просто не существует.

Выбирая меру центральной тенденции, нужно руководствоваться знанием ее свойств, общей формой распределения и, наконец, здравым смыслом. Если при взгляде на гистограмму исследователь обнаруживает, что имеет дело сунимо­дальным симметричным распределением (половины гистограммы слева и справа от модального значения зеркально совпадают), то среднее, медиана и мода бу­дут равны между собой. Если речь идет о выборке из большой совокупности, где интересующая исследователя переменная-признак распределена нормаль­но (т.е. большие и малые крайние значения встречаются редко, а средние — часто), наилучшим показателем будет среднее. Если в унимодальном распреде­лении встречаются крайние значения, могущие значительно повлиять на сред­нее (см. пример с возрастом, табл. 8.2), нужно отдать предпочтение медиане.

Вопрос о сравнимости средних значений не так тривиален, как это может пока­заться. Сравнение значений средних показателей для различных выборок или для одной и той же выборки в разные моменты времени — весьма распростра­ненный способ анализа результатов. Не только в научных журналах, но и в газе­тах мы постоянно находим сведения о сравнительной величине душевого дохо­да в разных регионах, о различиях в среднем числе автомобилей, приходящих­ся на одну семью и т. п. Следует, однако, помнить о том, что заведомо некорректны сравнения различных мер центральной тенденции, например ме­дианы и среднего. Причина здесь в том, что различные меры описывают раз­ные характеристики распределения: медиана — среднее положение, мода — са­мое часто встречающееся значение и т. д. Кроме того, даже две одинаковые меры центральной тенденции не всегда сравнимы. Средние двух распределе­ний имеет смысл сравнивать лишь в том случае, если во всех других отношени­ях распределения одинаковы, имеют сходную форму. Если исследователь говорит о равенстве средних значений, забыв упомянуть о том, что одно распреде­ление симметрично, а другое — скошено вправо или влево из-за присутствия очень больших либо очень малых значений в его «хвостовых» частях, то он подталкивает читателя к заведомо неверному выводу о том, что анализируемая переменная распределена в двух выборках совершенно одинаково. Среднее рас­пределения с очень длинным правым «хвостом» может оказаться равным сред­нему распределения, скошенного влево, где встречаются крайне малые значе­ния признака. Но этим сходство будет исчерпываться: что общего (кроме вели­чины среднего) у группы, включающей много людей с очень низким доходом, коэффициентом интеллекта и т. п., с другой группой, включающей много на­блюдений с очень высокими значениями переменной-признака?

Очевидно, важно не только знать, что типично для выборки наблюдений, но и установить, насколько выражены отклонения от типичных значений. Чтобы определить, насколько хорошо та или иная мера центральной тенденции опи­сывает распределение, нужно воспользоваться какой-либо мерой изменчивос­ти, разброса.

Самая грубая мера изменчивости — размах (диапазон) значений. Эта мера не учитывает индивидуальные отклонения значений, описывая лишь диапазон их изменчивости. Под размахом понимают разность между максимальным и ми­нимальным наблюдаемым значением. Если количество карманных денег в груп­пе из десяти субъектов варьирует от 100 рубл. (1 человек) до 100000 рубл. (2 человека), размах будет равен 100000-100 = 99900.

Еще одна грубая мера разброса значений — это коэффициент вариации (V), который определяется просто как процент наблюдений, лежащих вне модаль­ного интервала, т. е. процент (доля) наблюдений, не совпадающих с модальным значением. Если от модального отличаются 60% значений, то V = 60% (или V = 0,6).

Рассказывая о процедуре построения шкалы Терстоуна, мы описали, как вычислить междуквартилъный размах — очень удобный показа­тель разброса значений для ординальной переменной. Напомним, что нижний, первый, квартиль (Q1) отсекает 25% наблюдений, а ниже третьего квартиля (Q3) лежат уже 75% случаев. Полумеждуквартилъный размах равен половине рас­стояния между третьим и первым квартилями:

Вычисление среднего возраста посетителей библиотеки - student2.ru

Если распределение приблизительно симметрично, то можно считать, что полумеждуквартильный размах указывает границы, в которых лежит 50% дан­ных по обе стороны медианы или среднего.

Все эти меры изменчивости, как уже говорилось, можно считать скорее грубы­ми и приблизительными. Ни одна из них не уделяет должного внимания инфор­мации об отклонениях каждого отдельного наблюдаемого значения от средне­го, хотя эта информация в большинстве случаев может быть получена из анали­за распределения. Информацию о вариации некоторой совокупности значений относительно среднего несут значения отклонений от среднего, о которых мы уже говорили. Однако, просуммировав все значения отклонения ( Вычисление среднего возраста посетителей библиотеки - student2.ru ), мы получим нуль. Положительные и отрицательные отклонения будут взаимоуничтожаться. Если же мы возведем в квадрат каждое отклонение и просуммируем квадраты отклонений, то мы получим хорошую меру рассеяния, которая будет маленькой, когда данные однородны, и большой, когда данные неоднородны. Чтобы суммы квадратов отклонений для выборок разного размера можно было сравнивать, нужно поделить каждую из них на N, где N— объем выборки[29].

Вычисление среднего возраста посетителей библиотеки - student2.ru

Рис. 17.Распределение, скошенное вправо

Именно так и получают важнейшую меру рассеяния — дисперсию (s2). Если Вычисление среднего возраста посетителей библиотеки - student2.ru — среднее, X1, Х2... Хп — индивидуальные значения измеряемой переменной X в данной совокупности, а N — объем выборки[30]:

Вычисление среднего возраста посетителей библиотеки - student2.ru

Для того чтобы вычислить значение дисперсии, нужно вычесть из каждого наблюдаемого значения среднее, возвести в квадрат все полученные откло­нения, сложить квадраты отклонений и разделить полученную сумму на объем выборки.

Вычисление среднего возраста посетителей библиотеки - student2.ru

Стандартные отклонения

Рис. 18. Определение площади нормальной кривой для разных значений стан­дартного отклонения

Величина, равная квадратному корню из дисперсии, называется стандартным отклонением (sx), т.е.:

Вычисление среднего возраста посетителей библиотеки - student2.ru

Совершенно очевидной интерпретацией стандартного отклонения является его способность оценивать «типичность» среднего: стандартное отклонение тем меньше, чем лучше среднее суммирует, «представляет» данную совокупность наблюдений.

Еще одно важное применение стандартного отклонения связано с тем, что оно, наряду со средним арифметическим, позволяет определить самые существен­ные характеристики нормального распределения. Графически нормальному рас­пределению частот наблюдений соответствует, как известно, симметричная колоколообразная кривая. Свойства нормального распределения прекрасно изу­чены, что позволяет делать важные выводы относительно самых разных распределений, не обязательно нормальных. В частности, известно, что 68% наблюдений (точнее, 68% общей площади) будет заключено в пределах ±1 стан­дартное отклонение от среднего значения. Если, скажем, среднее нормального распределения равно 200, а стандартное отклонение — 4, то можно заключить, что не менее 68% наблюдений лежит между значениями 196 и 204 (т. е. 200 ±4). Соответственно не менее 32% случаев будут лежать за этими пределами, в ле­вом и правом «хвостах» распределения. Из теории вероятности известно также, что в пределах ±3 стандартных отклонений окажется около 99,73% общего числа наблюдений (см. рис. 18).

Для любого унимодального симметричного распределения, даже если оно от­личается от нормального,не менее 56% наблюдений будут попадать в промежуток ±1 стандартное отклонение от среднего арифметического значе­ния, для ±3 стандартных отклонений внутри указанного интервала окажут­ся не менее 95% наблюдений.

Очевидно, что стандартное отклонение — это прекрасный показатель положе­ния любого конкретного значения относительно среднего, поэтому часто воз­никает необходимость выразить «сырые» оценки (баллы теста, величины дохо­да и т. п.) в единицах стандартного отклонения от среднего. Получаемые в ре­зультате оценки называют стандартными, или Z-оценками. Для любой совокупности из N наблюдений распределение со средним X и стандартным отклонением 5 можно преобразовать в распределение со средним, равным 0, и стандартным отклонением, равным 1. Преобразованные таким образом инди­видуальные значения будут непосредственно выражаться в отклонениях «сы­рых» значений от среднего, измеренных в единицах стандартного отклонения. Чтобы осуществить такое преобразование, нужно из каждого значения X вы­честь среднее и разделить полученную величину на стандартное отклонение, т. е. Z-оценки получают по простой формуле:

Вычисление среднего возраста посетителей библиотеки - student2.ru

Использование Z-оценок не сводится к описанию положения некоторого значе­ния относительно среднего в масштабе единиц стандартного отклонения. Стан­дартные оценки позволяют перейти от множества «сырых» значений к произ­вольной шкале с удобными для расчетов характеристиками среднего и стандар­тного отклонения. Домножая Z на константу с, мы можем получить распределение со стандартным отклонением (sx). Множество данных можно расположить на любой шкале с удобным средним (например, равным 100, как во многих тестах интеллекта) и стандартным отклонением. Другие применения Z-оценок связаны со сложными методами анализа данных, о которых мы будем говорить в дальнейшем.

Описанные процедуры анализа одномерного распределения относятся к деск­риптивной статистике. Если мы стремимся обобщить данные, полученные на отдельных выборках, чтобы описать свойства исходной генеральной совокуп­ности, необходимо, как уже говорилось, обратиться к методам индуктивной статистики, к теории статистического вывода. Переход от числовых характе­ристик выборки к числовым характеристикам генеральной совокупности на­зывается оцениванием. При одномерном анализе данных чаще всего решают задачу интервального оценивания.

Если переменная измерена на уровне не ниже интервального (доход, продол­жительность образования и т. п.), мы легко можем получить выборочную оцен­ку среднего. Но как узнать, насколько близка наша выборочная оценка, напри­мер, дохода, к истинному значению этого параметра, которое мы получили бы, располагая возможностью обследовать всю совокупность? Если наша выборка была случайной, на этот вопрос можно ответить. Чтобы перейти от выбороч­ной оценки (статистики) к характеристике генеральной совокупности (пара­метру), можно, в частности, определить числовой интервал, в который с задан­ной вероятностью «укладывается» интересующий нас параметр. Чтобы понять идею интервального оценивания, достаточно вспомнить о том, что оценки, получаемые для множества выборок из одной совокупности, будут также распре­делены нормально, т. е. большая их часть будет попадать в область, близкую к истинному среднему, и лишь немногие окажутся в «хвостах» распределения, отклоняясь от этого значения. Для любой отдельно взятой выборки шансы ока­заться близко к параметру совокупности значительно выше вероятности ока­заться в «хвосте». Чтобы оценить степень этой близости, используют очень важ­ную величину — стандартную ошибку средней. Стандартную ошибку обозна­чают как SМ,

Вычисление среднего возраста посетителей библиотеки - student2.ru

где sх — это стандартное отклонение,

а N — объем выборки.

Подсчитав эту величину для наших данных, мы всегда можем определить с за­данной вероятностью, в каких пределах будет лежать среднее совокупности. Совершенно аналогично приведенным выше рассуждениям для среднего от­клонения можно сказать, что 95% выборочных средних будет лежать в преде­лах ±2 стандартные ошибки среднего генеральной совокупности (т. е. для 95 выборок из 100 выборочное среднее попадет в указанный интервал). Следо­вательно, любая конкретная единичная выборка, использованная в данном ис­следовании, с 95%-й вероятностью даст оценку, лежащую в интервале ±2 стан­дартных ошибок среднего совокупности. Заданный таким образом интервал для выборочных оценок называется доверительным интервалом, а та вероятность, с которой мы «попадаем» в этот интервал (например, 95% или 99%), называет­ся доверительной вероятностью. Если, например, мы рассчитали, что для случайной выборки горожан средняя квартирная плата составляет 20000 рублей, а стандартная ошибка — 500 рублей, то можно с 95-процентной уверенностью утверждать, что для всех горожан средняя квартплата окажется в интервале 19000—21000 рублей. Задав интервал в 3 стандартные ошибки, мы сможем достичь уровня доверительной вероятности, равного 99,73% (см. рис. 18). Полезно помнить о том, что чем больше используемая выборка (чем больше N), тем меньше будет sm (см. формулу) и, следовательно, тем уже будет доверитель­ный интервал.

Задачу интервального оценивания можно решить и для тех переменных, уро­вень измерения которых ниже интервального. Для этого в статистике использу­ют свойства другого распределения — биноминального. Здесь мы не будем ана­лизировать эти свойства. Достаточно отметить, что биномиальным называют распределение исхода событий, которые могут случиться или не случиться, т.е. в общей форме могут быть классифицированы как положительные или отрица­тельные. При этом наступление одного события автоматически означает, что другое не случилось. Степень интенсивности события (признака) просто не принимается в расчет. Классический пример — бросание монеты, которая мо­жет выпасть «орлом» или «решкой». Чтобы использовать это распределение для интервального оценивания, нужно превратить анализируемую переменную в дихотомическую, имеющую две категории (если, конечно, она таковой не яв­лялась с самого начала). Примеры дихотомических переменных — пол, голосо­вание «за» или «против» и т. п. Для дихотомической переменной стандартную ошибку можно вычислить по формуле:

Вычисление среднего возраста посетителей библиотеки - student2.ru

где Sbin — стандартная ошибка для биномиального распределения, Р — процент наблюдений в первой категории, Q — процент наблюдений во второй катего­рии, N — объем выборки.

Если, например, нас интересует, насколько близок к истинному значению для генеральной совокупности тот процент ответов, который мы получили при оп­росе некоторой выборки, мы снова можем использовать интервальную оценку. Пусть, например, в выборке объемом 1000 человек 60% высказались против призыва студентов на воинскую службу, а 40% — за. Стандартная ошибка со­ставит:

Вычисление среднего возраста посетителей библиотеки - student2.ru

Если добавить (и отнять) 2 стандартные ошибки[31] к полученной выборочной оценке, можно построить доверительный интервал, в который интересующая нас величина попадет с 95%-й вероятностью (т. е. вероятность ошибки не пре­высит 5%). С вероятностью 95% доля противников обязательного призыва сту­дентов составит 60±3,1%.

Наши рекомендации