Среднее: типическое значение для количественных данных
Обобщающие показатели: интерпретация типических значений и перцентилей
В сложных ситуациях один из самых эффективных способов “увидеть всю картину” заключается в обобщении, т.е. использовании одного или нескольких отобранных или рассчитанных значений для характеристики набора данных. Подробное изучение каждого отдельного случая само по себе не является статистической деятельностью, но обнаружение и идентификация особенностей, которые в целом характерны для рассматриваемых случаев, представляют собой статистическую деятельность, так как вся информация при этом рассматривается в целом.
Одна из целей статистики состоит в том, чтобы свести набор данных к одному числу (или двум, или нескольким), которое выражает наиболее фундаментальные свойства данных. Методы, наиболее подходящие для анализа одного списка чисел (т.е. одномерного набора данных), включают определение следующих показателей.
Среднее, медиана и мода — это различные способы выбора единственного числа, которое лучше всего описывает все числа в наборе данных. Такой представленный одним числом показатель называется типическим значением, или центром (также используют термин мера центральной тенденции).
Перцентиль (также используют термин процентилъ) обобщает информацию о рангах, характеризуя значение, достигаемое заданным процентом общего количества данных, после того, как данные упорядочиваются (ранжируются) по возрастанию.
Стандартное отклонение — характеристика различий между значениями в наборе данных. Это понятие также называют разбросом, или изменчивостью (подробно об этом — в главе 5).
Как быть, если набор данных содержит отдельные значения, которые неадекватно описываются этими показателями? Такие выбросы (сильно отклоняющиеся значения) можно просто описать отдельно. Таким образом, можно охарактеризовать большой набор данных, обобщив основные свойства большинства его элементов и затем создав список исключений. Это позволяет достичь статистической цели эффективного описания большого набора данных с учетом особой природы отдельных элементов.
Чему равно наиболее типическое значение?
Простейшее обобщение любого набора данных представляет собой единственное число, которое наилучшим образом представляет все значения данных. Такое число можно было бы назвать типическим значением для данного набора данных. Если не все значения в наборе данных одинаковы, то мнения о “наиболее типическом” могут быть разными. Существуют три вида такой обобщающей меры.
1. Среднее, которое можно вычислять только для имеющих содержательный смысл чисел (для количественных данных);
2. Медиана, или серединная точка, которую можно вычислять как для упорядоченных категорий (порядковые данные), так и для чисел.
3. Мода, или наиболее часто встречающаяся категория, которую можно вычислять для неупорядоченных категорий (для номинальных данных), для упорядоченных категорий и для чисел.
Среднее: типическое значение для количественных данных.
Среднее чаще всего используют как типическое значение списка чисел и вычисляют путем сложения всех чисел списка и деления полученной суммы на количество чисел в списке (количество элементарных единиц). Формула вычисления выборочного среднего (т.е. среднего выборки данных) имеет следующий вид
,
где n — общее число элементов в списке данных, x1, x2, xn — непосредственно сами значения данных. Греческая прописная буква сигма, , указывает на необходимость сложить все значения, которые записаны за ней, заменяя при этом индекс i значениями от 1 до n. Символ для записи среднего произносится как “икс с чертой”.
Понятие среднего не зависит от того, представляет ваш список чисел всю генеральную совокупность или же репрезентативную выборку из большей совокупности. В то же время обозначения несколько различаются. Для всей генеральной совокупности количество элементов обозначают буквой N, а среднее — буквой (греческая буква ‘мю”). Процесс вычисления среднего одинаков как для генеральной совокупности, так и для выборки.
Поскольку при вычислении среднего значения данных суммируют, ясно, что среднее нельзя вычислять для качественных данных (нельзя складывать цвета или рейтинги долговых обязательств).
Среднее можно интерпретировать как равномерное распределение суммы всех значений между элементарными единицами. Таким образом, если каждое значение данных заменить средним, то общая сумма не изменится. Например, из базы данных служащих можно вычислить среднюю заработную плату служащих в Хьюстоне. Это среднее можно интерпретировать таким образом: если бы мы выплачивали всем служащем Хьюстона одинаковую заработную плату, не изменяя при этом общий фонд заработной платы, то значение этой заработной платы было бы равно среднему. Обратите внимание, что не следует рассматривать структуру уровня заработной платы, которая получена исходя из среднего, в качестве индикатора типичной заработной платы (особенно, когда вы имеете дело с фондом заработной платы как части бюджета).
Поскольку среднее сохраняет неизменной сумму при равномерном распределении значений, оно наиболее полезно в качестве обобщающего показателя при отсутствии экстремальных значений (выбросов), когда набор данных представляет собой более-менее однородную группу с элементами случайности. Если один служащий зарабатывает намного больше других, то среднее нельзя использовать в качестве обобщающего показателя. Хотя среднее и сохраняет неизменной общую сумму заработной платы, оно не будет хорошим показателем величины заработной платы отдельных служащих, так как среднее будет слишком высоким для большинства служащих и слишком низким для этого высокооплачиваемого работника.
Среднее является только обобщающей характеристикой, которая сохраняет общую сумму. Это свойство среднего особенно полезно в тех ситуациях, когда, необходимо планировать общую сумму для большой группы. Сначала вычисляют среднее для меньшей выборки данных, представляющей большую группу. Затем полученное среднее можно умножить на количество отдельных элементов в этой большей группе. В результате получают оценку или прогноз суммы для большей по размеру совокупности. В целом, если необходимо определить общую сумму, можно использовать среднее.
Пример. Сколько денег потратят потребители?
Фирма интересуется, сколько в целом тратят на медицинские товары жители Кливленда. Анализ случайной выборки из трехсот человек, живущих в данном регионе, показал, что в прошлом месяце каждый из них потратил в среднем $6,58. Естественно, кто-то потратил больше, а кто-то меньше этого среднего количества денег. Вместо того чтобы работать со всеми 300 числами, мы используем среднее, чтобы определить типическое значение индивидуальных расходов каждого потребителя. Что особенно важно, умножив среднее значение расходов на численность населения Кливленда, мы получили приемлемую оценку суммарных расходов на медицинские товары жителей всего города.
Оценка затрат на медицинские товары жителей Кливленда = (среднее значение расходов одного человека из выборки)*(численность населения Кливленда) = ($6,58)*(503 000)= $3 309 740.
Этот прогноз суммарных продаж, равный $3 309 740, является приемлемым и, вероятно, полезным. Однако это значение не является точным (в том смысле, что оно не отражает точную сумму потраченных денег). Далее, при изучении доверительных интервалов (в главе 9), вы узнаете, как учитывать статистическую ошибку, возникающую при распространении результата, полученного для выборки из 300 человек, на все население, состоящее из 503 000 человек.
Пример. Сколько имеется бракованных деталей?
Каждая партия изделий кампании GВB Company содержит 1000 изделий. Для проведения контроля качества изделий из произведенных за день 253 партий была взята случайным образом выборка, включающая 10 партий. Число бракованных изделий в каждой партии составило:
3, 8, 2, 5, 0, 7, 14, 7, 4, 1
Среднее для этого набора данных
(3+8+2+5+0+7+14+7+4+1)/10=5,1
демонстрирует, что в среднем каждая партия содержит 5,1 бракованных изделий. Иными словами, уровень брака составляет 5,1 изделия на 1000, или 0,51% (примерно полпроцента). Если распространить полученное среднее на все выпущенные за день 253 партии, то можно ожидать
5,1*253=1290,3
бракованных изделий в дневном выпуске продукции, который составляет 253 000 изделий.
Чтобы показать, насколько среднее действительно является приемлемой обобщающей характеристикой списка чисел, на рис. 1 приведена гистограмма для этого набора данных из 10 чисел с обозначенным средним. Обратите внимание, насколько хорошо в середине данных расположено среднее, оно достаточно близко ко всем значениям данных.
Рис. 1.