Взвешенное среднее: учет важности

Взвешенное среднее (используют также термин средневзвешенное) похоже на среднее, но позволяет присвоить различную важность (значимость), или “вес”, каждому элементу данных. Взвешенное среднее дает возможность гибко определять систему важности отдельных элементов данных в том случае, когда их нельзя рассматривать как равноценные.

Если у фирмы три завода, при анализе пенсионных расходов не нужно брать простое среднее типических размеров пенсионных расходов на каждом из трех заводов, как типическое значение общих пенсионных расходов, особенно, если заводы отличаются по размеру. Если численность служащих на одном заводе в два раза превышает численность служащих на другом заводе, по-видимому, будет разумным при вычислении обобщающего показателя учесть пенсионный фонд первого завода дважды. Средневзвешенное позволит вам обобщить данные, используя веса, определенные в соответствии с размером каждого завода.

Веса обычно представляют собой положительные числа, сумма которых равна 1. Не волнуйтесь, если первоначально вычисленная сумма весов не равна 1. Вы всегда сможете откорректировать значения весов, разделив каждый вес на сумму всех других весов. Исходные веса можно было бы определять исходя из численности служащих, рыночной стоимости или любого другого объективного показателя, а также можно воспользоваться субъективным методом (руководствуясь чьим-то личным мнением или мнением эксперта). Иногда легче выбирать веса, не заботясь, чтобы их сумма была равна 1, а затем преобразовать их, разделив каждый на общую сумму.

Предположим, вы решили вычислить средневзвешенное пенсионных расходов для трех заводов, присвоив веса в соответствий с численностью служащих. Если численность служащих равна 182, 386 и 697, то веса соответственно равны:

182/1 265 = 0,144;

386/1 265 = 0,305;

697/1 265 = 0,551.

Обратите внимание, что значение веса получено путем деления численности служащих на данном заводе на общее количество служащих трех заводов — 182 + 386 + 697 = 1 265. Сумма полученных весов, как это и требуется, равна 1: 0,144+0,305+0,551=1.

Для вычисления взвешенного среднего каждый элемент данных умножают на присвоенный ему вес и суммируют полученные значения. Соответствующая формула имеет такой вид.

Xвзв.= Взвешенное среднее: учет важности - student2.ru

где Взвешенное среднее: учет важности - student2.ru — соответствующие веса, сумма которых равна 1. Вы можете счи­тать обычное (не взвешенное) среднее также средневзвешенным, в котором все элементы данных имеют одинаковый вес, равный 1/n.

Средневзвешенное значений 63, 47 и 98 с весами, равными 0,144; 0,305; и 0,551, соответственно, равно:

(0,144*63) + (0,305 * 47) + (0,551 * 98) = 9,072 + 14,335+53,998 = 77,405.

Обратите внимание, что, как и следовало ожидать, средневзвешенное отличается от обычного (не взвешенного) среднего этих трех значений (53 + 47 + 98)/3 = 69,333. При вычислении средневзвешенного наибольшее значение имеет вес 0,551 (что больше, чем одна треть суммарного веса). Вот почему в нашем случае средневзвешенное больше, чем обычное не взвешенное среднее.

Средневзвешенное лучше всего интерпретировать как среднее, используемое в ситуациях, когда одни элементы более важны, чем другие. Более важные элементы вносят больший вклад в значение средневзвешенного.

Пример. Ваш средний балл.

Средний балл ваших результатов обучения в университете вычисляется как взвешенное среднее. Этосвязано с том, что некоторые курсы оцениваются большим количеством очков и, следовательно, являются более важными по сравнению с другими. Вполне разумно, если курсу, который оценивается в два раза больше, чем другой, присваивается вдвое больший вес, и средний балл это отражает.

В разных университетах используют разные системы оценок. Предположим; что система оценок в вашем университете включает оценки от 0,0 (незачет) до 4,0 (отлично) и в конце семестра ваша карточка с оценками имеет такой вид.

Курс Очки Оценка
Статистика Экономика Маркетинг Спецкурс 3,7 3,3 3,5 2,8
Итого  

Веса можно вычислить, разделив количество очков по текущему курсу на 15 — общую сумму очков. Ваш средний балл рассчитывают как средневзвешенное ваших оценок, взвешенное в соответствии с количеством очков каждого из курсов:

(5/15*3,7)+(5/15*3,3)+4/15*3,5)+1/15*2,8)=3,45.

Низкая оценка за спецкурс не сильно повлияла на ваш средний балл, равный 3,45 потому что вес этой оценки мал (всего 1/15). Если бы эти четыре оценки были просто усреднены, то результат был бы ниже (3,33).

Пример. Корректировка недостаточной репрезентативности.

Взвешенное среднее используют, чтобы скорректировать недостатки репрезентативности выборки по отношению к интересующей вас генеральной совокупности. Поскольку среднее выборки учитывает все элементы одинаково, а вам известно, что (по сравнению с генеральной совокупностью) некоторые группы элементов представлены избыточно, а другие, наоборот, - недостаточно, то более точный результат можно получить, используя взвешенное среднее. Взвешенное среднее будет точнее, поскольку в нем известная информация о каждой группе (взятая из выборки) будет объединена с дополнительной информацией о представительстве каждой группы (в генеральной совокупности, а не в выборке).

Рассмотрим выбору 300 жителей Кливленда с точки зрения затрат людей на медицинские товары. Предположим, что процент молодых людей (до 18 лет) в этой выборке (21,7%) не соответствует известному проценту для всего населения города (25,8%) и что средние денежные расходы, подсчитанные для каждой группы отдельно, составляют:

средние денежные расходы для людей моложе 18 лет — $4,86;

средние денежные расходы для людей старше 18 лет — $7,06.

При вычислении средневзвешенного этих затрат будем использовать веса не выборки,а известные нам веса генеральной совокупности, т.е. будем считать, что имеем дело с 25,8% молодых людей и 74,2% людей старше 18 лет (разность 100% — 25,8%). Конечно, если бы были известны оценки расходов для города в целом, то вы бы их также использовали. Но такие, данные вам недоступны. Вам известны расходы только для 300 человек из выборки. После преобразования процентов в веса взвешенное среднее вычисляется следующим образом:

взвешенное среднее расходов = (0,258 * $4,86)+(0,742 х $7,08) = $6,49.

Взвешенное среднее $6,49 дает лучшую оценку среднего значения расходов на медицинские товары в Кливленде, чем обычное (не взвешенное) среднее ($6,58). Взвешенное среднее лучше, поскольку оно содержит поправку на слишком большой процент людей в возрасте старше 18 лет в нашей выборке из 300 человек. Так как люди такого возраста тратят больше, то без поправки средняя оценка расходов получатся завышенной($6,58 по сравнению с $6,49).

Конечно же, даже эта новая взвешенная оценка может быть неверной: Но она основана на большем объеме информации, поэтому ожидаемая ошибка будет меньше, что можно доказать с помощью математических моделей. Новая оценка не обязательно каждый раз будет лучше (т.е. и в данном примере обычное, не взвешенное, среднее может в действительности быть ближе к истине), но вероятность того, что взвешенная оценка 6удет ближе к истине, намного больше.

Медиана: типическое значение для количественных и порядковых данных

Медиана — это значение, которое расположено посередине; половина элементов в наборе данных больше этого значения, а вторая половина — меньше. Таким образом, медиана располагается в центре данных и дает представление о списке значений. Чтобы найти медиану, данные располагают в порядке возрастания, а затем определяют среднее значение. Обратите внимание, что если в наборе данных нет одного центрального значения, то следует усреднить те два значения, которые расположены посередине ряда.

Медиану можно, определить в терминах рангов. Ранги связывают числа 1, 2,…, n со значениями данных таким образом, что наименьшее значение имеет ранг 1, следующее по величине значение — ранг 2 и так далее до наибольшего значения, которое имеет ранг n. Ранги образуют основу непараметрических методов, которые будут рассмотрены позже.

В основу определения медианы положен следующий принцип.

Ранг медианы = (1+n)/2

С учетом всех возможных особых случаев медиана для списка из n элементов вычисляется таким образом.

1. Расположите элементы данных в порядке возрастания (или уменьшения — это не имеет значения).

2. Определите среднее значение полученного ряда. Возможны варианты.

1) Если n — нечетное число, то медианой будет среднее значение данных, которое имеет номер (1 + n)/2, если отсчитывать от любого из двух концов упорядоченного списка. Например, медиана списка 15, 27, 14, 18, 21 из n = 5 значений равняется:

медиана (15, 27, 14, 18,21) = медиана (14, 15, 18, 21, 27) = 18.

Следует отметить, что медиана, 18, это третье по порядку значение в упо­рядоченном списке, что соответствует формуле, поскольку (1 +n)/2 = (1 + 5)/2 = 3.

В качестве примера порядковых данных рассмотрим список рейтингов облигаций ААА, А, В, АА, А. Для этого списка медиана будет вычисляться следующим образом:

медиана (ААА, А, В, АА, А) = медиана (В, А, А, АА, ААА) = А.

2) Если n — чётное число, то ряд имеет не одно, а два средних значения. Эти значения расположены на расстоянии (1 +n)/2 от каждого из двух концов упорядоченного списка данных.

3) Если набор данных количественный (т.е. состоит из чисел), то медианой является среднее этих двух значении, расположенных в середине ряда. Например, медиана списка 15, 27, 14, 18 из n = 4 чисел вычисляется следующим образом:

медиана (15, 27, 14, 18) = медиана (14, 15, 18, 27) = (15 + 18)/2 = 16,5.

В этом случае по формуле (1 + n)/2 имеем: (1 + 4)/2 = 2,5; что говорит о необходимости пройти в упорядоченном списке половину пути между вторым и третьим числом, усреднив эти два числа.

4) Если набор данных является порядковым, (т.е. содержит упорядоченные категории) и если два расположенных в середине ряда значения, представляют одну и ту же категорию, то эта категория является медианой. Если эти два значения представляют различные категории, то обе эти категории будут медианами. Например, для списка рейтингов облигаций A, В, АА, А медиана будет равна:

медиана (А, В, АА, А) = медиана (В, А, А, АА) = А,

поскольку оба расположенных посередине значения равны A.

В другом примере для списка рейтингов облигаций А, ААА, В, АА, ААА, В медиана будет вычисляться следующим образом:

Медиана (А, ААА, В, АА, ААА, В) = медиана (В, В, А, АА, ААА, AAA) = А и АА.

Это лучшее, что можно сделать в данной ситуации, так как для порядковых данных нельзя вычислить среднее двух значений.

Для вычисления медианы в Excel можно использовать функцию (МЕДИАНА).

Чем отличается медиана от среднего? Если набор данных распределен нормально, то значения медианы и среднего близки между собой, поскольку нормальное распределение симметрично и имеет четко выраженную среднюю точку. Однако даже при нормальном распределении (здесь речь идет о “практически нормальном” распределении, а не о теоретически нормальном распределении) среднее и медиана несколько отличаются друг от друга, поскольку каждая из этих величин определяется по-своему и, кроме того, в реальных данных почти всегда присутствует некоторая случайность. Если, набор данных не подчиняется нормальному распределению, то медиана и среднее могут сильно различаться, потому что у асимметричного распределения нет четко выраженной центральной точки. Обычно среднее по отношению к медиане сдвинуто в направлении более длинного хвоста или в направлении выброса, поскольку среднее реально учитывает значения таких экстремальных наблюдений, в то время; как для медианы важно лишь, по какую сторону от нее лежит то или иное значение.

Пример. Личные доходы

Распределение таких количественных донных, как личные доходы отдельных людей и семей (как и распределение продаж, трат, цен и т.п.), часто скошено в сторону более высоких значений, поскольку такие наборы данных содержат много небольших значений, некоторое количество средних значений и немного больших и очень больших значений. Таким образом, обычно среднее больше, чем медиана. Это связано с тем, что на значение среднего, получаемого сложением всех элементов, сильно влияют большие значения. Рассмотрим доходы домохозяйств в США в 1992 году:

среднее доходов домохозяйств — $ 39 020,

медиана доходов домохозяйств — $ 30 786.

Среднее дохода выше, чем медиана, потому что на значение среднего оказывают сильное влияние относительно небольшое количество очень высокодоходных домохозяйств. Вспомним, что при вычислении среднего эти высокие доходы входит в сумму, а при вычислении медианы они являются просто «высокими доходами» (при этом каждому домохозяйству с высокими доходами соответствует домохозяйство с низкими доходами).

Гистограмма на рис.2 показывает вид распределения доходов для выборки из 100 человек.

Распределение сильно скошено в направлении высоких доходов, поскольку есть много людей с низкими доходами (на это указывают высокие столбики слева на гистограмме) и относительно немного людей, имеющих средние и высокие доходы (короткие столбики в середине и справа на гистограмме). Среднее значение дохода $38 710 выше, чем медиана $27 216. Медиана (точка, которая делит количество объектов пополам) ниже среднего, потому что на данной гистограмме большинство людей имеют низкие доходы, а наличие людей с высокими доходами значительно увеличивает значение среднего.

Взвешенное среднее: учет важности - student2.ru

Рис. 2. Гистограмма распределения данных о доходах 100 человек. Это асимметричное распределение и среднее значительно больше, чем медиана.

Пример. Стадии сборки компьютерных системных блоков.

Рассмотрим процесс производства компьютеров, состоящий из следующих стадий:

А - производство материнской платы,

В - установка разъемов но материнскую плату,

С - установка в разъемы электронных микросхем,

D - тестирование собранной материнской платы,

E - установка собранной материнской платы в системный блок компьютера,

F - тестирование собранного системного блока.

Если у вас имеется набор данных, в котором для каждого системного блока указано, на какой из производственных стадий изготовления он находится, то такой одномерный набор порядковых данных может иметь, например, следующий вид:

А, С, Е, F, С, С, D, С, А, Е, Е, ………..

Этот набор данных является порядковым, поскольку для категорий существует естественный порядок - порядок прохождения изделия через все стадии производственного процесса от начала сборки до завершения. Такой набор данных можно представить в виде списка частот следующего вида.

Стадия производства Кол-во компьютерных системных блоков
A B C D E F
Итого

Поскольку это порядковые данные, для них можно вычислить медиану, но не среднее. Медианой будет системный блок с рангом (1+387)/2 = 194 в списке всех системных блоков, упорядоченных в соответствии со стадией производства. Ниже показан способ определения медианы.

Блоки с рангами от 1 до 57 находятся на стадии А. Таким образом, медиана (которая имеет ранг 194) находится за пределами стадии A.

Блоки с рангами от 58 (57+1) до 95 (57 + 38) находятся на стадии В. Значит, медиана находится за пределами стадии В.

Блоки с рангами от 96 (95+1) до 181 (95 + 86) находятся на стадии С. Следовательно, медиана находится за пределами стадии С.

Блоки с рангами от 182 (181 + 1) до 226 (181 + 45) находятся на стадии D. Таким образом, медиана находится на стадии D, поскольку ранг медианы (194) лежит между рангами 182 и 226.

Таким образам, около половины системных блоков находятся на стадиях, предшествующих стадий D, и примерно половина — на стадиях, следующих за стадией D. Поэтому стадия D является средней точкой (с точки зрения готовности сборки) для всех системных блоков, находящихся в настоящий момент в производстве.

Наши рекомендации