Мода: типическое значение даже для номинальных данных
Мода представляет собой наиболее распространенную категорию, т.е. категорию, которая чаще всего встречается в наборе данных. Это единственная характеристика, которую можно определить для номинальных качественных данных, поскольку неупорядоченные категории нельзя складывать (как это требуется для среднего) и нельзя ранжировать (как это требуется для медианы). Моду можно легко найти для порядковых данных, если просто проигнорировать упорядоченность категорий и выполнять все действия так же, как для набора номинальных данных с неупорядоченными категориями.
Мода также определена для количественных данных (чисел), хотя при этом может иметь место некоторая неопределенность. Для количественных данных моду можно определить как значение, соответствующее наивысшей точке на гистограмме, возможно, на середине самого высокого столбика. Источники неопределенности могут быть разными. На гистограмме может быть два “самых высоких” столбика. Или, что значительно хуже, определение моды может зависеть от того, каким образом построена диаграмма: изменение ширины столбиков и их расположения может привести к небольшим (или умеренным) изменениям формы распределения, в результате чего может измениться и мода. Для количественных данных мода является несколько неопределенным понятием.
Моду найти легко. Независимо от того, представляют имеющиеся у вас числа количество объектов в каждой категории или соответствующие проценты, необходимо просто выбрать категорию с самым большим количеством или процентом. Если на первое место претендуют две или больше категорий, то необходимо указать все эти категории под общим названием “мода” для этого набора данных.
Пример. Голосование на выборах
Поскольку во время выборов подсчитывают количество отданных голосов, то эти голоса можно рассматривать как набор номинальных качественных данных. У вас может быть свое мнение относительно упорядочения кандидатов, но так как общего согласия в этом вопросе нет, то вы можете считать этот набор данных неупорядоченным. Список данных может выглядеть так:
Иванов, Петров, Сидоров, Иванов, Иванов, Сидоров, Иванов,…….
Результаты выборов можно записать следующим образом.
Фамилия | Кол-во голосов | Процент |
Сидоров Петров Кузнецов Иванов | 15,1 39,9 1,1 43,9 | |
Итого |
Ясно, что модой в этом наборе данных будет Иванов, поскольку он набрал наибольшее количество голосов и наибольший процент. Обратите внимание, что мода не обязательно представляет больше половины (большинство) объектов, хотя иногда может быть и так.
Пример. Контроль качества: отклонения в производстве
Важным видом деятельности при создании качественных изделий является анализ отклонений в производственных процессах. Одни отклонения от производственного процесса неизбежны, но допустимы (из-за небольшой величины), в то время как другие выводят процесс из-под контроля и приводят к производству низкосортных изделий.
Эдвардс Деминг впервые ввел контроль качества в Японии в 50-е годы. Некоторые из его методов кратко можно обобщить следующим образом.
Предложенный Демингом метод в основе своей является статистическим. Любая производственная деятельность в цеху или в офисе, имеет отклонения от идеала. Деминг предложил систематический метод измерения отклонений производственного процесса, выявления причин этих отклонений, их уменьшения, совершенствования этого процесса, а значит, и повышения качества продукции. Сбор и последующий анализ данных — это ключевой компонент хорошего контроля качества.
Предположим, что предприятие регистрирует причину брака каждый раз при появлении изделия недопустимого качества
Причина проблемы | Число случаев |
Пайка соединений Пластмассовый корпус Блок питания Грязь Удар при падении |
Ясно, что модой в этом наборе данных является блок питания, поскольку эта причина брака встречается чаще других. Мода помогает сосредоточить внимание на самой важной категории (наиболее часто встречающейся). Нет необходимости разрабатывать дополнительные мероприятия по поддержанию чистоты на рабочем месте или по недопущению падения коробок, поскольку эти причины мало влияют на общую частоту брака. В первую очередь следует обратить внимание на модальную категорию.
В рассмотренной ситуации фирма могла бы попробовать разобраться с проблемой блока питания и принять соответствующие меры. Возможно, этот блок питания имеет недостаточную мощность для данного изделия и необходим более мощный источник. Возможно, нужно найти более надежного поставщика. В любом случае мода помогает уточнить имеющуюся проблему.
Пример. Повторное рассмотрение стадий сборки системных блоков
Рассмотрим еще раз описанный раньше пример данных о состоянии сборки системных компьютерных блоков. Ниже приведен набор данных.
Стадия производства | Количество системных блоков |
A B C D E F | |
Итого |
Раньше мы уже определили, что медиана приходится на стадию производства D, поскольку эта стадия отделяет половину системных блоков, находящихся на начальных стадиях сборки, от второй половины системных блоков наконечной стадии сборки. Однако в данном случае медиана не совпадает с модой (хотя в некоторых других примерах мода может совпадать с медианой).
Здесь мода представляет собой стадию E, на которой находится 119 системных блоков, т.е. больше, чем на любой другой стадии. В такой ситуации руководство должно быть проинформировано о моде, потому что наиболее «узкое место» в производственном процессе, скорее всего, проявится именно как мода.
В рассмотренном примере стадия Е — это установка материнской платы в системный блок. Наличие большого количества системных блоков на этой стадии может быть связано с большей трудоемкостью данной операции. Но, с другой стороны, это может быть и свидетельством наличия проблем у служащих, работающих на этой стадии (возможно, причина в недостаточном количестве людей или большом количестве отсутствующих работников). В таком случае руководству необходимо обратить на это внимание.
Какие показатели нужно использовать
(■* У^Ъ i/lP-/ |
Есть два вида ответов. Первый зависит от того, что можно вычислить, а второй зависит от того, какой из показателей более полезен.
Моду можно вычислить для любого одномерного набора данных (хотя в случае количественных данных проблемой может быть некоторая неопределенность). Среднее можно вычислить только для количественных данных (чисел), а медиану — для всех типов данных, кроме номинальных (неупорядоченных категорий). Таким образом, ваш выбор ограничен, а в случае номинальных данных у вас вообще нет другого выбора, кроме как использовать моду. Рекомендации по выбору характеристики в зависимости от типа данных можно представить такимобразом.
Количественные | Порядковые | Номинальные | |
Среднее | да | ||
Медиана | да | да | |
Мода | да | да | да |
В случае количественных данных, для которых можно вычислить все три характеристики, насколько они отличаются между собой? Если распределение близко к нормальному, разница невелика, поскольку каждая из характеристик стремится к четко выраженной середине, имеющей форму колокола кривой распределения.
Среднее следует использовать, когда набор данных распределен нормально (по крайней мере приблизительно), поскольку в этом случае среднее является самой эффективной характеристикой. Среднее также следует вычислять и в тех ситуациях, где необходимо сохранить или предсказать общую сумму значений данных, так как другие характеристики не позволяют это сделать.
Медиана служит хорошей характеристикой асимметричного распределения, поскольку на него не влияет небольшое число данных с высокими значениями.
(■* У^Ъ i/lP-/ |
Моду используют при наличии номинальных данных, так как в этом случае нельзя вычислять среднее и медиану. Она также полезна для порядковых данных, когда важно определить наиболее распространенную категорию. Помимо рассмотренных существует много других характеристик. Перспективным является использование так называемых «робастных» (устойчивых) оценок.
Для идеального нормального распределения среднее, медиана и мода совпадают. Для реальных данных, где всегда присутствует случайность, эти характеристики будут приблизительно, но не точно, равны между собой.
Однако в случае асимметричного распределения данных эти характеристики могут заметно различаться (как мы уже отмечали для среднего и медианы). На рис. 3. показаны рассматриваемые характеристики для данных, не подчиняющихся нормальному распределению.
Рис. 3. Асимметричное распределение
Для скошенного распределения среднее, медиана и мода различаются. Мода соответствует наивысшей точке на кривой распределения. По обе стороны от медианы находится половина области под кривой распределения. Среднее находится в точке центра тяжести распределения, как точки опоры доски детских качелей.