ANOVA/MANOVA - дисперсионный анализ
Прикладная цель дисперсионного анализа заключается в ответе на вопрос: оказывает ли факторы значимое влияние на зависимую величину или нет. При этом, однако, нужно иметь ввиду, что факторы должны быть представлены в номинальной или порядковой шкале.
Например, мы хотим понять влияет ли фактор "ПОЛ" на размер сумму покупки клиента. В данном случае фактор "ПОЛ" представлен в номинальной шкале и может принимать только два конкретных значения (М/Ж).
Если посмотреть на проблему с другой стороны, то дисперсионный анализ предназначен для ответа на вопрос: значимо ли различаются средние в нескольких группах. В приведенном выше примере мы по сути выясняем существенно ли в статистическом смысле средняя сумма покупки мужчины отличается от средней суммы покупки женщины. Если существенно, то мы говорим - фактор "ПОЛ" оказывает влияние на размер покупки.
Покажем суть дисперсионного анализа на простейшем примере. Допустим, в Вашем магазине два продавца работают посменно. Вы сталкиваетесь с ситуацией, когда товар то пролеживает, то в магазине пустые полки. Попробуем разобраться в сути явления:
Возможно, что один продавец работает недобросовестно, а значит продажи, в среднем у него существенно ниже. Поэтому, завозя товар разным продавцам одинаковыми партиями, Вы упускаете потенциальных клиентов и Ваши деньги связаны в пролеживающем товаре. Формализуем эту ситуацию.
Пусть продажи ведут себя следующим образом
Продавец | Продажи за день |
Семенова | |
Чичикова | |
Семенова | |
Чичикова |
Конечно данных должно быть побольше чем четыре наблюдения, но все же...
Дисперсия продаж в целом будет 5.66, а средний объем реализации - 7,5.
Но эта цифра не будет адекватно описывать ни одного из продавцов, поэтому разумно будет вести учет по каждому отдельно. Для первого средний объем составит 5,5 , а дисперсия- 0,5, для второго - 9,5 и 0,5 - соответственно. Итак, ведя дополнительный фактор - продавец, мы снизили общую дисперсию (теперь она равна 1,0) примерно в 6 раз и значительно улучшили качество прогноза продаж.
Более сложная картина в случае, когда у нас не 2 продавца в одном магазине, а 30 торговых точек в разных районах города, разных по площади, рекламе, внешнему виду, близости к магистралям…. И мы хотим понять какие факторы и как влияют на объемы продаж этих точек. Используя дисперсионный анализ вы сможете: во-первых, провести ранжирование факторов по степени влияния на объем продаж; во- вторых, оценить на сколько процентов увеличивается объем продаж при изменении того или иного фактора; в третьих, спрогнозировать объем продаж новой торговой точки.
Стоит отметить, что если факторы представлены в количественной шкале, то дисперсионный анализ все-таки можно провести. В этом случае мы имеем дело с ковариационным анализом.
Использование дисперсионного анализа трудно переоценить. Он присутствует и в регрессионном и дискриминантном и в кластерном анализе. По сути, почти все статистические техники так или иначе используют этот подход.
А если вы занимаетесь отладкой производственного процесса и поиском оптимальных технологических параметров, то дисперсионный анализ должен стать Вашей "рабочей лошадкой"
Логит и пробит модели
Probit и logit модели применяются для оценки качественных переменных, где применение линейного оценивания затруднено рядом причин. Другими словами, если Вы хотите спрогнозировать некоторую величину, причем эта величина бинарная, т.е. может принимать только два значения, то логит и пробит модели могут оказать Вам незаменимую услугу.
Примеры:
1. Необходимо спрогнозировать, какой будет продукт на выходе (годный или бракованный) если параметры производственного процесса будут установлены в том или ином состоянии. В данном случае прогнозируемая величина - бинарная (годен/брак), поэтому могут использоваться логит/пробит модели.
2. Вы хотите знать, упадет ли объем продаж ниже критического уровня или нет, если покупательная способность населения упадет на 5%.
3. Вы изучаете поведение покупателей в Вашем магазине и хотите изучить чем поведение купивших отличается от поведения людей, не сделавших покупку. В этом случае факт покупки - зависимая бинарная величина, а поведение человека в магазине и половозрастные характеристики посетителя - факторы.
Итак, введем следующие обозначения:
Покупка - принимает значение "1",
клиент ушел без покупки - "0".
T - время проведенное в магазине;
Y - возраст клиента;
K - внешняя респектабельность клиента по 5-бальной шкале;
и.т.п.
е(i) - "ошибки"
В e(i) -попадают отклонения, которые не объяснены моделью
В итоге, модель имеет следующий вид:
Покупка(i) = a*T(i)+b*Y(i)+c*K(i)+e(i)
По ряду причин, применение линейного оценивания здесь дает некорректные результаты, поэтому для оценки коэффициентов"а,b,c" задается условное распределение положительного решения о покупке в зависимости от дохода. В случае если рассматривается стандартное нормальное распределение, модель называется probit, если логистическое, то - logit.
Дискриминантный анализ
Задачи дискриминантного анализа можно разделить на два типа.
Задачи первого типа часто встречаются в производственной практике. Допустим, что мы располагаем информацией о некотором числе бракованных деталей, дефект каждой из которых может быть следствием ряда разладок производственного процесса. На основе этой информации нужно найти функцию, позволяющую определить, какая разладка (несоблюдение температурного режима, качество сырья…) вызвала причину конкретного дефекта. Построение такой функции и составляет задачу дискриминации.
Задачи второго типа связаны с предсказанием будущих событий на основании имеющихся данных. Примером может служить определение вероятности, с которой, если соответствующие предписания производственного были соблюдены, деталь окажется стандартной. (с какой вероятностью покупатель купит продукт, если ... и т.д.).
Рассмотрим на примере второй задачи пример использования дискриминантного анализа.
Допустим, мы знаем условия, в которых проходило изготовление 30 групп деталей (30 дней). Пусть, к примеру, "условия" задаются двумя показателями
- квадрат отклонения температуры в цехе от заданной
- квадрат отклонения времени обработки детали от нормативов
Допустим, по прошлым данным, мы установили явный вид классифицирующей функции, позволяющей определить, проходит ли деталь ОТК, если показатели соответствующей группы имеют соответствующие значения. (не ясно)
Оценив по имеющимся данным классифицирующие функции для групп деталей "брак", "не брак", и определив "центральные значения соответствующих показателей, мы сможем в явном виде определять принадлежность Детали к определенной группе. Допустим, для функции "брак" - центральные значения составляют (3 для температуры и 4 для продолжительности), а для "не брак" - (1 и 1 соответственно). Пусть мы имеем конкретную партию с параметрами отклонений (4 и 2). В этом случае, скорее всего ОТК ее забракует, так как сумма квадратов отклонений от показателей функции "брак" составляет (1+4=5), а для "не брак" - (9+1=10), так как 5<10, мы считаем, что по показателям деталь больше похожа на бракованную, чем на стандартную.
Итак, мы имеем две функции классификации (для деталей, проходящих и не проходящих ОТК) и можем заранее предсказать итоговый выпуск стандартной продукции, не проходя проверкуВ случае если мы не укладываемся в плановые показатели, можно своевременно определит отставание и форсировать выпуск.
Что касается технической стороны задачи, то следует обратить внимание на то, что для оценки принадлежности детали к определенной совокупности, как правило, используется так называемое, расстояние Махаланобиса, применение которого корректно, даже в случае коррелированности объясняемых переменных (в нашем случае логично предположить, что если бригада невнимательно следит за продолжительностью процесса, не стоит рассчитывать на качественный контроль температуры).