Среднее арифметическое, мода и медиана. Среднее квадратическое отклонение
Таблица вероятности попадания случайной величины в отмеченный (заштрихованный) диапазон
После этого раздела Вам нужно будет выполнить второе письменное задание.
ЗАДАНИЕ
В городе модельное агентство приглашает на работу красивых девушек от 18 до 25 лет, имеющих рост не ниже 1,75 метра, с местной пропиской. Можно считать, что распределение роста и возраста среди жителей города подчиняется нормальному закону. Средний рост женщин данной возрастной категории считайте равным 166 см, отклонение 5 см. Средний возраст 33 года, отклонение 14 лет. Вероятность того, что девушка красива, составляет 10%. Нарисуйте дерево вероятностей и ответьте, пожалуйста, на следующие вопросы:
Какова вероятность нужного роста?
Какова вероятность нужного возраста?
Какой процент жителей города может претендовать на работу в агентстве?
Выборки и доверительные интервалы
Пусть у нас имеется большое количество предметов, с нормальным распределением некоторых характеристик (например, полный склад однотипных овощей, размер и вес которых варьируется). Вы хотите знать средние характеристики всей партии товара, но у Вас нет ни времени, ни желания измерять и взвешивать каждый овощ. Вы понимаете, что в этом нет необходимости. Но сколько штук надо было бы взять на выборочную проверку?
Прежде, чем дать несколько полезных для этой ситуации формул напомним некоторые обозначения.
Во-первых, если бы мы все-таки промерили весь склад овощей (это множество элементов называется генеральной совокупностью), то мы узнали бы со всей доступной нам точностью среднее значение веса всей партии. Назовем это среднее значение Хср.ген. - генеральным средним. Мы уже знаем, что нормальное распределение определяется полностью, если известно его среднее значение и отклонение s . Правда, пока мы ни Хср.ген., ни sгенеральной совокупности не знаем. Мы можем только взять некоторую выборку, замерить нужные нам значения и посчитать для этой выборки как среднее значение Хср.выб., так и среднее квадратическое отклонение Sвыб.
Известно, что если наша выборочная проверка содержит большое количество элементов (обычно n больше 30), и они взяты действительно случайным образом, то s генеральной совокупности почти не будет отличаться от Sвыб
Кроме того, для случая нормального распределения мы можем пользоваться следующими формулами:
С вероятностью 95%
С вероятностью 99%
ЗАДАНИЕ
В одной и той же торговой палатке, чередуясь по неделе, работают два разных продавца (А и В). Таблица со значениями недельной выручки (в тыс. руб.) приводится за 8 последних недель.
Ответьте, пожалуйста, на следующие вопросы:
Какой продавец работал лучше с точки зрения суммарной выручки?
Можно ли утверждать, что это отклонение было случайным?
С какой достоверностью сделано Ваше утверждение?
Предварительная математическая обработка статистических данных
После получения результатов эксперимента для дальнейшего их анализа проводится упорядочение данных, их графическое представление и расчет основных числовых характеристик.
Наблюдаемые значения исследуемого признака Х называют вариантами и обозначают , числа их наблюдений называют частотами и обозначают Общее число наблюдений называют объёмом выборки и обозначают n,
Последовательность вариант, записанных в возрастающем порядке, называется вариационным рядом. К характеристикам вариационного ряда относятся:
1) Размах варьирования R — это разность между наибольшим и наименьшим значениями, ;
2) Мода Мо — это варианта, имеющая наибольшую частоту;
3) Медиана Ме — это варианта, делящая вариационный ряд пополам по числу вариант.
Статистическим распределением выборки называют множество вариант и соответствующих им частот. Обычно статистическое распреде-ление выборки представляют в виде таблицы:
… | ||||
… |
Эмпирической функцией распределения называется числовая функция , определяющая относительную частоту события Она вычисляется по формуле:
(1)
где — сумма частот вариант, значения которых меньше х, n — объём выборки.
является неубывающей функцией, значения которой принадлежат отрезку . служит оценкой теоретической функции распределения , определяющей вероятность события
Основными графическими формами представления данных наблюдений являются полигон частот и гистограмма.
Полигоном частот называется ломаная линия, звенья которой соединяют точки с координатами , , … , .
Гистограммой называется ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат интервалы одинаковой длины h, а высотами — плотности интервальных частот .
Основными характеристиками выборки являются:
1) Выборочная средняя , вычисляется по формуле:
. (2)
2) Выборочная дисперсия , вычисляется по формуле:
. (3)
3) Исправленная дисперсия , вычисляется по формуле:
(4)
4) Выборочное среднее квадратическое отклонение , вычисляется по формуле:
(5)
5) Исправленное среднее квадратическое отклонение s, вычисляется по формуле:
(6)
6) Коэффициент вариации V, вычисляется по формуле:
. (7)
Перечисленные характеристики относятся к точечным оценкам, при малых объёмах выборки предпочтительнее пользоваться интервальными оценками.
Доверительным интервалом для параметра , точечной оценкой которого является , называют интервал , содержащий с заданной вероятностью значение параметра , называют надежностью оценки.
Например, в случае нормально распределённой случайной величины доверительный интервал для среднего значения при неизвестном параметре определяется формулой:
(8)
где t — критическая точка распределения Стьюдента с степенями свободы для двусторонней области на уровне значимости определяется по таблицам, например в .
Пример. Статистическая обработка результатов измерений (вычисления выполнять с точностью до двух знаков после запятой)
Даны результаты измерений значений случайной величины Х. Составить статистическое распределение выборки и найти:
а) характеристики вариационного ряда: размах варьирования, моду, медиану;
б) эмпирическую функцию распределения и построить ее график;
в) построить полигон частот и гистограмму;
г) выборочную среднюю;
д) выборочную и исправленную дисперсии;
е) выборочное и исправленное средние квадратические отклонения
(стандарт);
ж) коэффициент вариации ( %);
з) доверительный интервал для среднего значения признака Х с надежностью =0,95;
12; 9; 16; 17; 10; 9; 15; 12; 15;16; 20; 18; 17; 9; 15; 9; 16; 9; 18; 16
Составим статистическое распределение выборки. Для этого расположим варианты в порядке возрастания:
9; 9; 9; 9; 9; 10; 12; 12; 15; 15; 15; 16; 16; 16; 16; 17; 17; 18; 18; 20
и подсчитаем числа наблюдений каждой варианты — частоты. Получим:
а) Размах варьирования мода Мо=9; объём выборки n=20, поэтому середина вариационного ряда находится между 10-й и 11-й вариантами в упорядоченном вариационном ряду, и медиана вычисляется как их среднее арифметическое, Ме = (15+15)/2=15.
б) Эмпирическую функцию распределения найдём по формуле (1):
;
;
;
;
;
;
;
;
Построим график (рис. 1)
Рис. 1 |
в) Построим полигон частот (рис. 2). Для этого по оси отложим наблюдаемые значения , а по оси частоты . Отметим точки с координатами и соединим их последовательно отрезками прямых.
Рис. 2 |
Для построения гистограммы разобьём интервал изменения x (9,20) на два интервала одинаковой длины h=5,5, подсчитаем интервальные частоты и плотности интервальных частот. Результаты внесём в таблицу 1.
Таблица 1
интервалы | Интервальные частоты | Плотности интервальных частот |
16/11 | ||
24/11 |
Построим гистограмму (рис. 3).
Рис. 3 |
г) Вычислим выборочную среднюю по формуле (2):
.
д) Вычислим выборочную дисперсию формуле (3):
.
Исправленную дисперсию найдём по формуле (4):
е) Выборочное и исправленное средние квадратические отклонения найдём по формулам (5) и (6):
ж) Коэффициент вариации вычислим по формуле (7):
з) Доверительный интервал для среднего значения признака Х найдём по формуле (8). Сначала по таблице [1] найдём критическую точку распределения Стьюдента с числом степеней свободы и уровнем значимости Получим t = 2,09 и подставим в формулу (8):
. После вычисления получим доверительный интервал для среднего значения
Среднее арифметическое, мода и медиана. Среднее квадратическое отклонение
Вероятно, Вы отлично знаете, что такое среднее арифметическое. Если мы имеем набор каких-то величин, и все они одной природы (усреднять килограммы с километрами мы, конечно, не можем), надо посчитать сумму, а затем, поделив ее на количество слагаемых, найти среднее арифметическое. Казалось бы, простое и хорошо знакомое действие, но и тут имеется несколько проблем для обсуждения. При знакомстве с некоторыми "показателями" поневоле вспоминается известная шутка о "средней температуре по больнице".
Пример.Допустим, фирма имеет две палатки, торгующие горячей выпечкой, которую они пекут на месте из полуфабрикатов. В таблице приводится примерная сводка ежедневной выручки каждой из палаток за неделю (в руб.).
Различие в ежедневной выручке в основном связано с расположением палаток. Палатка 1 находится в парке отдыха, в то время как Палатка 2 расположена напротив школы и вблизи проходной крупного НИИ.
Владелец фирмы решил выплачивать ежемесячную премию продавцам той палатки, которая даст в этом месяце большую выручку. При распределении премии выяснилась удивительная вещь: выигрыш в этом "соревновании" зависел только от количества выходных в месяце.
Не хотелось бы приводить большое количество цифр за весь месяц в целом, но и без этого видно, что если бы владельцу фирмы пришла в голову идея ежедневного премирования победителя какой-то фиксированной суммой, "Палатка выходного дня" могла бы рассчитывать на премии в два с половиной раза реже, хотя недельная выручка от нее больше.
В таких условиях более разумное соревнование могло бы быть основано на осреднении показателей за неделю. Допустим, недельные показатели практически совпали. Как оценить, какая из палаток полезнее для фирмы, если по каким-то причинам фирме необходимо продать одну из них?
Если выручка практически совпадает, владелец, по-видимому, поинтересуется стабильностью работы торговой точки. Вины продавцов в этом нет, но если оборудование работает два дня в неделю на износ, а в остальное время больше простоев, выход из строя такого оборудования более вероятен. Пусть в один (случайным образом выпавший) день в неделю идет сильный дождь, и на улицах мало прохожих, падение выручки особенно резко заметно, когда такой дождливый день совпадает с одним из выходных. Для сравнения можно представить спортсменов, которые имеют равные шансы выиграть, но один из них выступает ровнее. Скорее всего, именно он и будет принят в состав сборной.
Но вот еще один вопрос: а не делает ли эта самая нестабильная палатка работу фирмы в целом более стабильной, прекрасно дополняя работу палатки 2? Давайте выдвинем это утверждение в качестве гипотезы и попробуем его доказать или опровергнуть. Чтобы оценить эту проблему количественно, надо прежде всего просуммировать дневную выручку обеих палаток.
То, что мы описали общими словами как "нестабильность работы", в статистике называется характеристикой рассеивания. К ним относятся такие показатели как дисперсия и среднее квадратическое отклонение. Покажем на предыдущем примере, как определяются эти понятия. Посчитаем сначала среднее арифметическое выручки для каждой палатки отдельно, и для обеих палаток вместе (осреднение проводим за семь дней):
Хср.1=600 руб., Хср.2=598 руб., Хср.1+2=1198 руб.
Чтобы сравнить разброс значений, посчитаем для обеих палаток дневные отклонения выручки от их собственного среднего значения.
Чтобы измерить, насколько одна палатка "нестабильнее" другой, хочется сложить всю строку за неделю и получить общее отклонение за весь отчетный период. Но этого делать нельзя, мы сами так построили эти показатели, что, сложив, получим ноль (с точностью до погрешности округления - среднее арифметическое величина не обязательно целая). Чтобы избежать этого обнуления, нам надо, чтобы каждое отклонение от среднего арифметического "лишилось" своего знака. Для этого возводят каждую величину в квадрат, и лишь затем суммируют весь ряд значений.
Чтобы не зависеть от периода осреднения делят полученную сумму квадратов на число слагаемых (в нашем случае, по-прежнему на семь). Такая величина называетсядисперсией.
Мы видим, что дисперсия действительно очень показательная величина. У "Палатки выходного дня" она выше более, чем в десять раз. Дисперсию можно посчитать в Excel автоматически, даже не считая предварительно среднее арифметическое, программа сделает это сама. Для этого, находясь в файле Excel, нажмите в верхнем меню кнопку fx. Затем, выберите среди функций тип "СТАТИСТИЧЕСКИЕ", и из предложенного перечня в окошке - ДИСПРА. Затем, по подсказке, поставив курсор в поле "Число 1" проведите мышью вдоль строки с набранными значениями. Этот вид подсчета называется "вычисление смещенной дисперсии по генеральной совокупности". Дисперсией часто пользуются, но более удобная характеристика носит название среднее квадратическое отклонение (обычно обозначается греческой буквой омега. Среднее квадратическое отклонение - это квадратный корень из дисперсии, он удобен тем, что имеет ту же размерность, что и исходные величины. Так, в нашем случае, дисперсия имела бы размерность "рубли в квадрате", в то время как среднее квадратическое отклонение получается просто и привычно, в рублях. В нашем примере, видно, что суммарная дисперсия и среднее квадратическое отклонение у двух палаток вместе все-таки выше, чем у одной первой палатки, причем среднее квадратическое отклонение выше более, чем в два раза. Значит, наша гипотеза о "повышенной стабильности суммы" за счет присутствия второй палатки несостоятельна. Иногда, вместо среднего арифметического употребляют другие характерные величины, если это по каким-то причинам лучше описывает выборку. Так если расставить выборку по возрастанию (или убыванию) той величины, которой мы интересуемся, то медиана - это то, что будет ровно посередине "строя". Например, если мы расположим по порядку длительности интервалы времени: секунда, минута, час, сутки и неделя - то медианой будет час. Еще одно понятие для замены среднего -мода. Само название позволяет легко запомнить это определение. Если мы выстроим по порядку все пары обуви на складе по размеру, то самый ходовой размер будет модой. Мода - это то, что непременно должны учитывать производители упаковок и фасовщики. Если бы большинство людей покупало за один раз стакан молока, молочные пакеты не были бы литровыми. В следующем параграфе мы начнем работать со случайными величинами, имеющими нормальное распределение, и эти понятия нам снова встретятся.