Эмпирические распределения
Для практических задач знание закона или функции распределения – редкость. Здесь закон распределения обычно неизвестен, или известен с точностью до некоторых неизвестных параметров. В частности, невозможно рассчитать точное значение соответствующих вероятностей, так как нельзя определить количество общих и благоприятных исходов. Поэтому вводится статистическое определение вероятности. По этому определению вероятность равна отношению числа испытаний, в которых событие произошло, к общему числу произведенных испытаний. Такая вероятность называется статистической частотой
Связь между эмпирической функцией распределения и функцией распределения (теоретической функцией распределения) такая же, как связь между частотой события и его вероятностью.
Для построения выборочной функции распределения весь диапазон изменения случайной величины X (выборки) разбивают на ряд интервалов одинаковой ширины. Число интервалов обычно выбирают не менее 3 и не более 15. Затем определяют число значений случайной величины X, попавших в каждый интервал (абсолютная частота, частота интервалов).
Частота интервалов – число, показывающее сколько раз значения, относящиеся к каждому интервалу группировки, встречаются в выборке. Поделив эти числа на общее количество наблюдений (n), находят относительную частоту (частость) попадания случайной величины X в заданные интервалы.
По найденным относительным частотам строят гистограммы выборочных функций распределения. Гистограмма распределения частот – это графическое представление выборки, где по оси абсцисс (ОХ) отложены величины интервалов, а по оси ординат (ОУ) – величины частот, попадающих в данный классовый интервал. При увеличении до бесконечности размера выборки выборочные функции распределения превращаются в теоретические: гистограмма превращается в график плотности распределения.
Накопленная частота интервалов – это число, полученное последовательным суммированием частот в направлении от первого интервала к последнему, до того интервала включительно, для которого определяется накопленная частота.
В Excel для построения выборочных функций распределения используются специальная функция ЧАСТОТА и процедура Гистограмма из пакета анализа.
Функция ЧАСТОТА(массив_данных, двоичный_массив) вычисляет частоты появления случайной величины в интервалах значений и выводит их как массив цифр, где
• массив_данных — это массив или ссылка на множество данных, для которых вычисляются частоты;
• двоичный_массив — это массив интервалов, по которым группируются значения выборки.
Процедура Гистограмма из Пакета анализа выводит результаты выборочного распределения в виде таблицы и графика. Параметры диалогового окна Гистограмма:
• Входной диапазон - диапазон исследуемых данных (выборка);
• Интервал интервалов - диапазон ячеек или набор граничных значений, определяющих выбранные интервалы. Эти значения должны быть введены в возрастающем порядке. Если диапазон интервалов не был введен, то набор интервалов, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически.
• выходной диапазон предназначен для ввода ссылки на левую верхнюю ячейку выходного диапазона.
• переключатель Интегральный процент позволяет установить режим включения в гистограмму графика интегральных процентов.
• переключатель Вывод графика позволяет установить режим автоматического создания встроенной диаграммы на листе, содержащем выходной диапазон.
Пример 5. Построить эмпирическое распределение веса студентов в килограммах для следующей выборки: 64, 57, 63, 62, 58, 61, 63, 70, 60, 61, 65, 62, 62, 40, 64, 61, 59, 59, 63, 61.
Решение
1. В ячейку А1 введите слово Наблюдения, а в диапазон А2:А21 — значения веса студентов (см. рис.1).
2. В ячейку В1 введите названия интервалов Вес, кг. В диапазон В2:В8 введите граничные значения интервалов (40, 45, 50, 55, 60, 65, 70).
3. Введите заголовки создаваемой таблицы: в ячейки С1 — Абсолютные частоты, в ячейки D1 — Относительные частоты, в ячейки E1 — Накопленные частоты (см. рис. 1).
4. С помощью функции Частота заполните столбец абсолютных частот, для этого выделите блок ячеек С2:С8. В строке формул щелкнув по кнопке Вставить функцию (кнопка fx) вызовите Мастер функций. В появившемся диалоговом окне выберите категорию Статистические и функцию ЧАСТОТА и нажмите кнопку ОК. Указателем мыши в рабочее поле Массив_данных введите диапазон данных наблюдений (А2:А8). В рабочее поле Двоичный_массив мышью введите диапазон интервалов (В2:В8). Затем на клавиатуре нажмите комбинацию клавиш Ctrl+Shift+Enter. В столбцеC должен появиться массив абсолютных частот (см. рис.1).
5. В ячейке C9 найдите общее количество наблюдений. Активизируйте ячейку С9, на панели инструментов Редактирование вкладки Главная нажмите кнопку Автосумма. Убедитесь, что диапазон суммирования указан правильно и нажмите клавишу Enter.
Рис. 1. Результат вычислений из примера 1
6. Заполните столбец относительных частот. В ячейку введите формулу для вычисления относительной частоты: =C2/$C$9. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон и получите массив относительных частот.
7. Заполните столбец накопленных частот. В ячейку D2 скопируйте значение относительной частоты из ячейки E2. В ячейку D3 введите формулу: =E2+D3. Нажмите клавишу Enter. Протягиванием (за правый нижний угол при нажатой левой кнопке мыши) скопируйте введенную формулу в диапазон D3:D8. Получим массив накопленных частот.
8. Постройте диаграмму относительных и накопленных частот. Щелчком указателя мыши по кнопке Анализ данных вкладки Данные вызовите Пакет анализа, выберите в нем опцию Гистограмма и постройте график абсолютных и накопленных частот. После редактирования диаграмма будет иметь такой вид, как на рис. 2.
Рис. 2 Диаграмма относительных и накопленныхчастот из примера 1
Выполните упражнения
Упражнение 1.
В тетради для практических работ дайте письменный ответ на следующие контрольные вопросы:
1. Определения понятий случайное событие, вероятность случайного события.
2. Диапазон возможных значений вероятности случайного события.
3. Встроенные функции MS Excel, позволяющие облегчить вычисление вероятности событий. Их назначение и формат записи.
4. Случайные величины, виды случайных величин.
5. Функция НОРМРАСП. Назначение и формат записи.
6. Описание процедуры ГИСТОГРАММА, входящей в ПАКЕТ АНАЛИЗА MS Excel.
Упражнение 2.
Используя теоретический материал и способ оформления решения, изложенный на лекции «Элементы теории вероятностей», с помощью Microsoft Excel решите следующие задачи: