Характеристики и параметры статистической совокупности
В результате непосредственных наблюдений, измерений или регистрации фактов получается множество данных, которые образуют статистическую совокупность и нуждаются в обработке, которая включает систематизацию и классификацию, расчет параметров, характеризующих эту совокупность, а также составление таблиц, графиков и других материалов, иллюстрирующих процесс.
Основным этапом обработки экспериментальных данных является группировка, т. е. разделение статистической совокупности на группы (классы), однородные по какому-то признаку. Благодаря группировке собранный материал приобретает систематизированный вид, поэтому выделение тех или иных групп должно быть не формальным, а обоснованным исходя из целей исследования.
Сведения, собранные за какой-то период, могут быть систематизированы по времени. Получаемые при этом данные называются временными рядами или рядами динамики. Путем экстраполяции, т. е. продолжения за измеренные значения, могут быть использованы для прогнозирования развития исследуемой системы в будущем. Если элементы совокупности систематизируются по характерному признаку, например по виду технологических процессов, типу оборудования, маркам исходных материалов, квалификации операторов и т.п., то они образуют ряды распределения.
Когда признаки количественные, то, расположив их в порядке возрастания или убывания и подсчитав число элементов, соответствующих каждому значению признака, получают вариационный ряд. Варьирующие признаки могут выражаться в виде дискретных целых чисел или принимать любые значения. Для непрерывных признаков вариационные ряды строятся как интервальные, т. е. значения признаков в них выражаются в виде «от... до...».
Вариационный ряд представляет собой таблицу распределения: несколько столбцов, в одном из которых приводятся значения признака, а в другом – числа, показывающие, сколько раз встречается данное значение в исследуемой совокупности. В других столбцах той же таблицы могут быть относительные числа, плотности и другие расчетные величины. Вариационные ряды приобретают большую наглядность, если изображаются графически. Для этого в прямоугольной системе координат по оси абсцисс откладывают интервалы вариационного ряда, а по оси ординат – соответствующие абсолютные числа или относительные частоты. Полученная диаграмма, состоящая из сомкнутых прямоугольников, называется гистограммой.
Наиболее полную характеристику статистической совокупности дает функция распределения вероятностей случайной величины. Однако на практике часто используют ограниченное количество числовых характеристик, называемых параметрами распределения. Эти параметры можно разделить на три класса, которые характеризуют: центр группирования; величину рассеяния (степень вариации); форму распределения вероятностей.
Центр группирования.Одной из основных характеристик статистической совокупности, дающей представление о том, вокруг какого центра группируются все значения, является среднее арифметическое.
Величина рассеяния.Статистические совокупности могут иметь близкие или даже одинаковые значения центра группирования, однако отдельные значения величин могут существенно отличаться. Происходит это из-за того, что разброс значений относительно центра бывает неодинаковый: в одних случаях – большой, в других – малый. Поэтому необходимо количественно измерять эти разбросы или вариации.
Самой элементарной характеристикой рассеяния является вариационный размах, представляющий собой разность максимальных и минимальных значений изучаемой совокупности.
Вариационный размах не всегда характерен, так как учитывает только крайние значения, которые могут в большой степени отличаться от всех других значений. Более точно рассеяние определяется с помощью показателей, учитывающих отклонение всех значений от среднего арифметического, т. е. среднее линейное и среднее квадратическое отклонения.
Среднее линейное отклонение основано на учете индивидуальных отклонений отдельных значений от среднего арифметического данного ряда и определяется как среднее арифметическое этих отклонений.
Вторым показателем степени вариации вокруг среднего является среднее квадратическое отклонение, или, как его часто называют, основное отклонение.
Основное отклонение – наиболее распространенный и общепринятый показатель вариации. Среднее арифметическое из квадратов отклонений от среднего значения называется дисперсией. Дисперсия имеет самостоятельное значение в математической статистике и относится к числу важнейших показателей вариации.
Для характеристики формы распределения обычно используют ту математическую модель, которая наилучшим образом приближает к виду кривой распределения вероятностей, полученной при анализе экспериментальных данных.
Статистические модели.В качестве математических моделей статистических распределений используют теоретические кривые распределения. Теоретическая кривая – это зависимость, которая описывается математически, т. е. может быть выражена уравнением с определенными параметрами. Известно значительное количество различных распределений: число потенциально возможных статистических моделей еще больше. Однако на практике применяют лишь некоторые из них, обычно те, которые более удобны для описания какой-либо ситуации или обладают необходимыми математическими свойствами.
Статистические методы анализа широко используются в компьютерных программах. В настоящее время для статистического анализа данных используются в основном пакеты SТАDIА и SТАТGRАРНIСS.
Например, методы статистики в литературоведении характеризуют стиль разных авторов не только качественно, но и количественно. Спорные вопросы об авторстве (а это уже юриспруденция!) тогда можно решать с помощью чисел. Так решился вопрос об авторстве (или соавторстве?) «Илиады»: подсчеты на ЭВМ всех ритмических особенностей каждой главы произведения показали, что автором поэмы мог быть только один человек: все главы имеют общее ритмическое единство.
Далее рассмотрим некоторые понятия более подробно.
6.4 Статистика – дизайн информации
Предыдущую тему мы закончили обсуждением результатов большого числа бросаний монеты. Число бросаний было велико: оно составляло несколько тысяч и даже десятков тысяч раз. Выяснили, что с увеличением числа бросаний монеты частота выпадения «решки» становится практически неотличимой от некоторой постоянной величины – в данном случае, от 0,5.
Здесь мы впервые встретились с одним из важнейших явлений окружающей нас действительности – явлением статистической устойчивости.