Графическое представление данных
Лекция 2.
Вариационные ряды и их характеристики
Основные понятия
Обычно полученные в результате наблюдений данные представляют собой набор чисел. Просматривая этот набор, как правило, трудно выявить какую-либо закономерность. Поэтому данные подвергаются некоторой первичной обработке, целью которой является упрощение дальнейшего анализа.
Итак, предположим, что изучается некоторая случайная величина Х. С этой целью производится ряд независимых опытов, или, наблюдений, в каждом из которых величина Х принимает то или иное значение. Совокупность полученных значений
(1)
(отметим, что некоторые значения могут совпадать). Этот набор чисел называется выборкой (более подробно о выборке см. лекция 3).
Опр. Различные значения признака, наблюдающиеся у членов совокупности, называются вариантами, а числа, показывающие, сколько раз встречается каждый вариант – их частотами
Дальнейшие действия зависят от того, насколько много в выборке различных чисел. Если мы имеем дело с дискретной случайной величиной, то различных чисел немного; если с непрерывной случайной величиной, то, скорее всего, все числа окажутся различными. Рассмотрим оба случая.
Дискретный случай. Первый этап обработки – это составление вариационного ряда. Его получают следующим образом: среди чисел (1) отбирают все различные и располагают их в порядке возрастания:
, (2)
где
Опр. Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд вариантов с соответствующими им частотами или частостями.
Следующий этап обработки ряда (1) – составление эмпирического закона распределения:
… | |||
… | |||
… |
Здесь - число всех измерений, - число измерений, в которых наблюдалось значение , т.е. частота, а величины - относительные частоты или частости.
Непрерывный случай. Если число различных значений в выборке велико, вычислять частоту каждого из них не имеет большого смысла. Поэтому поступают следующим образом. Весь промежуток изменения значений выборки, от минимального до максимального, разбивают на интервалы. После этого подсчитывают число значений из выборки, попадающих в каждый интервал (частоты), а затем – относительные частоты. В результате получаем интервальную таблицу частот:
… | |||
… | |||
… |
Здесь - число всех измерений, - число интервалов, - количество чисел, приходящихся на -й интервал, (3) - относительная частота попадания в -й интервал.
Графическое представление данных
Результаты исследования могут быть представлены не только в виде табличном виде, но и в графическом представлении. Графическое представление достаточно часто используется на практике для демонстрации результатов, полученных в ходе проведенного опыта.
При изучении вариационных рядов наряду с понятием частоты используется понятие накопленной частоты (обозначается ). Накопленная частота показывает, сколько наблюдалось вариантов со значением признака, меньшим . Отношение накопленной частоты к общему числу наблюдений назовем накопленной частостью (4) .
Накопленные частоты (частости) для каждого интервала находятся последовательным суммированием частот (частостей) всех предшествующих интервалов, включая данный.
Для задания вариационного ряда достаточно указать варианты и соответствующие им частоты (частости) или накопленные частоты (частости).
Для графического изображения вариационных рядов наиболее часто используются: полигон, гистограмма, кумулятивная кривая.
Полигон, как правило, служит для изображения дискретного вариационного ряда и представляет собой ломанную, в которой концы отрезков прямой имеют координаты ,
Гистограмма служит только для изображения интервальных вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака и высотами, равными частотам (частостям) интервалов. Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения.
Кумулятивная кривая (кумулята) – кривая накопленных частот (частостей).
Для дискретного вариационного ряда кумулята представляет ломанную, соединяющую точки или ,
Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината – накопленной частоте (частости), равной нулю. Другие точки этой ломаной соответствуют концам интервалов.
Весьма важным является понятие эмпирической функции распределения.
Эмпирической функцией распределения называется относительная частота (частость) того, что признак (случайная величина ) примет значение, меньшее заданного , т.е.
. (5)
В теории вероятностей эмпирической функции распределения отвечает интегральная функция распределения . Свойства соответствуют свойствам .
Свойства:
. .
. - неубывающая функция.
. при и при .
Кроме гистограммы, полигона и кумуляты также можно использовать диаграмму рассеивания и круговую диаграмму.
Диаграмма рассеивания (точечная диаграмма) используется для нахождения наглядного отображения совместного распределения двух переменных. Этот вид диаграмм позволяет визуально оценить степень связи между изучаемыми признаками.
Эллипс, охватывающий все точки на диаграмме, имеет достаточно вытянутую форму, что свидетельствует о связи между случайными величинами Х, У, а т.к. большая диагональ образует с осью абсцисс острый угол, то связь прямая, что означает, что при увеличении роста животного увеличивается и его масса.
Замечание. Чем более вытянутая форма у эллипса, тем более выражена связь между признакам. Если же угол между большей осью эллипса и осью абсцисс тупой, тогда связь между признаками обратная, т.е. чем больше значение признака Х, тем меньше значение признака У.
Если точки на диаграмме расположены хаотично и вместо эллипса получается окружность, то связи между признаками не существует.
Круговая диаграмма используется для того, чтобы наглядно изобразить соотношение частей (признаков) внутри целого.
Замечание. При построении графических изображений необходимо выполнять следующие требования:
1.Оси координат должны быть перпендикулярны, их пересечение – начало координат – нуль.
2.Разрыв вертикальной оси (оси ординат) не допускается.
3. Разрыв горизонтальной оси (оси абсцисс) изображается как две вертикальные черты (см. рис. 1, 2, 5).
4.Все обозначения ставятся слева и снизу от осей координат.
5.Все подписи под диаграммами должны носить полную информацию.
Средние величины
Средние величины характеризуют значение признака, вокруг которого концентрируются наблюдения или, как говорят, центральную тенденцию распределения. Наиболее распространенной из средних величин является средняя арифметическая.
Опр. Средней арифметической вариационного ряда называется сумма произведений всех вариантов на соответствующие частоты, деленная на сумму частот:
, (6)
где - варианты дискретного ряда или середины интервалов интервального вариационного ряда; - соответствующие им частоты; т – число неповторяющихся вариантов или число интервалов; .
Или,
, (7)
где - частости вариантов или интервалов.