Функция кумулятивного распределения показывает перцентили
Функция кумулятивного распределения данных представляется в виде графика, который показывает перцентили путем установления соответствия между данными и процентами. Поскольку на вертикальной оси откладываются проценты от 0% до 100%, а на горизонтальной — сами перцентили (т.е. значения данных), то, используя этот график, можно легко находить либо значение перцентиля при заданном значении процента, либо значение процента, соответствующее определенному значению данных.
Функция кумулятивного распределения состоит из вертикальных скачков высотой 1/n для каждого из n значений данных и горизонтальных отрезков, соединяющих точки значений данных. На рисунке 2 показана функция кумулятивного распределения для небольшого набора данных, состоящего из n=5 значений (1,4,3,7,3), одно из которых (3) встречается дважды.
Рис. 2. Функция кумулятивного распределения для набора данных 1, 4, 3, 7, 3. Обратите внимание на скачок высотой 1/n = 20% для каждого значения данных и двойной скачок в точке 3 (поскольку это значение встречается дважды).
В этом примере значение 4 представляет 70-й перцентиль. Двигайтесь вертикально вверх от значения 4, поскольку вы попали на вертикальный участок, переместитесь вверх на середину этого участка. Затем двигайтесь по горизонтали влево до пересечения с вертикальной осью, вы получите результат 70%, так как перцентильный ранг этого значения расположен между 60 и 80 %.
Пример. Банкротства
Рассмотрим значения показателя количества банкротств на миллион человек в отдельных штатах. В табл. 4.2.2. содержатся соответствующие данные, упорядоченные по возрастанию.
На рис. 4.2.7. представлена функция кумулятивного распределения для этого набора данных. Из графика видно, что в большинстве штатов (от 10% до 90%) число банкротств находится в диапазоне от 150 до 430 банкротств на миллион населения.
Для изображения данных вы можете выбрать любой из трех графиков: гистограмму, блочную диаграмму или график функции кумулятивного распределения. Все они отображают одну и ту же информацию (значения данных), но в различном виде. На рис. 4.2.9. приведены все три типа графического представления данных о количестве банкротств, что позволяет сравнить их между собой.
Областям высокой концентрации данных (т.е. тем, где находится большое количество значений) соответствуют пики на гистограмме и крутая функция кумулятивного распределения. Обычно, как и в нашем случае, область высокой концентрации данных находится в середине. Областям низкой концентрации данных соответствуют низкие столбики на гистограмме и пологий участок кумулятивной кривой.
Обратите внимание, что из представленных здесь графических изображений данных только функция кумулятивного распределения содержит всю информацию о данных. При построении гистограммы часть информации теряется, так как гистограмма отражает только количество штатов в каждой из групп (например, группа с количеством банкротств от 100 до 200). При использовании блочной диаграммы также теряется часть информации, поскольку диаграмма содержит только пять базовых показателей. И лишь функции кумулятивного распределения содержат достаточно информации для того, чтобы можно было восстановить каждое число исходного набора данных.