Графическое представление данных
Графики предназначены для более наглядного представления результатов исследования, а также для более детального и глубокого анализа полученных данных. Виды графиков (будем изучать):
1) круговая диаграмма;
2) диаграмма полос и/или столбцов;
3) ленточная диаграмма;
4) гистограмма;
5) полигон распределения;
6) графики накопленных частот;
7) график интерквартильного диапазона.
1) Круговая диаграмма применяется для изображения распределения качественных признаков. На круговой диаграмме частоты представляются в виде площадей-секторов. Для того чтобы определить искомую площадь сектора необходимо вычислить пропорцию
360о - 100%.
х - fi(%).
x = 360*fi(%)/100%.
Нулевой градус – ???
После того как сектора обозначены, необходимо выделить каждый сектор либо цветом, либо штриховкой. Любая диаграмма должна иметь заголовок и легенду.
Пол | fi(%) |
М Ж | 40% 60% |
2) используется для представления качественных признаков.
Представляет собой набор прямоугольников с равными основаниями и расположенными на одинаковом расстоянии друг от друга. Высота прямоугольника зависит от частоты. Каждый прямоугольник представляет собой отдельное значение признака. В ДС основания располагаются по оси Х, а соответствующие частоты по оси У. В ДП основания прямоугольников располагаются по оси У, а частоты по оси Х.
3) применяется для всех видов измерительных шкал и предназначена для изображения структуры распределения. Представляет собой полоску, длина которой равна 100%. Полоска делится на доли (сектора) в соответствии с частотой того или иного значения.
Ленточная диаграмма наиболее эффективна в сравнительном контексте. Для примера приведем динамику распределения лиц с ВО по году.
4) Применяется для количественных признаков, группированных в интервалы. По оси Х откладываются интервалы, по оси У - соответствующие частоты.
Набор прямоугольников, плотно прилегающих друг к другу. Служит для изучения формы распределения количественного признака.
Не требует выделение разным цветом либо штриховкой различных прямоугольников.
Если гистограмма строится по аналитической группировке, то есть, длины интервалов одинаковые, по оси У откладывается соответствующая частота. Если гистограмма строится по типологической либо процентивной группировке, то есть, длины интервалов разные, по оси У откладывается не частота, а плотность распределения.
5) Строится для количественных признаков.
Ломаная линия, строящаяся так: по оси Х откладываются единичные значения признака. По оси Х соответствующие этим значениям частоты. Затем эти точки соединяются.
Если число значений признак небольшое, в этом случае полигон строится для конкретных значений. Если же число значений признака большое (вариационный ряд длинный), лучше строить для сгруппированных данных. В этом случае в качестве значения признака используют середину каждого интеравала. Если ПР нужно построить для сгруппированных данных, то его совмещают с гистограммой.
Если ПР совмещается с гистограммой, то он, как и гистограмма, используется для визуализации и дальнейшего изучения форм распределения признака.
6) 2 вида графиков:
- кумулята - график, построенный по абсолютным значениям накопленных частот.
- огива - по накопленной частоте в процентах
Строятся для всех измерительных шкал, для которых имеет смысл расчет НЧ.
По оси Х - значение признака, по оси У - значения НЧ.
На одном и том же графике могут присутствовать одновременно кривая, построенная пои возрастающей НЧ, и кривая, построенная по убывающей НЧ. Графики НЧ можно строить для данных, сгруппированных в интервалы. В этом случае кривая, отстроенная по возрастающей НЧ в качестве значения признака использует верхнюю или правую границу интервала. По убывающей НЧ - нижняя или левая граница интервала.
7. Это разность между квантилем Х0,75 и Х0,25
График ИД имеет только 1 измерение (шкала значений признака) и строится по 5 точкам Хmin, Х0,25, Х0,5, Х0,75 и Хmax.
Характеристика центра распределения признака (меры центральной тенденции)
Являются 3 показателя:
- Мода (Мо);
- Медиана (Ме);
- Среднее арифметическое.
Мода – значение признака, обладающее наибольшей частотой. Мода может быть определена для любых измерительных шкал.
Для качественных признаков и количественных, не сгруппированных в интервалы, Мода определяется по частотному распределению.
Если количественный признак сгруппирован в интервалы, мода может определяться двумя способами:
1) графический (по гистограмме) (стаж руководителей);
М интервал - интервал, которому соответствует м частота.
2) используя формулу:
Х0 - нижняя граница МИ;
l - длина МИ;
FМо - частота в %, соответствующая МИ;
f- - частота в %, соответствующая предшествующему И;
f+ - частота в %, соответствующая последующему И.
Пример интерпретации: чаще всего среди студентов 1-го курса встречается возраст 18 лет.
Медиана – значение признака, которая делит упорядоченный ряд данных пополам таким образом, что число единиц наблюдения с большим и меньшим, чем медиана, значением признака, одинаково; 50-ый процентиль.
X0 – левая граница МИ;
l – длина МИ;
F – предшествующая накопленная частота;
fMe - частота в %, соответствующая МИ.
Так как номинальная шкала не обладает свойством упорядоченности/порядка, мы не можем определить (Ме). Для остальных определяется. Для порядковых шкал и количественных признаков, представленных в виде вариационного ряда, медиана определяется приблизительно по возрастающей накопленной частоте. В медиане будет соответствовать возрастающая накопленная частота, равная либо впервые превысившая 50%. Если количественный признак сгруппирован в интервалы, точное значение медианы можно найти по формуле внутри медианного интервала. Медианный интервал - интервал, для которого возрастающая частота равна либо впервые превысила 50%. Пример интерпретации: половина студентов имеют возраст до 18 лет, вторая половина – после 18 лет.
Среднее арифметическое – сумма всех значений признака, делённая на объём ВС.
Вычисляется только для количественных признаков. В зависимости от того, как представлен количественный признак, используется своя разновидность:
1) сырые данные: ;
2) вариационный ряд: ; xi и fi – значение признака и соответствующая абсолютная частота;
3) группировка в интервалы: ; – середина интервала.
Пример интерпретации: средний возраст составляет 17,8 лет.
Показатели вариации признака.
Вариация – различие в значениях какого-либо признака у разных единиц изучаемой совокупности. Всегда связана с такой характеристикой центра распределения, как среднее арифметическое. (Вариация) и её показатели определяются только для количественных признаков. Чем больше отдельное значение различается между собой, тем больше они отличаются от СА и наоборот (чем меньше…). Если распределение количественного признака характеризовать только с помощью СА, мы получим информацию только о некой типичной или характерной величине, однако строение совокупности нам будет неизвестно.
Для того чтобы представлять значение совокупности, вводятся специальные показатели, которые численно характеризуют отклонения отдельных значений от СА.
Предположим, обследуются 2 группы семьи из количества детей.
1. 0 6 3 1 5 = 3
2. 4 2 3 3 3 = 3
d1 = 6 - 0 = 6
d2 = 4 - 2 = 4
К показателям вариации относятся:
1) d размах - разница между максимальным и минимальным (показателем признака). Однако показывает лишь крайние отклонения значений признака и не отражает отклонений всех вариантов в ряду.
2) S2 дисперсия - представляет собой средний квадрат отклонений значений признака от СА. В зависимости от того, в каком виде представлены исходные данные, дисперсия вычисляется по соответствующей формуле:
1) сырые данные: ;
2) вариационный ряд: ;
3) интервалы: .
В знаменателе вычитание единицы производится тогда, когда объём выборочной совокупности n меньше 50. Если n > 50, вычитать 1 не обязательно. Вычитание – поправка на малый объём выборочной совокупности. Это очень важный показатель вариации, однако он используется редко, так как трудно интерпретируется.
3) S среднеквадратическое отклонение (СКО; стандартное отклонение) Std, deviation. - корень квадратный из дисперсии. Отличительная особенность - показатель измеряется в тех же единицах, что и значение признака, поэтому он может интерпретироваться.
3 формулы вычисления такие же, как и у дисперсии, только из значения нужно извлечь корень ( ). Пример интерпретации: возраст студентов 1-го курса в среднем отклоняется на 1,9 года от = 17,8 лет.
4) V коэффициент вариаций – выраженное в процентах отношение СКО к СА, используется для сравнительной оценки вариаций в различных количественных признаках, в различных совокупностях. Используется как характеристика однородности изучаемой совокупности по конкретному признаку. Совокупность считается однородной по данному признаку, если для него коэффициент вариаций не превышает 33%.