Пусть имеется выборка результатов испытаний
Столбец 1 | Столбец 2 | Столбец 3 | Столбец 4 | Столбец 5 | |||||
X | Y | X | Y | X | Y | X | Y | X | Y |
4.22 | 117.00 | 4.14 | 112.58 | 4.20 | 116.18 | 4.17 | 114.23 | 3.71 | 89.89 |
4.08 | 109.32 | 3.44 | 77.16 | 3.57 | 83.29 | 4.08 | 109.12 | 3.51 | 80.42 |
3.59 | 83.82 | 4.06 | 108.45 | 3.99 | 104.67 | 4.39 | 127.32 | 4.31 | 122.32 |
4.17 | 114.48 | 4.67 | 144.03 | 4.35 | 124.64 | 3.47 | 78.42 | 3.81 | 95.21 |
4.06 | 108.41 | 3.85 | 97.31 | 3.86 | 97.60 | 3.46 | 77.66 | 4.26 | 119.62 |
3.55 | 82.29 | 3.59 | 84.20 | 3.75 | 92.15 | 3.09 | 61.54 | 4.43 | 129.80 |
3.74 | 91.68 | 3.32 | 71.68 | 3.67 | 87.80 | 3.71 | 90.13 | 3.37 | 73.56 |
3.25 | 68.56 | 4.12 | 111.71 | 3.74 | 91.60 | 3.82 | 95.46 | 3.81 | 94.98 |
4.62 | 141.25 | 3.80 | 94.52 | 3.73 | 90.79 | 3.41 | 75.40 | 4.02 | 106.08 |
3.76 | 92.47 | 3.09 | 61.50 | 3.98 | 104.09 | 3.96 | 102.85 | 3.95 | 102.18 |
Столбец 6 | Столбец 7 | Столбец 8 | Столбец 9 | Столбец 10 | |||||
X | Y | X | Y | X | Y | X | Y | X | Y |
4.39 | 127.41 | 4.16 | 113.98 | 3.50 | 79.82 | 4.53 | 135.36 | 4.56 | 137.33 |
4.05 | 107.47 | 3.34 | 72.44 | 3.42 | 75.84 | 3.56 | 82.58 | 4.16 | 113.93 |
3.30 | 70.41 | 4.00 | 104.74 | 3.62 | 85.32 | 3.51 | 80.18 | 3.24 | 68.20 |
4.61 | 140.41 | 4.57 | 137.84 | 3.61 | 85.22 | 4.31 | 122.69 | 3.80 | 94.29 |
4.33 | 123.40 | 4.40 | 127.68 | 4.31 | 122.34 | 4.24 | 118.58 | 4.53 | 135.55 |
4.06 | 108.22 | 4.57 | 138.05 | 3.15 | 64.29 | 4.70 | 146.14 | 3.83 | 95.92 |
4.16 | 113.97 | 4.06 | 108.50 | 3.93 | 101.01 | 3.68 | 88.22 | 4.20 | 115.89 |
3.46 | 77.92 | 3.43 | 76.55 | 4.42 | 128.98 | 3.60 | 84.53 | 3.54 | 81.49 |
4.51 | 134.19 | 4.04 | 107.16 | 4.20 | 116.16 | 3.67 | 87.73 | 3.77 | 93.19 |
4.53 | 135.43 | 3.86 | 97.62 | 4.12 | 111.35 | 4.40 | 127.44 | 3.37 | 73.59 |
В данном примере объем выборки n =100
Для того, чтобы суждения о законах распределения СВ X или об ее числовых характеристиках были объективны, необходимо, чтобы выборка была представительной (репрезентативной), т.е. достаточно хорошо представляла исследуемую случайную величину. В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществить случайно: каждый объект выборки отобран случайно из генеральной совокупности, если все объекты имеют одинаковую вероятность попасть в выборку. Выборка считается большой, если ее объем n >30, в противном случае выборка называется малой.
2. ПОСТРОЕНИЕ ВАРИАЦИОННОГО РЯДА.
Пусть изучается некоторая дискретная или непрерывная СВ, закон распределения которой известен. Статистический материал, полученный в результате измерений, представляют в виде таблицы, состоящей из двух строк, в первой из которых находятся расположенные в возрастающем порядке значения признака (для дискретной СВ) или интервалы (для непрерывной СВ), а во второй – их частота ; (число одинаковых значений дискретной СВ или число наблюдений в i-м интервале в случае непрерывной СВ). Такое представление признака и частот называется вариационным рядом.
На основе имеющейся выборки составляем интервальный статистический ряд для непрерывной СВ.
Для выбора оптимальной длины интервалов h воспользуемся формулой:
где – соответственно максимальное и минимальное значения признака X в выборке; l– количество интервалов. В данной работе мы будем использовать следующую формулу: , где n – объём выборки (можно воспользоваться формулой ).
Для нашего случая:
Найдём количество интервалов: .
Найдём длину интервалов (шаг): Примем значение шага равным 0.17.
Нижнюю границу первого интервала принимаем равной минимальному значению признака в выборке, т.е. .
Зная нижнюю границу первого интервала и длину интервала , построим весь интервальный ряд (Таблица 1. Столбец «Интервалы»).
Найдем середину каждого интервала (Таблица 1. Столбец «Середина интервала»), используя формулу: , где – конечное и начальное значения определённого интервала.
Проанализируем каждое значение имеющейся выборки на факт попадания в определённый интервал, а число значений, попавших в интервал, запишем в столбец «Частота». Проведём проверку полученных значений частот: .
В столбец «Накопленная частота» запишем значения, полученные по формуле:
Все вычисленные значения представим в виде таблицы 1.
3. ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВАРИАЦИОННЫХ РЯДОВ
Для наглядности статистические ряды представляют графиками, наиболее распространёнными являются полигон и гистограмма. Полигон применяется для изображения как дискретных, так и интервальных статистических рядов, гистограмма – для изображения только интервальных рядов. Покажем построение этих графиков на примере.
Таблица 1.
I | Интервалы | Середина интервала, | Частота, | Относительная частота, | Накопленная частота, | Относит. накопл. частота, | |
[3,09; 3,26) | 3,175 | ***** | 0,05 | 0,05 | |||
[3,26; 3,43) | 3,345 | ******* | 0,07 | 0,12 | |||
[3,43; 3,60) | 3,515 | ************** | 0,14 | 0,26 | |||
[3,60; 3,77) | 3,685 | ************* | 0,13 | 0,39 | |||
[3,77; 3,94) | 3,855 | *********** | 0,11 | 0,5 | |||
[3,94; 4,11) | 4,025 | ************** | 0,14 | 0,64 | |||
[4,11; 4,28) | 4,195 | ************** | 0,14 | 0,78 | |||
[4,28; 4,45) | 4,365 | *********** | 0,11 | 0,89 | |||
[4,45; 4,62) | 4,535 | ******** | 0,08 | 0,97 | |||
[4,62; 4,79] | 4,705 | *** | 0,03 | ||||
Проверка: Σ=100 |
Для построения гистограммы частот на оси абсцисс откладываем частичные интервалы значений случайной величины , на каждом из которых строим прямоугольник, высота которого равна соответствующей частоте интервала .
Если на гистограмме частот соединить середины верхних сторон элементарных прямоугольников, то полученная замкнутая ломаная образует полигон распределения частот (рисунок 1).
Рисунок 1. – Графическое изображение вариационного ряда.
В теории вероятностей гистограмме и полигону относительных частот соответствует график плотности распределения. По виду полигона делают первоначальное предположение о законе распределения исследуемой случайной величины.
4. ЭМПИРИЧЕСКАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ
Пусть известен статистический ряд количественного признака X. Введем обозначения: – число наблюдений, при которых наблюдалось значение признака меньше х (накопленная частота); n – объем выборки; – относительная частота события Х < х (относительная накопленная частота).
Эмпирической функцией распределения называют функцию , равную относительной накопленной частоте события Х <х.
В отличие от эмпирической функции распределения выборки интегральную функцию распределения генеральной совокупности называют теоретической функцией распределения. Теоретическая функция распределения определяет вероятность события Х < х, т.е. Р(Х < х), эмпирическая – относительную частоту этого события. Вследствие закона больших чисел (теорема Бернулли) относительная частота события Х < х, т.е. F*(x) стремится к вероятности этого события, т.е. к F(x). обладает всеми свойствами F(x), а именно:
1) 0< <1;
2) – неубывающая функция;
3) =0 при х ,
4) =1 при х > .
Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.
Для построения графика эмпирической функции распределения (кумуляты) на оси абсцисс откладывают интервалы, на оси ординат – относительные накопленные частоты, соответствующие правым границам интервала. на левой границе первого интервала равна нулю. Кумулята представляет собой ломаную линию (рисунок 2).
Рисунок 2. – График эмпирической функции распределения.
5. ОСНОВНЫЕ ВЫБОРОЧНЫЕ ХАРАКТЕРИСТИКИ
К основным выборочным характеристикам (показателям) относятся: средняя арифметическая, мода, медиана, дисперсия, среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии, эксцесса. Для определения перечисленных показателей удобно составить таблицу 2.
Таблица 2
i | |||||||
3,175 | 15,875 | –0,748 | 2,79752 | –2,09254 | 1,565224 | ||
3,345 | 23,415 | –0,578 | 2,338588 | –1,3517 | 0,781285 | ||
3,515 | 49,21 | –0,408 | 2,330496 | –0,95084 | 0,387944 | ||
3,685 | 47,905 | –0,238 | 0,736372 | –0,17526 | 0,041711 | ||
3,855 | 42,405 | –0,068 | 0,050864 | –0,00346 | 0,000235 | ||
4,025 | 56,35 | 0,102 | 0,145656 | 0,014857 | 0,001515 | ||
4,195 | 58,73 | 0,272 | 1,035776 | 0,281731 | 0,076631 | ||
4,365 | 48,015 | 0,442 | 2,149004 | 0,94986 | 0,419838 | ||
4,535 | 36,28 | 0,612 | 2,996352 | 1,833767 | 1,122266 | ||
4,705 | 14,115 | 0,782 | 1,834572 | 1,434635 | 1,121885 | ||
392,3 | 16,4152 | –0,05896 | 5,518533 |
В зависимости от характеризуемых особенностей распределения обобщающие показатели можно разбить на три группы:
1. показатели центра распределения (центра группирования);
2. показатели степени рассеяния (вариации);
3. показатели формы распределения.
1. Показатели центра распределения
Для характеристики центра распределения в вариационном ряду используются:
1) Средняя арифметическая, которая определяется по формуле:
где – значение признака для дискретного ряда или середина интервала для интервального статистического ряда.
В нашем случае: .
2) Мода – наиболее часто встречающееся значение признака. Для дискретного ряда мода – значение признака, соответствующего наибольшей частоте. Для интервального ряда мода вычисляется по следующей приближенной формуле:
,
где – нижняя граница модального интервала, то есть интервала, имеющего наибольшую частоту;
– длина интервала;
– частота модального интервала;
– частота интервала, предшествующего модальному;
– частота интервала, следующего за модальным.
В примере модальным является 6 интервал.
Мода может быть определена приближенно графическим способом. Для этого правую вершину модального прямоугольника соединяем с правым верхним углом предыдущего прямоугольника, а левую вершину модального прямоугольника – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых приближенно будет модой распределения. В рассматриваемом примере = 4.11 (рисунок 1).
3) Медиана – значение признака, которое делит весь упорядоченный ряд значений пополам. Для дискретного ряда, если число вариант нечетно, т. е. n = 2k+l, Me = , при четном n = 2k Me = /2. Для интервального статистического ряда медиана вычисляется по следующей приближенной формуле:
где – нижняя граница медианного интервала, то есть интервала, которому соответствует первая из накопленных частот, превышающая половину объема совокупности; – длина интервала; – частота медианного интервала; – накопленная частота интервала, предшествующего медианному.
В примере медианным является 3-й интервал.
.
По кумуляте (рисунок 2) приближённо определим значение медианы: на уровне 0.5 (накопленная относительная частота) проведем горизонтальную линию до пересечения с кумулятой; в точке пересечения опустим перпендикуляр на ось абсцисс; точка, в которой перпендикуляр пересекает ось абсцисс, показывает приближенное значение медианы. В нашем примере .
2. Показатели рассеяния
Для характеристики отклонения значений признака от среднего арифметического используются:
1) Дисперсия, которая определяется по формуле:
В нашем случае: .
2) Среднее квадратическое отклонение
В нашем случае: .
3) В качестве относительной характеристики рассеяния используют коэффициент вариации, который показывает, насколько велико рассеяние значений признака по сравнению со средней арифметической. Коэффициент вариации определяется по формуле:
В отличие от дисперсии и среднего квадратического отклонения коэффициент вариации – величина безразмерная, что позволяет сравнивать изменчивость признаков как в пределах одной совокупности, так и разных совокупностей, независимо от единиц измерения разных сопоставляемых признаков.
Совокупность считается однородной, если коэффициент вариации не превышает 33 % (для распределений, близких к нормальному).
Исходя из величины коэффициента вариации, можно установить характеристику изменчивости, например, по следующей схеме:
Коэффициент вариации, | До 5% | 6–10% | 11–20% | 21–50% | 50% |
Изменчивость | слабая | умеренная | значительная | большая | очень большая |
В нашем случае: , следовательно, изменчивость умеренная, совокупность однородна.
3. Показатели формы распределения
На практике приходится встречаться с самыми различными распределениями. Однородные совокупности характеризуются, как правило, одновершинным распределением. Многовершинность свидетельствует о неоднородности изучаемой совокупности. При изучении распределений, отличных от нормального, возникает необходимость количественно оценить это различие. С этой целью вводят такие характеристики, как коэффициент асимметрии и коэффициент эксцесса ε. Для нормального распределения эти характеристики равны нулю. Поэтому, если для изучаемого распределения асимметрия и эксцесс имеют небольшие значения ; , то можно предположить близость этого распределения к нормальному.
Коэффициент асимметрии определяется по формуле:
.
Если =0, то ряд симметричен относительно моды.
При >0 скошенность вправо, средняя арифметическая правее моды, «длинная часть» кривой распределения расположена справа от моды. При правосторонней асимметрии .
При <0 скошенность вправо, средняя арифметическая левее моды, «длинная часть» кривой распределения расположена слева от моды. При левосторонней асимметрии .