Методы описательной статистики

Это методы описания выборок, исследуемых по количественному признаку Х, с помощью их различных числовых характеристик.

Преимущество данных методов заключается в следующем. Несколько простых и достаточно информативных статистических показателей, если они известны, во-первых, избавляют нас от просмотра сотен, а порой и тысяч значений вариант, а, во-вторых, позволяют получить более или менее точную оценку характеристик распределения признака в генеральной совокупности.

Описывающие выборку показатели разбиваются на несколько групп; в своем большинстве они имеют аналоги в виде числовых характеристик случайных величин в теории вероятностей.

Показатели положения описывают положение вариант выборки на числовой оси. Сюда относят:

а) минимальную и максимальную варианту;

б) выборочное среднее арифметическое значение (выборочное среднее), выборочные моду и медиану. Они определяют «центральную» точку распределения выборки: наиболее значимую для поставленной задачи варианту.

Выборочным средним называется величина

Методы описательной статистики - student2.ru _в = , (31)

где х_i – i-ая варианта, полученная в опыте с i-ым элементом выборки; n – объем выборки.

Так, согласно данным табл.4 среднее выборочное значение массы тела новорожденных – Методы описательной статистики - student2.ru _в = 3,47 кг и относится к центральному интервалу (интервалу наиболее вероятных значений).

Выборочная мода Мо_в – варианта, которая чаще всего встречается в исследуемой выборке, т.е. имеет наибольшую частоту.

Методы описательной статистики - student2.ru Пример 1. На рис. 10 приведено предполагаемое распределение по возрасту заболевших дифтерией (на 10 тыс. населения соответствующего возраста), которое явно не соответствует нормальному. Очевидно, что знание среднего возраста заболевших ( Методы описательной статистики - student2.ru _в » 7,8 года) в этом случае менее важно, чем знание возраста, в котором чаще всего возникает заболевание и который представляет собой моду (Мо_в » 4 года). Именно этот показатель указывает где должны быть сосредоточены главные профилактические меры: в школах или дошкольных учреждениях.

Выборочная медиана Ме_в – варианта, которая делит ранжированный статистический ряд (см. сноску на стр. 38) на две равные части по числу попадающих в них вариант.

Пример 2. Дан статистический ряд: 1; 2; 3; 3; 5; 6; 6; 6; 7; 8; 9; n = 11. Варианта, разделяющая этот ряд на две равные по количеству вариант части, занимает в ряду 6 место и равна 6, т.е. Ме_в = 6.

Показателиразброса описывают степень разброса данных относительно своего центра. Здесь обычно используются:

а) стандартное отклонение S и выборочная дисперсия D_в = S²*, характеризующие рассеяние вариант вокруг их среднего выборочного значения Методы описательной статистики - student2.ru _в:

Методы описательной статистики - student2.ru ; (32)

б) размах выборки – разность между максимальной и минимальной вариантами: х_макс – х_мин;

в) коэффициент вариации:

n = Методы описательной статистики - student2.ru × 100%, (33)

который применяется для сравнения величин рассеяния двух вариационных рядов: тот из них имеет большее рассеяние, у которого коэффициент вариации больше.

Кпоказателям, описывающим закон распределения, прежде всего, относят гистограммы и полигон частот. О них шла речь в предыдущем разделе.

3.5. Оценка параметров генеральной совокупности по ее выборке. Точечная и интервальная оценки

Напомним, что главная цель любого статистического исследования – установить закон распределения и получить значения характеристик изучаемого признака генеральной совокупности путем анализа выборки. Иначе говоря, надо определить генеральную среднюю Методы описательной статистики - student2.ru _г = М(Х), генеральные дисперсиюD_г(Х), среднее квадратическое отклонение s_г, генеральную моду Мо_г, медиану Ме_г и другие характеристики генеральной совокупности путем статистического исследования выборки.

Точечная оценка характеристик генеральной совокупности –наиболее простой, но не очень достоверный способ. При данном способе в качестве оценок характеристик генеральной совокупности используются соответствующие числовые характеристики выборки. Например, в качестве генерального среднего используется выборочное среднее, в качестве генеральной дисперсии – выборочная дисперсия и т.д. Такие оценки и называются точечными. Их недостаток состоит в том, что не ясно, насколько сильно они отличаются от истинных значений параметров генеральной совокупности. Ошибка может быть особенно большой в случае малых выборок.

Интервальная оценка параметров генеральной совокупности –более достоверна. В этом случае определяется интервал, в который с заданной вероятностью попадает истинное значение исследуемого признака. Такой интервал называется доверительным интервалом, а вероятность того, что истинное значение оцениваемой величины находится внутриэтого интервала – доверительнойвероятностью или надежностью. В медицинской литературе для этой величины используется термин «вероятность безошибочного прогноза». Обозначим ее g. Значения g задаются заранее (обычно в медико-биологических исследованиях выбирают значения g = 0,95 = 95% или g = 0,99 = 99%), после чего находят соответствующий доверительный интервал*.

Для построения надежных интервальных оценок необходимо знать закон, по которому оцениваемый случайный признак распределен в генеральной совокупности.

Рассмотрим, вначале для малых выборок (n < 30), как строится интервальная оценка генеральнойсредней Методы описательной статистики - student2.ru _г = М_г(Х) признака, который в генеральной совокупности распределен по нормальному закону. В этом случае интервальной оценкой (с доверительной вероятностью g) генеральной средней (математического ожидания) Методы описательной статистики - student2.ru _г = М_г(Х) количественного признака Х по выборочной средней _в при неизвестном s_г является доверительный интервал

Методы описательной статистики - student2.ru _в – δ < М_г(Х) < _в + δ , (34)

или, в другой форме записи :

М_г(Х) = Методы описательной статистики - student2.ru _в ± δ, (35)

где d = t_g_,_n× (S/ Методы описательной статистики - student2.ru ) – полуширина доверительного интервала (точность оценки); n – объем выборки; S – выборочное среднее квадратическое отклонение;
S/ Методы описательной статистики - student2.ru = S_в – стандартная ошибка выборочного среднего*, t_g_,_n – коэффициент Стьюдента (его значения определяются либо по соответствующим таблицам, либо содержатся в программных статистических пакетах обработки данных).

Анализ формулы (34) показывает, что:

а) чем больше доверительная вероятность g, тем больше коэффициент t_g_,_n и шире доверительный интервал;

б) чем больше объем выборки n, тем уже доверительный интервал.

При большой выборке (n > 30) полуширину доверительного интервала d определяют по соотношениям:

d = 1,96 S/ Методы описательной статистики - student2.ru при g = 95% или d = 2,58 S/ при g = 99%.

Доверительный интервал существует и для s_г. Здесь мы его не приводим.

Подобные интервальные оценки с заданной надежностью даются и в тех случаях, когда рассматриваемый случайный признак распределен в генеральной совокупности не по нормальному, а по другим законам.

Пример. Исследуется состояние дыхательных путей курящих. В качестве характеристики используется показатель функции внешнего дыхания – максимальная объемная скорость середины выдоха. Предполагая, что в генеральной совокупности данный параметр распределен по нормальному закону, найдите 95%-ный и 99%-ный доверительные интервалы для Методы описательной статистики - student2.ru _г (т.е. М_г (Х)), характеризующие этих людей. Обследуемая группа – 20 курящих, _в=2,2 л/с, S = 0,73 л/с.

Решение:

1. Для g = 95% и n = 20 находим по таблицам коэффициент Стьюдента **
t_0,95;20 = 2,09 и полуширину доверительного интервалаd:

d = t_g_,_n× (S/ Методы описательной статистики - student2.ru ) = 2,09 × = 0,342.

Теперь можем записать доверительный интервал для М_г(Х):

(2,2 – 0,342) л/с < М_г (Х) < (2,2 + 0,342) л/с,

т.е. 1,858 л/с < М_г(Х) < 2,542 л/с.

В более компактной эквивалентной форме записи:

М_г(Х) = (2,2 ± 0,342) л/с.

2. Для g = 99% и n = 20 t_0,99;20= 2,86; тогда М_г(Х) = Методы описательной статистики - student2.ru _г определяется неравенством:

(2,2 – 0,467) л/с < М_г (Х) < (2,2 + 0,467) л/с или 1,733 л/с < М_г (Х) < 2,667 л/с,

иначе М_г (Х) = (2,2 ± 0,467) л/с.

Полученные данные подтверждают ранее сделанный вывод: увеличение доверительной вероятности g «раздвигает» границы доверительного интервала.

Из формулы (34) понятно, как по заданной доверительной вероятности и объему выборки получить точность оценки М_г(Х) = Методы описательной статистики - student2.ru _г.

Поставим обратную, практически значимую задачу. По заданной точности оценки d, т. е. по заданной полуширине доверительного интервала, определим необходимый объем выборки, обеспечивающий нужное d. Эта задача решается особенно просто в случае больших выборок (n > 30). Здесь, например, при доверительной вероятности 95 % d = 1,96 × S/ Методы описательной статистики - student2.ru и, следовательно, необходимый объем выборки равен:

n ³ (1,96)² S²/d²

Пример 2. Исследователь хочет установить средний уровень гемоглобина для определенной группы населения. Учитывая предварительные данные, он полагает, что этот уровень составляет примерно 150 г/л со стандартным отклонением 32 г/л. Определите, сколько человек он должен обследовать (с какой выборкой он должен работать) при d= 5 г/л. и доверительной вероятности 0,95 = 95 %.

Решение: n = (1,96)² × 32²/5² = 157,4.

Таким образом, необходимо обследовать не менее 158 человек.

Наши рекомендации

Наглядные методы описательной статистики.

Вероятностный формализм описательной статистики. Случайность и вероятность. Событие. Вероятность событий

Методы формирования сознания личности. Рассказ - это последовательное изложение преимущественно фактического материала, осуществляемое в описательной или повествовательной форме

Список основных формул описательной статистики

М Методы описательной психологии

Пакет анализа MS Excel. Описательная статистика. Решение задач описательной статистики.

Сущность методов описательной статистики.

Тема 3. Исследование данных с помощью методов описательной статистики

Вероятностный формализм описательной статистики. Случайность и вероятность. Событие. Вероятность событий.

Значение основных параметров описательной статистики

← Предыдущая страница | Следующая страница →