Нормальный закон распределения
Очень часто закон распределения непрерывной случайной величины при неограниченном возрастании числа испытаний описывается выражением:
φ(X) = 1/((2π)1/2σ) * e((x – a)2/2σ2)1/2
Это распределение называется - нормальный закон распределения. Здесь а - математическое ожидание, σ - среднее квадратичное отклонение, е - неперово число или основание натурального логарифма. Кривая симметрична относительно точки х = а. Величина φ(Х) в этой точке определяется формулой:
φ(X) = 1/((2π)1/2σ)
т.е. максимальное значение функции φ(Х) зависит от величины среднего квадратичного отклонения. Поэтому в экспериментальных распределениях форма кривой может отличаться от теоретического нормального распределения в зависимости от числа измерений или от величины σ. Одним из основных положении математической статистики является гипотеза о том, что абсолютное большинство генеральных распределений совпадает с каким-то теоретическим распределением, чаще всего с нормальным законом распределения. Однако выборочные экспериментальные распределения могут отличаться и значительно от теоретических распределений. В качестве параметров, определяющих эти отличия, вводят специальные характеристики положения и рассеяния, такие как медиана, мода, выборочное среднее, выборочная дисперсия, выборочное среднее квадратичное отклонение.
Медиана (Me) - средняя, относительно которой ряд распределения делится на две части; в обе стороны от медианы располагается одинаковое число ранжированных значений измеренной величины.
Например, для ряда 12, 14, 16, 18, 20, 22, 24, 26, 28 медианой будет число 20: по обе стороны располагаются по 4 значения.vДля ряда с четным числом значений (6, 8, 10, 12, 14, 16, 18, 20, 22, 24) медиана определяется как полусумма центральных членов Ме = (14+16)/2= 15
Мода (Мо) - это величина или качественный признак, который включает наибольшее число вариант.
Интервал (класс), в котором наибольшее число вариант, называется модальным классом.
Медиана определяется по формуле: Me = xn + λ((m2 – m1)/(2m2 – m1 – m3))
где хn - нижняя граница модального класса, λ - ширина модального класса, m1, m2, m3 - соответственно: частота класса, предшествующего модальному; частота самого модального класса; частота последующего за модальным классом. В приведенном примере
Me = 11.8 + 0.7((25-23)/(2*25 – 23 -17)) =12.9
На представленном графике дано распределение по возрасту заболевших дифтерией (по вертикальной оси - количество заболевших на 10 тыс. человек, по горизонтальной - возраст). Величина математического ожидания М(Х)=7,75 практически не несет информацию о данном заболевании, а величина моды Мо = 3 определяет в каком возрасте наиболее часто происходят заболевания и необходимо осуществлять профилактические мероприятия. Кроме медианы и моды для характеристики выборочных распределений используются также рассмотренные выше параметры: математическое ожидание, дисперсия и среднее квадратичное отклонение.
Нормальное теоретическое распределение графически представлено четко выраженной симметричной линией (1) на рис.
Однако выборочные распределения могут отличаться от нормального высотой максимального значения распределения - кривая (2). Это отличие характеризуется специальным параметром - эксцессом распределения. Экспериментальное распределение может быть несимметричной кривой (3). Такие отклонения также характеризуются специальным параметром - асимметрией распределения. Для биологических объектов характерно то, что они в большинстве представляют однородные популяции (виды, породы, сорта и др.). Изучение какого-либо признака у всех особей популяций дало бы множество несколько отличающихся друг от друга значений случайной величины, характеризующей данный признак.
Все множество возможных значений случайной величины у всех особей данной популяции называется генеральной совокупностью.
Однако в эксперименте, в связи с чрезвычайной многочисленностью популяций, изучается часть особей.
Множество значений случайной величины, измеренных у отдельных особей, называется выборкой из генеральной совокупности.
Обозначим: а - математическое ожидание генеральной совокупности случайной величины X; оно называется истинным значением величины X, ά и σ` - соответственно математическое ожидание и среднее квадратичное отклонение выборки, т.е. серий выборочных измерений этой величины. Величины а и ά , как правило, не совпадают друг с другом и могут отличатся значительно. Задача состоит в том, чтобы правильно выбрать интервал вокруг – ά - (ά ± ∆ά) , который бы с достаточной степенью надежности заключал истинное значение - а. Этот интервал называют доверительным интервалом.
Надежностью результата серии измерений называется вероятность того, что истинное значение измеряемой величины (а) попадает в выбранный доверительный интервал выборки. (ά ± ∆ά)
Чем больше величина доверительного интервала, т.е. чем больше (∆ά), тем с большей надежностью величина (а) попадает в этот интервал. Доверительный интервал зависит в первую очередь от величин и ∆ά , а также от числа измерений в выборке. При малой выборке значительное отклонение одного из измерений значительно изменяет величину ά , при большом количестве измерений (n > 30) значительное отличие одного из измерений практически не меняет ά.
Теория показывает, если n >, 30, то доверительный интервал определяется следующими правилами:
∆ά = σ при надежности 0,68
∆ά = 2σ при надежности 0,95
∆ά = Зσ при надежности 0,997
В медицинских и биологических исследованиях, как правило, считается достаточной надежностью - 0,95.
Т.е., чтобы найти величину доверительного интервала (при n >30) нужно определить математическое ожидание а и величину среднеквадратичного отклонения σ для данной выборки.
Доверительный интервал равен [ά - 2σ`, ά + 2σ`]
При малых выборках доверительный интервал находят с помощью t - критерия Стьюдента (англ. Госсет). Госсетом составлены специальные таблицы для t - критерия в зависимости от числа измерений:
t = ∆ά/σ`; отсюда ∆ά = tσ`
Пример: проводя пять измерений толщины пластины микрометром, нашли, что ά = 2,16 мм, σ` = 0,022 мм . Определить доверительный интервал. По таблице Стьюдента определяем для Р = 0,95, n = 5, t = 2,78, ∆ά = 2,78 * 0,022 = 0,06.
Доверительный интервал [2,16 - 0,06, 2,16 + 0,06], т.е. 2,10 < Х < 2,22. С помощью t = критерия Стьюдента решается и обратная задача: задав определённый интервал (ά ± ∆ά) вокруг выборочного математического ожидания определяют надежность того, что математическое ожидание генеральной совокупности входит в этот интервал.
При анализе экспериментальных распределений часто приходится решать три основные задачи:
- относится ли то или иное значение измеренной величины к данной выборке,
- соответствует ли данное выборочное распределение какому - либо теоретическому распределению,
- являются ли два экспериментальных распределения выборками из одной и той же генеральной совокупности.
Все три задачи сводятся к одной - определить существует ли различие между объектами, указанными в каждой из задач. Это позволяет сформулировать общий подход к решению задач.
Предположение, что различия между объектами нет, называют нулевой гипотезой. Существование различия между объектами называют альтернативной гипотезой.
Признание одной из гипотез осуществляется с помощью так называемых критериев различия. Различают два вида критериев различия: параметрические и непараметрические. Параметрические критерии определяются через параметры распределения: математическое ожидание, дисперсию, среднее квадратичное отклонение и др. Наиболее часто употребляемые в статистике параметрические критерии: критерий Пирсона, критерий Стьюдента, F-критерий Фишера, критерий χ2 (хи-квадрат). Однако параметрические критерии имеют определенные условия, которые ограничивают их применимость для решения указанных задач. К непараметрическим критериям относятся: критерий Вилкоксона, критерий ван-дер-Вандера, серийный критерий, критерий знаков и др. Сущность и использование всех перечисленных критериев можно найти в любом учебнике по статистике. В качестве примера рассмотрим задачу определения различия между двумя выборками по критерию Стьюдента. Необходимо выяснить эффективность применения некоторого препарата, имеющего целью повысить сопротивляемость организма по отношению к определенной инфекции. Для этого берут две группы животных. В одной из них (контрольной) не вводят препарат, другой (опытной) вводят. Затем обе группы заражают и наблюдают сколько дней переживают животные опытной и контрольной группы. В одной из серий были получены следующие результаты:
Как видно, среднее значение опытной и контрольной группы различаются. Но эти различия могут быть обусловлены случайностью выборки. Для определения достоверности различия пользуются критерием Стьюдента:
1) t =│ά1 - ά2│/(σ`12 + σ`22)1/2, t = │6.25 – 5.22│/(.222 + 0.22)1/2 = 3.4,
2) n = nl+ n2 - 2 = 32 + 23 - 2 = 53,
3) определяют по п и выбранной надежности по таблице t 0,95 = 2,01,10,99 = 2,68,
4) если t > t0,99, то различие считается достоверным,
если t0,95< t <t0,99 - то различие сомнительно,
если t < t 0,95 - различия нет.
В нашем примере 3,4 > 2,68. Следовательно, данный препарат обладает защитными свойствами. Переменные величины Y и X находятся в функциональной зависимости одна от другой, если всякому определенному значению одной из них соответствует одно или несколько вполне определенных значений другой. Такие связи представляют все точные законы астрономии, физики, химии.
Например: в законе Бойля - Мариотта давление и объем связаны функциональной зависимостью. Р= C/V, где С= const. Такие зависимости легко можно выразить графически. На практике, особенно в биологии и медицине, изучаются такие зависимости, в которых каждому значению одной величины, хотя и соответствуют несколько значений другой, но число этих значений и сами значения остаются не вполне определенными. Т.е. каждому значению X соответствует не определенное значение, а распределение случайной величины Y и наоборот.
Зависимость между X и Y, если она существует, называют корреляционной или просто корреляцией.
Пример: в таблице представлены данные измерения массы и роста мужчин 20 - 25 лет (xi и уi - среднее значение интервалов).
Корреляционная зависимость между ростом и весом в данном примере, если она существует, может быть выражена графически. Для этого определяют среднее значение X для каждого Y и среднее значение Y для каждого X по формулам:
X = ∑xi ni/n` , Y = ∑yini/n``
По данным расчета на графике наносят точки и проводят линии, наиболее близко прилежащие к этим точкам. Такие линии называются линиями регрессии. По этим линиям можно качественно оценить зависимость между изучаемыми величинами.
По их форме можно судить о виде корреляции. В нашем примере графиком являются прямые линии. В этом случае говорят о линейной корреляционной зависимости. Линейная корреляция является самым простым видом зависимости между случайными величинами. Пользуясь специальным математическим аппаратом, можно найти уравнение линий регрессии. В нашем примере: у = b0 + b1х, где b0 и b1 определяются по экспериментальным данным. По расположению этих линий можно судить об отсутствии или наличии связи между изучаемыми признаками. Если линии регрессии перпендикулярны, то связь между величинами полностью исключается. Чем меньше угол между линиями регрессии, тем с большим основанием можно говорить о наличии такой связи. Если линии регрессии совпадают или параллельны, то связь является функциональной. Количественная оценка корреляции между признаками требует довольно сложных и громоздких математических вычислений и не входит в нашу программу. Используется, так называемый коэффициент корреляции, который количественно определяет зависимость между величинами. Среди методов статистической обработки экспериментальных данных особо следует выделить дисперсионный анализ. Эта особенность заключается в том, что любая биологическая система представляет собой сложнейший материальный объект, на каждый элемент которого действует много факторов внешнего и внутреннего порядка. Характеристики распределения случайной величины, такие как математическое ожидание и дисперсия не отражают влияние отдельных факторов. Основной задачей дисперсионного анализа и является определение достоверности влияния какого-либо фактора на процессы, происходящие в системе. Не вдаваясь в математические подробности, рассмотрим сущность дисперсионного анализа на конкретном примере. В таблице приведены экспериментальные данные серии опытов по изучению условного рефлекса у 5 собак.
Определялось время(в секундах) с момента действия раздражителя до начала выделения слюны. Требуется определить: влияют ли индивидуальные особенности животных на условный рефлекс. Из таблицы видно, что вариабельность среднего значения параметра времени у каждой собаки довольно большая.
В таблице определена дисперсия математического ожидания параметра времени по индивидуальным особенностям животных.
Теперь осталось сравнить дисперсию математического ожидания по каждой собаке с общей дисперсией всех опытов по одному из критериев различия. В приведенном примере с помощью критерия Фишера было выявлено, что индивидуальные особенности не влияют на значение вариации времени выработки условного рефлекса. Указанная схема расчета носит название - однофакторный дисперсионный анализ. Дисперсионный анализ позволяет также подтвердить(или опровергнуть) гипотезу об одновременном влиянии двух, трех и более факторов на вариабельность изучаемого признака — это многофакторный дисперсионный анализ. Ситуация использования дисперсионного анализа постоянно возникает в медицине в диагностическом и лечебном процессе при выявлении наиболее эффективных причин заболеваний и методов их лечения. При построении экспериментальных графиков точки, ввиду случайности выборки, как правило, не лежат на одной линии. Существуют определенные правила, которые позволяют провести экспериментальную линию, наиболее близко к построенным точкам.
Сумма квадратов отклонений функции от ординаты экспериментальной линии должна быть наименьшей.
∑∆y I → min
Это правило построения экспериментальных линий получило название метода наименьших квадратов.
Пользуясь правилом наименьших квадратов, можно определить уравнение, выражающее зависимость между изучаемыми величинами Y и X.
1)у = ах + b: определяют а и b
2) у = а х2 + bх + с: определяют а, b, с.
В заключение следует указать, что методы статистической обработки экспериментальных результатов даны в лекции схематично, даны только общие подходы. Более детально с ними можно познакомиться в специальных руководствах.