Самарова умытжан сапаргалиевна
МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО РАЗВИТИЯ
РЕСПУБЛИКИ КАЗАХСТАН
Государственный медицинский университет г.Семей
Самарова умытжан сапаргалиевна
МЫСАЕВ АЯН ОРАЛХАНОВИЧ
Кырыкбаева Садтанат Саятовна
Оразгалиева Жазира Ерлановна
БИОСТАТИСТИКА ДЛЯ МЕДИЦИНСКОГО ВУЗа
(Учебно-методическое пособие)
Семей
МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО РАЗВИТИЯ
РЕСПУБЛИКИ КАЗАХСТАН
Государственный медицинский университет г.Семей
Самарова умытжан сапаргалиевна
МЫСАЕВ АЯН ОРАЛХАНОВИЧ
Кырыкбаева Садтанат Саятовна
Оразгалиева Жазира Ерлановна
БИОСТАТИСТИКА ДЛЯ МЕДИЦИНСКОГО ВУЗа
(Учебно-методическое пособие)
Семей
УДК 000.00(получает автор в библиотеке вуза)
ББК 00.00 я 0(получает автор в библиотеке вуза)
Г00(получает автор в библиотеке вуза)
Рецензенты:
Ф.С. Рахимжанова – доцент, завуч кафедры Общественного здравоохранения ГМУ г.Семей, к.м.н.
З.А. Хисметова– и.о. доцента, завуч кафедры Общественного здравоохранения ГМУ г.Семей, к.м.н.
Г00 Мысаев А.О., Самарова У.С., Кырыкбаева С.С., Оразгалиева Ж.Е. Биостатистика для медицинского ВУЗа. – Учебно-методическое пособие. – г. Семей. – 2016 год. – (5 печатных листов)____с.
Аннотация
Биостатистика является важной дисциплиной в развитии научных компетенций обучающихся медицинских вузов. В пособии собран информационно-дидактической блок 12 наиболее важных тем биостатистики. Данное пособие будет полезным студентам бакалавриата всех специальностей, магистрантам (для более глубокого понимания) и докторантам (для повторения материала). Авторы постарались представить квинтэссенцию информации по данным темам, без лишней информации, на простом, доступном языке.
ББК 00.00 я 0
Утверждено и разрешено к печати решением Учебно-методического совета Государственного медицинского университета г.Семей.
Протокол №____ от ___. ___. 200___г.
© А.О. Мысаев, 2016 год.
Перечень сокращений(если имеются)
ОШ (OR)–отношение шансов
ОР (RR) – относительный риск
СО – стандартное отклонение
БОП – болезни органов пищеварения
СО (SE) – стандартная ошибка (standard error)
ДИ (CI) – доверительный интервал confidence interval
СОДЕРЖАНИЕ
Перечень сокращений 1
Введение 2
1.Введение в биостатистику. Типы данных. 4
Вариационный ряд. Числовая характеристика дискретного статистического ряда. Средние величины. Полигон. 6
Дисперсия. Стандартное отклонение. Стандартная ошибка среднего. Доверительный интервал. 8
Интервальный статистический дискретный ряд распределения. Числовые характеристики интервального статистического ряда. Гистограмма. 10
Нулевая гипотеза. Альтернативная гипотеза. Ошибки первого и второго рода.
Нормальное распределение, характеристика, графическая проверка.
T-критерий Стьюдента.
Дисперсионный анализ.
Отношение шансов. Относительный риск. Таблица сопряженности.
10. Критерий χ2 Пирсона.
Корреляционный анализ.
Анализ выживаемости.
Заключение
Тестовые задания
Эталоны ответов
Список литературы
Введение
Вниманию авторов! Требования к оформлению пособия.
Times New Roman, Шрифт 16. через один интервал, поля Верхние 2, левые 2, нижние 2, правые 2, нумерация страниц пособия по центру.
Иллюстрации
Таблицы (название таблицы указать жирным шрифтом, они должны иметь нумерацию и ссылку на них), рисунки (например: Рисунок 1. и его наименование располагаются снизу и по середине строки), схемы, диаграммы (также как рисунок).
Название главы в тексте писать прописными, они должны совпадать с «Содержанием».
Допускается акцентировать внимание на определенных терминах, формулах, теоремах, применяя жирным шрифтом или курсивом (жирным).
Учебные пособия на ученые звания ассоциированного профессора (доцента) и профессора объемом не менее 5 (пяти) печатных листов (т.е. не менее 80-85 листов)
Нумерация страницы
Нумеровать арабскими цифрами, соблюдать сквозную нумерацию по всему тексту. Номер страницы ставить в центре нижней части листа тез точки.
Номер страницы на титульном листе не проставляют, но она включается в общую нумерацию страниц.
[4,5]
Схема 4. Типы данных
Категориальные (качественные) данныевстречаются, когда объект изучения может принадлежать лишь к одной из взаимоисключающих (альтернативных) категорий.
· Порядковые данные — это категориальные данные, поддающиеся логическому упорядочению.
· Номинальные данные — это категориальные данные, не поддающиеся логическому упорядочению.
а) Бинарные данные — это номинальные данные, которые можно описать с использованием одной из двух альтернативных категорий.
Количественные данные — это данные, которые можно описать с использованием числового значения.
· Дискретные данные — это количественные данные, которые можно описать с идеальной точностью.
· Непрерывные данные — это количественные данные, которые можно описать с точностью, которая была достигнута при измерении на непрерывной шкале.
а) Интервальные данные — это непрерывные данные о величинах, имеющих физический смысл.
б) Относительные данные— это непрерывные данные о безразмерных величинах.
Следует отметить, что определение типов данных для переменных следует проводить до начала сбора информации об изучаемых системах, объектах или явлениях. Это позволяет улучшить дизайн исследования, что значительно снижает вероятность возникновения систематических ошибок. Кроме того, при разработке и внедрении масштабных медицинских технологий, работа осуществляется с гигантскими массивами данных, хранение и анализ которых требуют значительных вычислительных
Номинальные переменные
Номинальные переменные используются только для классификации по признаку категорий. Это означает, что такие переменные могут быть измерены только в терминах принадлежности к различным классам. При этом исследователь не может влиять на количество этих классов и упорядочивать их. Измерения в этой шкале строятся только на принципе эквивалентности. Например, в результатах исследования можно указать, что в случайной выборке оказалось 212 пациентов, различимых в рамках переменной А (национальность): русских – 150, татар – 50, немцев – 10, армянин – 1, грузин – 1 (пациенты принадлежат к разным национальностям). Типичные примеры номинальных переменных: пол, национальность, цвет, населенный пункт и т.д. Номинальные переменные иногда называют категорийными.
Частным случаем номинальных признаков являются бинарные (дихотомические) признаки, представляющие собой признаки с двумя градациями, например, мужской и женский пол, вакцинированные и невакцинированные, масса тела пациента выше среднего или ниже, симптом болезни есть или нет. Наличие или отсутствие признака иногда кодируют цифрами: «нет» – 0, «да» – 1.
Часто начинающие исследователи ошибочно воспринимают их как обычные числовые значения. Однако эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания категорийных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того, можно определить, какая доля от общего числа единиц измерения приходится на то или иное значение. Такими данными можно характеризовать структуру явления и представлять их в виде таблиц или диаграмм.
Порядковые переменные
Порядковые переменные позволяют ранжировать (упорядочить) единицы наблюдения, указав, какие из них в большей или меньшей степени обладают качеством, соответствующим данной переменной. Однако они не позволяют установить различие между ними (нельзя определить, на сколько больше или меньше). Порядковые переменные иногда называют ординальными. Типичные примеры порядковой переменной: состояние больного (тяжелое, средней тяжести, удовлетворительное); выраженность боли (сильная, умеренная, слабая, отсутствие боли). Широко известны диагностические инструменты: шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско–Василенко–Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), визуальная шкала боли и т.д. Все эти шкалы построены по схеме: болезни нет; первая стадия болезни; вторая стадия; третья стадия и т.д. Иногда стадии кодируют так: 1, 2а, 2б, 3 и т.д. Каждая стадия имеет свойственную только ей медицинскую характеристику [9].
С градациями этой переменной нельзя производить арифметические действия (складывать, вычитать, делить и т.д.). Понятно, что между тяжелым состоянием одного больного и состоянием средней тяжести другого больного есть разница, однако между этими состояниями нельзя установить разницу, скажем, в 18%. В данном случае градация порядковой переменной характеризуется последовательностью, в то время как номинальные переменные предназначены исключительно для различения категорий. Порядковые переменные играют ключевую роль в оценивании. Иногда признак (переменная) может иметь большое число градации. В связи с этим для сокращения записи таким переменным иногда присваивают определенный балл (от франц. Balle – шар) – условная единица для оценки интенсивности (насыщенности) явления по определенной шкале.
ЗАДАЧА-ЭТАЛОН
Для разработки комплексного плана оздоровительных мероприятий для студентов медицинского вуза главным врачом студенческой поликлиники совместно с представителями студенческого профсоюзного комитета вуза проведено изучение влияния факторов риска на распространенность болезней органов пищеварения (БОП) у студентов.
РЕШЕНИЕ
Цель исследования: разработать мероприятия по снижению болезней органов пищеварения (БОП) у студентов медицинского вуза.
Задачи исследования:
1. Изучить распространенность различных болезней органов пищеварения (БОП) у студентов медицинского вуза.
2. Определить факторы риска возникновения БОП.
3. Разработать предложения для администрации вуза
Программа исследования:
Единица наблюдения — студент с диагнозом БОП, обучающийся в медицинском вузе на данном факультете.
Качественные признаки: пол, диагноз, характер питания.
Количественные признаки:возраст, длительность заболевания, интервал между приемами пищи, число приемов пищи в день.
Результативные признаки: наличие заболевания системы органов пищеварения.
Факторные признаки: пол, возраст, характер питания и др.
План исследования
Объект исследования — студент медицинского вуза, обучающиеся в данном медицинском вузе на данном факультете.
Объем статистической совокупности: достаточное число наблюдений.
Совокупность: выборочная, репрезентативная по качеству и количеству.
Сроки проведения исследования: 6 февраля — 6 июня текущего года.
Методы сбора материала: анкетирование, выкопировка из медицинских документов студенческой поликлиники.
Таблица 1. Часто употребляемые квантили
Виды вариационных рядов: 1. В зависимости от вида случайной величины :
- дискретный; -
непрерывный .
2. В зависимости от группировки вариант:
- несгруппированный;
- сгруппированный (интервальный): 3.
В зависимости от частоты, с которой каждая варианта встречается в вариационном ряду:
- простой ( р =1);
- взвешенный ( р >1).
ОСНОВНЫЕ ХАРАКТЕРИСТИКИ ВАРИАЦИОННОГО РЯДА:
1). Показатели, характеризующие центральную тенденцию (central tendency) или уровень ряда: средние величины или меры расположения (собственно средние и структурные средние).
2). Показатели, характеризующие разнообразие (рассеяние, вариацию, разброс) (spread) признака: стандартное отклонение, дисперсия, размах.
Средние величины
Средняя величина - обобщающий коэффициент, который характеризует наиболее типичный размер определенного признака в целом для совокупности или для отдельных ее частей. Расчет средних величин имеет смысл только для качественно однородной совокупности, в связи с этим в одной совокупности может быть столько средних, на сколько однородных групп она может быть разбита.
Виды средних величин
Средняя арифметическая(mean) - применяется, если варианты возрастают (убывают) в арифметической прогрессии.
Хвыб. сред.=
х - средняя арифметическая; xi - варианта; m- частота встречаемости варианты; n - число наблюдений.
Изучаемый признак (х),Частота признака (х) =m. ∑ m= n Сумма «m» равно объёму выборки. Отношение частоты (m) к объёму выборки (n) называют относительной частотой (P) P= m/ n
Структурные средние.
- Мода (Мо) (mode)- наиболее часто встречающаяся в вариационном ряду варианта. Мода используется:
- при малом числе наблюдений, когда велико влияние состава совокупности на среднюю ;
- для характеристики центральной тенденции при ассиметричных распределениях, когда велико влияние на среднюю крайних вариант;
- Медиана (Me)(median) - варианта, которая делит вариационный ряд на две равные части.
Медиана используется:
- при необходимости знать, какая часть вариант лежит выше и ниже срединного значения;
- для характеристики центральной тенденции при ассиметричных распределениях .
Для графического изображения статического распределения используются полигоны и гистограммы. Полигон обычно используются в случае небольшого количества вариант. Полигон (многоугольник) частот - график ряда, представленный ломаной линией точки - вершины которой соответствуют серединам интервалов, а высота точки над горизонталью пропорциональна частоте или частотности.
По оси 0х – откладывают значение вариант х, на оси 0у –значение частот или относительных час10,10,1
1 2 3 4 5
П о л и г о н
Рисунок 1. Полигон
ЗАДАЧА-ЭТАЛОН
В рамках НИРС проводилось исследование уровня депрессии у студентов ГМУ г. Семей. Результаты некоторых студентов представлены ниже. Единица измерения – баллы.
Баллы | |||||
Количество |
Задание: | РЕШЕНИЕ | |
1. | Определить среднюю | 2,3 |
2. | Определить медиану | |
3. | Определить моду | |
4. | Определить нижний квартиль | |
5. | Определить верхний квартиль | |
6. | Построить полигон |
ЗАДАЧА-ЭТАЛОН
Х1 | |||||
m1 |
= ∑m= n=19
Х = = = ; Х=21,3
Чтобы определить рассеянность значений количественного признака (х) генеральной совокупности вокруг своего среднего значения вводят характеристику генеральная дисперсия.
1. Генеральная дисперсия Дr
Дr =
2. Для характеристики количественного признака вокруг выборки, вокруг своего среднего значения выводят характеристику выборочная дисперсия Дb
Дb= Хb=21,3
Дb= = Дb=0,55
Среднее квадратическое отклонение – которое характеризует разнообразие признака.
σ - среднее квадратическое отклонение
σr =√ Дr (генеральные среднее квадратическое)
σb =√ Дb (выборочние среднее квадратическое откланение.
Выборочные среднее квадратическое отклонение равно
σb =
Доверительный интервал ошибки статистического наблюдения.
Доверительная вероятность – вероятность с которой эта оценка покроет неизвестный параметр.
Доверительная вероятность – γ
Часто (γ) равно 0,9; 0,95; 0,99; 0,999
Продолжение задачи
γ ═
t –по таблице = 2,10
Доверительный интервал:
21,3- 0,36= 21,60
21,3+ 0,36= 20,94
Тема 4. Интервальный статистический дискретный ряд распределения. Числовые характеристики интервального статистического ряда. Гистограмма.
Для признака,имеющего непрерывное изменение строится интервальный дискретный ряд Для проведения группировки сначала выбирается группировочный признак — признак, по которому проводится разбивка единиц совокупности на отдельные группы. Затем определяют количество групп, на которые надо разбить исследуемую совокупность. Для количественного признака можно использовать формулу Стерджесса: К = l + 3,322 ´lg N,
где К — число групп; N — число единиц совокупности.
После определения числа групп следует определить интервалы группировки. Интервал — это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину (h), верхнюю и нижнюю границы или хотя бы одну из них. Величина равного интервала определяется по следующей формуле: h = (Xmax – Xmin) / n
Полученную величину округляют. Она является шагом интервала.
Объём выборки, n | Число интервалов, k | |
25-40 40-60 60-100 100-200 Более 200 | 5-6 6-8 7-10 8-10 10-15 |
; Ширина
Интервальный статистический ряд можно изобразить графически. Для этого по оси абсцисс откладывают интервалы значений признака и на каждом из них, как на основании, строят прямоугольник с высотой, равной относительной частоте. Полученная столбцовая диаграмма называется гистограммой. Гистограмма – совокупность прилегающих друг к другу прямоугольников. .
График 1. Гистограмма
ЗАДАЧА-ЭТАЛОН
Х | 150-154 | 154-158 | 158-162 | 162-166 | 166-170 | 170-174 | 174-178 | 178-182 | 182-186 |
m | |||||||||
p |
Вычислить:
1.Выборочную среднюю
2.Выборочную дисперсию
3.относительные частоты
4. Определить ширину интервала
5. Построить гистограмму относительных частот.
Основные свойства гипотезы
В. Н. Дружинин выделяет три типа гипотез с точки зрения их происхождения:
1. Теоретически обоснованные – основывающиеся на теории (модели реальности) и являющиеся прогнозами, следствиями данных теорий.
2. Научные экспериментальные – также подтверждают (либо опровергают) те или иные модели реальности, однако за основу берутся не уже сформулированные теории, а интуитивные предположения исследователя («А почему бы не так?..»).
3. Эмпирические гипотезы, сформулированные относительно конкретного данного случая. Примеры гипотез: «на каждое раждражение нервной системы возникает ответная реакция» После подтверждения гипотезы в процессе эксперимента она приобретает статус факта. Общим для всех экспериментальных гипотез является такое свойство, как операционализируемость, то есть формулирование гипотез в терминах конкретных экспериментальных процедур.
В данном контексте также можно выделить три типа гипотез:
гипотезы о наличии того или иного явления (тип А);
гипотезы о наличии связи между явлениями (тип Б);
гипотезы о наличии причинной связи между явлениями (тип В).
Примеры гипотез типа А: Существует ли феномен «сдвига к риску» (термин социальной психологии) в процессе группового принятия решения? Есть ли жизнь на Марсе? Возможна ли передача мыслей на расстоянии? Также сюда можно отнести периодическую систему химических элементов Д.И. Менделеева, на основе которой ученый предсказал существование еще не открытых на тот момент элементов. Таким образом, к данному типу относятся все гипотезы о фактах и явлениях.
Примеры гипотез типа Б: Все внешние проявления мозговой деятельности могут быть сведены к мышечным движениям (И.М. Сеченов). Экстраверты имеют бо́льшую склонность к риску, чем интроверты. Соответственно, данный тип гипотез характеризуют те или иные связи между явлениями.
Примеры гипотез типа В: Центробежная сила уравновешивает тяжесть и сводит ее к нулю (К.Э. Циолковский). Развитие мелкой моторики ребенка способствует развитию его интеллектуальных способностей. Данный тип гипотез имеет в своей основе независимую и зависимую переменные, отношения между ними, а также уровни дополнительных переменных.
Различают научные и статистические гипотезы. Научные гипотезы формулируются как предполагаемое решение проблемы. Статистическая гипотеза – утверждение в отношении неизвестного параметра, сформулированное на языке математической статистики. Любая научная гипотеза требует перевода на язык статистики. После проведения конкретного эксперимента проверяются многочисленные статистические гипотезы, поскольку в каждом психологическом исследовании регистрируется не один, а множество поведенческих параметров.
Научные гипотезы. Экспериментальная гипотеза служит для организации эксперимента, а статистическая – для организации процедуры сравнения регистрируемых параметров.
Процесс выдвижения и опровержения гипотез можно считать основным и наиболее творческим этапом деятельности исследователя. Установлено, что количество и качество гипотез определяется общей креативностью (общей творческой способностью) исследователя – «генератора идей». Гипотеза может отвергаться, но никогда не может быть окончательно принятой.
Статистические гипотезы.
Гипотезой называется предположение, имеющее вероятностный характер и обладающее неопределённостью в отношении своей истинности. Гипотеза формулируется для того, чтобы представить в чётком и лаконичном виде представления автора о том или ином факте и его причинах. Выделяют два вида гипотез: нулевую и альтернативную.
1. Нулевая гипотеза формулируется как гипотеза об отсутствии различий.
2. Альтернативная противоположна по смыслу нулевой. Она утверждает наличие отличий в выборках и параметрах их распределения.
Таблица 2. Принятие неправильного решения.
Ошибка 1-го рода: нулевую гипотезу отвергают, когда она истинна, и делают вывод, что имеется эффект, когда в действительности его нет.
Ошибка 2-го рода: не отвергают нулевую гипотезу, когда она ложна, и делают вывод, что нет эффекта, тогда как в действительности он существует.
Вероятность ошибки первого рода называют уровнем значимости (significance level) и обозначают греческой буквой α.
Вероятность ошибки второго рода обозначается греческой буквой β.
Разность (1−β) называется мощностью критерия (Power of the test).
По смыслу это вероятность не совершить ошибку второго рода, т.е. вероятность принять альтернативную гипотезу при условии, что она истинна.
Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.
Следовательно, мощность— это вероятность отклонения нулевой гипотезы, когда она ложна, т.е. это шанс (обычно выраженный в процентах) обнаружить реальный эффект лечения в выборке данного объема как статистически значимый.
В идеале хотелось бы, чтобы мощность критерия составляла 100%; однако это невозможно, так как всегда остается шанс, хотя и незначительный, допустить ошибку 2-го рода.
ЗАДАЧА-ЭТАЛОН
Ученые разработали тест, который улавливает в крови генетические маркеры любой вирусной инфекции. Тест позволяет отличить любую вирусную инфекцию от бактериальной. Когда человек заболевает с симптомами ОРЗ — острого респираторного заболевания, то распознать сразу источник инфекции — вирус это или бактерия — практически невозможно. Между тем, очевидно, что лечение в этих двух случаях должно быть абсолютно разным.
В результате проведения теста на обнаружение вируса результаты могут быть как истинными, так и есть вероятность ложного прогноза.
Определите, каким результатам теста соответствуют типы решений и возможных ошибок.
Результат теста | Вид решения |
ложно положительный | |
ложно отрицательный | |
истинно отрицательный | |
истинно положительный |
РЕШЕНИЕ
Результат теста | Вид решения |
ложно положительный | Ошибка 1 рода (когда человек на самом деле здоров) |
ложно отрицательный | Ошибка 2 рода (тест не обнаружил признаков заболевания, когда человек на самом деле болен) |
истинно отрицательный | Медицинский тест правильно диагностировал отсутствие заболевания (верно принята нулевая гипотеза) |
истинно положительный | Если медицинский тест правильно диагностировал наличие заболевания (верно принята альтернативная гипотеза) |
Если тест обнаружил заболевание, когда человек на самом деле здоров (ошибка первого рода), то такой результат называется ложно положительным (false-positive, FP).
Обратная ситуация: тест не обнаружил признаков заболевания, когда человек на самом деле болен (ошибка второго рода); такой результат называется ложно отрицательным (false-negative, FN).
Остальные два возможных случая: если медицинский тест правильно диагностировал отсутствие заболевания (верно принята нулевая гипотеза), то такой результат называют истинно отрицательным (true-negative,TN); наконец, если медицинский тест правильно диагностировал наличие заболевания (верно принята альтернативная гипотеза), то такой результат называют истинно положительным (true-positive, TP).
Рисунок 2. График нормального распределения
Рисунок 3. График нормального распределения
Значение
Важное значение нормального распределения во многих областях науки (например, в математической статистике и статистической физике) вытекает из центральной предельной теоремы теории вероятностей. Если результат наблюдения является суммой многих случайных слабо взаимозависимых величин, каждая из которых вносит малый вклад относительно общей суммы, то при увеличении числа слагаемых распределение центрированного и нормированного результата стремится к нормальному. Этот закон теории вероятностей имеет следствием широкое распространение нормального распределения, что и стало одной из причин его наименования.
Рисунок 4. Разделение на квантили
Рисунок 5. Правило «трех сигм» (SD - стандартное отклонение)
Рисунок 6. Островершинность распеределения
Асимметрия положительна (As>0), если длинная часть кривой распределения расположена справа от моды (Мо). В этом случае соотношение между средней, медианой и модой нарушено:
Рисунок 7. Ассиметричное распределение (правосторонняя ассиметрия)
Асимметрия отрицательна(As<0), если длинная часть кривой распределения расположена слева от моды (Мо).
Рисунок 8. Ассиметричное распределение (левосторонняя ассиметрия)
• As< 0.25 –слабая асимметрия
• As= 0.25-0.5– умеренная асимметрия
• As> 0.5 –крайне асимметричное распределение
Характер распределения | Описание «островершинности» | Величина эксцесса |
Нормальное, например кривая В на рис. 1.31 | Средневершинное | |
Островершинное, например кривая А на рис. 1.31 | Островершинное | Больше 0 (может быть очень большой) |
Плоское, например кривая Б на рис. 1 | Плосковершинное | Меньше 0 |
Таблица 3. Соотношение величины статистики эксцесса
с «островершинностью» распределения частот
Рисунок 9. Островершинная», «плоская» и «промежуточная» («средневершинная») кривые (А, Б, В, соответственно)
Проверка на нормальность(R-ч.0,06%)
Ø Визуальный метод
Ø График вероятности
Ø Критерий Колмогорова-Смирнова.
Если K-S d>0,0895, распределение не соответствует нормальному на уровне значимости 0,05.
Ø Критерий Шапиро-Уилка
Ø Совпадение значений моды и медианы
Ø Равенство нулю показателей асимметрии и эксцесса (таблицы критических значений для заданной выборки)
Нормальное распределение
- фундаментальный закон природы
Мировая практика: нормальное распределение 20-25% !!!
Рисунок 10. Гистограмма нормального распределения
Рисунок 11. Q-Q диаграмма нормального распределения
ЗАДАЧА-ЭТАЛОН
Тема 8. Критерий Стюдента
t-критерий Стьюдента– общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.
Для чего используется t-критерий Стьюдента? t-критерий Стьюдента используется для определения статистической значимости различий средних величин. Может применяться как в случаях сравнения независимых выборок (например, группы больных сахарным диабетом и группы здоровых), так и при сравнении связанных совокупностей (например, средняя частота пульса у одних и тех же пациентов до и после приема антиаритмического препарата).
В каких случаях можно использовать t-критерий Стьюдента? Для применения t-критерия Стьюдента необходимо, чтобы исходные данные имели нормальное распределение.
ЗАДАЧА-ЭТАЛОН
Измерение пульса 15 больных, после определенной процедуры.
х | ||||||||
m |
∑ m = n =15
X в =
Измерение пульса у 15 больных контрольной группы
У | ||||||||
m |
∑ m = n =15
У в =
Оценка дисперсии
tэкс=
tкр
tэкс>tкр= Н0 гипотезу отвергаем
ЗАДАЧА-ЭТАЛОН
При уровне значимости р= 0,05, проверить значимость различий между групповыми средними значениями масс (граммах) экспериментальных животных, которые были подвергнуты воздействию некоторого физического фактора.
№ испытания | Уровень фактора А | ||
А1 | А2 | А3 | |
∑ Х1 |
1. Определяем среднюю выборочную Х=∑ Х1/q
Х1 = 31
Х2 = 37
Х3 = 41
Х – случайные величины
q – число наблюдений
2.Определить из всех значении средних Х1, Х2
Группавое среднее Хгр=∑ Х1/L
Номер испытания | Уровень фактора А | ||
А1 | А2 | А3 | |
-6 -4 -2 -8 | -1 |
3. Вычисляем сумму значений величины (Х) на уровне Аj
R1= (-6) + (-4) +(-2) + (-8)= - 20
R2= (-2)+3+2+0=4
R3= 4+2+8+6=20
4.Определяем сумма квадратов значений величины (Х) на уровне Аj
Р1= (-6)2 + (4)2 + (-2) + (-8)2 =120
Р2= (1)2 + (3)2 + (2) + (0)2 =14
Р3= (4)2 + (2)2 + (8) + (6)2 =120
5.Определяем S2 остаточную и S2 факторную дисперсии.
6. Вычисляем S2 остаточную дисперсию