Практическое занятие №1. Табличное и графическое представление экспериментальных данных.
Практическое занятие №5. Метод наименьших квадратов.
Практическое занятие №6. Сравнение двух выборок.
Общие подходы к определению достоверности совпадений и различий характеристик экспериментальной и контрольной группы
Одной из задач анализа экспериментальных данных является установление совпадений или различий характеристик экспериментальной и контрольной группы. Для этого выдвигается статистическая гипотеза об отсутствии различий (так называемая нулевая гипотеза Н0).
Наряду с выдвинутой гипотезой рассматривают и противоречивую ей гипотезу - гипотезу о значимости различий (так называемая альтернативная гипотеза Н1).
Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость проверить ее. Поскольку проверку производят статистическими методами, ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т.е. могут быть допущены ошибки двух родов.
Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.
Ошибка второго рода состоит в том» что будет принята неправильная гипотеза.
Правильное решение может быть принято также в двух случаях: гипотеза принимается; причем и в действительности она правильная; гипотеза отвергается, причем и в действительности она неверна.
Вероятность совершить ошибку первого рода принято обозначать q. Ее называют уровнем значимости.
Уровнем значимости называется вероятность ошибки, заключающейся в отклонении (не принятии) нулевой гипотезы, когда она верна, то есть вероятность того, что различия сочтены существенными, а они на самом деле случайны.
Наиболее часто уровень значимости принимают равным 0,05, 0,010 или 001. Если, например, принят уровень значимости, равный 0,05, то это означает, что в пяти случаях из ста мы рискуем допустить ошибку первого рода (отвергнуть правильную гипотезу).
Если выдвинутая гипотеза будет отвергнута, имеет место противоречащая гипотеза.
Для принятия решений о том, какую из гипотез (нулевую или альтернативную) следует принять, используют решающие правила – статистические критерии. То есть, на основании информации о результатах наблюдений (характеристиках членов экспериментальной и контрольной группы) вычисляется число, называемое эмпирическим значениемкритерия. Это число сравнивается с известным (например, заданным таблично) эталонным числом, называемым критическим значениемкритерия.
Если полученное исследователем эмпирическое значение критерия оказывается меньше или равно критическому, то принимается нулевая гипотеза – считается, что на заданном уровне значимости (то есть при том значении q, для которого рассчитано критическое значение критерия) характеристики экспериментальной и контрольной групп совпадают. В противном случае, если эмпирическое значение критерия оказывается строго больше критического, то нулевая гипотеза отвергается и принимается альтернативная гипотеза – характеристики экспериментальной и контрольной группы считаются различными с достоверностью различий (1 – q). [Н]
6.2 Примеры определения достоверности совпадений и различий для экспериментальных данных по различным методикам
Практическое занятие №1. Табличное и графическое представление экспериментальных данных.
1.1 Основные понятия и определения
Исследование - это подготовка, проведение эксперимента и обработка выходных данных.
Объект исследования – объект любого характера, который изучается экспериментальным путём.
Эксперимент – специальным образом спланированная и организованная процедура изучения объекта исследования, при которой на этот объект оказывается запланированное воздействие и регистрируется его реакции на это воздействие.
Факторы – воздействие на предмет (x1 , x2 , x3 , x4…).
Отклонением объекта исследования называют его реакции на воздействие (yg) .
Эксперимент состоит из ряда опытов или наблюдений, при которых каждый из факторов x1 , x2 , x3 … имеет разные значения.
Экспериментальные данные – все входящие и исходящие данные эксперимента, сведённые в таблицу экспериментальных данных.
Основным рабочим инструментом обработки и эксперимента является число.
Способы получения численных данных:
1. подсчёт;
2. измерение;
3. метод экспериментальных оценок.
Генеральная совокупность – совокупность всех мыслимых значений наблюдений, которые могли бы быть произведены при данном реальном комплексе условий (или, вся подлежащая изучению совокупность объектов называется генеральной совокупностью).
Число элементов в генеральной совокупности называется объемом генеральной совокупности (обозначается N).Относительно N, как правило, делается предположение, что он бесконечно велик, т. е. выборка получается из бесконечной генеральной совокупности.
Генеральная совокупность называется конечной (бесконечной) в зависимости от того конечная (бесконечная) совокупность всех наблюдений.
Та часть объектов, которая попала на исследование, называется выборочной совокупностью (или просто выборкой).
Число элементов в выборке называется объемом выборки (обозначается n).
Эмпирические данные - сведения, полученные на основе опыта, практики.
Выборочные данные, полученные в ходе эксперимента, называются соответственно экспериментальными (эмпирическими) данными.
Эмпирическое распределение – распределение элементов выборки по значениям изучаемого признака.
Экспериментальные данные можно представить в виде группированного или вариационного рядов.
Группировка представляет собой процесс систематизации, или упорядочения, первичных данных с целью извлечения содержащейся в них информации.
Группировка выполняется различными методами в зависимости от целей исследования, вида изучаемого признака и количества экспериментальных данных (объема выборки), но наиболее часто группировка сводится к представлению данных в виде статистических таблиц.
Группировки заключается в распределении вариант выборки по группам, или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака.
Вариационный ряд – ранжированный в порядке возрастания или убывания ряд вариантов с соответствующими им весами (частотой). То есть вариационный ряд – двойной числовой ряд, показывающий, каким образом численные значения изучаемого признака связаны с их повторяемостью в выборке.
Вариационные ряды бывают двух типов: интервальные и безинтервальные.
В интервальном вариационном ряду частоты (или частости), характеризующие повторяемость вариант в выборке, распределяются по интервалам группировки.
В безинтервальном вариационном ряду частоты (или частости) распределяются непосредственно по значениям варьирующего признака.
Для повышения наглядности эмпирических распределений, используется их графическое представление. Наиболее распространенными способами графического представления являются гистограмма, полигон частот и полигон накопленных частот (кумулята).
Гистограммой называется графическое изображение зависимости частоты попадания элементов выборки от соответствующего интервала группировки (диапазона значений показателя).
Гистограмма является эмпирическим аналогом функции плотности распределения .
Полигон частот образуется ломаной линией, соединяющей точки, соответствующие средним значениям интервалов группировки и частотам этих интервалов, средние значения откладываются по оси х, а частоты – по оси у.
Полигон накопленных частот (кумулята) получается при соединении отрезками прямых точек, координаты которых соответствуют верхним границам интервалов группировки и накопленным частотам. Если по оси ординат откладывать накопленные частоты, то полученный график называется полигоном накопленных частот.
1.2 Построение эмпирических функций распределения и плотности на примере
Пример: Дана выборка n=20 (Таблица 1.1). Построить графики эмпирических функций распределения и плотности.
Таблица 1.1 – Таблица значений выборки
№ значения выборки | Значения выборки (х) | № значения выборки | Значения выборки (х) |
9,81 | 6,72 | ||
2,34 | 5,15 | ||
6,55 | 0,34 | ||
0,15 | 2,23 | ||
8,63 | 4,85 | ||
7,11 | 5,01 | ||
1,57 | 4,15 | ||
2,34 | 1,11 | ||
5,55 | 2,48 | ||
0,99 | 4,44 |
1. Представим выборку в виде вариационного ряда, где Cn ≤ Cn+1:
Таблица 1.2 – Таблица значений выборки в виде вариационного ряда
№ значения выборки | Значения выборки (х) | № значения выборки | Значения выборки (х) |
0,15 | 4,44 | ||
0,34 | 4,85 | ||
0,99 | 5,01 | ||
1,11 | 5,15 | ||
1,57 | 5,55 | ||
2,23 | 6,55 | ||
2,34 | 6,72 | ||
2,34 | 7,11 | ||
2,48 | 8,63 | ||
4,15 | 9,81 |
2. Используя значения выборки, построим группированный ряд наблюдений.
2.1 Определим min и max значения выборки:
хmin = 0,15 хmax = 9,81
2.2 Разобьем весь диапазон [хmin, хmax] на k равных интервалов, где количество интервалов рассчитывается по формуле (1.1). Результат округляем до ближайшего целого числа.
, (1.1)
где n – число элементов в выборке.
Получаем:
2.3 Определим ширину интервала по формуле (1.2). Результат вычисления округляем до ближайшего целого.
, (1.2)
где хmin – минимальное значение выборки;
хmax – максимальное значение выборки;
k – количество интервалов.
Получаем:
2.4 Определим крайние точки каждого интервала C0, C1, C2…, при этом можно пользоваться различными способами, например:
1) если C0 = хmin, тогда:
C1= хmin+∆ C2= хmin+2·∆ и т.д.
2) если C0= хmin - ∆/2, получаем:
C0= хmin - ∆/2 C1= C0+∆ C2= C1+∆ и т. д.
3) по формуле (1.3) находим середину интервала [хmin, хmax]
(1.3)
Затем от точки С откладываем в обе стороны значение, равное величине ∆.
Воспользуемся первым способом и определим крайние точки каждого интервала:
C0= хmin= 0,15
C1= хmin+∆ = 0,15+2 = 2,15
C2= хmin+2·∆ = 0,15+2·2 = 4,15
C3= хmin+3·∆ = 0,15+3·2 = 6,15
C4= хmin+4·∆ = 0,15+4·2 = 8,15
C5= хmin+5·∆ = 0,15+5·2 = 10,15
C6= хmin+6·∆ = 0,15+6·2 = 12,15
2.5 Зная крайние точки каждого интервала, определим их середину по формуле (1.4)
, (1.4)
где n – номер интервала.
Получаем:
2.6 Определим частоту для каждого интервала (число выборочных данных попавших в каждый из интервалов).
Так как значения могут совпадать с границами интервалов, условимся в каждый k-ый интервал включать наблюдения большие или равные, чем нижняя граница интервала и меньше верхней границы, т,е. Ck-1 ≤ х < Ck.
Общее число наблюдений, отнесённое к k-му интервалу равно частоте νk данного интервала. Причём сумма частот всех интервалов ( ) не должна превышать общего числа элементов в выборке.
Накопленная частота для каждого интервала равна сумме частот (k – 1) и k интервалов.
Подсчитаем частоту и накопленную частоту для каждого интервала. Все расчеты сведем в таблицу 1.3.
Таблица 1.3 – Расчет частот для каждого интервала
k | (Ck, - Ck+1) | |||
(0,15 – 2,15) | 1.15 | |||
(2,15 – 4,15) | 3.15 | |||
(4,15 – 6,15) | 5.15 | |||
(6,15 – 8,15) | 7.15 | |||
(8,15 – 10,15) | 9.15 | |||
(10,15 – 12,15) | 11.15 |
2.7 Вычислим эмпирический аналог функции плотности для каждого из интервалов (Ck,Ck+1) по формуле (1.5)
, (1.5)
где ∆ - ширина интервала,
n - число элементов в выборке,
- частота k интервала.
Для нашего примера:
3 Вычислим эмпирическую функцию распределения для каждого из интервалов (Ck, Ck+1) по формуле (1.6).
, (1.6)
где - накопленная частота k интервала
Для нашего случая:
4 Для дальнейшего удобства построения гистограммы и для всеобщей наглядности сведём все полученные нами ранее расчеты в сводную таблицу (Таблица 1.4)
Таблица 1.4 – Сводная таблица полученных данных
k | (Ck - Ck+1) | |||||
(0,15 – 2,15) | 1,15 | 0,125 | 0,25 | |||
(2,15 – 4,15) | 3,15 | 0,1 | 0,45 | |||
(4,15 – 6,15) | 5,15 | 0,15 | 0,75 | |||
(6,15 – 8,15) | 7,15 | 0,075 | 0,9 | |||
(8,15 – 10,15) | 9,15 | 0,05 | ||||
(10,15 – 12,15) | 11,15 | - |
5 Для построения гистограммы (рисунок 1.1) на оси абсцисс откладываем крайние точки каждого из интервалов C0, C1, C2…, а по оси ординат – эмпирический аналог функции плотности , тогда k-му интервалу будет соответствовать прямоугольник, основанием которого является замкнутый слева интервал [ Сk-1,Ck), а высота равна .
Если на верхних гранях полученных прямоугольных областей отложить точку середины каждого интервала и соединить полученные точки, то получим ломаную линию называемую полигоном.
6 Геометрическое представление эмпирической функции распределения называют кумулятивной прямой или кумулятой.
Для этого на оси абсцисс откладывают границы интервалов C0, C1, C2…, а по оси ординат – значения функции распределения . Причём, значение функции распределения относят к верхней Ck границе k-ого интервала (рисунок 1.2).
Рисунок 1.1 – Гистограмма и полигон распределения признака
Рисунок 1.2 – Эмпирическая функция распределения