Основные этапы проверки гипотезы.

Под процедурой проверки статистических гипотез понимают последовательность действий, позволяющих с той или иной степенью достоверности подтвердить или опровергнуть утверждение гипотезы. Все статистические выводы являются следствием проверки одной или комплекса гипотез.

Рассмотрим основные этапы проверки гипотезы на примере проверки гипотезы о равенстве МО нормально распределенной случайной величины заданному значению.
ЭТАП I. Формулирование гипотезы. H0: Mx=C (гипотеза о равенстве МО значению C). Гипотеза о равенстве называется нулевой гипотезой о обозначается H0.
ЭТАП II. Определение статистики, с помощью которой будет проверятся гипотеза. Исследователю должен быть известен закон распределения этой статистики при справедливости гипотезы. Для нашего случая можно использовать T-статистику:

T = (X - C)*n1/2/S

где n - объем выборки.

ЭТАП III. Исследователь назначает уровень значимости. Пусть α=0,05. По выбранному уровню значимости т.к. известно распределение T-статистики при справедливости исходной гипотезы определяются две граничные величины T-статистики (T1 и T2), которые делят значения T-статистики на две области. При справедливости гипотезы вероятность попадания статистики в интервал (T1,T2) составляет величину 1-α (0,95 в нашем случае), вероятность принятия T-статистикой значений вне интервала (T1,T2) не превышает α (в нашем случае 0,05). Первая область называется ОБЛАСТЬЮ ПРИНЯТИЯ ГИПОТЕЗЫ, вторая - КРИТИЧЕСКОЙ ОБЛАСТЬЮ.

ЭТАП IV. Извлекается выборка и вычисляется статистика. (В нашем случае Tрасч).

ЭТАП V. Если вычисленное значение попадает в область принятия гипотезы (в нашем случае T1<Tрасч<T2), то говорят, что ДАННЫЕ НЕ ПРОТИВОРЕЧАТ ГИПОТЕЗЕ. Если Tрасч<T1 или Tрасч>T2 (вычисленное значение попадает в критическую область) то говорят, что ДАННЫЕ ПРОТИВОРЕЧАТ ГИПОТЕЗЕ.

Необходимо подчеркнуть, что отвергает или принимает гипотезу исследователь. Процедура проверки лишь обосновывает приведенные выше утверждения. Утверждение - данные не противоречат гипотезе используется потому, что возможно справедлива не данная гипотеза, а некая другая, близкая к этой гипотезе (например H0: Mx=C1). Утверждение - данные противоречат гипотезеиспользуется потому, что вероятность получить такой результат хоть и мала, но отлична от нуля.

ЕСЛИ ДАННЫЕ ПРОТИВОРЕЧАТ ГИПОТЕЗЕ И ГИПОТЕЗА ОТВЕРГАЕТСЯ, ТО ВЕРОЯТНОСТЬ ОШИБКИ ИССЛЕДОВАТЕЛЯ (гипотеза все таки верна) НЕ ПРЕВЫШАЕТ α (заданного уровня значимости).

34. Изучение взаимосвязей между качественными признаками

Для исследования взаимосвязи качественных альтернативных признаков, принимающих только 2 взаимоисключающих значения, используется коэффициент ассоциации и контингенции. Они рассчитываются по формуле:

Если коэффициент ассоциации 0,5, а коэффициент контингенции 0,3, то можно сделать вывод о наличии существенной зависимости между изучаемыми признаками. Если признаки имеют 3 или более градаций, то для изучения взаимосвязей используются коэффициенты Пирсена и Чупрова. Они рассчитываются по формулам:

Основные этапы проверки гипотезы. - student2.ru

Основные этапы проверки гипотезы. - student2.ru K - число значений (групп) первого признака, K1 - число значений (групп) второго признака fij - частоты соответствующих клеток таблицы, mi - столбцы таблицы ,nj – строки.
58.Изучение взаимосвязи между количественными признаками: коэффициент корреляции рангов и аналитические группировки

Коэффициент корреляции рангов, предложенный относится к непараметрическим показателям связи между переменными, измеренными в ранговой шкале. При расчете этого коэффициента не требуется никаких предположений о характере распределений признаков в генеральной совокупности. Этот коэффициент определяет степень тесноты связи порядковых признаков, которые в этом случае представляют собой ранги сравниваемых величин.

Существуют три основных видов группировок: типологические, структурные, аналитические.
Типологические группировки обеспечивают разграничение массовых явлений на качественно однородные совокупности. При этом качественно однородными совокупностями считаются такие, все единицы которых подчинены определенному закону развития (качеству объекта).

Группировки, применяемые для изучения структуры массовых явлений, называются структурными. С помощью таких группировок можно изучить состав (структуру) качественно однородной совокупности. Например, состав населения по полу, возрасту, образованию, национальности и другим признакам.
Группировки, предназначенные для изучения взаимосвязей и зависимостей между явлениями и процессами, называются аналитическими. Многие массовые явления достаточно тесно взаимосвязаны между собой: себестоимость продукции зависит от производительности труда: производительность труда в свою очередь зависит от технического уровня производства и труда, квалификации работников и т.д.
Аналитическая группировка ставит своей целью выявить и установить количественное выражение степени связи между факторным и результативным признаками (явлениями) в конкретных условиях места и времени.

35. Таблицы сопряженности. Анализ таблиц сопряженности с помощью критерия Хи квадрат Пирсона

Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

▪ -к маргинальной частоте по строке

▪ -к маргинальной частоте по столбцу

▪ -к объему выборки

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)

Критерий "хи-квадрат" для анализа таблиц сопряженности

Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:

  ... j ... L
         
...          
i     nij    
...          
K          

Введем следующие обозначения:
Основные этапы проверки гипотезы. - student2.ru
Основные этапы проверки гипотезы. - student2.ru
Основные этапы проверки гипотезы. - student2.ru
Основные этапы проверки гипотезы. - student2.ru
Основные этапы проверки гипотезы. - student2.ru - наблюдаемая частота (i,j)
Основные этапы проверки гипотезы. - student2.ru - ожидаемая частота при H0
Статистика

Условие применимости

Eij<5 не более чем в 20% ячеек n>40

Частный случай K=L=2

y x
a b
c d

Статистика Основные этапы проверки гипотезы. - student2.ru , где
Основные этапы проверки гипотезы. - student2.ru

36. Особенности методов анализа выживаемости

Особенность методов анализа выживаемости состоит в том, что они применяются к неполным данным. Отметим также, что более часто, чем обычная функция распределения, в этих методах используется так называемая функция выживания, представляющая собой вероятность того, что объект проживет время больше t. Построение таблиц времен жизни, оценивание функции выживания с помощью процедуры Каплана–Мейера являются описательными методами исследования цензурированных данных. Некоторые из предложенных методов позволяют сравнивать выживаемость в двух и более группах.

37. Кривая выживаемости

Основные этапы проверки гипотезы. - student2.ru vv

Основные этапы проверки гипотезы. - student2.ru

38 Таблицы времени жизни. Сравнение двух кривых выживаемости

В интернете слишком много .

39 Основные понятия дисперсионного анализа.

Дисперсионный анализ – (от лат. dispersion – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов (признаков) на исследуемую (зависимую) переменную. Метод был разработан биологом Р. Фишером (1925) и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике и медицине и др.

Суть дисперсионного анализа заключается в разложении (дисперсии) измеряемого признака на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации.

Дисперсионный анализ используется преимущественно в экспериментальной психологии при изучения действия на испытуемых тех или иных факторов. При этом особую роль играет анализ средних значений (отклонения от которых и называют дисперсией).

Понятие дисперсионного анализа.

Дисперсионный анализ – это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA, что переводится как анализ вариативности. Автором метода является Р.А. Фишер.

Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность троякого рода:

Вариативность, обусловленную действием каждой из исследуемых независимых переменных;

Вариативность, обусловленную взаимодействием исследуемых независимых переменных;

Случайную вариативность, обусловленную всеми другими неизвестными переменными.

Вариативность, обусловленная действием исследуемых переменных и их взаимодействием, соотносится со случайной вариативностью. Показателем этого соотношения является критерий F Фишера (критерии F Фишера и метод углового преобразования Фишера (критерий j*) – это совершенно разные методы, имеющие разное предназначение и разные способы вычисления).

Fэмп.А =

Fэмп. Б =

Fэмп. В =

В формулу расчета критерия F входят оценки дисперсий, т.е. параментов распределения признака, поэтому критерий F является параметрическим критерием. Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия F.

В дисперсионном анализе исследователь исходит из предположения, что одни переменные могут рассматриваться как причины, а другие – как следствия. Переменные первого рода считаются факторами, а переменные второго рода – результативными признаками. В этом отличие дисперсионного анализа от прямолинейного корреляционного анализа (изменения одного признака просто сопровождаются определенными изменениями другого).

В дисперсионном анализе возможны два принципиальных разделения всех исследуемых переменных на независимые переменные (факторы) и зависимые переменные (результативные признаки).

Первый путь состоит в том, что исследователь совершает какие-либо воздействия на испытуемых или учитываются какие-либо не зависящие от исследователя воздействия на них, и именно эти воздействия считаются независимыми переменными, или факторами, а исследуемые признаки рассматриваются как зависимые переменные, или результативные признаки. Например, возраст испытуемых или способ предъявления им информация считаются факторами, а обучаемость или эффективность выполнения задания - результативными признаки.

Второй путь предполагает, что исследователь, не совершая никаких воздействий, считает, что при разных уровнях развития одних психологических признаков, другие проявляются тоже по-разному. По тем или иным причинам исследователь решает, что одни признаки могут рассматриваться скорее как факторы, а другие – как результат действия этих факторов. Например, уровень интеллекта или мотивации достижения начинаем считать факторами, а профессиональную компетентность или социометрический статус - результативными признаками.

Второй путь весьма уязвим для критики. Например, предположили, что настойчивость – значимый фактор учебной успешности студентов. настойчивость принимается за воздействующую переменную (фактор), а учебную успешность – за результативный признак. Против этого сразу могут быть выдвинуты сразу же два возражения. Во-первых, успех может стимулировать настойчивость; во-вторых, как собственно, измерялась настойчивость? Если она измерялась с помощью метода экспертных оценок, а экспертами были соученики или преподаватели, которым известна учебная успешность испытуемых, то не исключено, что это оценка настойчивости будет зависеть от известных экспертам показателей успешности, а не на оборот.

Также, например, в другом исследовании экспериментатор исходит из предположения, что фактор социальной смелости (фактор H) из 16-факторного личностного опросника Р.Б. Кетелла – эта независимая переменная, которая определяет объем заключенных торговым представителем договоров на поставку косметических товаров. Но если объем договоров определялся по какому-то периоду работы, скажем трехмесячному, а личностное обследование проводилось в конце этого периода или даже после его истечения, то исследователь не может со всей уверенностью отделить здесь причину от следствия. Есть очень сильное направление в психологии и психотерапии, которое утверждает, что личностные изменения начинаются с действий и поступков: «Начни действовать, и постепенно станешь таким, как твои поступки». Таким образом, психолог, представляющий это направление, возможно, стал бы утверждать, что причиной должен считаться объем договорных поставок, а результатом – повышение социальной смелости.

40 Однофакторный дисперсионный анализ.

Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t-критерию Стьюдента для независимых выборок, и величина F-статистики равна квадрату соответствующей t-статистики.

Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (Levene's test). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применяется F-критерий Фишера:

Основные этапы проверки гипотезы. - student2.ru

Если F-статистика превышает критическое значение, то нулевая гипотеза отвергается и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть интерпретированы непосредственно после применения критерия Фишера.

При наличии трёх и более групп требуется попарное сравнение средних для выявления статистически значимых отличий между ними. Априорный анализ включает метод контрастов, при котором межгрупповая сумма квадратов дробится на суммы квадратов отдельных контрастов:

Основные этапы проверки гипотезы. - student2.ru

где Основные этапы проверки гипотезы. - student2.ru есть контраст между средними двух групп, и затем при помощи критерия Фишера проверяется соотношение среднего квадрата для каждого контраста к внутригрупповому среднему квадрату:

Основные этапы проверки гипотезы. - student2.ru

Апостериорный анализ включает post-hoc t-критерии по методам Бонферрони или Шеффе, а также сравнение разностей средних по методу Тьюки. Особенностью post-hoc-тестов является использование внутригруппового среднего квадрата Основные этапы проверки гипотезы. - student2.ru для оценки любых пар средних. Тесты по методам Бонферрони и Шеффе являются наиболее консервативными, так как они используют наименьшую критическую область при заданном уровне значимости Основные этапы проверки гипотезы. - student2.ru .

Помимо оценки средних дисперсионный анализ включает определение коэффициента детерминации Основные этапы проверки гипотезы. - student2.ru , показывающего, какую долю общей изменчивости объясняет данный фактор:

Основные этапы проверки гипотезы. - student2.ru

41 Двухфакторный дисперсионный анализ

https://ru.wikipedia.org/wiki/%D0%94%D0%B8%D1%81%D0%BF%D0%B5%D1%80%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7

43 Статистические гипотезы, проверяемые с помощью дисперсионного анализа. Общая, факторная и остаточная дисперсии. Критерий Фишера.

Основные этапы проверки гипотезы. - student2.ru Простая гипотеза однозначно определяет функцию распределения на множестве Основные этапы проверки гипотезы. - student2.ru . Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).

Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на Основные этапы проверки гипотезы. - student2.ru . Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.

Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.

Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.

▪ Методика проверки статистических гипотез

Пусть задана случайная выборка Основные этапы проверки гипотезы. - student2.ru — последовательность Основные этапы проверки гипотезы. - student2.ru объектов из множества Основные этапы проверки гипотезы. - student2.ru . Предполагается, что на множестве Основные этапы проверки гипотезы. - student2.ru существует некоторая неизвестная вероятностная мера Основные этапы проверки гипотезы. - student2.ru .

Методика состоит в следующем.

▪ Формулируется нулевая гипотеза Основные этапы проверки гипотезы. - student2.ru о распределении вероятностей на множестве Основные этапы проверки гипотезы. - student2.ru . Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая Основные этапы проверки гипотезы. - student2.ru и альтернативная Основные этапы проверки гипотезы. - student2.ru . Иногда альтернатива не формулируется в явном виде; тогда предполагается, что Основные этапы проверки гипотезы. - student2.ru означает «не Основные этапы проверки гипотезы. - student2.ru ». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.

▪ Задаётся некоторая статистика (функция выборки) Основные этапы проверки гипотезы. - student2.ru , для которой в условиях справедливости гипотезы Основные этапы проверки гипотезы. - student2.ru выводится функция распределения Основные этапы проверки гипотезы. - student2.ru и/или плотность распределения Основные этапы проверки гипотезы. - student2.ru . Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика Основные этапы проверки гипотезы. - student2.ru . Вывод функции распределения Основные этапы проверки гипотезы. - student2.ru при заданных Основные этапы проверки гипотезы. - student2.ru и Основные этапы проверки гипотезы. - student2.ru является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для Основные этапы проверки гипотезы. - student2.ru ; в статистических пакетах имеются готовые вычислительные процедуры.

▪ Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число Основные этапы проверки гипотезы. - student2.ru . На практике часто полагают Основные этапы проверки гипотезы. - student2.ru .

▪ На множестве допустимых значений статистики Основные этапы проверки гипотезы. - student2.ru выделяется критическое множество Основные этапы проверки гипотезы. - student2.ru наименее вероятных значений статистики Основные этапы проверки гипотезы. - student2.ru , такое, что Основные этапы проверки гипотезы. - student2.ru . Вычисление границ критического множества как функции от уровня значимости Основные этапы проверки гипотезы. - student2.ru является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.

▪ Собственно статистический тест (статистический критерий) заключается в проверке условия:

▪ если Основные этапы проверки гипотезы. - student2.ru , то делается вывод «данные противоречат нулевой гипотезе при уровне значимости Основные этапы проверки гипотезы. - student2.ru ». Гипотеза отвергается.

▪ если Основные этапы проверки гипотезы. - student2.ru , то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости Основные этапы проверки гипотезы. - student2.ru ». Гипотеза принимается.

Критерий Фишера применяется для проверки равенства дисперсий двух выборок. Его относят к критериям рассеяния.

▪ При проверке гипотезы положения (гипотезы о равенстве средних значений в двух выборках) с использованием критерия Стьюдента имеет смысл предварительно проверить гипотезу о равенстве дисперсий. Если она верна, то для сравнения средних можно воспользоваться более мощным критерием.

▪ В регрессионном анализе критерий Фишера позволяет оценивать значимость линейных регрессионных моделей. В частности, он используется в шаговой регрессии для проверки целесообразности включения или исключения независимых переменных (признаков) в регрессионную модель.

▪ В дисперсионном анализе критерий Фишера позволяет оценивать значимость факторов и их взаимодействия.

▪ Критерий Фишера основан на дополнительных предположениях о независимости и нормальности выборок данных. Перед его применением рекомендуется выполнить проверку нормальности.

▪ 43. Множественные сравнения. Поправка Бонферрони

Множественные сравнения возникают, когда необходимо на одной и той же выборке параллельно проверить ряд статистических гипотез.

Например, критерий Стьюдента может быть использован для проверки гипотезы о различии средних только для двух групп. Если план исследования большего числа групп, совершенно недопустимо просто сравнивать их попарно. Для корректного решения этой задачи можно воспользоваться, например, дисперсионным анализом.

Однако дисперсионный анализ позволяет проверить лишь гипотезу о равенстве всех сравниваемых средних. Но, если гипотеза не подтверждается, нельзя узнать, какая именно группа отличалась от других. Это позволяют сделать методы множественного сравнения, которые в свою очередь также бывают параметрические и непараметрические.

Эти методы дают возможность провести множественные сравнения так, чтобы вероятность хотя бы одного неверного заключения оставалась на первоначальном выбранном уровне значимости, например, 5%.

Средипараметрических критериев:

• критерий Стьюдента для множественных сравнений

• критерий Ньюмана-Кейлса

• критерий Тьюки

• критерий Шеффе

• критерий Даннета

Среди непараметрических:

• критерий Краскела-Уоллиса

• медианный критерий

Надо сказать, что основные параметрические критерии для множественного сравнения независимых групп могут после некоторых модификаций применяться для установления различий и в повторных измерениях, если дисперсионный анализ установил наличие таких различий.

Поправка Бонферрони — один из методов контроля групповой вероятности ошибки (первого рода), который утверждает, что для достижения уровня Основные этапы проверки гипотезы. - student2.ru достаточно, чтобы отвергались гипотезы Основные этапы проверки гипотезы. - student2.ru , для которых Основные этапы проверки гипотезы. - student2.ru , где Основные этапы проверки гипотезы. - student2.ru — количество гипотез.

 

Определение

Пусть Основные этапы проверки гипотезы. - student2.ru — семейство гипотез, а Основные этапы проверки гипотезы. - student2.ru — соответствующие им достигаемые уровни значимости. Обозначим за Основные этапы проверки гипотезы. - student2.ru неизвестное подмножество истинных нулевых гипотез мощности Основные этапы проверки гипотезы. - student2.ru .

Групповая вероятности ошибки, или FWER, — это вероятность отклонения как минимум одной гипотезы из Основные этапы проверки гипотезы. - student2.ru , т.е. получения как минимум одной ошибки первого рода. Метод поправки Бонферрони утверждает, что отклонение всех Основные этапы проверки гипотезы. - student2.ru позволяет получить Основные этапы проверки гипотезы. - student2.ru .

Альтернативная постановка

Можно также перейти к модифицированным уровням значимости Основные этапы проверки гипотезы. - student2.ru .

Теоретическое обоснование

Из неравенства Буля следует, что

,

где Основные этапы проверки гипотезы. - student2.ru — количество отвергнутых истинных гипотез.

Замечания

При увеличении Основные этапы проверки гипотезы. - student2.ru в результате применения поправки Бонферрони мощность статистической процедуры резко уменьшается — шансы отклонить неверные гипотезы падают.

Существуют процедуры (например, метод Холма), которые равномерно превосходят по мощности процедуру, основанную на поправке Бонферрони, и не делают никаких дополнительных предположений.

Таким образом, использование поправки Бонферрони нецелесообразно.

44 Эпидемиологические показатели. Статистическая оценка эпидемиологических показателей.

▪ Под термином «эпидемиологические показатели» следует понимать качественную или количественную характеристику эпидемических явлений. Эпидемиологические показатели рассчитываются на определенную численность населения (на 1000, 10 000, 100 000 и т.д.), поэтому они являются относительными величинами, а именно интенсивными показателями.

▪ Дальше хз

45 Основные понятия и задачи корреляционного анализа

Корреляционный анализ — метод обработки статистическихданных, заключающийся в изучении связи между переменными.

Главная задача корреляционного анализа - измерение тесноты связи - решается путем вычисления различных коэффициентов корреляции и проверки их значимости.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т.е. зависимость между величинами отсутствует.

При исследования корреляции используются графический и аналитический подходы.

Графический анализ начинается с построения корреляционного поля. Корреляционное поле (или диаграмма рассеяния) является графической зависимостью между результатами измерений двух признаков. Для ее построения исходные данные наносят на график, отображая каждую пару значений (xi,yi) в виде точки с координатами xi и yi в прямоугольной системе координат.

Визуальный анализ корреляционного поля позволяет сделать предположение о форме и направлении взаимосвязи двух исследуемых показателей. По форме взаимосвязи корреляционные зависимости принято разделять на линейные (см. рис. 1) и нелинейные (см. рис. 2). При линейной зависимости огибающая корреляционного поля близка к эллипсу. Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону.

46. Коэффициент корреляции Пирсона и его свойства

Коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y. Формула расчета коэффициента корреляции построена таким образом, что, если связь между признаками имеет линейный характер, коэффициент Пирсона точно устанавливает тесноту этой связи. Поэтому он называется также коэффициентом линейной корреляции Пирсона. Если же связь между переменными X и Yне линейна, то Пирсон предложил для оценки тесноты этой связи так называемое корреляционное отношение.

Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем -1. Эти два числа +1 и -1 – являются границами для коэффициента корреляции. Когда при расчете получается величина большая +1 или меньшая -1 – следовательно произошла ошибка в вычислениях.

Знак коэффициента корреляции очень важен для интерпретации полученной связи. Подчеркнем еще раз, что если знак коэффициента линейной корреляции – плюс, то связь между коррелирующими признаками такова, что большей величине одного признака (переменной) соответствует большая величина другого признака (другой переменной). Иными словами, если один показатель (переменная) увеличивается, то соответственно увеличивается и другой показатель (переменная). Такая зависимость носит название прямо пропорциональной зависимости.

Если же получен знак минус, то большей величине одного признака соответствует меньшая величина другого. Иначе говоря, при наличии знака минус, увеличению одной переменной (признака, значения) соответствует уменьшение другой переменной. Такая зависимость носит название обратно пропорциональной зависимости.

В общем виде формула для подсчета коэффициента корреляции такова:

Основные этапы проверки гипотезы. - student2.ru

где хi– значения, принимаемые в выборке X,

yi– значения, принимаемые в выборке Y;

Основные этапы проверки гипотезы. - student2.ru –средняя по X, Основные этапы проверки гипотезы. - student2.ru – средняя по Y.

Расчет коэффициента корреляции Пирсона предполагает, что переменные Х и У распределены нормально.

В формуле встречается величина Основные этапы проверки гипотезы. - student2.ru при делении наn(число значений переменной X или Y) она называется ковариацией. Формула предполагает также, что при расчете коэффициентов корреляции число значений переменной Х равно числу значений переменнойY.

Число степеней свободы k=n-2.

Статистические методы применяются при обработке материалов психологических исследований для того, чтобы извлечь из тех количественных данных, которые получены в экспериментах, при опросе и наблюдениях, возможно больше полезной информации. Одним самых из распространенных методов статистики является корреляционный анализ.

Таким образом, условия применения коэффициентов корреляции будут следующими:

1. Переменные, измеренные в количественной (ранговой, метрической) шкале на одной и той же выборке объектов;

2. Связь между переменными является монотонной.

Основная статистическая гипотеза, которая проверяется корреляционным анализом, является ненаправленной и содержит утверждение о равенстве корреляции нулю в генеральной совокупности H0:rxy=0. При ее отклонении принимается альтернативная гипотезаH1:rxy≠0 о наличии положительной или отрицательной корреляции – в зависимости от знака вычисленного коэффициента корреляции.

47 Коэффициент ранговой корреляции Спирмена

Коэффициент ранговой корреляции Спирмена используется для выявления и оценки тесноты связи между двумя рядами сопоставляемых количественных показателей. В том случае, если ранги показателей, упорядоченных по степени возрастания или убывания, в большинстве случаев совпадают (большему значению одного показателя соответствует большее значение другого показателя - например, при сопоставлении роста пациента и его массы тела), делается вывод о наличии прямой корреляционной связи. Если ранги показателей имеют противоположную направленность (большему значению одного показателя соответствует меньшее значение другого - например, при сопоставлении возраста и частоты сердечных сокращений), то говорят об обратной связи между показателями.

Коэффициент корреляции Спирмена обладает следующими свойствами:

1. Коэффициент корреляции может принимать значения от минус единицы до единицы, причем при rs=1 имеет место строго прямая связь, а при rs= -1 – строго обратная связь.

2. Если коэффициент корреляции отрицательный, то имеет место обратная связь, если положительный, то – прямая связь.

3. Если коэффициент корреляции равен нулю, то связь между величинами практически отсутствует.

4. Чем ближе модуль коэффициента корреляции к единице, тем более сильной является связь между измеряемыми величинами.

3. В каких случаях можно использовать коэффициент Спирмена?

В связи с тем, что коэффициент является методом непараметрического анализа, проверка на нормальность распределения не требуется.

Сопоставляемые показатели могут быть измерены как в непрерывной шкале (например, число эритроцитов в 1 мкл крови), так и в порядковой (например, баллы экспертной оценки от 1 до 5).

Эффективность и качество оценки методом Спирмена снижается, если разница между различными значениями какой-либо из измеряемых величин достаточно велика. Не рекомендуется использовать коэффициент Спирмена, если имеет место неравномерное распределение значений измеряемой величины.

4. Как рассчитать коэффициент Спирмена?

Расчет коэффициента ранговой корреляции Спирмена включает следующие этапы:

1. Сопоставить каждому из признаков их порядковый номер (ранг) по возрастанию или убыванию.

2. Определить разности рангов каждой пары сопоставляемых значений (d).

3. Возвести в квадрат каждую разность и суммировать полученные результаты.

4. Вычислить коэффициент корреляции рангов по формуле:

Основные этапы проверки гипотезы. - student2.ru

5. Определить статистическую значимость коэффициента при помощи t-критерия, рассчитанного по следующей формуле:

Основные этапы проверки гипотезы. - student2.ru

48 Основные понятия и задачи регрессионного анализа при изучении биомедицинских объектов.

Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) хj (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения xj.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием Основные этапы проверки гипотезы. - student2.ru = φ(x1, ..., хk), являющимся функцией от аргументов хj и с постоянной, не зависящей от аргументов дисперсией σ2.

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x1, х2, ..., хj, ..., хk) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (уi, xi1, хi2, ..., хij, ..., xik), где хij — значение j-й переменной для i-го наблюдения (i = 1, 2,..., n), уi — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

Основные этапы проверки гипотезы. - student2.ru (53.8)

где βj — параметры регрессионной модели;

εj — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ2.

Отметим, что модель (53.8) справедлива для всех i = 1,2, ..., n, линейна относительно неизвестных параметров β0, β1,…, βj, …, βk и аргументов.

Как следует из (53.8), коэффициент регрессии Bj показывает, на какую величину в среднем изменится результативный признак у, если переменную хj увеличить на единицу измерения, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид

Основные этапы проверки гипотезы. - student2.ru (53.9)

где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у1, у2,.... уn); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, ..., n; j=0,1, ...,k; x0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора εi не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mεi = 0) и неизвестной постоянной σ2 (Dεi = σ2).

Основная цель регрессионного анализасостоит в определении связи между некоторой характеристикойYнаблюдаемого явления или объекта и величинамих1, х2, …, хn, которые обусловливают, объясняют измененияY. ПеременнаяYназываетсязависимой переменной(откликом), влияющие переменныех1, х2, …, хnназываютсяфакторами(регрессорами). Установление формы зависимости, подбор модели (уравнения) регрессии и оценка ее параметров являются задачами регрессионного анализа.

В регрессионном анализе изучаются модели вида Y = φ(X) + ε, гдеY - результирующий признак (отклик, случайная зависимая переменная);X– фактор (неслучайная независимая переменная);ε– случайная переменная, характеризующая отклонение фактора Х от линии регрессии (остаточная переменная).Уравнение регрессиизаписывается в виде:yx = φ(x, b0, b1, …, bp), где х – значения величины Х; yx = Mх(Y);b0, b1, …, bp– параметры функции регрессииφ. Таким образом, задача регрессионного анализа состоит в определении функции и ее параметров и последующего статистического исследования уравнения.

В зависимости от типа выбранного уравнения различают линейнуюинелинейнуюрегрессию (в последнем случае возможно дальнейшее уточнение: квадратичная, экспоненциальная, логарифмическая и т.д.). В зависимости от числа взаимосвязанных признаков различаютпарнуюимножественнуюрегрессию. Если исследуется связь между двумя признаками (результативным и факторным), то регрессия называется парной, если между тремя и более признаками – множественной (многофакторной) регрессией.

49 Уравнения регрессии. Оценка параметров уравнения регрессии по выборке.

Так как в регрессионном анализе хj рассматриваются как неслучайные величины, aMεi = 0, то согласно (53.8) уравнение регрессии имеет вид

Основные этапы проверки гипотезы. - student2.ru (53.10)

длявсех i = 1, 2, ..., п, или в матричной форме:

Основные этапы проверки гипотезы. - student2.ru (53.11)

где Основные этапы проверки гипотезы. - student2.ru — вектор-столбец с элементами Основные этапы проверки гипотезы. - student2.ru 1..., Основные этапы проверки гипотезы. - student2.ru i,..., Основные этапы проверки гипотезы. - student2.ru n.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений уi от модельных значений Основные этапы проверки гипотезы. - student2.ru i, т.е. квадратичную форму:

Основные этапы проверки гипотезы. - student2.ru

где символом «Т» обозначена транспонированная матрица.

50 Метод наименьших квадратов (МНК).

Метод наименьших квадратов — метод нахождения оптимальных параметров линейной регрессии, таких, что сумма квадратов ошибок (регрессионных остатков) минимальна. Метод заключается в минимизации евклидова расстояния Основные этапы проверки гипотезы. - student2.ru между двумя векторами — вектором восстановленных значений зависимой переменной и вектором фактических значений зависимой переменной.

 

Постановка задачи

Задача метода наименьших квадратов состоит в выборе вектора Основные этапы проверки гипотезы. - student2.ru , минимизирующего ошибку Основные этапы проверки гипотезы. - student2.ru . Эта ошибка есть расстояние от вектора Основные этапы проверки гипотезы. - student2.ru до вектора Основные этапы проверки гипотезы. - student2.ru . Вектор Основные этапы проверки гипотезы. - student2.ru лежит в простанстве столбцов матрицы Основные этапы проверки гипотезы. - student2.ru , так как Основные этапы проверки гипотезы. - student2.ru есть линейная комбинация столбцов этой матрицы с коэффициентами Основные этапы проверки гипотезы. - student2.ru . Отыскание решения Основные этапы проверки гипотезы. - student2.ru по методу наименьших квадратов эквивалентно задаче отыскания такой точки Основные этапы проверки гипотезы. - student2.ru , которая лежит ближе всего к Основные этапы проверки гипотезы. - student2.ru и находится при этом в пространстве столбцов матрицы Основные этапы проверки гипотезы. - student2.ru . Таким образом, вектор Основные этапы проверки гипотезы. - student2.ru должен быть проекцией Основные этапы проверки гипотезы. - student2.ru на пространство столбцов и вектор невязки Основные этапы проверки гипотезы. - student2.ru должен быть ортогонален этому пространству. Ортогональность состоит в том, что каждый вектор в пространстве столбцов есть линейная комбинация столбцов с некоторыми коэффициентами Основные этапы проверки гипотезы. - student2.ru , то есть это вектор Основные этапы проверки гипотезы. - student2.ru . Для всех Основные этапы проверки гипотезы. - student2.ru в пространстве Основные этапы проверки гипотезы. - student2.ru , эти векторы должны быть перпендикулярны невязке Основные этапы проверки гипотезы. - student2.ru :

Основные этапы проверки гипотезы. - student2.ru

Так как это равенство должно быть справедливо для произвольного вектора Основные этапы проверки гипотезы. - student2.ru , то

Основные этапы проверки гипотезы. - student2.ru

Решение по методу наименьших квадратов несовместной системы Основные этапы проверки гипотезы. - student2.ru , состоящей из Основные этапы проверки гипотезы. - student2.ru уравнений с Основные этапы проверки гипотезы. - student2.ru неизвестными, есть уравнение

Основные этапы проверки гипотезы. - student2.ru

которое называется нормальным уравнением. Если столбцы матрицы Основные этапы проверки гипотезы. - student2.ru линейно независимы, то матрица Основные этапы проверки гипотезы. - student2.ru обратима и единственное решение

Основные этапы проверки гипотезы. - student2.ru

Проекция вектора Основные этапы проверки гипотезы. - student2.ru на пространство столбцов матрицы имеет вид

Основные этапы проверки гипотезы. - student2.ru

Матрица Основные этапы проверки гипотезы. - student2.ru называется матрицей проектирования вектора Основные этапы проверки гипотезы. - student2.ru на пространство столбцов матрицы Основные этапы проверки гипотезы. - student2.ru . Эта матрица имеет два основных свойства: она идемпотентна, Основные этапы проверки гипотезы. - student2.ru , и симметрична, Основные этапы проверки гипотезы. - student2.ru . Обратное также верно: матрица, обладающая этими двумя свойствами есть матрица проектирования на свое пространство столбцов.

51 Оценка коэффициента детерминации

Коэффициент детерминации (Основные этапы проверки гипотезы. - student2.ru - R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по признакам дисперсии зависимой переменной) в дисперсии зависимой переменной. В случае линейной зависимости Основные этапы проверки гипотезы. - student2.ru является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели линейной регрессии с одним признаком Основные этапы проверки гипотезы. - student2.ru коэффициент детерминации равен квадрату обычного коэффициента корреляции между Основные этапы проверки гипотезы. - student2.ru и Основные этапы проверки гипотезы. - student2.ru .

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины Основные этапы проверки гипотезы. - student2.ru от признаков Основные этапы проверки гипотезы. - student2.ru определяется следующим образом:

Основные этапы проверки гипотезы. - student2.ru

где Основные этапы проверки гипотезы. - student2.ru — условная (по признакам Основные этапы проверки гипотезы. - student2.ru ) дисперсия зависимой переменной (дисперсия случайной ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

Основные этапы проверки гипотезы. - student2.ru

где

Основные этапы проверки гипотезы. - student2.ru — сумма квадратов регрессионных остатков,

Основные этапы проверки гипотезы. - student2.ru — общая дисперсия,

Основные этапы проверки гипотезы. - student2.ru — соответственно, фактические и расчетные значения объясняемой переменной,

Основные этапы проверки гипотезы. - student2.ru — выборочное вреднее.

В случае линейной регрессии с константой Основные этапы проверки гипотезы. - student2.ru , где Основные этапы проверки гипотезы. - student2.ru — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае. Коэффициент детерминации — это доля объяснённой дисперсии в общей:

Основные этапы проверки гипотезы. - student2.ru .

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулу.

52 Связь регрессии и корреляции

Сравнивая формулы видим: в их числителе одна и та же величина Основные этапы проверки гипотезы. - student2.ru , что указывает на наличие связи между этими показателями. Эта связь выражается равенством

Основные этапы проверки гипотезы. - student2.ru . (6)

Таким образом, коэффициент корреляции равен средней геометрической из коэффициентов byx и bxy. Формула (6) позволяет, во-первых, по известным значениям коэффициентов регрессии byx и bxy определять коэффициент регрессии Rxy, а во-вторых, проверять правильность расчета этого показателя корреляционной связи Rxy между варьирующими признаками X и Y.

Как и коэффициент корреляции, коэффициент регрессии характеризует только линейную связь и сопровождается знаком плюс при положительной и знаком минус при отрицательной связи.

53. Основные статистические методы

Метод статистики (или статистическая методология) представляет собой совокупность приемов, правил и принципов статистического исследования социально-экономических явлений, т.е. сбора сведений, обработки их, вычисления показателей и анализа (оценки) полученных данных.

Статистические методы:

- метод массовых наблюдений- сбор первичных данных по единицам совокупности;

- сводка и группировка заключается в классификации, обобщении полученных первичных данных;

- методы анализа обобщающих показателей позволяют дать характеристику изучаемому явлению при помощи статистических величин: абсолютных, относительных и средних с целью установления взаимосвязей и закономерностей развития процессов.

Наши рекомендации