Критерий для разности средних значений
Часто возникает задача сравнения двух выборочных средних с целью проверки гипотезы о том, что эти выборки получены из одной и той же генеральной совокупности, а реальные расхождения в значениях выборочных средних объясняются случайностями выборок.
Испытуемую гипотезу можно сформулировать следующим образом: различие между выборочными средними случайно, т.е. генеральные средние в обоих случаях равны. В качестве статистической характеристики снова используется величина t, предсталяющая собой разность выборочных средних, деленную на усредненную стандартную ошибку среднего по обеим выборкам.
Фактическое значение статистической характеристики сравнивается с критическим значением, соответсвующим выбранному уровню значимости. Если фактическое значение больше, чем критическое, испытуемая гипотеза отклоняется, т.е. различие между средними считается значимым (существенным).
Корреляционная связь. Линейный коэффициент корреляции, его формула, пределы его значений. Коэффициент детерминации, его содержательный смысл. Понятие о статистической значимости коеффициента корреляции.
Коэффициент корреляции показывает, насколько тесно две переменных связаны между собой.
Коэффициент корреляции r принимает значения в диапазоне от -1 до +1. Если r = 1, то между двумя переменными существует функциональная положительная линейная связь, т.е. на диаграмме рассеяния соответствующие точки лежат на одной прямой с положительным наклоном. Если r = -1,то между двумя переменными существует функциональная отрицательная зависимость. Если r = 0,то рассматриваемые переменные линейно независимы, т.е. на диаграмме рассеяния облако точек "вытянуто по горизонтали".
Уравнение регрессии и коэффициент корреляции целесообразно вычислять лишь в том случае, когда зависимость между переменными может хотя бы приближенно считаться линейной. В противном случае результаты могут быть совершенно неверными, в частности коэффициент корреляции может оказаться близким к нулю при наличии сильной взаимосвязи. В особенности это характерно для случаев, когда зависимость имеет явно нелинейный характер (например, зависимость между переменными приблизительно описывается синусоидой или параболой). Во многих случаях эту проблему можно обойти, преобразовав исходные переменные. Однако, чтобы догадаться о необходимости подобного преобразования, т.е. для того чтобы узнать, что данные могут содержать сложные формы зависимости, их желательно “увидеть”. Именно поэтому исследование взаимосвязей между количественными переменными обычно должно включать просмотр диаграмм рассеяния.
Коэффициенты корреляции можно вычислять и без предварительного построения линии регрессии. В этом случае вопрос о интерпретации признаков как результативных и факторных, т.е. зависимых и независимых, не ставится, а корреляции понимается как согласованность или синхронность одновременного изменения значений признаков при переходе от объекта к объекту.
Если объекты характеризуются целым набором количественных признаков, можно сразу построить т.н. матрицу корреляции, т.е. квадратную таблицу, число строк и столбцов которой равно числу признаков, а на пересечении каждых строки и столбца стоит коэффициент корреляции соответствующей пары признаков.
Коэффициент корреляции не имеет содержательной интерпретации. Однако его квадрат, называемый коэффициентом детерминации (R2), имеет.
коэффициентом детерминации (R2) – это показатель того, насколько изменения зависимого признака объясняются изменениями независимого. Более точно, это доля дисперсии независимого признака, объясняемая влиянием зависимого.
Если две переменные функционально линейно зависимы (точки на диаграмме рассеяния лежат на одной прямой), то можно сказать, что изменение переменной y полностью объясняется изменением переменной x, а это как раз тот случай, когда коэффициент детерминации равен единице (при этом коэффициент корреляции может быть равен как 1, так и -1). Если две переменные линейно независимы (метод наименьших квадратов дает горизонтальную прямую), то переменная y своими вариациями никоим образом "не обязана" переменной x – в этом случае коэффициент детерминации равен нулю. В промежуточных случаях коэффициент детерминации указывает, какая часть изменений переменной y объясняется изменением переменной x (иногда удобно представлять эту величину в процентах).
Парная и множественная линейная регрессия. Коэффициент множественной корреляции. Содержательный смысл коэффициента регрессии, его значимость, понятие о t-статистике. Содержательный смысл коэффициента детерминации R2.
Регрессионный анализ - Статистический метод, позволяющий строить объясняющие модели на основе взаимодействия признаков.
Самым простым случаем взаимосвязи является парная взаимосвязь, т.е. связь между двумя признаками. При этом предполагается, что взаимосвязь двух переменных носит, как правило, причинный характер т.е. одна из них зависит от другой. Первая (зависимая) называется в регрессионном анализе результирующей, вторая (независимая) - факторной. Следует заметить, что не всегда можно однозначно определить, какая из двух переменных является независимой, а какая - зависимой. Часто связь может рассматриваться как двунаправленная.
Уравнение парной регрессии: y = kx + b.
Чаще всего на зависимую переменную действуют сразу несколько факторов, среди которых трудно выделить единственный или главный Так, к примеру, доход предприятия зависит одновременно от двух факторов производства - числа рабочих и энерговооруженности. Причем оба этих фактора сами не являются независимыми друг от друга.
Уравнение множественной регрессии: y = k1·x1 + k2·x2 + … + b,
где x1, x2, . . . – независимые переменные, от которых в той или иной степени зависит исследуемая (результирующая) переменная y;
k1, k2 . . . – коэффициенты при соответствующих переменных (коэффициенты регрессии), показывающие, насколько изменится значение результирующей переменной при изменении отдельной независимой переменной на единицу.
Уравнение множественной регрессии задает регрессионную модель, объясняющую поведение зависимой переменной. Никакая регрессионная модель не в состоянии указать, какая переменная является зависимой (следствием), а какие – независимыми (причинами).
R – множественный коэф. корреляции, измеряет совокупность воздействия независимых признаков, тесноту связи результирующего признака со всей совокупностью независимых признаков, выраженных в %.
Показывает какова доля учтенных признаков в отделении результата, т.е. на сколько % вариация признака у объясняется вариациями учтенных признаков Х1, Х2, Х3.
Содержательный смысл коэффициента регрессии – коэф.регрессии b показывает, на сколько в среднем изменится результирующий признак у при увеличении независимого признака х на ед-цу измерения. Не может быть = 0.
T-статистика показывает уровень стат. значимости кажд. ккоэф-та регресии, т.е. его устойчивость по отношению к выборке.
T = b/Δb
Статистически значимыми явл-ся t>2. Чем больше коэф-т, тем лучше.
через R² мы делаем заключение о том, на сколько % учтенные признаки объясняют результат.