Цель лекции - изучить статистические взаимосвязи социально - экономических явлений.

Задачи и план лекции:

  1. Стохастико-детерминированный характер социально-экономических явлений и виды связей между ними.
  2. Статистические методы моделирования связи.
  3. Непараметрические методы.

Различают два типа связи между различными явлениями и их признаками: функциональную или жестко детерминированную и статистическую или стохастически детерминированную с другой стороны.

Если с изменением одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.

При стохастически детерминированной связи (статистической) с изменением значения одной переменной вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону, т.е. разным значениям одной переменной соответствуют разные распределения значений другой переменной.

Частным случаем статистической связи является корреляционная связь.

Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных.

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

Методы изучения статистической связи.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Могут иметь место различные формы связи:

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

прямолинейная

линейные связи являются основными и применяются также и при многофакторном анализе.

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru криволинейная в виде:

параболы второго порядка (или высших порядков)

параболической связью описывается взаимосвязь при которой характер связи между факторным и результативным признаком может измениться на противоположный при прохождении некоторого оптимального значения.

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

гиперболы

гиперболические зависимости характерны для связей, в которых результативный признак не может варьироваться неограниченно, его вариация имеет односторонний предел.

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

показательной функции

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Другая важнейшая задача - измерение тесноты зависимости - для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения:

где -

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

дисперсия в ряду выравненных значений результативного показателя ; -

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

дисперсия в ряду фактических значений у.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать следующие формулы:

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» - прямая зависимость, «-» имеет место при обратной зависимости.

Общий вид многофакторного уравнения регрессии имеет вид:

y = a + b1x1 + .. + bkxk

Многофакторная система требует не одного, а множества показателей тесноты связей. Основой измерения связей является матрица коэффициентов корреляции. На основе этой матрицы судят о тесноте связи факторов с результативным признаком и между собой. Не рекомендуется включать в уравнение регрессии факторы слабо связанные с результативным признаком, но тесно связанные с другими факторами. Множественный коэффициент корреляции определяется как отношение части вариации результативного признака, объясняемой за счет вариации входящих в уравнение факторов, к общей вариации результативного признака за счет всех факторов. Под вариацией понимается сумма квадратов отклонений индивидуальных значений от расчетных по уравнению регрессии (объясненная вариация) или от общей средней величины признака (общая вариация).

Для случая двух факторов коэффициент множественной детерминации вычисляется по формуле из парных коэффициентов корреляции::

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Коэффициент частной детерминации фактора xm – это доля вариации у, не объясненной ранее включенными факторами. Если обозначить частный коэффициент детерминации ддя фактора xm как Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru Тогда Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Основные задачи применения корреляционно-регрессионного анализа.

В соответствии с сущностью корреляционной связи ее изучение имеет две цели: 1) измерение параметров уравнения, выражающего связь средних значений зависимой переменной со значениями независимой переменной; 2) измерение тесноты связи двух (или большего числа признаков) между собой

Задачи корреляционно-регрессионного анализа:

1. Задачи выделения важнейших факторов, влияющих на результативный признак (т.е. вариацию его значений в совокупности). Эта задача решается на базе мер тесноты связи факторов с результативным признаком.

2. Задачи оценки хозяйственной деятельности по эффективности использования факторов производства. Эта задача решается путем расчета для каждой единицы совокупности тех величин результативного признака, которые были получены при средней по совокупности эффективности использования факторов и сравнивания их с фактическими результатами производства.

3. Задача прогнозирования возможных значений результативного признака при задаваемых значениях факторных признаков. Такая задача решается путем подстановки ожидаемых, или планируемых, или возможных значений факторных признаков в уравнении связи и вычисления ожидаемых значений результативного признака.

4. Задача подготовки данных, необходимых в качестве исходных для решения оптимизационных задач.

При решении каждой из названных задач нужно учитывать особенности и ограничения корреляционно-регрессионного метода. Всякий раз необходимо специально обосновать возможность причинной интерпретации уравнения как объясняющего связь между вариацией фактора и результата. Трудно обеспечить раздельную оценку влияния каждого из факторов.

Непараметрические методы определения тесноты связи.

В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.

Наибольшее распространение имеют ранговые коэффициенты корреляции, в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Коэффициент корреляции рангов Спирмэна (р) основан на рассмотрении разности рангов значений результативного и факторного признаков и может быть рассчитан по формуле

где d = Nx - Ny , т.е. разность рангов каждой пары значений х и у; n - число наблюдений.

К непараметрическим методам исследования можно отнести коэффициент ассоциации Кас и коэффициент контингенции Ккон, которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.

Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:

Признаки А(да) А(нет) Итого
В(да) a b a + b
В(нет) c d c + d
Итого a + c b + d n

Здесь а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков ; n - общая сумма частот.

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Коэффициент ассоциации можно рассчитать по формуле

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

Коэффициент контингенции рассчитывается по формуле

Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.

Наконец, следует упомянуть коэффициент Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Данный коэффициент определяется по формуле

Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений. Коэффициент Фехнера может изменяться в пределах -1,0 Кф +1,0.

Целью применения корреляционно-регрессионного метода является построение такого уравнения регрессии, которое включает основные факторы, влияющие на вариацию результативного признака, обладающего высоким (не ниже 0,5) коэффициентом детерминации и коэффициентами регрессии, интерпретируемыми в соответствие с теоретическим знанием о природе связей в изучаемой системе.

При использовании корреляционно-регрессионного метода при анализе социально-экономических явлений необходимо учесть следующие ограничения.

Интерпретировать корреляционные показатели строго следует лишь в терминах вариации (различий в пространстве) отклонений от средней величины. Если задача состоит в изменении связи не между вариацией двух признаков в совокупности, а меду изменениями признаков объекта во времени, то корреляционно-регрессионный анализ требует значительных изменений.

Корреляционно-регрессионный метод основан на том, что группировка совокупности по одному факторному признаку при условии, что все другие не связаны с изучаемым, а случайные отклонения и ошибки взаимопогасились в большой совокупности. Если же фактор связан с другими факторами, то будет получена не чистая характеристика влияния.

При этом относительная простота и применение компьютерной техники позволяет достаточно широко и эффективно применять данных метод на практике.

Параметрический методы определения тесноты связи состоит в расчете F критерия Фишера, который рассчитывается по формуле:

F= Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

где r2 – коэффициент корреляции, n – число единиц в совокупности, к- число степеней свобожы.

Для оценки надежности результатов уравнения регрессии F сравнивают c Fтабл при заданном уровне вероятности. Если полученное значение больше табличного, то можно говорить о высокой степени надежности результатов регрессионного моделирования. Если ниже – то полученные оценки коэффициентов регрессии статистически незначимы.

Коэффициент конкордации

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

 
  Цель лекции - изучить статистические взаимосвязи социально - экономических явлений. - student2.ru

где n - количество анализируемых объектов, m - количество экспертов, Rij - ранг j-го объекта, который присвоен ему i-ым экспертом.

Следует обратить внимание на отличие значений коэффициента конкордации от коэффициента корреляции, так как он существует в пределах от 0 до 1. Если мнения экспертов полностью противоположны, коэффициент конкордации равен нулю (W = 0), а коэффициент корреляции в этом случае будет равен -1.

Дисперсионный анализ.

Целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо, нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Разбиение суммы квадратов. Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений). В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты, т.е. выборка разбивается на две части в которых вычисляются среднии и сумма квадратов отклонений. Расчет тех же показателей по выборки в целом дает большее значение дисперсии, что объясняется расхождение между групповыми средними. Таким образом, дисперсионный анализ позволяет объяснить внутригрупповую изменчивость, которая при исследовании всей группы в целом не может быть изменена.

Проверка значимости в дисперсионном анализе основана на сравнении компоненты дисперсии, обусловленной межгрупповым и компоненты дисперсии, обусловленной внутригрупповым разбросом (называемой средним квадратом ошибки). Если верна нулевая гипотеза (равенство средних в двух популяциях), то можно ожидать сравнительно небольшое различие выборочных средних из-за чисто случайной изменчивости. Поэтому, при нулевой гипотезе, внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета групповой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F-критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1.

Преимущества: 1) дисперсионный анализ существенно более эффективен и, для малых выборок, т.к. более информативен; 2)дисперсионный анализ позволяет обнаружить эффекты взаимодействия между факторами и, поэтому, позволяет проверять более сложные гипотезы

Метод главных компонент состоит в линейном понижении размерности, в котором определяются попарно ортогональные направления максимальной вариации исходных данных, после чего данные проектируются на пространство меньшей размерности, порожденное компонентами с наибольшей вариацией.

Метод главных компонент является частью факторного анализа, который состоит в том, что две коррелированные переменные объединены в один фактор. Если пример с двумя переменными распространить на большее число переменных, то вычисления становятся сложнее, однако основной принцип представления двух или более зависимых переменных одним фактором остается в силе.

При сокращении числа переменных решение о том, когда следует остановить процедуру выделения факторов, главным образом зависит от точки зрения на то, что считать малой "случайной" изменчивостью. При повторных итерациях выделяются факторы с все меньшей и меньшей дисперсией.

Центроидный метод определения факторов.

Центроидный метод используется при кластерном анализе. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести при не взвешенном центроидном методе..

Взвешенный центроидный метод (медиана) идентичен не взвешенному, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.

Кластерный анализ.

Термин кластерный анализ в действительности включает в себя набор различных алгоритмов классификации. Общий вопрос, задаваемый исследователями во многих областях, состоит в том, как организовать наблюдаемые данные в наглядные структуры, т.е. определить кластеры схожих объектов. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам". Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно классов, но все еще находитесь в описательной стадии исследования. Следует понимать, что кластерный анализ определяет "наиболее возможно значимое решение".

Алгоритм древовидной кластеризации. Назначение этого алгоритма состоит в объединении объектов в достаточно большие кластеры, используя некоторую меру сходства или расстояние между объектами. Типичным результатом такой кластеризации является иерархическое дерево, которое представляет собой диаграмму. Диаграмма начинается с каждого объекта в классе (в левой части диаграммы). Теперь представим себе, что постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог, относящийся к решению об объединении двух или более объектов в один кластер. В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе. На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.

Дискриминантный анализ используется для принятия решения о том, какие переменные различают (дискриминируют) две или более возникающие совокупности (группы). Наиболее общим применением дискриминантного анализа является включение в исследование многих переменных с целью определения тех из них, которые наилучшим образом разделяют совокупности между собой. Другими словами, вы хотите построить "модель", позволяющую лучше всего предсказать, к какой совокупности будет принадлежать тот или иной образец. В следующем рассуждении термин "в модели" будет использоваться для того, чтобы обозначать переменные, используемые в предсказании принадлежности к совокупности; о неиспользуемых для этого переменных будем говорить, что они "вне модели".

В пошаговом анализе дискриминантных функций модель дискриминации строится по шагам. Точнее, на каждом шаге просматриваются все переменные и находится та из них, которая вносит наибольший вклад в различие между совокупностями. Эта переменная должна быть включена в модель на данном шаге, и происходит переход к следующему шагу.

Можно также двигаться в обратном направлении, в этом случае все переменные будут сначала включены в модель, а затем на каждом шаге будут устраняться переменные, вносящие малый вклад в предсказания. Тогда в качестве результата успешного анализа можно сохранить только "важные" переменные в модели, то есть те переменные, чей вклад в дискриминацию больше остальных.

Эта пошаговая процедура "руководствуется" соответствующим значением F для включения и соответствующим значением F для исключения. Значение F статистики для переменной указывает на ее статистическую значимость при дискриминации между совокупностями, то есть, она является мерой вклада переменной в предсказание членства в совокупности.

Для двух групп дискриминантный анализ может рассматриваться также как процедура множественной регрессии. Если вы кодируете две группы как 1 и 2, и затем используете эти переменные в качестве зависимых переменных в множественной регрессии, то получите результаты, аналогичные тем, которые получили бы с помощью дискриминантного анализа. В общем, в случае двух совокупностей вы подгоняете линейное уравнение следующего типа:

Группа = a + b1*x1 + b2*x2 + ... + bm*xm

где a является константой, и b1...bm являются коэффициентами регрессии. Интерпретация результатов задачи с двумя совокупностями тесно следует логике применения множественной регрессии: переменные с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию.

Если имеется более двух групп, то можно оценить более, чем одну дискриминантную функцию подобно тому, как это было сделано ранее. Например, когда имеются три совокупности, вы можете оценить: (1) - функцию для дискриминации между совокупностью 1 и совокупностями 2 и 3, взятыми вместе, и (2) - другую функцию для дискриминации между совокупностью 2 и совокупности 3. Например, вы можете иметь одну функцию, дискриминирующую между теми выпускниками средней школы, которые идут в колледж, против тех, кто этого не делает (но хочет получить работу или пойти в училище), и вторую функцию для дискриминации между теми выпускниками, которые хотят получить работу против тех, кто хочет пойти в училище. Коэффициенты b в этих дискриминирующих функциях могут быть проинтерпретированы тем же способом, что и ранее.

Каноническая корреляция.

Канонический анализ предназначен для анализа зависимостей между списками переменными. Если говорить точнее, он позволяет исследовать зависимость между двумя множествами переменных. При вычислении канонических корней подсчитывают собственные значения матрицы корреляций. Эти значения равны доле дисперсии, объясняемой корреляцией между соответствующими каноническими переменными. При этом полученная доля вычисляется относительно дисперсии канонических переменных, т.е. взвешенных сумм по двум множествам переменных; таким образом, собственные значения не показывают абсолютного значения, объясняемого в соответствующих канонических переменных.

Если извлечь квадратный корень из полученных собственных значений, получим набор чисел, который можно проинтерпретировать как коэффициенты корреляции. Поскольку они относятся к каноническим переменным, их также называют каноническими корреляциями. Как и собственные значения, корреляции между последовательно выделяемыми на каждом шаге каноническими переменными, убывают. Однако другие канонические переменные также могут быть значимо коррелированы, и эти корреляции часто допускают достаточно осмысленную интерпретацию.

Критерий значимости канонических корреляций сравнительно несложен. Во-первых, канонические корреляции оцениваются одна за другой в порядке убывания. Только те корни, которые оказались статистически значимыми, оставляются для последующего анализа. Хотя на самом деле вычисления происходят немного иначе. Программа сначала оценивает значимость всего набора корней, затем значимость набора, остающегося после удаления первого корня, второго корня, и т.д.

Исследования показали, что используемый критерий обнаруживает большие канонические корреляции даже при небольшом размере выборки (например, n = 50). Слабые канонические корреляции (например, R = .3) требуют больших размеров выборки (n > 200) для обнаружения в 50% случаев. Отметим, что канонические корреляции небольшого размера обычно не представляют практической ценности, поскольку им соответствует небольшая реальная изменчивость исходных данных.

Канонические веса. После определения числа значимых канонических корней возникает вопрос об интерпретации каждого (значимого) корня. Напомним, что каждый корень в действительности представляет две взвешенные суммы, по одной на каждое множество переменных. Одним из способов толкования "смысла" каждого канонического корня является рассмотрение весов, сопоставленных каждому множеству переменных. Эти веса также называются каноническими весами.

При анализе, обычно, пользуются тем, что чем больше приписанный вес (т.е., абсолютное значение веса), тем больше вклад соответствующей переменной в значение канонической переменной.

Если вы знакомы с множественной регрессией, вы можете применить для канонических весов интерпретацию, использованную для бета - весов в уравнении множественной регрессии. Канонические веса, в некотором смысле, аналогичны частным корреляциям переменных, соответствующих каноническому корню. Таким образом, рассмотрение канонических весов позволяют понять "значение" каждого канонического корня, т.е. увидеть, как конкретные переменные в каждом множестве влияют на взвешенную сумму (т.е. каноническую переменную).

Параметрические и непараметрические методы оценки результатов.

Параметрические методы, основанные на выборочном распределении определенной статистики. Говоря кратко, если вы знаете распределение наблюдаемой переменной, то можете предсказать, как в повторных выборках равного объема будет "вести себя" используемая статистика - т.е. каким образом она будет распределена.

В практике использование параметрических методов ограничено из-за объема или размера выборки доступной для анализа; проблем с точным измерением признаков наблюдаемого объекта

Таким образом, возникает необходимость в наличие процедур, позволяющих обрабатывать данные "низкого качества" из выборок малого объема с переменными, про распределение которых мало что или вообще ничего не известно. Непараметрические методы как раз и разработаны для тех ситуаций, достаточно часто возникающих на практике, когда исследователь ничего не знает о параметрах исследуемой популяции (отсюда и название методов - непараметрические). Говоря более специальным языком, непараметрические методы не основываются на оценке параметров (таких как среднее или стандартное отклонение) при описании выборочного распределения интересующей величины. Поэтому эти методы иногда также называются свободными от параметров или свободно распределенными.

По существу, для каждого параметрического критерия имеется, по крайней мере, один непараметрический аналог. Эти критерии можно отнести к одной из следующих групп:

критерии различия между группами (независимые выборки);

критерии различия между группами (зависимые выборки);

критерии зависимости между переменными.

Различия между независимыми группами. Обычно, когда имеются две выборки (например, мужчины и женщины), которые вы хотите сравнить относительно среднего значения некоторой изучаемой переменной, вы используете t-критерий для независимых. Непараметрическими альтернативами этому критерию являются: критерий серий Вальда-Вольфовица, U критерий Манна-Уитни и двухвыборочный критерий Колмогорова-Смирнова. Если вы имеете несколько групп, то можете использовать дисперсионный анализ. Его непараметрическими аналогами являются: ранговый дисперсионный анализ Краскела-Уоллиса и медианный тест.

Различия между зависимыми группами. Если вы хотите сравнить две переменные, относящиеся к одной и той же выборке (например, математические успехи студентов в начале и в конце семестра), то обычно используется t-критерий для зависимых выборок. Альтернативными непараметрическими тестами являются: критерий знаков и критерий Вилкоксона парных сравнений. Если рассматриваемые переменные по природе своей категориальны или являются категоризованными (т.е. представлены в виде частот попавших в определенные категории), то подходящим будет критерий хи-квадрат Макнемара. Если рассматривается более двух переменных, относящихся к одной и той же выборке, то обычно используется дисперсионный анализ (ANOVA) с повторными измерениями. Альтернативным непараметрическим методом является ранговый дисперсионный анализ Фридмана или Q критерий Кохрена (последний применяется, например, если переменная измерена в номинальной шкале). Q критерий Кохрена используется также для оценки изменений частот (долей).

Зависимости между переменными. Для того, чтобы оценить зависимость (связь) между двумя переменными, обычно вычисляют коэффициент корреляции. Непараметрическими аналогами стандартного коэффициента корреляции Пирсона являются статистики Спирмена R, тау Кендалла и коэффициент Гамма Если две рассматриваемые переменные по природе своей категориальны, подходящими непараметрическими критериями для тестирования зависимости будут: Хи-квадрат, Фи коэффициент, точный критерий Фишера. Дополнительно доступен критерий зависимости между несколькими переменными так называемый коэффициент конкордации Кендалла. Этот тест часто используется для оценки согласованности мнений независимых экспертов (судей), в частности, баллов, выставленных одному и тому же субъекту.

Если данные не являются нормально распределенными, а измерения, в лучшем случае, содержат ранжированную информацию, то вычисление обычных описательных статистик (например, среднего, стандартного отклонения) не слишком информативно. Например, в психометрии хорошо известно, что воспринимаемая интенсивность стимулов (например, воспринимаемая яркость света) представляет собой логарифмическую функцию реальной интенсивности (яркости, измеренной в объективных единицах - люксах). В данном примере, обычная оценка среднего (сумма значений, деленная на число стимулов) не дает верного представления о среднем значении действительной интенсивности стимула. (В обсуждаемом примере скорее следует вычислить геометрическое среднее.) Непараметрическая статистика вычисляет разнообразный набор мер положения (среднее, медиану, моду и т.д.) и рассеяния (дисперсию, гармоническое среднее, квартильный размах и т.д.), позволяющий представить более "полную картину" данных.

Вопросы для обсуждения:

1. В чём состоит отличие между функциональной и стохастической связью?

2. Что собой представляет корреляционная связь?

3. Какими статистическими методами исследуется функциональные и корреляционные связи?

4. В чём достоинства и недостатки метода параллельных рядов и аналитических группировок?

5. Какие основные задачи решаются с помощью корреляционного и регрессионного анализа?

6. Дайте определение статистической модели.

7. Охарактеризуйте основные проблемы и правила построения однофакторной линейной регрессионной модели?

8. В чём состоит значение уравнения регрессии?

9. Что характеризуют коэффициенты регрессии?

10. Метод определения параметров уравнения регрессии?

11. Зачем необходима проверка адекватности регрессионной модели?

12. Как осуществляется проверка значимости коэффициентов регрессии?

13. Какими показателями измеряется теснота корреляционной связи?

14. какое значение имеет расчёт коэффициента детерминации?

15. Линейные коэффициенты корреляции и детерминации, их смысл и назначение?

16. Проверка существенности показателей тесноты связи как необходимое условие распространение выводов по результатам на всю генеральную совокупность. Как она осуществляется?

17. Как экономически охарактеризовать однофакторную регрессионную модель?

18. Какой экономический смысл имеют коэффициенты эластичности?

19. В чём преимущество межфакторного регрессионного анализа перед другими методами?

20. Основные проблемы и правила построения многофакторной корреляционной модели.

21. Сущность и назначение парных и честных коэффициентов корреляции.

22. Сущность и значение совокупного коэффициента множественной корреляции и совокупного коэффициента детерминации.

23. Как проверить адекватность уравнения в целом? Значимость коэффициента регрессии? Какие критерии для этого можно использовать?

24. Как экономически интерпретировать многофакторную регрессионную модель?

25. Какой экономический смысл имеют коэффициенты эластичности?

26. Каким образом выделить факторы, в изменении которых заложены наибольшие возможности в управлении изменением результативного признака?

27. Какие непараметрические методы применяют для моделирования связи?

Список рекомендуемой литературы

  1. Громыко Г.Л. Статистика.-М: Изд-во МГУ им.М.В. Ломоносова, 1981.
  2. Гусаров В.М. Теория Статистики: Учеб. пособие для вузов. – М.: Аудит, ЮНИТИ, 2002.
  3. Елисеева И.И. Статистические методы измерения связей. – Л.: Изд-во ЛГУ, 1982.
  4. Елисеева И.И., Юзбашев М.М. Общая теория статистики: Учебник для вузов. – М.: Финансы и статистика, 2001.
  5. Ефимова М.Р., Рябцев В.М. Общая теория статистики: Учебник для вузов. – М.: Финансы и статистика, 2001.
  6. Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики: Учебник для вузов. – М.: Инфра-М, 2006.

Наши рекомендации