Метод корреляционно-регрессионного анализа
Корреляционно-регрессионный анализ - один из наиболее широко распространенных и гибких приемов обработки статистических данных. Данный метод начинает свой отсчет с 1795 г., когда английский исследователь Фрэнсис Гальтон предложил теоретические основы регрессионного метода, а в 1801 г. рассчитал с его помощью траекторию полета планеты Церера. Им же введен в статистику термин «корреляция». Можно также назвать
французского кристаллографа Огюста Браве, немецкого физика Густава Теодора Фехнера, английского экономиста и статистика Фрэнсиса Эджуорта, впервые высказывавших в середине—конце XIX в. идеи о количественном измерении связей явлений. В разное время над теорией анализа работали известные в области теоретической статистики ученые Карл Фридрих Гаусс (Германия), Адриен Мари Лежандр (Франция), Карл Пирсон (Англия) и др.
Корреляционно-регрессионный анализ состоит в построении и анализе экономико-математической модели в виде уравнения регрессии (корреляционной связи), характеризующего зависимость признака от определяющих его факторов.
Корреляционно-регрессионный анализ предполагает следующие этапы:
• предварительный анализ (здесь формулируются основные направления всего анализа, определяется методика оценки результативного показателя и перечень наиболее существенных факторов);
• сбор информации и ее первичная обработка;
• построение модели (один из важнейших этапов);
• оценка и анализ модели.
Задачи корреляционного анализа сводятся к выделению важнейших факторов, которые влияют на результативный признак, измерению тесноты связи между факторами, выявлению неизвестных причин связей и оценке факторов, оказывающих максимальное влияние на результат.
Задачи регрессионного анализа заключаются в установлении формы зависимости, определении уравнения регрессии и его использовании для оценки неизвестных значений зависимой переменной, прогнозировании возможных значений результативного признака при задаваемых значениях факторных признаков.
При использовании корреляционно-регрессионного анализа необходимо соблюдать следующие требования.
1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.
2. Все факторные признаки должны иметь количественное (цифровое) выражение.
3. Необходимо наличие массовости значений изучаемых показателей.
4. Причинно-следственные связи между явлениями и процессами могут быть описаны линейной или приводимой к линейной формой зависимости.
5. Не должно быть количественных ограничений на параметры модели связи.
6. Необходимо обеспечить постоянство территориальной и временной структуры изучаемой совокупности.
Корреляция - статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.
В статистике принято различать следующие варианты зависимостей.
1. Парная корреляция - связь между двумя признаками (результативным и факторным).
2. Частная корреляция - зависимость между результативным и одним из факторных признаков при фиксированном значении других факторных признаков.
3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.
Корреляционная связь - частный случай стохастической связи и состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.
Обязательное условие применения корреляционного метода - массовость значений изучаемых показателей, что позволяет выявить тенденцию, закономерность развития, форму взаимосвязи между признаками. Тогда, в соответствии с законом больших, чисел, влияние других факторов сглаживается, нейтрализуется. Наличие корреляционной связи присуще многим общественным явлениям.
Показатели тесноты связи между признаками называют коэффициентами корреляции. Их выбор зависит от того, в каких шкалах измерены признаки. Основными шкалами являются:
1) номинальная шкала (наименований) предназначена для описания принадлежности объектов к определенным социальным группам (например, коэффициенты ассоциации и контингенции, коэффициенты Пирсона и Чупрова);
2) шкала порядка (ординальная) применяется для измерения упорядоченности объектов по одному или нескольким признакам (например, коэффициенты Спирмена и Кенделла);
3) количественная шкала используется для описания количественных показателей — например, линейный коэффициент корреляции и корреляционное отношение.
Корреляционный анализ - метод статистического исследования экспериментальных данных, позволяющий определить степень линейной зависимости между переменными.
Парная линейная корреляция - простейшая система корреляционной связи, представляющая линейную связь между двумя признаками. Ее практическое значение состоит в выделении одного важнейшего фактора, который и определяет вариацию результативного признака.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции, который был впервые введен в начале 1890-х гг. Пирсоном, Эджуортом и Велдоном. В теории разработаны и на практике применяются различные варианты формул расчета данного коэффициента:
, где ,
где n — число наблюдений.
При малом числе наблюдений для практических вычислений линейный коэффициент корреляции удобнее исчислять по формуле:
,
где r принимает значения в пределах от -1 до 1.
Чем ближе линейный коэффициент корреляции по абсолютной величине к I, тем теснее связь. С другой стороны, если он равен 1, то зависимость является не стохастической, а функциональной. Знак при нем указывает направление связи: знак «-» соответствует обратной зависимости, «+» — прямой. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
Степень взаимного влияния факторов в зависимости от коэффициента корреляции приведена в табл. 1.
Таблица 1
Количественная оценка тесноты связи
при различных значениях коэффициента корреляции
Величина коэффициента корреляции | 0,1-0,3 | 0,3-0,5 | 0,5-0,7 | 0,7-0,9 | 0,9-0,99 |
Теснота связи | Слабая | Умеренная | Заметная | Высокая | Весьма высокая |
После того, как с помощью корреляционного анализа выявлено наличие статистических связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию зависимостей, то есть к регрессионному анализу.
Термин «регрессия» (произошел от латинского regression - отступление, возврат к чему-либо) был также введен Ф. Гальтоном в 1886 г. Обрабатывая статистические данные в связи с анализом наследственности роста, он отметил прямую зависимость между ростом родителей и их детей (наблюдение само по себе не слишком глубокое). Но относительно старших сыновей ему удалось установить более тонкую зависимость. Он рассчитал, что средний рост старшего сына лежит между средним ростом населения и средним ростом родителей. Если рост родителей выше среднего, то их наследник, как правило, ниже; если средний рост родителей ниже среднего, то рост их потомка выше. Когда Гальтон нанес на график средний рост старших сыновей для различных значений среднего роста родителей, он получил почти прямую линию, проходящую через нанесенные точки.
Поскольку рост потомства стремится двигаться к среднему, Гальтон назвал это явление регрессией к среднему состоянию, а линию, проходящую через точки на графике, — линией регрессии.
Регрессивный анализ применяется в тех случаях, когда необходимо отыскать непосредственно вид зависимости х и у. При этом предполагается, что независимые факторы не случайные величины, а результативный показатель у имеет постоянную, независимую от факторов дисперсию и стандартное отклонение.
Одна из проблем построения уравнения регрессии — размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.
При построении модели число факторных признаков должно быть в 5-6 раз меньше объема изучаемой совокупности.
Если результативный признак с увеличением факторного признака равномерно возрастает или убывает, то такая зависимость является линейной и выражается уравнением прямой.
Линейная регрессия сводится к нахождению уравнения вида:
где х - индивидуальное значение факторного признака; а0, а1 - параметры уравнения прямой (уравнения регрессии); ух - теоретическое значение результирующего фактора.
Данное уравнение показывает среднее значение изменения результативного признака х на одну единицу его измерения. Знак параметра показывает направление этого изменения. На практике построение линейной регрессии сводится к оценке ее параметров а0, а1.
При классическом подходе параметры уравнения а0, а1 находятся методом наименьших квадратов, который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от расчетных, теоретических (ух) была бы минимальной.
Для нахождения минимума данной функции приравняем к нулю частные производные и тем самым получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
где
В уравнении прямой параметр а0 экономического смысла не имеет, параметр а1 является коэффициентом регрессии и показывает изменение результативного признака при изменении факторного на единицу.
Или по следующим формулам:
, где , , ,
Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выраженная формулой
Часто исследуемые признаки имеют разные единицы измерения, поэтому для оценки влияния факторного признака на результативный применяется коэффициент эластичности. Он рассчитывается для каждой точки и в среднем по всей совокупности по формуле:
где у'х — первая производная уравнения регрессии.
Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак при изменении факторного признака на 1%.
Чтобы иметь возможность судить о сравнительной связи влияния отдельных факторов и о тех резервах, которые в них заложены, должны быть вычислены частные (средние) коэффициенты эластичности.
Различия в единицах измерения факторов устраняют с помощью частных (средних) коэффициентов эластичности, которые рассчитываются по формуле:
где аi - коэффициент регрессии при факторе х; - средние значения факторного и результативного признаков.
Частные коэффициенты эластичности показывают, на сколько процентов в среднем изменяется анализируемый показатель с изменением на 1 % каждого фактора при фиксированном положении других факторов.
Альтернативным показателем степени зависимости между двумя переменными является линейный коэффициент детерминации, представляющий собой квадрат линейного коэффициента корреляции r2. Его числовое значение всегда заключено в пределе от 0 до 1. Он характеризует долю вариации (разброса) зависимой переменной. Значение коэффициента детерминации непосредственно указывает степень влияния независимого фактора на результативный показатель.
Степень тесноты связи полностью соответствует теоретическому корреляционному отношению, которое является универсальным показателем тесноты связи по сравнению с линейным коэффициентом корреляции.
С помощью теоретического корреляционного отношения измеряется теснота связи любой формы, а посредством линейного коэффициента корреляции — только прямолинейной связи.
Теоретическое корреляционное отношение рассчитывается по формулам:
где - факторная дисперсия; - общая дисперсия.
Для упрощения расчетов меры тесноты корреляционной связи часто применятся индекс корреляционной связи, который определяется по формулам:
где - остаточная дисперсия.
Линейные модели отличаются простой интерпретируемостью и хорошо разработанными приемами оценивания коэффициентов регрессии. Обычно для них все три наиболее распространенных метода статистического оценивания - максимального правдоподобия, наименьших квадратов и моментов - дают оптимальные решения и соответственно приводят к оценкам, обладающим линейностью, эффективностью, несмещенностью. Принимая во внимание, что линейные регрессионные модели не могут с одинаково высокой степенью достоверности описывать многообразные процессы, происходящие в реальности, их дополняет большой класс нелинейных моделей. Для последних, однако, с учетом их сложности и специфичности приемов параметрического оценивания предпочтительным остается приведение к простой линейной форме.