Орреляционный и регрессионный анализ.

4.1. Общие понятия.

Основной задачей корреляционного (или регрессионного) анализа является построение статистической модели связи между различными величинами (параметрами) и получение метода косвенного оценивания одних параметров через другие, которые измеряются раньше по времени или значения которых измерить проще (дешевле). Попутно, при необходимости, решаются задачи прямого оценивания характеристик генеральной совокупности (см. предыдущий раздел), проверки статистических гипотез (см. следующий раздел). Корреляционный и регрессионный анализ является частью статистического анализа. Изучению могут подлежать параметры, измеряемые как в шкалах отношений или интервалов, например, физиологические параметры человека (рост, вес, температура тела и т.д.), экономические показатели предприятий и пр., так и в шкале порядка.

В задачах корреляционного и регрессионного анализа в общем случае предполагается, что имеется некоторая величина (обозначим ее y), которая существенно зависит от m параметров (факторов) x1,x2,…,xm (среди них может быть время) и несущественно – от множества других факторов, которые не подлежат измерению и представляются как случайные. При одних и тех же значениях x1,x2,…,xm величина y может принимать разные значения, т.е. она является случайной и поэтому будет обозначаться Y. Предполагается, что величина Y при любых значениях x1,x2,…,xm является суммой двух составляющих: детерминированной и случайной, которую обозначим ε. Все неизвестные и случайные факторы объединены в этой случайной аддитивной составляющей, причем предполагается, что случайная величина e при любых значениях x1,x2,…,xm имеет нулевое математическое ожидание: Мε=0. Таким, образом,модель связи между параметрами Y, x1,x2,…,xm, которую называют регрессионной моделью, имеет вид:

орреляционный и регрессионный анализ. - student2.ru ,

где орреляционный и регрессионный анализ. - student2.ru некоторая детерминированная (обычная) функция, являющаяся условным математическим ожиданием случайной величины Y и называемая уравнением регрессии, e – случайная величина, вид распределения которой должен быть задан, причем Мε=0 (чаще всего принимается e ~ N(0,σ2)).

Дисперсия De º s 2 равна дисперсии орреляционный и регрессионный анализ. - student2.ru условного распределения орреляционный и регрессионный анализ. - student2.ru и, вообще говоря, может быть функцией от вектора x. Вид распределения орреляционный и регрессионный анализ. - student2.ru тот же, что и для случайной величины e.

Пример. Цена Y на некоторый вид товара в условиях свободного ценообразования зависит, во-первых, от среднего спроса, цен на товары, являющиеся сырьем, комплектующими или конкурирующими с данным (первое слагаемое), а во-вторых, от массы других слабо влияющих, неизвестных и случайных факторов. Качественные признаки, измеряемые в шкале наименований (название региона, населенного пункта, престижность района города, магазина, и др.), должны быть фиксированы или считаться случайными факторами, входящими в e.

Для построения регрессионной модели используются результаты испытаний (наблюдений), которые можно представить в виде n точек (m+1)-мерного пространства: (y1, x11,x21,…,xm1), (y2, x12,x22,…,xm2),…, (yn, x1n,x2n,…,xmn).

Особенность корреляционного анализа по сравнению с регрессионным заключается в том, что он имеет дело только с двумерной или многомерной случайной выборкой (матрицей) из определенной генеральной совокупности, характеризуемой (m+1) случайными величинами орреляционный и регрессионный анализ. - student2.ru , причем любой из этих параметров формально может быть взят в качестве зависимой переменной y.

Регрессионный анализ осуществляется при наличии смешанных данных: значения одной группы параметров задаются исследователем (в частности, моменты времени или точки пространства для измерения параметров второй группы) и измеряются достаточно точно, значения другой группы в общем случае рассматриваются как реализации случайных величин при одних и тех же значениях параметров первой группы. При этом можно строить самые различные регрессионные модели, с включением в модель всех параметров или только части.

Корреляционный анализ занимается обработкой данных так называемого пассивного эксперимента, а регрессионный – активного.

Методы построения регрессионной модели в регрессионном и корреляционном анализе одинаковы. Разной является лишь интерпретация некоторых оцениваемых величин.

Построение точной регрессионной модели невозможно, так как на основе ограниченных данных нельзя точно определить функцию орреляционный и регрессионный анализ. - student2.ru . Можно определить только оценку условного математического ожидания орреляционный и регрессионный анализ. - student2.ru , называемую эмпирическим уравнением регрессии. Оценка должна быть состоятельной: чем больше объем выборки, тем точнее должна быть регрессионная модель. Эту оценку, как случайную величину, будем обозначать орреляционный и регрессионный анализ. - student2.ru , Тогда Y при каждом наборе x1,x2,…,xm будет являться суммой двух случайных величин:

орреляционный и регрессионный анализ. - student2.ru .

Поэтому регрессионная модель обычно ищется в виде:

орреляционный и регрессионный анализ. - student2.ru ,

где орреляционный и регрессионный анализ. - student2.ru – детерминированная функция, являющаяся оценкой условного математического ожидания случайной величины Y, для которого должен быть найден также доверительный интервал:

орреляционный и регрессионный анализ. - student2.ru –Δ1(x1,x2,…,xm)< орреляционный и регрессионный анализ. - student2.ru < орреляционный и регрессионный анализ. - student2.ru2(x1,x2,…,xm);

e – случайная величина, распределенная по заранее определенному закону с Мε=0 и дисперсией орреляционный и регрессионный анализ. - student2.ru .

Задача корреляционного (регрессионного) анализа сводится к оценке параметров функции орреляционный и регрессионный анализ. - student2.ru определенного (предполагаемого) класса, доверительного интервала, дисперсии σ2,а также – к определению толерантного интервала для индивидуального значения y в случае, когда будут измерены только x1,x2,…,xm. При необходимости осуществляется проверка статистических гипотез о значимости связи, постоянстве дисперсии σ2и др. В линейном корреляционном анализе оценивают также показатели статистической зависимости между параметрами: ковариации, коэффициенты парной, множественной и частной корреляции (при измерениях в шкале порядка используется понятие ранговой корреляции). В нелинейном корреляционном анализе оценивают корреляционные отношения. В регрессионном анализе таких понятий нет, здесь пользуются более общим термином: коэффициент детерминации (об этом – позднее).

Из регрессионной модели не следует, что является причиной, а что следствием. Установление причинно-следственных связей – отдельная проблема, выходящая за рамки математической статистики.

Частным случаем регрессионной модели при определенных условиях является модель статистической зависимости между параметрами, представляющими временной ряд. Она имеет вид:

орреляционный и регрессионный анализ. - student2.ru ,

где t – время, причем, обычно предполагают, что измерения параметров y,x1,…xm-1 производятся через равные промежутки времени: t=1,2,3,…n. Временным рядом называют измерения, представленные в виде n m-мерных векторов, упорядоченных по возрастанию величины t. Модель временного ряда является частным случаем регрессионной модели тогда, когда εt является случайной величиной. Если же εt – случайный процесс (см. ч.3), то и Y≡Y(t) – случайный процесс. Временные ряды могут быть выражены также авторегрессионными моделями, которые исключают из рассмотрения время t. Частным случаем модели временного ряда являются трендовые модели:

орреляционный и регрессионный анализ. - student2.ru .

Построение многофакторных регрессионных моделей, по сути, немыслимо без использования компьютерных программ. Одним из пакетов программ, которыми можно пользоваться для этой цели, является Система статистического анализа (SAS).

Регрессионные модели используются в задачах прогнозирования, разработки и принятия решений, управления. Регрессионные модели могут быть использованы, в частности, для выявления фактов, не укладывающихся в рамки модели и требующих специального анализа, например, фактов нарушений регламентированных законом процессов человеческой деятельности.

4.2. Методы построения однофакторных регрессионных моделей.

Пусть имеются результаты измерений некоторых параметров х, y в виде n точек: орреляционный и регрессионный анализ. - student2.ru . В таком виде всегда можно представить и сгруппированные в таблицу данные, когда указывается частота повторения различных пар значений x,y. Результаты измерений могут быть получены двумя способами: на основе пассивного и активного экспериментов.

При пассивном эксперименте точки (xi, yi) считаются векторами значений системы случайных величин X, Y, а вся совокупность точек – случайной выборкой из некоторой генеральной совокупности. Например, X и Y – показатели твердости и прочности изделий случайной выборки объема n из партии продукции или доход и количество автомобилей на душу населения в n городах, взятых наугад среди всех городов страны с определенными признаками. Это могут быть также цены на товары-субституты, зафиксированные в n моментов времени, взятых в течение года на одном рынке (если эти цены можно считать случайной выборкой из некоторой гипотетической генеральной совокупности). В случае пассивного эксперимента обычно, прежде всего, оценивают коэффициент корреляции. Это позволяет сразу решить, имеет ли смысл строить регрессионную модель.

При активном эксперименте значения одного из параметров (обычно x) задает исследователь, другие условия опытов (наблюдений) оставляют без изменений, а значения другого параметра рассматривают как значения случайной величины, являющиеся представителями разных генеральных совокупностей при разных значениях х. Например, – наблюдения за ценой (Y) на определенный товар и на определенном рынке в разные моменты времени (х). Другой пример: результаты испытаний на прочность (Y) образцов заготовок деталей при задаваемых значениях температуры режима термообработки (х), если другие параметры режима термообработки оставляют без изменения. В первом примере при одном и том же значении параметра х нельзя провести несколько опытов (наблюдений), во втором – можно. Такое различие может быть учтено при обработке данных.

Однофакторную регрессионную модель (на плоскости) строят в виде:

Y= орреляционный и регрессионный анализ. - student2.ru +e ,

где орреляционный и регрессионный анализ. - student2.ru = орреляционный и регрессионный анализ. - student2.ru [Y/x] – оценка условного математического ожидания случайной величины Y (при фиксированном значении х), для которого должен быть найден также доверительный интервал (далее для краткости будем писать орреляционный и регрессионный анализ. - student2.ru ):

орреляционный и регрессионный анализ. - student2.ru – Δ1(x)< орреляционный и регрессионный анализ. - student2.ru < орреляционный и регрессионный анализ. - student2.ru + Δ2(x);

e – случайная величина, распределенная по заранее определенному закону с Мε=0 и дисперсией De, в качестве которой берут точечную оценку орреляционный и регрессионный анализ. - student2.ru .

Данные орреляционный и регрессионный анализ. - student2.ru желательно нанести на координатную плоскость. Тогда легче подбирать вид эмпирического уравнения регрессии орреляционный и регрессионный анализ. - student2.ru , а также делать заключение относительно постоянства дисперсии De .

Выбор вида условного распределения орреляционный и регрессионный анализ. - student2.ru осуществляется экспертами на основе привлечения более широкой информации, чем данные об n точках. Методы определения вида и параметров орреляционный и регрессионный анализ. - student2.ru основаны на использовании различных критериев близости точек к кривой орреляционный и регрессионный анализ. - student2.ru . Выбор критерия зависит от распределения орреляционный и регрессионный анализ. - student2.ru . В качестве критериев выбирают, например, сумму квадратов расстояний от точек до кривой, сумму модулей отклонений этих точек от кривой и другие. Но чаще всего используется метод наименьших квадратов, вытекающий из предположения о нормальном законе распределения орреляционный и регрессионный анализ. - student2.ru .

Метод наименьших квадратов состоит в оценивании параметров функции орреляционный и регрессионный анализ. - student2.ru заданного вида на основе критерия минимума суммы квадратов отклонений значений yi от соответствующих точек на кривой. В этом случае метод наименьших квадратов сводится к решению задачи определения минимума функции, т.е.

орреляционный и регрессионный анализ. - student2.ru ,

где a1,…,al – неизвестные параметры.

Для решения этой задачи, надо найти l частных производных и приравнять их к нулю, затем – решить полученную систему l уравнений с l неизвестными:

орреляционный и регрессионный анализ. - student2.ru

Таким образом будут найдены точечные оценки параметров функции орреляционный и регрессионный анализ. - student2.ru .

Метод наименьших квадратов равносилен критерию минимума дисперсии De, если она постоянна.

Оценка дисперсии De, если ее можно считать постоянной,имеет вид:

орреляционный и регрессионный анализ. - student2.ru

где l – число оцениваемых параметров функции орреляционный и регрессионный анализ. - student2.ru .

Величина орреляционный и регрессионный анализ. - student2.ru оказывает основное влияние на точность оценки величины Y (индивидуального значения) по значению x. Она используется также при нахождении доверительного интервала для M[Y/x]. В случае нормального распределения орреляционный и регрессионный анализ. - student2.ru половина длины доверительного интервала определяется по формуле:

орреляционный и регрессионный анализ. - student2.ru ,

где tα– квантиль распределения Стьюдента с (n–l) степенями свободы, соответствующий доверительной вероятности 1– a , орреляционный и регрессионный анализ. - student2.ru .

Нетрудно убедиться, что с увеличением объема испытаний n длина доверительного интервала уменьшается в пределе до 0. Поэтому объем испытаний стараются выбрать таким, чтобы орреляционный и регрессионный анализ. - student2.ru не оказывало существенного влияния на точность оценки величины Y (индивидуального значения) по значению x.

Если De зависит от х, то область, в которой находятся значения хi , разбивают на несколько интервалов, для каждого из которых вычисляют оценки дисперсий, после чего производят аппроксимацию функции орреляционный и регрессионный анализ. - student2.ru (х) примерно так же, как строят эмпирическое уравнение регрессии.

4.2.1. Метод наименьших квадратов для линейной и

экспоненциальной зависимостей.

Предположим, что уравнение регрессии – линейная функция: орреляционный и регрессионный анализ. - student2.ru , где a и b неизвестные параметры, которые надо оценить на основе данных об n точках орреляционный и регрессионный анализ. - student2.ru . Тогда

орреляционный и регрессионный анализ. - student2.ru

Находятся частные производные и приравниваются к нулю:

орреляционный и регрессионный анализ. - student2.ru или орреляционный и регрессионный анализ. - student2.ru

Умножая первое уравнение на орреляционный и регрессионный анализ. - student2.ru , а второе – на орреляционный и регрессионный анализ. - student2.ru , решая эту систему и вводя обозначения:

орреляционный и регрессионный анализ. - student2.ru ,

получим оценки коэффициентов:

орреляционный и регрессионный анализ. - student2.ru

где орреляционный и регрессионный анализ. - student2.ru эмпирический коэффициент регрессии.

Оценки орреляционный и регрессионный анализ. - student2.ru являются несмещенными, эффективными (в классе линейных оценок) и обычно (если орреляционный и регрессионный анализ. - student2.ru при n орреляционный и регрессионный анализ. - student2.ru ) состоятельными.

В регрессионном анализе несмещенность и эффективность (при n = const ) понимается в том смысле, что xi берутся одними и теми же, так что параметры уравнения регрессии могут сильно зависеть от выбора xi .

В корреляционноманализе xi – это значения случайной величины X, поэтому выражения:

орреляционный и регрессионный анализ. - student2.ru

здесь имеют конкретный статистический смысл: они являются оценками математических ожиданий, дисперсии, ковариации. В регрессионном анализе такого смысла они не несут. Умножение оценок дисперсии и ковариации на орреляционный и регрессионный анализ. - student2.ru делает их несмещенными, но оценка орреляционный и регрессионный анализ. - student2.ru от этого не изменится, т.е. она несмещенная в любом случае. Учитывая, что орреляционный и регрессионный анализ. - student2.ru орреляционный и регрессионный анализ. - student2.ru где орреляционный и регрессионный анализ. - student2.ru оценка коэффициента корреляции, а орреляционный и регрессионный анализ. - student2.ru оценка дисперсии случайной величины Y , эмпирический коэффициент регрессии можно выразить иначе:

орреляционный и регрессионный анализ. - student2.ru

Эмпирическое уравнение регрессии удобнее записывать в виде:

орреляционный и регрессионный анализ. - student2.ru ,

поскольку при орреляционный и регрессионный анализ. - student2.ru для величины орреляционный и регрессионный анализ. - student2.ru будет иметь место самый узкий доверительный интервал. Вообще доверительный интервал для условного математического ожидания случайной величины Y имеет вид (рис. 16):

орреляционный и регрессионный анализ. - student2.ru ,

где орреляционный и регрессионный анализ. - student2.ru , , орреляционный и регрессионный анализ. - student2.ru квантиль распределения Стьюдента с (n–2)–мя степенями свободы, соответствующий доверительной вероятности 1– a .

орреляционный и регрессионный анализ. - student2.ru

Рис.16. Графики эмпирического уравнения регрессии и доверительных границ для условного математического ожидания M[Y/x].

В случаях, когда орреляционный и регрессионный анализ. - student2.ru близко к нулю, необходимо проверять гипотезу H0: а=0 против гипотезы H1: а¹ 0. Если будет принята гипотеза H0 , то это будет равносильно признанию независимости величины y от фактора x.

Описанный метод наименьших квадратов используется также для логарифма экспоненциальной зависимости: орреляционный и регрессионный анализ. - student2.ru , поскольку после логарифмирования этой функции будет иметь место линейная функция.

4.2.2.Метод наименьших квадратов для параболы

Пусть орреляционный и регрессионный анализ. - student2.ru . Тогда

орреляционный и регрессионный анализ. - student2.ru

Находятся частные производные и приравниваются к нулю:

орреляционный и регрессионный анализ. - student2.ru или орреляционный и регрессионный анализ. - student2.ru

Коэффициенты орреляционный и регрессионный анализ. - student2.ru находятся из этой системы уравнений.

Оценка дисперсии условного распределения:

орреляционный и регрессионный анализ. - student2.ru

Наши рекомендации