Дисперсия случайной переменной
Дисперсия (рассеяние, разброс) дискретной СВ. Случайные величины могут иметь одинаковые мат. ожидания, но различные множества возможных принимаемых значений. Поэтому, для того чтобы оценить, как рассеяны возможные значения СВ вокруг ее мат. ожидания, вводят вторую важную числовую характеристику – дисперсию. Которая отражает разброс СВ относительно ее средней величины.
с абсолютными величинами затруднительно, поэтому вычисляют среднее значение квадрата отклонения, которое и называют дисперсией:
Пользуясь свойствами мат. ожидания, можно получить формулу:
Свойства дисперсии:
1. , дисперсия постоянной величины равна нулю.
2. ,
3. , дисперсия суммы двух независимых СВ равна сумме дисперсий этих случайных величин (верно и для нескольких взаимно независимых СВ).
4. .
Если и независимые СВ, то
5. .
20. Многомерное распределение вероятностей. Возникает при параллельном рассмотрении нескольких совокупных переменных. Для простоты рассмотрим двумерный случай плотности вероятности, Двумерная СП характеризуются функцией 2-х переменных f(x1.x2). Распределение вероятностей при этом определяется следующим образом Условное распределение совокупных переменных. Распределение, кторое характеризуется плотностью вероятности и принимает фиксированное значение, называется условным распределением. Функция условной плотности определяется как отношение 2-х плотностей: Математическое ожидание совокупных величин Х1 при заданном значении обозначается и определяется: | 21. Метод наименьших квадратов. Регрессионное уравнение, разрешённое относительно исследуемой переменной у при наличии одной факторной переменной x, в общем виде записывается как: , Если f(x) является линейной функцией, то мы имеем общий вид модели парной линейной регрессии: , где a – постоянная величина (или свободный член уравнения), b – коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны наблюдения. Фактическое значение исследуемой переменной y тогда может быть представлено в виде: , где ε – разность между фактическим значением (результатом наблюдения) и значением, рассчитанным по уравнению модели. Если модель адекватно описывает исследуемый процесс, то ε – независимая нормально распределённая случайная величина с нулевым математическим ожиданием (Мε = 0) и постоянной дисперсией (Dε = σ2). Наличие случайной компоненты ε отражает тот факт, что присутствуют другие факторы, влияющие на исследуемую переменную и не учтённые в модели. Для оценки параметров a и b линейной парной регрессии с использованием имеющегося набора результатов наблюдений наиболее часто используют метод наименьших квадратов (МНК), который минимизирует сумму квадратов εi - отклонения результатов наблюдений yi от рассчитанных по линейной модели (2.3) значений yрi: Такое решение может существовать только при выполнении условия , то есть когда не все наблюдения проводились при одном и том же значении факторной переменной (сумма квадратов равна нулю, если каждое слагаемое равно нулю). Метод оценки д.б. такими чтобы получить «хорошие» оценки. Метод используемый чаще других для нахождения параметров регрессионного уравнения и известный как метод наименьших квадратов (МНК), при расчете параметров линии с помощью этого метода минимизируются суммы квадратов значений ошибок . Метод наименьших квадратов — один из методов регрессионного анализа для оценки неизвестных величин по результатам измерений, содержащим случайные ошибки. Метод наименьших квадратов применяется также для приближённого представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке наблюдений. Когда искомая величина может быть измерена непосредственно, как, например, длина отрезка или угол, то, для увеличения точности, измерение производится много раз, и за окончательный результат берут арифметическое среднее из всех отдельных измерений. Это правило арифметической середины основывается на соображениях теории вероятностей; легко показать, что сумма квадратов уклонений отдельных измерений от арифметической середины будет меньше, чем сумма квадратов уклонений отдельных измерений от какой бы то ни было другой величины. Само правило арифметической середины представляет, следовательно, простейший случай метода наименьших квадратов. Пусть дано решить систему уравнений a1x + b1y + c1z + … + n1 = 0 a2x + b2y + c2z + … + n2 = 0 (1) a3x + b3y + c3z + … + n3 = 0 | 22. Регрессионные модели. Однофакторное регрессионное уравнение. Регрессионное уравнение, разрешённое относительно исследуемой переменной у при наличии одной факторной переменной x, в общем виде записывается как: , Если f(x) является линейной функцией, то мы имеем общий вид модели парной линейной регрессии: , где a – постоянная величина (или свободный член уравнения), b – коэффициент регрессии, определяющий наклон линии, вдоль которой рассеяны наблюдения. Фактическое значение исследуемой переменной y тогда может быть представлено в виде: , Регрессионный анализ своей целью имеет вывод, определение (идентификацию) уравнения регрессии , включая статистическую оценку его параметров. Уравнение регрессии позволяет найти значение зависимой переменной, если величина независимой или независимых переменных известна. Практически, речь идет о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключенную в этом множестве закономерность (тренд, тенденцию), линию регрессии. По числу факторов различают одно-, двух- и многофакторные уравнения регрессии . По характеру связи однофакторные уравнения регрессии подразделяются: а) на линейные: где x экзогенная (независимая) переменная, y эндогенная (зависимая, результативная) переменная, a , b параметры; б) степенные: ; в) показательные: г) прочие. Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом. Сегодня мы разберем наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией/ В общем виде однофакторное регрессионное уравнение можно записать в виде: М(у/х)=f(х), где левая часть – это условие математического ожидания переменной у при заданном значении переменной х. Частный случай однофакторного РУ является линейная модель зависимость которой записывается следующим образом , У – зависимая переменная. Х – независимая переменная, а –свободный член регрессии (постоянное число), в –коэффициент регрессии, показывает наклон линии, - ошибка или случайная компонента. | 23. Процедура проверки адекватности регрессивных уравнений. Экономический рост (ЭР) - увеличение Адекватность – это соответствие модели реальному моделируемому процессу, а также достоверность его параметров. Проверка адекватности регрессионных уравнений производится в несколько этапов: 1. Анализируются показатели качества подгонки регрессивного уравнения. 2. Проверяются различные гипотезы относительно параметров регрессивного уравнения. 3. Проверяется выполнение условий для получения «хороших» оценок МНК. 4. Производится содержательный анализ РУ. 24. Показатели качества подгонки однофакторного регрессивного уравнения. Отражают соотношение расчетных значений зависимости переменной с фактическими значениями зависимой переменной уi. Эти показатели, как правило, основываются на сумме квадратов разности расчетных и фактических значений у. Остаточная дисперсия , чем меньше , тем лучше РУ, принимает значения от 0 до +бесконечности. Коэффициент детерминации , где Коэффициент детерминации R2 может принимать значения от 0 до 1. Чем ближе коэффициент детерминации R2 к единице, тем лучше качество модели. Коэффициент корреляции. статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции. Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции |
25. Проверка гипотез о наличие линейной связи между переменными и существенности влияния фактора на результат в однофакторном РУ. Приведенные ранее показатели качества подгонки не позволяют принять окончательного статического решения по пригодности РУ. Такие решения принимаются на основе стат.критериев. Одним из таких критериев является F-критерий (F статистика). После оценки свободного члена регрессии (а) и коэффициента регрессии (в) выдвигается гипотеза о том, что линейная связь между х и у не подтверждается. Близкое к 0 значение этой суммы свидетельствует об отсутствии какой либо тенденции для у в связи с изменениями х. Если Fрасч>Fтабл, то гипотезу об отсутствии лин.связи отвергаем с вероятностью р. Fтабл берется из таблицы распределения Фишера, для степеней свободы n1 и n2. n1=k, n2=n-2 k-количество факторов в модели n- количество наблюдений. Отдельно исследуется коэффициент регрессии, выдвигается гипотеза что Х влияет на У не существенно. Выдвинутая гипотеза равноценна тому что b=0 на всей генеральной совокупности. Если наша гипотеза верна то t-статистика или t-критерий подчиняется t-распределению со степенью свободы n-2 . Где - стандартная ошибка коэффициента b. Аналогично находим tтабл если tрасч >tтабл. То гипотезу что b=0 отвергаем, значит b не равен 0, если наоборот то принимаем гипотезу, t- статистика используется также при построении доверительного интервала для коэффициента т.е. b. Областью правдоподобных значений является (-t;t) | 26. Регрессионные модели. Многофакторное регрессионное уравнение. Область применения однофакторных РУ ограничена, т.к. измерение эконом. показателей, как правило объясняются несколькими факторами. В таком случаи более приемлемым являются математический аппарат многофакторных уравнений. В общем виде многофакторное регрессионное уравнение можно записать виде: Можно записать частный вид МНУ – линейную модель b0 – свободный член регрессии b1,b2, b3, bn – коэффициенты регрессии Коэффициенты регрессии многофакторной модели имеют такой же смысл что и однофакторной модели, т.е. коэффициент регрессии в МРУ показывает прирост результата (зависимой переменной у) на единицу прироста n-го фактора при фиксированных значениях остальных факторов. Множественные коэффициенты регрессии как правило оцениваются также методом наименьших квадратов. В этом случае для определения параметров множественной регрессии с к факторами, решается система с к+1 неизвестными методом наименьших квадратов дает «хорошие» оценки при соблюдении некоторых условий относительно случайных компонентов .Для мнофакторной модели это следующие условия: 1. 2. 3. 4.Условие независимости факторов между собой. Нарушение этого условия называетсямультиколлинеарностью. | 27. Показатели качества подгонки многофакторного регрессионного уравнения. Качество подгонки множеств регрессии оценивается на основе таких же показателей адекватности и тех же критериев, что и в однофакторной модели. Первый из этих показателей остаточная дисперсия: к - количество факторов. Второй показатель коэффициент детерминации Однако в МРУ добавление дополнительных объясняющих переменных всегда увеличивает коэффициент детерминации дожжен быть скорректирован с учетом числа независимых переменных. Корректировка производится по следующей формуле: - скорректированный коэффициент детерминации n- количество наблюдений. F-статистика в МРУ рассчитывается по следующей формуле: Для проверки гипотезы необходимо определить значение Fтабл со степенями свободы n1=k, n2=n-k-1 Если Fтасч >Fтабл то гипотезу о том, что уравнение несущественно отвергаем с вероятностью р | 28. Отбор существенных факторов в многофакторном РУ. F-статистика в МРУ рассчитывается по следующей формуле: Для проверки гипотезы необходимо определить значение Fтабл со степенями свободы n1=k, n2=n-k-1 Если Fтасч >Fтабл то гипотезу о том, что уравнение несущественно отвергаем с вероятностью р Особое важное значение для МРУ имеет -критерий; на основе t-критерия отбираются существенные факторы в РУ. На основе стандартной ошибки коэффициенты регрессии оценивается t-статистика для каждого фактора: , , Сущность влияния n-го фактора на результат проверяется на основе выдвижения гипотезы, что bn=0. Если гипотеза верна то t-статистика подчиняется t-распределению, для t-распределения имеются табличные значения. Tтабл определяется для верности р и степени свободы n-k-1. (по табл сьютенда) Если tтасч >tтабл. То гипотеза о том, что bn=0 отвергается. И в этом случае влияние n-го фактора признается существенным. В противном случае, n-й фактор исключается из уравнения и уравнения регрессии строится заново со всеми вытекающими процедурами проверки адекватности. При отборе существенных факторов также необходимо иметь ввиду, что наличия мультиколлинеарности приводит к искусственному увеличению значений стандартных ошибок что в свою очередь приводит к уменьшению t-статистики, даже для логически существенных связей. В таких случаях можно применять методы оценивания с учетом мультиколлинеарности. |
30. Условия для получения «хороших» оценок Методом Наименьших Квадратов в однофакторном и многофакторном РУ. Метод наименьших квадратов дает «хорошие» оценки коэффициентов регрессии при выполнении некоторых условий. Эти условия касаются случайные компоненты . Для однофакторной модели это след.условия: 1) 2) 3) В многофакторной модели добавляются следующие условия: 4) это независимость факторов между собой т.е. 29. Экономический смысл коэффициентов регрессии в однофакторном и многофакторном РУ. | 31. Проверка выполнение 1-го и 2-го условия для получения «хороших» оценок Методом Наименьших Квадратов. Метод наименьших квадратов дает «хорошие» оценки коэффициентов регрессии при выполнении некоторых условий. Эти условия касаются случайные компоненты . Для однофакторной модели это след.условия: 1) 2) 3) В многофакторной модели добавляются следующие условия: 4) это независимость факторов между собой т.е. Условие: 1) при нарушении условия оценка параметров регрессионной модели является неэффективной. Графически нарушение этого условия можно изобразить: Метод наименьших квадратов при отсутствии ошибок в расчетах всегда дает выражение данного условия. 2) - разброс точек на плоскости. Нарушение условия 2) когда дисперсия случайной компоненты не является постоянной, можно на графике изобразить следующим образом: Если остатки имеют постоянную дисперсию, то они называются гомаскедастичными, являются называются гомоскедастичностью. Если остатки непостоянны, то они называются гетероскедостичными, а явление называется гетероскедастичностью. Гетероскедастичность приводит к тому, что коэффициенты регрессии не представляют собой лучшие оценки или не являются оценками с наименьшей дисперсией. Следовательно они не являются «хорошими» коэффициентами. Непостоянство дисперсий часто встречается в моделях нестационарной экономики(Рссия), когда в качестве исходных данных используется временные ряды стоимостных показателей. В пространстве выборках гетероскедастичность встречается когда анализируемые объекты не однородны по своему масштабу. Гетероскедичность ведет к тому что стандартные ошибки будут смещенными, решение о наличии гетероскедичности принимается на основе общей процедуры проверки гипотез. Один из критериев F-критерий Данный F-критерий имеет F – распределение со степенями свободы n1=n/2-k, n2=n/2-k При этих степенях свободы находим Fтабл, сравнивая Fрасч с Fтабл 1) если Fрасч попадает в интервал то дисперсия пост-а 2) если Fр >Fт, то дисперсия уменьшается 3) если Fр <1/Fт то дисперсия увеличивается | 32. Проверка выполнение 3-го условия для получения «хороших» оценок Методом Наименьших Квадратов. 3) Нарушение условия проявляются в том, что м/у ошибками разных наблюдений есть какая то зависимость. Графически нарушение этого условия можно представить: Нарушение условия независимости остатков м/у собой называется автокорреляцией остатков,имеет место когда текущее значение уi . Нарушение 3-го условия независимости остатков делает модель неадекватной. Вызвано это тем что при наличии автокорелляции стандарт ошибки модели будут недооценены. И как следствие проверка значимости коэффициентов регрессии будет ненадежной. Проверку на наличие автокорелляции проводят на основе теста Дарвина-Уотсона (статистика критерий Д-У) Данный критерий может принимать значение от 0 до 4. При проверке наличии автокорреляции на практике можно руководствоваться след. Простым правилом: расчетное значение D-W близкое к 2 свидетельствует об отсутствии автокорелляции, к 4 – об отсутствии, к 0- о положит. Автокорреляции. Строгие решения принимаются из правил: 1) если то гипотеза об отсутствии автокорелляции отвергается. 2) если то гипотеза об отсут автокорел-и принимается 3) принимается гипотеза о том, что отрицательная автокорелляция 4) если то гипотеза о наличии автокорреляции не принимается и не отвергается . | 33. Проверка выполнение 4-го условия для получения «хороших» оценок Методом Наименьших Квадратов в многофакторном РУ. Коэффициент корелляции. Условие независимости факторов м/у собой. Нарушение данного условия, когда факторы зависят друг от друга, называется мультиколлинеарностью. Нарушение условия 4 является нарушением одного из требований классической регрессии. Мультиколлинеарность проверяется на основе коэффициента корреляции Для того чтобы мультиколлинеарности не было д.б. Мультиколлениарность возникает из-за неисправного выбора списка объясняющих переменных или из за эконом.природы выбранных переменных. Внешние признаками мультиколлениарности явл.следующие признаки: 1)наличие значений коэффициентов парной корреляции м/у объясняющими переменными, превышающих по модулю 0,75. 2)Наличие оценок коэффициентов регрессии, имеющих непрерывные знаки. 3)Существенные изменения значений коэффициентов регрессии при небольшом изменении исходных данных. 4)Наличие больших стандартных ошибок и малой статической значимости коэффициентов регрессии при общей значимости модели. Для устранения мультиколлениарностисуществует несколько способов: 1. исключение из модели связанных м/у собой независимых переменных путем отбора наиболее существенных объясняющих переменных. 2. использование методов оценки коэффициентов, учитывающих мультиколлениарность |