Постановка и решение задачи линейной регрессии. Метод наименьших квадратов
Рассмотрим 2 случайные величины X и Y, заданные на одном и том же пространстве элементарных событий. Значениям и этих случайных величин соответствуют вероятности P и P , с которыми они принимаются.
Пусть каждой паре ( , ) соответствует вероятность p( , ) того, что . Тогда говорят, что задано совместное распределение случайных величин X и Y.
Случайные величины называются независимыми, если для любых , справедливо равенство p( , )=P P .
По определению их ковариация равна Cov(X, Y)=M((X-MX)(Y-MY)), где буквой М обозначено мат.ожидание.
Через ρ(X, Y) будем обозначать коэффициент корреляции X и Y, который определяется как ρ(X, Y)= , где DX, DY – дисперсии X и Y. Если случайные величины независимы, их ковариация равна нулю. Заметим, что обратное неверно: равенство нулю ковариации и коэффициента корреляции еще не гарантирует независимости случайных величин. Из определения и неравенства Коши-Буняковского следует, что коэффициент корреляции принимает значения между -1 и +1.
Будем говорить,что между случайными величинами X и Y имеется функциональная зависимость, если существует функция F(x) такая, что Y=F(x). Если же среднее значение одной случайной величины функционально зависит от значений, принимаемых другой, то будем говорить, что такие случайные величины связаны корреляционной зависимостью.
Выразим функционально один из двух взаимосвязанных факторов через другой (хотя бы приближенно). Простейшим из таких выражений является линейное: Y=aX+b, где a и b – некоторые константы.
Если справедливо равенство, то между X и Y имеется функциональная зависимость, даже линейная. Это бывает лишь в случаях, когда ρ(X, Y)=1 или ρ(X, Y)=-1. Если же –1< ρ(X, Y)<1, равенство может выполняться лишь приближенно, при условии, что константы a и b выбраны некоторым специальным образом.
Их выбирают такими, чтобы функция F(a,b)=M((Y–aX–b) ) достигала в точке a, b минимума. Тогда в среднем квадратичном случайная величина aX+b будет менее всего уклоняться от Y.
Применив метод наименьших квадратов, найдем для a и b следующие значения:
a= ρ(X, Y) , b=MY – ρ(X, Y) MX
тогда F(a,b)=DY(1 – ρ(X, Y) ).
1. Если ρ(X, Y)>0, то при увеличении одной из случайных величин другая также имеет тенденцию к увеличению.
2. Если ρ(X, Y) <0, то при увеличении одной из случайных величин другая также будет в среднем квадратичном возрастать.
3. Если ρ(X, Y)=0, то при любых a, b M((Y – aX – b) )≥DY. Следовательно, ни при каких a, b случайная величина aX+b не может в среднем квадратичном приблизить случайную величину Y лучше, чем константа MY(среднее значение Y).
4. Если –1< ρ(X, Y)<1, то при a,b M((Y–aX–b) )= DY(1 – ρ(X, Y) ). Следовательно, случайная величина aX+b в среднем квадратичном лучше приближает Y, чем MY, причем тем лучше, чем больше .
5. Если ρ(X, Y)=1 или ρ(X, Y)= –1, то равенство Y=aX+b выполняется с вероятностью 1.
Метод наименьших квадратов
Введем обозначения:
m =MX, m =MY, =Cov(X,Y), =DX, =DY.
Пользуясь ими, вычисляем:
F(a,b)= M(Y – aX – b) =M((Y – m ) – a(X – m ) + (m – a m – b)) = +a –2a +( m –a m – b) .
Исследуем функцию на экстремум. Сначала вычисляем ее частные производные и приравниваем их к нулю:
(a,b)=2a –2 –2 m ( m –a m –b)=0
(a,b)=–2(m –a m –b)=0
Решая полученную систему линейных уравнений относительно a, b, получаем: a= , b= m – m . Вычислим F(a,b)=2( + )da +4 m dadb+2db =2 da +2(m da+db) >0. Функция имеет единственную точку экстремума и в этой точке достигается минимум. Отметим, что выражению M(Y – aX – b) можно придать такой смысл: это среднее значение суммы квадратов расстояний от прямой y=ax+b до значений случайной величины Y, причем расстояние измеряется вдоль оси OY.
Основные понятия математической статистики.
МС – наука, которая изучает вероятностные свойства ГС.
Генеральная совокупность (ГС) – совокупность объектов, из которых производится выборка.
Задача МС : изучить вероятн-ые свойства генеральной совокупности.
Выборка – совокупность,случайно отобранных объектов (выборочная совокупность).
Числа выборки, упорядоченные по возрастанию,образуют вариационный ряд:
X ≤ X ≤ …≤ X
Статистики вида:
называются соответственно выборочным средним и выборочной дисперсией.
– несмещенная оценка DX (исправленная выборочная дисперсия)
Статистическая оценка – любая функция от выборки. Свойства статистической оценки:
1. Несмещенность
2. Состоятельность
3. Эффективность
Теорема: Оценки и – несмещенные, а оценка – состоятельная.
Доказательство: Сначала докажем несмещенность оценок. Нужно проверить, что M =a, M =σ .
По определению имеем
M =M = =a.
Далее,
M = , где
Выполним тождественные преобразования:
= = =
Далее воспользуемся тем, что MX = σ +a , и при M (X X )=MX ·MX ( случайные величины X и X независимы)
= σ +a )– =(1– ) σ , то есть M =σ .
Докажем состоятельность оценки . Для этого вычислим D :
D = → 0.
Если D и M → 0, то – состоятельная оценка параметра x.