Основные харки(функция,плотности распределения,понятие незанятости)

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru

Основные числовые характеристики(мат ожид, дисперсия,корреляц матрица,коэф корреляц,нормированная корреляционная марица)

Математическим ожиданием (МО) случайного вектора X называется вектор

M[X] Δ = mX Δ = col(m1, ... , mn), где mi Δ = M[Xi] , i = 1,n.

Матрицу K размерности n x n с элементами

kij Δ = M[(Xi - mi)(Xj - mj)]

называют ковариационной. Элементы kij ковариационной матрицы являются ковариациями СВ Xi и Xj при i ≠ j, а диагональные элементы kij - дисперсии СВ Xi, т.е.

kij Δ = di Δ = i)2 = M[(Xi - mi)2] , i = 1,n.

Дисперсии di, i = 1,n, характеризуют рассеивание реализаций компонент случайного вектора относительно средней точки mX = col(m1,..., mn), а ковариации kij - степень линейной зависимости между СВ Xi и Xj. В частности, по свойству 2)kXY при линейной связи между Xi и Xj ковариация между ними равна kij = ±σiσj. Так как по свойству 1)kXY всегда |kXY| ≤ σiσj, то при линейной зависимости между Xi и Xj модуль |kij| максимален.

Нормированную ковариационную матрицу R, элементами которой являются коэффициенты корреляции rij, называют корреляционной матрицей

безразмерную величину Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru , определяемую соотношением.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru (73)


и называемую коэффициентом корреляции.

16. основные задачи математической статистики.Занимается методами обработки опытных данных, полученных в рез-те наблюдения над случайными явлениями. Задачи мат стата:1)указать способы сбора и группировки стат. сведений, полученных в рез-те наблюдения за случ. процессами. 2)Разработка методов анализа стат. Данных в зависимости от цели исследования. Генеральная и выборочная совокупность. Ген совокупность-множество объектов, из которых производится выборка.Выборочная совокупность-сов-ть случайно отобранных объектов из генеральной совокупности. Повторная и бесповторная выборка.Повторная – при которой отобранный объект возвращается в ген совокупность. Бесповторная – при которой отобранный объект не возвращается в ген совокупность.Репрезентативность выборки.Выборка является репрезентативной, когда достаточно полно представлены изучаемые признаки генеральной совокупности.Условием обеспечения репрезентативности выборкия явл, соблюдение случайности отбора, т.е. все обекты ген выборки имеют равную возм попать в выборку. Теоретическая ФР. по определению, F(x)= mх/n, где n - объем выборки, mх - число выборочных значений величины X, меньших х. В отличие от выборочной функции F(x) интегральную функцию F(x) генеральной совокупности называют теоретической дикцией распределения. Главное различие функций F(x) и F(x) состоит в том, что теоретическая функция распределения F(x) определяет вероятность события Х<х, а выборочная функция - относительную частоту этого события. Статистическое распределение выборки. Распред в тоер вероят – соответствие м/у возможными значениями случ. вел-ны и их вероятностями. Распред в мат статист-соответствие м/у наблюдаемыми вариантами и их частотами.Перечень вариантов и соответствующих частот или частостей назыв статистическим распред выборки. Эмпирическая функция распределения называется функция Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru определяющая для каждого значения х частость события {X<x}: Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru =p*{X<x}. Для нахожд значений эмпирической ф-ии удобно Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru записать в виде Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru = Nx/n, n-объем выборки,Nx-число наблюдений, меньших х. Эмпирическая функция распределения Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru явл оценкой вероятности события {X<x},т.е. оценкой теоретической функции распределения F(x) с.в.Х Гистограмма, полигон относительных частот.Гистограммой частот называют ступнчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длины h, а высоты равны отношению Ni/h-Плотность частоты.)площадь гистограммы частот равна объему выборки, а площадь гистограммы частостей равна единице. Полигон относит частот- ломаная, отрезки которой соединяют точки(xi p* i;) Статистические оценки параметров распределения (выборочная средняя, групповая, общая среднее, выборочная дисперсия.) Выборочным средним ¯xв называется среднее арифметическое всех значений выборки: ¯xв= 1/n∑хini ; Групповая средняя – ср. арифметическое значение признака,

i=1

принадлежащее группе. Общая средняя – ср. арифметическое знач. признака, принадлежащее всей сов-ти. Выборочная дисперсия – ср. арифметическое квадратов отклонения наблюдаемых значений признака от их ср. значения. Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru .Если данные наблюдений представлены в виде дискретного вариационного ряда, причем x1, x2, x3, ..., xn - наблюдаемые варианты, a m1, m2, m3, ..., mv - соответствующие им частоты, то выборочная дисперсия определяется формулой: Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru


Формула для вычисления дисперсии. Dв=х¯2-[х¯]2 (ср.арифметический квадрат значений выборки-квадрат общей средней) Док-во:

17. Основные распределения в математической статистике Распределение хи-квадратПусть Uk, k = 1,n, - набор из n независимых нормально распределенных СВ, Uk ~ N(0,1). Тогда СВ

X Δ = n k=1 Uk2

имеет распределение хи-квадрат (χ2-распределение) с n степенями свободы, что обозначается X ~ X2(n). СВ X имеет следующую плотность распределения:

fX(x)= { 2(n/2)Γ(n/2) 0 x(n/2)-1e-x/2 , , x ≥ 0, x < 0,

где

Γ(m) Δ = +∞ 0 ym-1e-y dy - гамма-функция.

Графики функции fX(x) (см. рис. 1), называемые кривыми Пирсона, асимметричны и, начиная с n ≥ 2, имеют один максимум в точке x = n - 2.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru Характеристическая функция СВ X имеет вид:

gX(t) = +∞-∞ fX(x)eitx dx = (1 - 2ti)-n/2.

Начальные моменты СВ X находятся по свойству 3)gX(t):

ν1 = i d dt g(t) | t =0 = - n 2i (-2i)(1 - 2ti)-(n/2)-1 | t =0 = n,
ν2 = 1 i2 d2 dt2 g(t) | t =0 = n i (-2i)(- n - 1)(1 - 2ti)-(n/2)-2 | t =0 = n2+2n,
D[X] = ν2 - ν12 = n2 + 2n - n2 = 2n.

Сумма любого числа m независимых СВ Xk, k = 1,m , имеющих распределение хи-квадрат с nk степенями свободы также имеет распределение хи-квадрат с

n Δ = n k=1 nk

степенями свободы. Это можно доказать, используя свойства характеристической функции.

Распределение СтьюдентаПусть U и X - независимые СВ, U ~ N(0,1), X ~ X2(n). Тогда СВ

  T Δ = U√n / X

имеет распределение Стьюдента с n степенями свободы, что обозначают как T ~ S(n). СВ T имеет плотность распределения

fT(x) = Γ((n+1)/2) √nπ Γ(n/2) (1+ x2 n )-(n+1)/2 .

1 Графики функции fT(x) (рис.2), называемые кривыми Стьюдента, симметричны при всех n = 1,2,... относительно оси ординат.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru
Рисунок 2.

2Можно показать, что при n → ∞ плотность вероятности распределения СВ T ~ S(n) сходится к плотности вероятности стандартного нормального распределения N(0,1), т.е.

fT(x) → √2π exp(-x2 / 2) , n → ∞ .

Действительно, пусть n = 2m. Тогда

(1+ x2 n )-(n+1)/2 = (1 + x2 2m )-m-(1/2) .

Если n → ∞ и m→ ∞, то согласно известному замечательному пределу получим

(1+ x2 2m )-1/2 (1+ x2 2m )-m → exp{-x2/2}.

Таким образом,

fT(x) → k exp{-x2/2} при n → ∞.

Так как fT(x) удовлетворяет условию нормировки, то и предельная функция должна удовлетворять условию нормировки, т.е. являться плотностью. Поэтому из условия нормировки плотности получаем

Γ((n+1)/2) √nπ Γ(n/2) → k = √2π при n → ∞.

При n > 30 распределение Стьюдента практически не отличается от N(0,1). Однако при n ≤ 30 отличия существенны.

Замечание 3. При n = 1 распределение Стьюдента S(1) совпадает с распределением Коши, плотность которого равна

f(x) = π 1+x2 ,

т.к. при n = 1 имеем Γ(1/2) = 1 / √π, Γ(1) = 1. Особенность распределения Коши состоит в том, что у него нет ни одного начального момента νr, r ≥ 1, так как расходятся несобственные интегралы

νr Δ = 1 π -∞ xr x2+1 dx.

Любопытно, если попробовать вычислить МО M[T] СВ T, имеющей распределение Коши, как предел значений определенного интеграла на отрезке [-a,a], то можно получить неверный ответ:

l i m n→∞ π a-a x x2+1 dx = 0 .

Распределение ФишераПусть независимые СВ Xn и Xm имеют распределения хи-квадрат с n и m степенями свободы соответственно. Тогда СВ

X Δ = Xn / Xm

имеет распределение Фишера с n и m степенями свободы, что записывают как X ~ F(n,m). 1 СВ X имеет плотность fX(x) = 0 при x < 0 и

fX(x) = Γ((n+m)/2) Γ(n/2)Γ(m/2) nn/2mm/2 x(n/2)-1 (m+nx)(n+m)/2 , x ≥ 0.

Графики функции fX(x) (см. рис.3), называемые кривыми Фишера , асимметричны и достигают максимальных значений в окрестности точки

x = (n-2)m (m+2)n ,

близкой к единице.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru

2Распределение Фишера используют, например, при сравнении выборочных дисперсий для нормальных СВ. В частности, распределение F(n,m) имеет следующая СВ:

X Δ = [ 1 n n+1 k=1 (Xk - ^ MX )2] / [ 1 m m+1 k=1 (Yk - ^ MY )2] ,

где СВ X1, ... , Xn+1 , Y1, ... , Ym+1 - независимы и имеют нормальное распределение: Xi ~ N(mX,σ), Yi ~ N(mY,σ).

18 Статистические оценки Точечные

Пусть выборка

Zn Δ = col(X1, ... , Xn)

соответствует функции распределения

F(x,θ) Δ = P{X ≤ x},

зависящей от неизвестного параметра θ. Точечной (выборочной) оценкой неизвестного параметра θ называется функция

^ θ(Zn)

случайной выборки Zn, реализация

^ θ(zn)

которой принимается за приближенное значение θ.

2Оценка

^ θ(Zn)

параметра θ называется несмещенной, если ее МО при любом n равно θ, т.е.

M[ ^ θ(Zn)] = θ.

3Оценка

^ θ(Zn)

называется состоятельной, если она сходится по вероятности к θ, т.е.

^ θ(Zn) P → θ при n → ∞.

Свойствами состоятельности и несмещенности могут обладать сразу несколько оценок неизвестного параметра θ.

Несмещенная оценка

^ θ *(Zn)

параметра θ называется эффективной, если

D[ ^ θ *(Zn)] ≤ D[ ^ θ (Zn)]

для всех несмещенных оценок

^ θ(Zn),

т.е. ее дисперсия минимальна по сравнению с дисперсиями других несмещенных оценок при одном и том же объеме n выборки Zn.

θ1 Δ = mX , θ2 Δ = σX .

Замечание 2. Пусть СВ X имеет нормальное распределение N(mXX) с неизвестными параметрами

В этом случае выборочное среднее является эффективной оценкой МО.

zn Δ = col(x1, x2, ... , xn):

2. Метод максимального правдоподобияНа практике часто удается предсказать вид плотности распределения fX(x,θ1, ... , θs) непрерывной СВ X с точностью до неизвестных параметров θ1, ... , θs (например θ1 = mX, θ2 = dX при s = 2), которые требуется оценить по выборке Zn.Рассмотрим выборку Zn, соответствующую плотности fX(x,θ1, ... , θs) СВ X. Функцией правдоподобия называется плотность распределения n-мерной СВ Zn с реализацией

L(zn1, ... , θs) Δ = fZ n (zn1, ... , θs) Л13.Р1.О1 = n k=1 fX(xk1, ... , θs).

Оценкой максимального правдоподобия (ММП-оценкой), найденной по методу максимального правдоподобия, называется оценка

^ θ(Zn),

максимизирующая для каждой реализации zn функцию правдоподобия:

^ θ(Zn) = arg max θ L(zn,θ), θ Δ = col(θ1, ... , θs) .

Аналогично определяется ММП-оценка θ при неоднородной выборке

Zn Δ = col(X1, ... , Xn),

когда СВ Xk, к = 1,n , по-прежнему независимы, но имеют различные плотности распределения fXk(xk1, ... , θs), зависящие от одного и того же набора неизвестных параметров θ1, ... , θs .

3. Метод наименьших квадратовРассмотрим линейную регрессионную модель из предыдущего раздела, не предполагая, что ошибки Wk имеют нормальное распределение, и, кроме того, считая, что коэффициенты Xk случайны:

Yk Δ = aXk + b + Wk ,

k = 1,n . Пусть M[Wk] = 0, D[Wk] = σ2 и неизвестна, СВ Wk, k = 1,n, независимы. Предположим, что СВ Xk и Wk, k = 1,n, независимы, причем Xk имеют одно и то же, но неизвестное распределение FX(x). По результатам наблюдений (y1,x1),...,(yn,xn) требуется оценить неизвестные параметры a и b в линейной регрессионной модели. Для неоднородной выборки

zn Δ = col(y1, ... , yn, x1, ... , xn)

рассмотрим квадратическую функцию:

Q(zn,a,b) = n n k=1 (yk - axk - b)2 ,

характеризующую среднюю по n квадратическую ошибку предсказания того, что в n наблюдениях СВ Y примет значения yk, k = 1,n .

МНК-оценками, полученными по методу наименьших квадратов неизвестных параметров a и b в линейной регрессионной модели

Yk Δ = aXk + b + Wk ,

k = 1,n, называются оценки

^ a(Zn) и ^ b(Zn) ,

значения которых минимизируют квадратическую функцию Q(zn,a,b), построенную по апостериорной выборке zn.

случае видно, что функция Q(zn,a,b) совпадает по форме с точностью до коэффициентов с логарифмической функцией правдоподобия из примера Л15.Р2.П1:

Q(zn,a,b) = -2σ2 ~ L(zn,a,b) -2σ2n ln(σ√2π).

Поэтому минимум функции Q(zn,a,b) по параметрам a и b достигается при тех же значениях

^ a и ^ b ,

что и в методе максимального правдоподобия (минимизация функции Q(zn,a,b) по a и b эквивалентна максимизации функции

~ L(zn,a,b))
^ MX

Найденные по методу наименьших квадратов оценки

^ a(zn) и ^ b(zn)

неизвестных параметров a и b имеют место для произвольных случайных ошибок Wk и случайных коэффициентов Xk, тогда как по методу максимального правдоподобия эти же оценки получены в предположении о нормальности Wk и для детерминированных значений xk, k =1,n. Иными словами, МНК-оценки оказываются более робастными (т.е. менее чувствительными к априорной информации о случайных коэффициентах Xk и ошибках Wk) по сравнению с ММП-оценками.

19 Статистическая проверка гипотезСтатистическими гипотезами называются любые предположения относительно закона распределения СВ X, проверяемые по выборке Zn.По выборке Zn требуется проверить гипотезу H0 о том, что mX= m, где m - некоторое фиксированное число.Статистикой называется произвольная функция Z = φ(Zn) выборки Zn, для значений которой известны условные плотности распределения f(z|H0) и f(z|H1) относительно проверяемой гипотезы H0 и конкурирующей с ней альтернативной гипотезы H1.Из опред следует, что Z есть СВ. Практическое применение математической статистики состоит в проверке соответствия результатов экспериментов предполагаемой гипотезе. С этой целью строится процедура (правило) проверки гипотезы.Критерием согласия называется правило, в соответствии с которым по реализации

z Δ = φ(zn)

статистики Z, вычисленной на основании апостериорной выборки zn, гипотеза H0 принимается или отвергается. Критической областью G называется область реализаций z статистики Z, при которых гипотеза H0 отвергается.Доверительной областью G называется область значений z статистики Z, при которых гипотеза H0 принимается.Уровнем значимости p критерия согласия называется вероятность события, стоящего в том, что гипотеза H0 отвергается, когда она верна, т.е.

p Δ = P{Z G|H0} ,

где вероятность P соответствует условной плотности распределения f(z|H0). Мощностью γ критерия согласия называется вероятность события, состоящего в том, что гипотеза H0 отвергается, когда она неверна, т.е.

γ Δ = P{Z G|H1} ,

где вероятность P соответствует условной плотности f(z|H1). Критической точкой zβ называется точка на оси Oz, являющаяся квантилью уровня

β Δ = 1 - p

распределения F(z|H0), соответствующего плотности распределения f(z|H0). На рис.1 показана графическая интерпретация введенных понятий, где β + p = 1, δ + γ = 1.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru
В качестве критерия согласия примем правило:
1) если значение

z Δ = φ(zn)

статистики Z = φ(Zn) лежит в критической области G, то гипотеза H0 отвергается и принимается альтернативная гипотеза H1; 2) если реализация

z Δ = φ(zn)

статистики Z = φ(Zn) лежит в доверительной области G, то гипотеза H0 принимается.
При реализации данного правила могут возникнуть ошибки двух видов. Ошибкой 1-го рода называется событие, состоящее в том, что гипотеза H0 отвергается, когда она верна. Вероятность этой ошибки равна

p Δ = P{Z G|H0} .

Ошибкой 2-го рода называется событие, состоящее в том, что гипотеза H0 принимается, когда она неверна. Вероятность этой ошибки равна

δ Δ = P{Z G|H1} = 1 - γ .

Из рисунка видно, что с уменьшением вероятности p ошибки 1-го рода возрастает вероятность ошибки 2-го рода и наоборот, т.е. при выборе критической и доверительной областей должен достигаться определенный компромисс.

Проверка гипотезы о значении параметров нормальногораспределенияЗамечание 1. Пусть известно, что СВ X имеет нормальное распределение. Требуется проверить гипотезу H0, состоящую в том, что mX = m (m - некоторое фиксированное число), используя апостериорную выборку zn. Возможны два случая: дисперсия (σX)2 известна или неизвестна.

Предполо- жение Статистика Z критерия согласия Распре- деление Доверительная область G принятия гипотезы Н0
σX известно ^ (MX - m)√n σX N(0,1) [-uα , uα]
σX неизвестно ^ (MX - m)√n-1 ^ √DX S(n-1) [-tα(n - 1) , tα(n - 1)]

Для каждого случая в соответствии с примерами Л15.Р4.П1 и Л15.Р4.П2 получаем свой критерий согласия. (ниже uα, tα(n - 1) - квантили уровня

α Δ = 1 - p / 2

распределений N(0,1) и S(n-1) соответственно). Пусть СВ X нормально распределена, но ее дисперсия неизвестна. Требуется проверить гипотезу H0, что σX = σ (σ - некоторое фиксированное число), на основе апостериорной выборки zn. Возможны два случая: mX - известно или mX - неизвестно (ниже χα(k), χ1-α(k) - квантили уровня α и 1-α распределения Χ2(k) с k степенями свободы,

α Δ = 1 - p / 2 для k = n,n-1) :
Предпо- ложение Статистика Z критерия согласия Распре- деление Доверительная область G принятия гипотезы Н0
mX известно n ∑(Xk - mX)2 k=1 σ2 Χ2(n) [-χ1-α(n) , χα(n)]
mX неизвестно ^ nDX σ2 Χ2(n-1) [-χ1-α(n-1) , χα(n-1)]

На практике обычно задают p [0.01 , 0.05].

Проверка гипотезы о законе распределения случайной величины Замечание 1. Пусть имеется апостериорная выборка zn и требуется проверить гипотезу H0, состоящую в том, что непрерывная СВ X имеет определенный закон распределения f(x) (например, нормальный, равномерный и т.д.). Истинный закон распределения f(x) неизвестен. Для проверки такой гипотезы обычно используют критерий согласия хи-квадрат (критерий Пирсона). Правило проверки состоит в следующем:
1. Формулируется гипотеза H0, состоящая в том, что СВ X имеет плотность распределения определенного вида f(x,θ1, ... , θs) с s неизвестными параметрами θ1, ... , θs(например, m и σ для нормального распределения, a и b - для равномерного и т.д.)
2. По апостериорной выборке zn методом максимального правдоподобия (или методом наименьших квадратов) находятся оценки

^ θ1, ... , ^ θs

неизвестных параметров θ1, ... , θs
3. Действительная ось R1 разбивается на j + 1 непересекающихся полуинтервалов Δ0, ... , Δj так, как это сделано в Л13.Р2.31 при построении гистограммы. Подсчитывается число nk элементов выборки, попавших в каждый полуинтервал Δk , k = 1, j-1, кроме Δ0 и Δj.
4. Вычисляются вероятности pk попадания СВ X в полуинтервалы Δk , k = 0, j , по формуле

pk = αk+1 ∫ αk f(x, ^ θ1, .... , ^ θs) dx ,

где α0 = -∞, αj+1 = +∞. Для разрядов Δk , k = 1,j-1 значения pk можно вычислить приближенно по формуле

pk f(xk, ^ θ1, .... , ^ θs)(αk+1k),

где

xk Δ = k+1 + αk) / 2

- середина разряда Δk.
5. Вычисляется реализация статистики критерия хи-квадрат по формуле

z Δ = φ(zn) Δ = np0 + j-1 k=1 (nk-npk)2 / (npk) + (npj) .


6. В соответствии с критерием согласия хи-квадрат гипотеза H0 принимается (т.е. она согласуется с выборкой zn), если φ(zn) ≤ χ1-p(j-s), где χ1-p(j-s) - квантиль уровня 1-p распределения хи-квадрат с (j-s) степенью свободы, p - заданный уровень значимости (обычно p = 0.05), s - количество неизвестных параметров предполагаемого закона распределения f(x,θ1, ... , θs). Если же φ(zn) > χ1-p(j-s), то гипотеза H0 отвергается. При разбиении на полуинтервалы Δk, необходимо учитывать, чтобы npk ≥ 5 для k = 1, j-1 . В противном случае (npk < 5) соседние полуинтервалы объединяются.

Наши рекомендации