Основные харки(функция,плотности распределения,понятие незанятости)

Основные числовые характеристики(мат ожид, дисперсия,корреляц матрица,коэф корреляц,нормированная корреляционная марица)

Математическим ожиданием (МО) случайного вектора X называется вектор

M[X]

Δ =

m_X

Δ =

col(m₁, ... , m_n), где

m_i

Δ =

M[X_i] , i = 1,n.

Матрицу K размерности n x n с элементами

k_ij

Δ =

M[(X_i - m_i)(X_j - m_j)]

называют ковариационной. Элементы k_ij ковариационной матрицы являются ковариациями СВ X_i и X_j при i ≠ j, а диагональные элементы k_ij - дисперсии СВ X_i, т.е.

k_ij

Δ =

d_i

Δ =

(σ_i)² = M[(X_i - m_i)²] , i = 1,n.

Дисперсии d_i, i = 1,n, характеризуют рассеивание реализаций компонент случайного вектора относительно средней точки m_X = col(m₁,..., m_n), а ковариации k_ij - степень линейной зависимости между СВ X_i и X_j. В частности, по свойству 2)k_XY при линейной связи между X_i и X_j ковариация между ними равна k_ij = ±σ_iσ_j. Так как по свойству 1)k_XY всегда |k_XY| ≤ σ_iσ_j, то при линейной зависимости между X_i и X_j модуль |k_ij| максимален.

Нормированную ковариационную матрицу R, элементами которой являются коэффициенты корреляции r_ij, называют корреляционной матрицей

безразмерную величину , определяемую соотношением.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru

(73)

и называемую коэффициентом корреляции.

16. основные задачи математической статистики.Занимается методами обработки опытных данных, полученных в рез-те наблюдения над случайными явлениями. Задачи мат стата:1)указать способы сбора и группировки стат. сведений, полученных в рез-те наблюдения за случ. процессами. 2)Разработка методов анализа стат. Данных в зависимости от цели исследования. Генеральная и выборочная совокупность. Ген совокупность-множество объектов, из которых производится выборка.Выборочная совокупность-сов-ть случайно отобранных объектов из генеральной совокупности. Повторная и бесповторная выборка.Повторная – при которой отобранный объект возвращается в ген совокупность. Бесповторная – при которой отобранный объект не возвращается в ген совокупность.Репрезентативность выборки.Выборка является репрезентативной, когда достаточно полно представлены изучаемые признаки генеральной совокупности.Условием обеспечения репрезентативности выборкия явл, соблюдение случайности отбора, т.е. все обекты ген выборки имеют равную возм попать в выборку. Теоретическая ФР. по определению, F(x)= mх/n, где n - объем выборки, mх - число выборочных значений величины X, меньших х. В отличие от выборочной функции F(x) интегральную функцию F(x) генеральной совокупности называют теоретической дикцией распределения. Главное различие функций F(x) и F(x) состоит в том, что теоретическая функция распределения F(x) определяет вероятность события Х<х, а выборочная функция - относительную частоту этого события. Статистическое распределение выборки. Распред в тоер вероят – соответствие м/у возможными значениями случ. вел-ны и их вероятностями. Распред в мат статист-соответствие м/у наблюдаемыми вариантами и их частотами.Перечень вариантов и соответствующих частот или частостей назыв статистическим распред выборки. Эмпирическая функция распределения называется функция Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru определяющая для каждого значения х частость события {X<x}: =p*{X<x}. Для нахожд значений эмпирической ф-ии удобно Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru записать в виде = Nx/n, n-объем выборки,Nx-число наблюдений, меньших х. Эмпирическая функция распределения Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru явл оценкой вероятности события {X<x},т.е. оценкой теоретической функции распределения F(x) с.в.Х Гистограмма, полигон относительных частот.Гистограммой частот называют ступнчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длины h, а высоты равны отношению Ni/h-Плотность частоты.)площадь гистограммы частот равна объему выборки, а площадь гистограммы частостей равна единице. Полигон относит частот- ломаная, отрезки которой соединяют точки(x_i p* _i_;) Статистические оценки параметров распределения (выборочная средняя, групповая, общая среднее, выборочная дисперсия.) Выборочным средним ¯x_в называется среднее арифметическое всех значений выборки: ¯x_в=1/n∑х_in_i_;Групповая средняя – ср. арифметическое значение признака,

_i₌₁

принадлежащее группе. Общая средняя – ср. арифметическое знач. признака, принадлежащее всей сов-ти. Выборочная дисперсия – ср. арифметическое квадратов отклонения наблюдаемых значений признака от их ср. значения. Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru .Если данные наблюдений представлены в виде дискретного вариационного ряда, причем x₁, x₂, x₃, ..., x_n - наблюдаемые варианты, a m₁, m₂, m₃, ..., m_v - соответствующие им частоты, то выборочная дисперсия определяется формулой: Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru

Формула для вычисления дисперсии. D_в=х¯²-[х¯]²(ср.арифметический квадрат значений выборки-квадрат общей средней) Док-во:

17. Основные распределения в математической статистике Распределение хи-квадратПусть U_k, k = 1,n, - набор из n независимых нормально распределенных СВ, U_k ~ N(0,1). Тогда СВ

Δ =

_n ∑ ^k=1

U_k²

имеет распределение хи-квадрат (χ²-распределение) с n степенями свободы, что обозначается X ~ X²(n). СВ X имеет следующую плотность распределения:

f_X(x)=

{

2^(n/2)Γ(n/2) 0

x^(n/2)-1e^-x^/2

x ≥ 0, x < 0,

где

Γ(m)

Δ =

_+∞ ∫ ⁰

y^m^-1e^-ydy - гамма-функция.

Графики функции f_X(x) (см. рис. 1), называемые кривыми Пирсона, асимметричны и, начиная с n ≥ 2, имеют один максимум в точке x = n - 2.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru Характеристическая функция СВ X имеет вид:

g_X(t) =

_+∞ ∫ ^-∞

f_X(x)e^itxdx = (1 - 2ti)^-n/2.

Начальные моменты СВ X находятся по свойству 3)g_X(t):

ν₁ =

d dt

g(t)

t =0

= -

n 2i

(-2i)(1 - 2ti)^-(n/2)-1

t =0

= n,

ν₂ =

1 i²

d² dt²

g(t)

t =0

n i

(-2i)(-

- 1)(1 - 2ti)^-(n/2)-2

t =0

= n²+2n,

D[X] = ν₂ - ν₁² = n² + 2n - n² = 2n.

Сумма любого числа m независимых СВ X_k, k = 1,m , имеющих распределение хи-квадрат с n_k степенями свободы также имеет распределение хи-квадрат с

Δ =

_n ∑ ^k=1

n_k

степенями свободы. Это можно доказать, используя свойства характеристической функции.

Распределение СтьюдентаПусть U и X - независимые СВ, U ~ N(0,1), X ~ X²(n). Тогда СВ

Δ =

U√n / X

имеет распределение Стьюдента с n степенями свободы, что обозначают как T ~ S(n). СВ T имеет плотность распределения

f_T(x) =

Γ((n+1)/2) √nπ Γ(n/2)

(1+

x² n

)^-(n+1)/2 .

1 Графики функции f_T(x) (рис.2), называемые кривыми Стьюдента, симметричны при всех n = 1,2,... относительно оси ординат.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru
Рисунок 2.

2Можно показать, что при n → ∞ плотность вероятности распределения СВ T ~ S(n) сходится к плотности вероятности стандартного нормального распределения N(0,1), т.е.

f_T(x) →

√2π

exp(-x² / 2) , n → ∞ .

Действительно, пусть n = 2m. Тогда

(1+

x² n

)^-(n+1)/2 = (1 +

x² 2m

)^-m-(1/2) .

Если n → ∞ и m→ ∞, то согласно известному замечательному пределу получим

(1+

x² 2m

)^-1/2 (1+

x² 2m

)^-m → exp{-x²/2}.

Таким образом,

f_T(x) → k exp{-x²/2} при n → ∞.

Так как f_T(x) удовлетворяет условию нормировки, то и предельная функция должна удовлетворять условию нормировки, т.е. являться плотностью. Поэтому из условия нормировки плотности получаем

Γ((n+1)/2) √nπ Γ(n/2)

→ k =

√2π

при n → ∞.

При n > 30 распределение Стьюдента практически не отличается от N(0,1). Однако при n ≤ 30 отличия существенны.

Замечание 3. При n = 1 распределение Стьюдента S(1) совпадает с распределением Коши, плотность которого равна

f(x) =

1+x²

т.к. при n = 1 имеем Γ(1/2) = 1 / √π, Γ(1) = 1. Особенность распределения Коши состоит в том, что у него нет ни одного начального момента ν_r, r ≥ 1, так как расходятся несобственные интегралы

ν_r

Δ =

1 π

_∞ ∫ ^-∞

x^r x²+1

dx.

Любопытно, если попробовать вычислить МО M[T] СВ T, имеющей распределение Коши, как предел значений определенного интеграла на отрезке [-a,a], то можно получить неверный ответ:

l i m ⁿ^→∞

_a ∫ ^-a

x x²+1

dx = 0 .

Распределение ФишераПусть независимые СВ X_n и X_m имеют распределения хи-квадрат с n и m степенями свободы соответственно. Тогда СВ

Δ =

X_n / X_m

имеет распределение Фишера с n и m степенями свободы, что записывают как X ~ F(n,m). 1 СВ X имеет плотность f_X(x) = 0 при x < 0 и

f_X(x) =

Γ((n+m)/2) Γ(n/2)Γ(m/2)

nⁿ^/2m^m^/2

x^(n/2)-1 (m+nx)^(n+m)/2

, x ≥ 0.

Графики функции f_X(x) (см. рис.3), называемые кривыми Фишера , асимметричны и достигают максимальных значений в окрестности точки

x =

(n-2)m (m+2)n

близкой к единице.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru

2Распределение Фишера используют, например, при сравнении выборочных дисперсий для нормальных СВ. В частности, распределение F(n,m) имеет следующая СВ:

Δ =

[

1 n

_n+1 ∑ ^k=1

(X_k -

_^M_X

)²] / [

1 m

_m+1 ∑ ^k⁼¹

(Y_k -

_^M_Y

)²] ,

где СВ X₁, ... , X_n₊₁ , Y₁, ... , Y_m₊₁ - независимы и имеют нормальное распределение: X_i ~ N(m_X,σ), Y_i ~ N(m_Y,σ).

18 Статистические оценки Точечные

Пусть выборка

Z_n

Δ =

col(X₁, ... , X_n)

соответствует функции распределения

F(x,θ)

Δ =

P{X ≤ x},

зависящей от неизвестного параметра θ. Точечной (выборочной) оценкой неизвестного параметра θ называется функция

_^θ(Z_n)

случайной выборки Z_n, реализация

_^θ(z_n)

которой принимается за приближенное значение θ.

2Оценка

_^θ(Z_n)

параметра θ называется несмещенной, если ее МО при любом n равно θ, т.е.

M[	_^θ(Z_n)] = θ.

3Оценка

_^θ(Z_n)

называется состоятельной, если она сходится по вероятности к θ, т.е.

_^θ(Z_n)

P →

θ при n → ∞.

Свойствами состоятельности и несмещенности могут обладать сразу несколько оценок неизвестного параметра θ.

Несмещенная оценка

_^θ

^*(Z_n)

параметра θ называется эффективной, если

_^θ

^*(Z_n)] ≤ D[

_^θ

(Z_n)]

для всех несмещенных оценок

_^θ(Z_n),

т.е. ее дисперсия минимальна по сравнению с дисперсиями других несмещенных оценок при одном и том же объеме n выборки Z_n.

θ₁

Δ =

m_X , θ₂

Δ =

σ_X .

Замечание 2. Пусть СВ X имеет нормальное распределение N(m_X,σ_X) с неизвестными параметрами

В этом случае выборочное среднее является эффективной оценкой МО.

z_n

Δ =

col(x₁, x₂, ... , x_n):

2. Метод максимального правдоподобияНа практике часто удается предсказать вид плотности распределения f_X(x,θ₁, ... , θ_s) непрерывной СВ X с точностью до неизвестных параметров θ₁, ... , θ_s (например θ₁ = m_X, θ₂ = d_X при s = 2), которые требуется оценить по выборке Z_n.Рассмотрим выборку Z_n, соответствующую плотности f_X(x,θ₁, ... , θ_s) СВ X. Функцией правдоподобия называется плотность распределения n-мерной СВ Z_n с реализацией

L(z_n,θ₁, ... , θ_s)

Δ =

f_Z

(z_n,θ₁, ... , θ_s)

Л13.Р1.О1 =

_n ∏ ^k=1

f_X(x_k,θ₁, ... , θ_s).

Оценкой максимального правдоподобия (ММП-оценкой), найденной по методу максимального правдоподобия, называется оценка

_^θ(Z_n),

максимизирующая для каждой реализации z_n функцию правдоподобия:

_^θ(Z_n) = arg

max ^θ

L(z_n,θ), θ

Δ =

col(θ₁, ... , θ_s) .

Аналогично определяется ММП-оценка θ при неоднородной выборке

Z_n

Δ =

col(X₁, ... , X_n),

когда СВ X_k, к = 1,n , по-прежнему независимы, но имеют различные плотности распределения f_Xk(x_k,θ₁, ... , θ_s), зависящие от одного и того же набора неизвестных параметров θ₁, ... , θ_s .

3. Метод наименьших квадратовРассмотрим линейную регрессионную модель из предыдущего раздела, не предполагая, что ошибки W_k имеют нормальное распределение, и, кроме того, считая, что коэффициенты X_k случайны:

Y_k

Δ =

aX_k + b + W_k ,

k = 1,n . Пусть M[W_k] = 0, D[W_k] = σ² и неизвестна, СВ W_k, k = 1,n, независимы. Предположим, что СВ X_k и W_k, k = 1,n, независимы, причем X_k имеют одно и то же, но неизвестное распределение F_X(x). По результатам наблюдений (y₁,x₁),...,(y_n,x_n) требуется оценить неизвестные параметры a и b в линейной регрессионной модели. Для неоднородной выборки

z_n

Δ =

col(y₁, ... , y_n, x₁, ... , x_n)

рассмотрим квадратическую функцию:

Q(z_n,a,b) =

_n ∑ ^k=1

(y_k - ax_k - b)² ,

характеризующую среднюю по n квадратическую ошибку предсказания того, что в n наблюдениях СВ Y примет значения y_k, k = 1,n .

МНК-оценками, полученными по методу наименьших квадратов неизвестных параметров a и b в линейной регрессионной модели

Y_k

Δ =

aX_k + b + W_k ,

k = 1,n, называются оценки

_^a(Z_n) и

_^b(Z_n) ,

значения которых минимизируют квадратическую функцию Q(z_n,a,b), построенную по апостериорной выборке z_n.

случае видно, что функция Q(z_n,a,b) совпадает по форме с точностью до коэффициентов с логарифмической функцией правдоподобия из примера Л15.Р2.П1:

Q(z_n,a,b) = -2σ²

_~L(z_n,a,b) -2σ²n ln(σ√2π).

Поэтому минимум функции Q(z_n,a,b) по параметрам a и b достигается при тех же значениях

_^a и

_^b ,

что и в методе максимального правдоподобия (минимизация функции Q(z_n,a,b) по a и b эквивалентна максимизации функции

_~L(z_n,a,b))

_^M_X

Найденные по методу наименьших квадратов оценки

_^a(z_n) и

_^b(z_n)

неизвестных параметров a и b имеют место для произвольных случайных ошибок W_k и случайных коэффициентов X_k, тогда как по методу максимального правдоподобия эти же оценки получены в предположении о нормальности W_k и для детерминированных значений x_k, k =1,n. Иными словами, МНК-оценки оказываются более робастными (т.е. менее чувствительными к априорной информации о случайных коэффициентах X_k и ошибках W_k) по сравнению с ММП-оценками.

19 Статистическая проверка гипотезСтатистическими гипотезами называются любые предположения относительно закона распределения СВ X, проверяемые по выборке Z_n.По выборке Z_n требуется проверить гипотезу H₀ о том, что m_X= m, где m - некоторое фиксированное число.Статистикой называется произвольная функция Z = φ(Z_n) выборки Z_n, для значений которой известны условные плотности распределения f(z|H₀) и f(z|H₁) относительно проверяемой гипотезы H₀ и конкурирующей с ней альтернативной гипотезы H₁.Из опред следует, что Z есть СВ. Практическое применение математической статистики состоит в проверке соответствия результатов экспериментов предполагаемой гипотезе. С этой целью строится процедура (правило) проверки гипотезы.Критерием согласия называется правило, в соответствии с которым по реализации

Δ =

φ(z_n)

статистики Z, вычисленной на основании апостериорной выборки z_n, гипотеза H₀ принимается или отвергается. Критической областью G называется область реализаций z статистики Z, при которых гипотеза H₀ отвергается.Доверительной областью G называется область значений z статистики Z, при которых гипотеза H₀ принимается.Уровнем значимости p критерия согласия называется вероятность события, стоящего в том, что гипотеза H₀ отвергается, когда она верна, т.е.

Δ =

P{Z G|H₀} ,

где вероятность P соответствует условной плотности распределения f(z|H₀). Мощностью γ критерия согласия называется вероятность события, состоящего в том, что гипотеза H₀ отвергается, когда она неверна, т.е.

Δ =

P{Z G|H₁} ,

где вероятность P соответствует условной плотности f(z|H₁). Критической точкой z_β называется точка на оси Oz, являющаяся квантилью уровня

Δ =

1 - p

распределения F(z|H₀), соответствующего плотности распределения f(z|H₀). На рис.1 показана графическая интерпретация введенных понятий, где β + p = 1, δ + γ = 1.

Основные харки(функция,плотности распределения,понятие незанятости) - student2.ru
В качестве критерия согласия примем правило:
1) если значение

Δ =

φ(z_n)

статистики Z = φ(Z_n) лежит в критической области G, то гипотеза H₀ отвергается и принимается альтернативная гипотеза H₁; 2) если реализация

Δ =

φ(z_n)

статистики Z = φ(Z_n) лежит в доверительной области G, то гипотеза H₀ принимается.
При реализации данного правила могут возникнуть ошибки двух видов. Ошибкой 1-го рода называется событие, состоящее в том, что гипотеза H₀ отвергается, когда она верна. Вероятность этой ошибки равна

Δ =

P{Z G|H₀} .

Ошибкой 2-го рода называется событие, состоящее в том, что гипотеза H₀ принимается, когда она неверна. Вероятность этой ошибки равна

Δ =

P{Z G|H₁} = 1 - γ .

Из рисунка видно, что с уменьшением вероятности p ошибки 1-го рода возрастает вероятность ошибки 2-го рода и наоборот, т.е. при выборе критической и доверительной областей должен достигаться определенный компромисс.

Проверка гипотезы о значении параметров нормальногораспределенияЗамечание 1. Пусть известно, что СВ X имеет нормальное распределение. Требуется проверить гипотезу H₀, состоящую в том, что m_X = m (m - некоторое фиксированное число), используя апостериорную выборку z_n. Возможны два случая: дисперсия (σ_X)² известна или неизвестна.

Предполо- жение	Статистика Z критерия согласия	Распре- деление	Доверительная область G принятия гипотезы Н₀
σ_X известно	_^(M_X - m)√n σ_X	N(0,1)	[-u_α , u_α]
σ_X неизвестно	_^(M_X - m)√n-1 _^ √D_X	S(n-1)	[-t_α(n - 1) , t_α(n - 1)]

Для каждого случая в соответствии с примерами Л15.Р4.П1 и Л15.Р4.П2 получаем свой критерий согласия. (ниже u_α, t_α(n - 1) - квантили уровня

Δ =

1 - p / 2

распределений N(0,1) и S(n-1) соответственно). Пусть СВ X нормально распределена, но ее дисперсия неизвестна. Требуется проверить гипотезу H₀, что σ_X = σ (σ - некоторое фиксированное число), на основе апостериорной выборки z_n. Возможны два случая: m_X - известно или m_X - неизвестно (ниже χ_α(k), χ_1-α(k) - квантили уровня α и 1-α распределения Χ²(k) с k степенями свободы,

Δ =

1 - p / 2 для k = n,n-1) :

Предпо- ложение	Статистика Z критерия согласия	Распре- деление	Доверительная область G принятия гипотезы Н₀
m_X известно	_n ∑(X_k - m_X)² ^k=1 σ²	Χ²(n)	[-χ_1-α(n) , χ_α(n)]
m_X неизвестно	_^ nD_X σ²	Χ²(n-1)	[-χ_1-α(n-1) , χ_α(n-1)]

На практике обычно задают p [0.01 , 0.05].

Проверка гипотезы о законе распределения случайной величины Замечание 1. Пусть имеется апостериорная выборка z_n и требуется проверить гипотезу H₀, состоящую в том, что непрерывная СВ X имеет определенный закон распределения f(x) (например, нормальный, равномерный и т.д.). Истинный закон распределения f(x) неизвестен. Для проверки такой гипотезы обычно используют критерий согласия хи-квадрат (критерий Пирсона). Правило проверки состоит в следующем:
1. Формулируется гипотеза H₀, состоящая в том, что СВ X имеет плотность распределения определенного вида f(x,θ₁, ... , θ_s) с s неизвестными параметрами θ₁, ... , θ_s(например, m и σ для нормального распределения, a и b - для равномерного и т.д.)
2. По апостериорной выборке z_n методом максимального правдоподобия (или методом наименьших квадратов) находятся оценки

_^θ₁, ... ,

_^θ_s

неизвестных параметров θ₁, ... , θ_s
3. Действительная ось R¹ разбивается на j + 1 непересекающихся полуинтервалов Δ₀, ... , Δ_j так, как это сделано в Л13.Р2.31 при построении гистограммы. Подсчитывается число n_k элементов выборки, попавших в каждый полуинтервал Δ_k , k = 1, j-1, кроме Δ₀ и Δ_j.
4. Вычисляются вероятности p_k попадания СВ X в полуинтервалы Δ_k , k = 0, j , по формуле

p_k =

α_k₊₁ ∫ α_k

f(x,

_^θ₁, .... ,

_^θ_s) dx ,

где α₀ = -∞, α_j₊₁ = +∞. Для разрядов Δ_k , k = 1,j-1 значения p_k можно вычислить приближенно по формуле

p_k f(x_k,

_^θ₁, .... ,

_^θ_s)(α_k₊₁-α_k),

где

x_k

Δ =

(α_k₊₁ + α_k) / 2

- середина разряда Δ_k.
5. Вычисляется реализация статистики критерия хи-квадрат по формуле

Δ =

φ(z_n)

Δ = np₀ +

_j-1 ∑ ^k⁼¹

(n_k-np_k)² / (np_k) + (np_j) .

6. В соответствии с критерием согласия хи-квадрат гипотеза H₀ принимается (т.е. она согласуется с выборкой z_n), если φ(z_n) ≤ χ_1-p(j-s), где χ_1-p(j-s) - квантиль уровня 1-p распределения хи-квадрат с (j-s) степенью свободы, p - заданный уровень значимости (обычно p = 0.05), s - количество неизвестных параметров предполагаемого закона распределения f(x,θ₁, ... , θ_s). Если же φ(z_n) > χ_1-p(j-s), то гипотеза H₀ отвергается. При разбиении на полуинтервалы Δ_k, необходимо учитывать, чтобы np_k ≥ 5 для k = 1, j-1 . В противном случае (np_k < 5) соседние полуинтервалы объединяются.

Наши рекомендации

Случайная величина с нормальной плотностью распределения,формулы,графики плотности распределения и функциираспределения,свойства,числовые характеристики.

Функция плотности распределения

БИЛЕТ 27. Функция распределения случайной величины. Свойства функции распределения. Плотность распределения

Дифференциальная функция (функция плотности вероятности) ЗНР

Основные свойства плотности распределения вероятностей.

Понятие плотности распределения, функция плотности НСВ

Понятие дискретной случайной величины. Закон распределения. Ряд распределения. Функция распределения дискретной случайной величины.

Функции распределения и плотности распределения

Функция плотности вероятности нормального распределения

Функция распределения плотности вероятности

← Предыдущая страница | Следующая страница →