Точечные и интервальные оценки многомерных статистик

Основным методом оценивания параметров многомерных случайных величин является метод выборочного анализа. Согласно этому методу из генеральной совокупности наблюдаемого случайного вектора извлекается выборка, которая анализируется и результаты анализа распространяются на всю генеральную совокупность.

Выборку объема n из k-мерной генеральной совокупности можно представить в виде матрицы данных:

x11 x12 ... x1j ... x1k
x21 x22 ... x2j ... x2k
... ... ... ... ... ...
xi1 xi2 ... xij ... xik
... ... ... ... ... ...
xn1 xn2 ... xnj ... xnk

Точечные оценки математических ожиданий X компонент вектора X вычисляются по формулам:

xj = (xi1 + xi2 + ... + xij + ... + xik)/n,

где xj -точечная оценка математического ожидания j-той компоненты вектора X, j = 1, ..., k, i = 1, ..., n.

Оценка ковариационной матрицы COV(обозначим матрицу оценок ковариаций C) имеет вид:

c(x1,x1) c(x1,x2) ... c(x1,xj) ... c(x1,xk)
c(x2,x1) c(x2,x2) ... c(x2,xj) ... c(x2,xk)
... ... ... ... ... ...
c(xi,x1) c(xi,x1) ... c(xi,xj) ... c(xi,xk)
... ... ... ... ... ...
c(xk,x1) c(xk,x2) ... c(xk,xj) ... c(xk,xk)

где: c(xi,xj) = ∑i[(xij - xi)*(xij - xj)]/(n - 1), i = 1, ..., n, j = 1, ..., k.

Очевидно, что c(xj,xj)является оценкой дисперсии j-го компонента вектора X.

Оценка корреляционной матрицы R имеет вид:

r(x1,x2) ... r(x1,xj) ... r(x1,xk)
r(x2,x1) ... r(x2,xj) ... r(x2,xk)
... ... ... ... ... ...
r(xi,x1) r(xi,x1) ... r(xi,xj) ... r(xi,xk)
... ... ... ... ... ...
r(xk,x1) r(xk,x2) ... r(xk,xj) ...

где r(xi,xj) = c(xi,xj)/[c(xi,xi)*c(xj,xj)]1/2

Точечные оценки параметров случайных величин являются необходимыми, но недостаточными. Так, оценка параметра непрерывной случайной величины совпадает с истинным значением параметра с вероятностью равной нулю (не совпадает никогда). Поэтому, для полного описания оценки параметра необходима интервальная оценка. Для одномерной случайной величины это доверительный интервал, для многомерной (случайного вектора) - доверительная область.

Пусть имеется вектор параметров Θ. Доверительной областью вектора параметров Θ называется область, определяемая результатами наблюдений, которая с доверительной вероятностью P содержит значение вектора. Очевидно, что построение области, ее вид, зависит от распределения вектора статистик-оценок параметров Θ.Рассмотрим построение доверительной области для математического ожидания k-мерного вектора X в предположении, что распределение компонентов X подчинено нормальному закону распределения: X?Nk(μ,COV). Здесь μ = MX -математическое ожидание вектора X, COV - ковариационная матрица вектора X. Пусть найден вектор точечных оценок математического ожидания (вектор средних) X и матрица оценок ковариаций C. При k=1 для построения доверительного интервала для математического ожидания используют статистику t = (x - µ)*(n)1/2/s, которая имеет t-распределение с числом степеней свободы ν= n-1 (s - оценка дисперсии). Данное соотношение эквивалентно представлению

t2 = n*(x - µ)*(s-1)*(x - µ).

Статистика t2имеет распределение χ2 с числом степеней свободы ν=n-1.

Для k больше единицы при построении доверительной области используется статистика T2 (статистика Хотеллинга):

T2 = n*(X - µ)т*(C-1)*(X - µ)

где µ- вектор математических ожиданий k-мерного случайного вектора X;

X -вектор средних значений (точечных оценок) математических ожиданий k-мерного случайного вектора X;

C-1 -матрица обратная матрице оценок ковариаций.

При заданной доверительной вероятности P, известных значениях k и n статистика T2 связана со статистикой F:

T2 = [k*(n - 1)/(n - k)]*F

Учитывая это соотношение, доверительная область математического ожидания k-мерного случайного вектора X с доверительной вероятностью P описывается следующим уравнением поверхности:

(X - µ)т*(C-1)*(X - µ) = [k*(n - 1)/(n*(n - k))]*F1-P

где: F1-P -значение F соответствующее уровню значимости α = 1 - P при числах степеней свободы ν1 = kи ν2 = n - k.

Доверительная область определяет k-мерный эллипсоид (при k=2 эллипс) с центром X, так как (X - µ)т*(C-1)*(X - µ)представляет собой положительно определенную квадратичную форму.

Факторный анализ.

Факторный анализ (ФА), как и многие методы анализа многомерных данных, опирается на гипотезу о том, что наблюдаемые переменные являются косвенными проявления относительно небольшого числа неких скрытых (гипотетических) факторов. ФА, таким образом, это совокупность моделей и методов, ориентированных на выявление и анализ скрытых (латентных) зависимостей между наблюдаемыми переменными. В контексте задач распознавания, наблюдаемыми переменными обычно являются признаки объектов.

Точечные и интервальные оценки многомерных статистик - student2.ru Предположим, что наблюдаемые объекты (автомобили) оцениваются двумя признаками: стоимостью автомобиля - x1 ( в десятках тысяч долларов) и длительностью рабочего ресурса двигателя - x2 ( в тысячах часов). При условии коррелированности x1 и x2в системе координат существует направленное, плотное скопление точек (объектов).

Это позволяет формально провести через плотные скопления точек новые оси координат F1 и F2, которые в свою очередь коррелируют с x1 и x2. В общем случае максимальное число новых осей будет равно числу элементарных признаков. Для нашего случая имеем:

F1 = b11*x1 + b12*x2 и F2 = b21*x1 + b22*x2

Модели с латентными переменными применяются при решении следующих задач:

· понижение размерности признакового пространства,

· классификация объектов на основе сжатого признакового пространства,

· косвенной оценки признаков, не поддающихся непосредственному измерению,

· Точечные и интервальные оценки многомерных статистик - student2.ru преобразование исходных переменных к более удобному для интерпретации виду.

Например, пусть исходная матрица X содержит по трем показателям (i =1,2,3) значения четырех (j=1,2,3,4) объектов:

x11 x12 x13 x41
x21 x22 x23 x42
x31 x32 x33 x43

Если значения матрицы нормировать (обозначим эту матрицу Z)и разделить на n -1 = 3, то получим оценку корреляционной матрицы:

R = (Z*Zт)/3

Целью факторного анализа является представление матрицы Zв виде:

Z3*4 = A3*m*Fm*4 ,

где m - количество факторов;

Fm*4 -матрица значений факторов (factor scores);

A3*m - матрица факторного отображения (factor pattern), элементы которой называются факторными нагрузками (factor loadings).

Пусть m=2, тогда матрица Z имеет вид:

a11*f11 + a12*f21 a11*f12 + a12*f22 a11*f13 + a12*f23 a11*f14 + a12*f24
a21*f11 + a22*f21 a21*f12 + a22*f22 a21*f13 + a22*f23 a21*f14 + a22*f24
a31*f11 + a32*f21 a31*f12 + a32*f22 a31*f13 + a32*f23 a31*f14 + a32*f24

Таким образом, отдельные наблюдения являются линейными комбинациями гипотетических, ненаблюдаемых или скрытых переменных, называемых факторами, которые не могут быть обнаружены непосредственно в процессе наблюдения.

В общем виде R = (Z*Zт)/(n - 1),где n - количество наблюдаемых объектов. Тогда, так как (A*F)т = Fт*Aт получим:

R = (Z*Zт)/(n - 1) = A*F*(A*F)т/(n - 1) = A*F*Fт*Aт/(n - 1)

Матрица F*Fт/(n - 1)является оценкой корреляционной матрицы факторов F.Если факторы не коррелируют, то F*Fт/(n - 1) = I- единичная матрица и, следовательно:

R = A*Aт

Выражения A*F*Fт*Aт/(n - 1)и R = A*Aтназывают фундаментальной теоремой факторного анализа. Теорема утверждает, что корреляционная матрица исходных наблюдений может быть воспроизведена с помощью факторного отображения и корреляций между факторами. Обозначим G = F*Fт/(n - 1),тогда R = A*G*Aт.Для нашего примера имеем:

r11 r12 r13   a11 a12   g11 g12   a11 a21 a31
r11 r12 r13 = a21 a22 * g21 g22 * a12 a22 a32
r11 r12 r13   a31 a32              
                         
  R   =   A *   G *   Aт  

При G = I(факторы не коррелируют) матрица R3*3 имеет вид:

(a11)2 + (a12)2 a11*a21 + a12*a22 a11*a31 + a12*a32
a11*a21 + a12*a22 (a21)2 + (a22)2 a21*a31 + a22*a32
a11*a31 + a12*a32 a21*a31 + a22*a32 (a31)2 + (a32)2

Из приведенного выше примера, что исходную оценку корреляционной матрицы R размером 3*3можно восстановить, используя матрицу A меньшего размера 3*2 .

Вектор Aтпредставляет собой фактор, элементы которого - факторные нагрузки. Матрица R+является матрицей воспроизведенных оценок коэффициентов корреляции. Диагональные элементы называются общностями. Их оценивание составляет первую проблему - проблему общности. Второй проблемой - проблемой факторов, является проблема оценивания Aт.Фактор называется генеральным (general factor), если все его нагрузки являются значимыми.

Содержательно, специфические факторы соответствуют необъясненной общими факторами изменчивости набора наблюдаемых переменных. Таким образом, их можно рассматривать как случайную ошибку наблюдения или шум, не являющийся ценной информацией для выявления скрытых закономерностей и зависимостей. Важным предположением является независимость их между собой. Обычно, однако, не всегда, общие факторы Fj предполагаются некоррелированными (ортогональными).

Целью ФА является выявление общих факторов Fj, и матрицы факторных нагрузок Aтаким образом, чтобы найденные общие факторы объясняли наблюдаемые данные наилучшим образом, то есть чтобы суммарная общность переменных была максимальна (а соответственно специфичность - минимальна).

Итак, в общем случае основные этапы факторного анализа следующие:

1. Нормирование значений исходных признаков (преобразование матрицы X в матрицу Z)

2. Преобразование исходной корреляционной матрицы исходных признаков R в матрицу воспроизведенных коэффициентов корреляции R+в диагонали, которой содержаться значения общностей.

3. Получение матрицы весовых коэффициентов A -весовые коэффициенты являются характеристиками статистической связи между исходными признаками и общими факторами.

4. Выбор одной матрицы A' из возможного множества матриц A с использованием вращения осей факторов.

5. Получение матрицы F - оценивание значений факторов.


Наши рекомендации