Ковариация и коэффициент корреляции двух случайных величин.
Для двумерной случайной величины характеристики ее составляющих и , , , никак не отражают зависимости между и или ее отсутствия. Поэтому вводится еще одна числовая характеристика − корреляционный момент или ковариация.
Определение. Ковариацией или корреляционным моментом случайных величин и называется математическое ожидание произведения отклонений этих величин от их математических ожиданий:
.
Используя формулы для математических ожиданий, получаем
для дискретных величин ,
для непрерывных величин .
Ковариация характеризует зависимость величин.
Свойства корреляционного момента
1. Для независимых случайных величин и .
2. Если , то случайные величины и зависимы.
3. . (Для доказательства достаточно раскрыть скобки под знаком математического ожидания в определении.) В частности
для дискретных величин ,
для непрерывных величин .
4. . (Свойство сразу вытекает из 3.)
5. . (Выразите дисперсию через математические ожидания.)
6. .
7. . (Доказательство этого свойства можно найти в [1, гл.14, § 17].)
Ковариация имеет размерность произведения размерностей случайных величин и и зависит от того, в каких единицах измерялись величины. Для получения безразмерной характеристики вводится понятие коэффициента корреляции.
Определение. Коэффициентом корреляции случайных величин и называется отношение корреляционного момента к произведению средних квадратических отклонений этих случайных величин:
.
Свойства коэффициента корреляции
1. Для независимых случайных величин и .
2. . Коэффициент корреляции по абсолютной величине не превосходит единицы.
3. Если , то случайные величины и связаны линейной зависимостью, т.е. .
Определение. Случайные величины и называются некоррелированными, если , и коррелированными, если .
Следует помнить, что понятия некоррелированности и независимости не совпадают, несмотря на внешнее сходство. Независимые величины − некоррелированные, но обратное неверно. Коррелированные величины − зависимые, но обратное неверно. Любые коррелированные величины всегда зависимые, любые независимые величины всегда некоррелированные.
Пример.У случайных величин и , , , , . Найдите и .
Решение. .
.
Ответ. , .
19. Генеральная и выборочные совокупности. Понятие выборки и её свойства.
Генеральная совокупность – это множество всех подлежащих обследованию по некоторому признаку (признакам) объектов.
Выборочная совокупность (выборка) - это специальным образом отобранная часть генеральной совокупности, отражающая ее основные свойства, и предназначенная для формирования содержательных суждений о всей генеральной совокупности, оценки ее параметров.
Количество единиц статистической совокупности (генеральной, выборочной) называется ее объемом.
Если при формировании выборки отобранный объект перед отбором следующего возвращается в генеральную совокупность и вновь может участвовать в отборе, то выборку называют повторной, в противном случае - бесповторной. На практике обычно используют бесповторные выборки.
Выборка должна правильно представлять пропорции генеральной совокупности, то есть быть репрезентативной (представительной). А для этого она должна быть соответствующим образом сформирована. В практике наибольшее распространение получили следующие способы отбора:
1. Собственно-случайная или простая выборка представляет собой жеребьевку или лото, с помощью которых единицы из генеральной совокупности отбираются в выборочную в случайном порядке.
2. Механическая выборка – применяется в тех случаях, когда генеральная совокупность каким-либо образом упорядочена (ранжирована, пронумерована и т.д.). Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотнесением объемов выборочной и генеральной совокупностей. Отбор единиц осуществляется в соответствии с установленной пропорцией через равные интервалы.
3. Типический отбор применяется, если генеральную совокупность можно разбить на несколько типических групп, при этом отбор из каждой группы происходит случайным или механическим способом.
4. Серийная выборка – особый способ отбора из генеральной совокупности, когда случайно или механически выбирают не отдельные единицы, а целые их серии, внутри которых ведется сплошное наблюдение.
Каждый способ отбора предполагает использование особого метода формирования выборочной совокупности.
Но выборочная совокупность как часть генеральной совокупности не может быть во всех отношениях ей адекватной. Поэтому всегда могут иметь место некоторые отклонения ее параметров от соответствующих параметров генеральной совокупности – ошибки наблюдения: разность между соответствующими характеристиками генеральной и выборочной совокупностей.
Ошибки наблюдения складываются из ошибок репрезентативности и регистрации. Ошибками репрезентативности –это ошибки представительности – порождены тем, что выборка является лишь частью генеральной совокупности. Они бывают:систематические – из-за нарушений правил отбора; случайные – из-за обследования только части совокупности. Ошибки регистрации –следствиенедостаточной квалификации,неточностей, погрешностей, искажений (присущи и сплошному наблюдению).
Основная задача выборочного метода заключается в том, чтобы на основе изучения выборочной совокупности получить такие выборочные характеристики, которые как можно более точно отражали бы соответствующие характеристики генеральной совокупности. А достичь этого можно только в том случае, когда разность между выборочными и генеральными характеристиками будет достаточно мала. С этой точки зрения основная задача выборочного метода сводится к минимизации ошибок репрезентативности.
Теоретической основой выборочного метода является закон больших чисел. Так, неравенство Чебышева применительно к выборке может быть записана в следующем виде:
где: - выборочная средняя арифметическая,
- генеральная средняя арифметическая,
s - среднее квадратное отклонение в генеральной совокупности,
n – объем выборки,
ε > 0 – любое число.
Теорема Чебышева в этом случае формулируется так: с вероятностью, сколько угодно близкой к единице (достоверности), можно утверждать, что при достаточно большом объеме выборки n и ограниченной дисперсии генеральной совокупности s2 разность выборочной и генеральной средних будет сколько угодно малa.
В математической статистике очень большое внимание уделяется вопросам определения величины допущенной ошибки выборочного исследования и возможных ее пределов.
Одним из важнейших условий минимизации ошибок репрезентативности является требование, чтобы используемые выборочные оценки параметров генеральной совокупности были «хорошими», то есть обладали определенными свойствами (несмещенность, состоятельность, эффективность, достаточность).
20. Эмпирическая функция распределения – определение и свойства.
Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X<x. Таким образом, по определению , где – число вариант, меньших x, n – объем выборки.
В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения.Различие между этими функциями состоит в том, что теоретическая функция
определяет вероятностьсобытия X<x, тогда как эмпирическая – относительную частотуэтого же события.
При росте n относительная частота события X<x, т.е. стремится по вероятности к вероятности этого события. Иными словами:
.
Свойства эмпирической функции распределения
Значения эмпирической функции принадлежат отрезку [0,1].
– неубывающая функция.
Если – наименьшая варианта, то =0 при ,
если – наибольшая варианта, то =1 при .
Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.
Пример. Построим эмпирическую функцию по распределению выборки:
Варианты | |||
Частоты |
Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, поэтому =0 при x£2. Значение x£6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2<x£6. Аналогично, значения X£10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6<x£10. Так как
x=10 – наибольшая варианта, то =1 при x>10. таким образом, искомая эмпирическая функция имеет вид:
21. Характеристики выборки: выборочное среднее и выборочная дисперсия, начальные и центральные выборочные моменты.
Пусть выборка задана вариационным рядом
. . . | , где | ||||
. . . |
Выборочным средним называется величина
Выборочная дисперсия а корень квадратный из выборочной дисперсии называется выборочным средним квадратическим отклонением
Выборочные начальные и центральные моменты порядка определяются соответственно формулами:
Модой называется вариант, наиболее часто встречающийся в данном вариационном ряду.
Медианой называется вариант такой, что и Медиана обладает тем свойством, что сумма абсолютных величин отклонений вариантов от медианы меньше, чем от любой другой величины (в том числе и от выборочной средней).
Важность эмпирических характеристик заключается в том, что они близки (при достаточно большом ) к соответствующим теоретическим значениям. Поскольку выборочные характеристики являются случайными величинами, а теоретические - числа, то близость понимается в смысле сходимости по вероятностям.
Пример 161.Известно распределение золотых медалистов, окончивших в 2001 году школы Ярославской области, по районам:
Кол-во золотых медалистов | |||||||
Кол-во районов |
Дайте характеристику распределения признака (число золотых медалистов по районам), вычислив для этого:
а) выборочную среднюю, б) моду и медиану, в) показатели вариации (дисперсию, среднее квадратическое отклонение, размах варьирования).
Решение. а)
б) , т.к. .
, т.к. и
в)
22. Свойства точечных оценок параметров неизвестного распределения – состоятельность, несмещенность, эффективность.
Числовая характеристика случайной величины, определенная при ограниченном объеме информации, называется оценкой. "Точечная" означает, что оценка представляет собой число или точку на числовой оси.
Обозначим через θ некоторую оцениваемую характеристику (ею может быть математическое ожидание, дисперсия и любая другая числовая характеристика случайной величины Х). Ее числовое значение неизвестно, однако предложен некоторый алгоритм или формула вычисления точечной оценки θn* этой характеристики по результатам x1, x2, ..., xn наблюдений величины Х. Обозначим буквой f этот алгоритм:
θn*=f(x1,x2,…,xn).
Подставив в формулу конкретные результаты наблюдений, получим число, которое и принимают за приближенное значение неизвестной характеристики θ. Найти погрешность этого приближения нельзя, поскольку истинное числовое значение характеристики неизвестно. Чтобы ответить на вопрос: хорошо или нет найденное приближение – рассмотрим оценку θn* и ее свойства.
Так как результаты наблюдений x1,x2,…,xn – случайные величины, то и оценка θn* также величина случайная. Следовательно, можно говорить о ее математическом ожидании M(θn*), дисперсии D(θn*) и законе распределения. Интерпретация оценки θn* как случайной величины позволяет сформулировать свва, которыми должна обладать оценка, чтобы ее можно было считать хорошим приближением к неизвестной оценке θ. Это свойства состоятельности, несмещенности и эффективности.
Состоятельность. Оценка θn* характеристики θ называется состоятельной, если она удовлетворяет закону больших чисел, т.е. сходится по вероятности к оцениваемому параметру: limn→∞Pθn*θ<ε=1 или θn*→ θ при n→∞. Если говорить коротко то, чем больше объем исходной информации, тем ближе оценка к оцениваемому параметру. Если это так, то θn* состоятельная оценка.
Если оценка несостоятельная, то она не имеет практического смысла: увеличение объема исходной информации не будет приближать нас к истине. Поэтому свойство состоятельности следует проверять в первую очередь.
Несмещенность. Оценка θn* характеристики θ называется несмещенной, если ее математическое ожидание равно оцениваемому параметру:
M(θn*) =θ.
В противном случае оценка называется смещенной. Если это равенство не выполняется, то оценка θn*, полученная по разным выборкам, будет либо завышать θ, если M(θn*) > θ, либо занижать θ, если M(θn*) < θ. Таким образом, требование несмещенности гарантирует отсутствие систематических ошибок при оценивании.
Эффективность. Несмещенная оценка θn* характеристики θ называется эффективной,