Случайные величины и их характеристики
Основные предпосылки анализа данных
Случайные величины и их характеристики
Подавляющее большинство опытных значений, получаемых в результате проведения экспериментальных исследований и в результате промышленных измерений, являются по своей сути случайными величинами.
Случайной величиной называется величина, которая может принимать какое-либо значение из установленного множества и с которой связано вероятностное распределение.
Случайная величина характеризуется областью возможных значений и вероятностью приобретения конкретных значений. Наиболее подробно случайную величину можно описать при помощи функции распределения или плотности распределения.
Функцией распределения F(x) называется функция, определяющая для всех действительных x вероятность того, что случайная величина Х принимает значение не больше, чем х :
F(x)=P(X£x). (2.1)
Здесь под Х понимается физическая величина, которая в результате измерений в процессе проведения эксперимента приобретает свойства случайной величины, а под х понимается конкретное значение этой случайной величины.
Типичный вид графика функции распределения случайной величины показан на рис. 2.1. Кривая ограничена значениями: снизу – F(x)=0, а сверху –
F(x)=1.
Если функция распределения случайной величины известна (задана математическим выражением, графиком или таблицей), то ее можно использовать для расчета вероятности попадания случайной величины в некоторый диапазон значений. Например, вероятность р обнаружения случайной величины Х в интервале от х1 до х2можно рассчитать при помощи следующего выражения (см. рис. 2.1):
P(х1<Х<х2) = F(х2)- F(х1). (2.2)
Часто возникает необходимость определения значения случайной величины xp, соответствующего заданному уровню вероятности его не превышения р. Это значение случайной величины носит название квантили порядка ри определяется из уравнения P(X£xp)=р.
Квантиль порядка р– это значение случайной величины, для которого функция распределения принимает значение р.
Для непрерывных случайных величин функция распределения обычно имеет первую производную, которую называют плотностью вероятности или плотностью распределения.
Плотность распределения есть первая производная функции распределения.
. (2.3)
Типичный вид графика плотности распределения случайной величины показан на рис. 2.2.
Если плотность распределения случайной величины известна (задана математическим выражением, графиком или таблицей), то ее, так же как и функцию распределения, можно использовать для расчета вероятности попадания случайной величины в некоторый диапазон значений. Значение искомой вероятности будет равно площади фигуры, расположенной под кривой плотности распределения и ограниченной осью абсцисс и вертикалями, проходящими через границы диапазона (см. рис. 2.2). Например, вероятность Р обнаружения случайной величины Х в интервале от х1 до х2можно рассчитать с помощью следующего выражения:
. (2.4)
Законы распределения случайной величины могут иметь различный вид. Наибольшее значение в прикладной статистике имеет нормальное распределение.
Случайная величина называется нормально распределенной (имеет распределение Гаусса), если ее функция распределения определяется выражением
, (2.5)
где m и s – числовые параметры распределения, однозначно и полностью определяющие вид кривой функции распределения и основные свойства случайной величины. Для конкретной, измеряемой в конкретных условиях величины они имеют вполне конкретные детерминированные и объективные численные значения.
Плотность нормального распределения определяется выражением
. (2.6)
Если математическое выражение закона распределения известно, то для полного определения случайной величины достаточно указать численные значения всех постоянных величин, входящих в этот закон. Для нормального закона распределения такими величинами, требующими определения, являются m и s, так как величины е и p являются известными константами. Постоянные, от которых зависит функция распределения,называютсяпараметрами распределения.
Использование законов распределения вероятности (в виде функции распределения или плотности распределения) для описания случайной величины является наиболее подробным и информативным. Однако практическое использование такого способа описания сопряжено со значительными математическими трудностями. Поэтому, наряду с таким способом описания, применяется и другой, более простой и удобный в использовании (правда менее информативный). По этому способу основные свойства случайной величины отражают при помощи специально рассчитываемых величин, называемых числовыми характеристиками случайной величины. Их назначение – в сжатой форме выразить наиболее важные черты случайной величины и распределения ее вероятности.
Наиболее часто используют следующие числовые характеристики:
- математическое ожидание;
- дисперсия;
- среднеквадратическое отклонение.
Математическим ожиданием случайной величины называется среднее взвешенное по вероятностям значение случайной величины
. (2.7)
Математическое ожидание определяет центр распределения случайной величины. Для теоретических симметричных распределений математическое ожидание совпадает с абсциссами точки перегиба кривой функции распределения (см. рис. 2.1) и точки максимума кривой плотности распределения (см. рис. 2.2).
Дисперсией случайной величины называется средневзвешенный по вероятностям квадрат отклонения случайной величины от ее математического ожидания
. (2.8)
Дисперсия служит характеристикой рассеяния случайной величины Х около центра распределения. Для нормального распределения величина дисперсии геометрически определяет точку перегиба кривой плотности распределения.
Часто за меру рассеяния случайной величины принимают положительное значение квадратного корня из дисперсии, которое называют среднеквадратическим (стандартным) отклонением.
Среднеквадратическое отклонение– это неотрицательный квадратный корень из дисперсии
. (2.9)
Для случайных величин, подчиняющихся нормальному закону распределения, указанные числовые характеристики совпадают с числовыми параметрами распределения, входящими в выражения Гаусса (2.5) и (2.6).
Значения μ и σ(математическое ожидание и среднеквадратическое отклонение)можно использовать для нормированияслучайной величины Х с помощью преобразования . Математическое ожидание величины будет равно нулю, а среднеквадратическое отклонение и дисперсия равны 1.
Если применить операцию нормирования к любой нормально распределенной случайной величине Х (со своими численными параметрами распределения m и s), то все они будут преобразованы к одной и той же нормированной нормально распределенной случайной величине:
. (2.10)
Такая величина подчиняется нормированному нормальному закону распределения (распределению Лапласа), для которого функция распределения и плотность распределения определяются соответственно следующими выражениями:
, (2.11)
. (2.12)
Выражение (2.11) часто называют функцией Лапласа. Значения этой функции для различных z табулированы (табл. П.1).
Использование операции нормирования позволяет существенно упростить процедуры решения различных статистических задач. Например, вероятность Р обнаружения значений случайной величины Х с параметрами распределения m и s в интервале от х1 до х2можно рассчитать при помощи функции Лапласа Ф(z) (2.11) следующим образом:
. (2.13)
Причем для определения значения функции Лапласа нет необходимости рассчитывать значение интеграла (2.11), так как его можно определить по широко распространенным таблицам этого распределения, структура которых обычно аналогична табл. П.1.
С нормальным или нормированным нормальным распределением тесно связан ряд распределений, широко применяемых при анализе опытных данных. Основными, наиболее часто используемыми из таких распределений являются следующие.
Распределение Пирсона (c2 - распределение) характерно для случайной величины ,
где xi* (i=1,2,...,n) – независимые нормированные нормально распределенные случайные величины;
n–число степеней свободы.
Кривые Пирсона для различных n показаны на рис. 2.3. Существуют таблицы значений функции распределения Пирсона и таблицы квантилей распределения Пирсона (табл. П.3).
Распределение Стьюдента (t - распределение) свойственно случайной величине
,
где c2– случайная величина, имеющая распределение Пирсона с n числом степеней свободы; z – нормированная нормально распределенная случайная величина. Вид кривых Стьюдента в зависимости от числа степеней свободыn показан на рис. 2.4. Широко распространены таблицы со значениями функции t – распределения, а также таблицы квантилей этого распределения (табл. П.6). С увеличением числа степеней свободы распределение Стьюдента приближается к распределению Гаусса. При n>60 принято считать, что эти два распределения практически сходятся.
Распределение Фишера (F-распределение)присуще случайной величине
,
где и – две независимые случайные величины, подчиненные распределению Пирсона с числами степеней свободы n1 и n2 соответственно. Кривые Фишера для разного числа степеней свободы n1 при n2=¥ показаны на рис. 2.5. Существуют статистические таблицы со значениями функции распределения Фишера и значениями квантилей этого распределения (табл. П.4 и П.5).