Случайные величины и распределения вероятностей как основные объекты изучения математической статистики и эмпирической социологии
Основными объектами изучения для математической статистики являются т. н. случайные величины (пока – одномерные). Это функции, определенные на некоторых случайных событиях ("случайное событие" – основное понятие теории вероятностей; как известно, сам термин "вероятность" осмыслен лишь применительно к некоторому случайному событию) и принимающие числовые значения. В качестве типичного для социолога случайного события является выбор того или иного респондента. Случайными величинами могут служить признаки, определенные для этих респондентов.
Скажем, возьмем такой признак, как возраст. "Переходя" от события к событию. т.е. от одного респондента к другому (скажем, перебирая анкеты), мы будем фиксировать разные значения возраста (18, 36, 24, . .. лет), т.е. разные значения нашей случайной величины.
Случайная величина может быть многомерной – например, когда ей отвечает несколько признаков, а ее значениями являются не отдельные числа, а сочетания чисел – значений рассматриваемых признаков. Скажем, если наряду с возрастом мы будем учитывать пол (0 - мужчина, 1 - женщина) и зарплату (в рублях), то в качестве значений нашей трехмерной случайной величины могут выступать, например, тройки чисел: (18, 0, 524), (36, 1, 1200) и т.д.
Сказанным не ограничивается определение случайной величины. Мы не упомянули самого главного – для каждой совокупности значений случайной величины должна быть определена вероятность того, что, обследуя респондентов, социолог встретит значение из этой совокупности.
Напомним, что вероятностью события называют некоторую числовую характеристику степени возможности его появления в определенных, могущих повторяться неограниченное число раз, условиях. Выше в качестве события указывался выбор респондента. О вероятности этого события говорить не будем (поскольку такая вероятность связана с правилами построения выборки, которые мы не затрагиваем). В интересующем нас случае тот факт, что случайная величина приобретает некоторое значение, сам рассматривается как случайное событие. И именно задание соответствующих вероятностей сопрягается с определением случайной величины. Условия же реализации нашего случайного события – это условия, определяющие отбор респондента.
Совокупность вероятностей встречаемости значений рассматриваемой случайной величины называется отвечающим ей распределением вероятностей, или просто ее распределением. Функция, задающая для определенных наборов значений случайной величины отвечающую им вероятность, называется функцией распределения этой случайной величины. Задать случайную величину, по существу, и означает задать соответствующее вероятностное распределение.
На практике часто используется т.н. функция плотности вероятности, определяющая, грубо говоря, вероятность встречаемости каждого значения случайной величины24. В качестве примера можно привести многим хорошо знакомое, часто использующееся в математической статистике нормальное распределение (которое тоже, как известно, может быть одномерным и многомерным), имеющее вид "колокола".
Подчеркнем, что самое вероятность исследователь никогда не наблюдает, в принципе не может измерить. Это – продукт нашего мышления, абстракция, идеальный конструкт25 . Вероятность присуща генеральной совокупности, понятие которой само является абстракцией26. Вместо вероятности исследователь обычно имеет дело с ее выборочной оценкой – относительной частотой встречаемости соответствующего события. Косвенное обоснование целесообразности такой подмены можно усмотреть в том, что одно из известных определений вероятности, носящее название частотного, как раз и состоит в отождествлении ее с тем пределом, к которому стремятся частоты встречаемости интересующего нас события при многократном повторении выборочных расчетов (для все новых и новых выборок).
Чтобы было возможно использование аппарата математической статистики, необходимо частотные выборочные распределения расценивать как выборочные представления генеральных распределений вероятностей. Каждое такое распределение ассоциируется со случайной величиной.
Так, например, для выборки из 10 респондентов, сведения о которой фигурируют в таблице 1, выборочное частотное распределение, отвечающее случайной величине "Удовлетворенность трудом", будет иметь вид, представленный в таблице 2.
С помощью тех же данных можно рассчитать и двумерные распределения, одно из которых приведено в таблице 3. Это - выборочное представление двумерной случайной величины, отвечающей паре признаков ("пол", "удовлетворенность трудом").
Таблица 2.