Пример частотной таблицы, построенной на основе данных таблицы 1 и отражающей выборочное представление распределения случайной величины "удовлетворенность трудом"
Значение признака | |||||
Частота встречаемости значения (%) | |||||
Выборочная оценка вероятности Р встречаемости значения | 0,3 | 0,3 | 0,1 | 0,1 | 0,2 |
Таблица 3.
Пример частотной таблицы, построенной на основе данных таблицы 1 и отражающей выборочное представление распределения двумерной случайной величины ("пол", "удовлетворенность трудом").
Пол | Удовлетворенность | Итого | ||||
Итого |
В разделе 2 второй части понятие частотных таблиц будет обсуждено более подробно.
Математическая статистика позволяет находить широкий круг статистических закономерностей. Любая из них является некоторым набором параметров вероятностных распределений рассматриваемых случайных величин (одномерных и многомерных). Такого рода характеристиками являются, к примеру, разные меры средней тенденции, разброса значений случайных величин, связи между признаками и т.д. Результат, скажем, регрессионного анализа можно рассматривать как совокупность коэффициентов регрессии, которые в конечном итоге тоже являются некоторыми параметрами исходного многомерного распределения (характеристиками многомерной случайной величины) и т.д. Однако сами параметры, в той же мере, как и те вероятности, на базе которых они рассчитываются, остаются неизвестными исследователю. Вместо истинных значений параметров мы имеем только их выборочные оценки, рассчитанные на основе частотных распределений. Эти оценки называются статистиками27.
Итак, поскольку исследователь изначально имеет дело лишь с частотами, а не с соответствующими вероятностями, то фактически исходные случайные величины предстают перед ним в весьма приближенном виде. То, что на основе выборочных данных мы рассчитываем не сами параметры распределений, а лишь их выборочные оценки (отвечающие им статистики), усугубляет степень приблизительности искомых закономерностей. Другими словами, вид закономерности, найденной для выборки, вообще говоря, будет отличаться от вида ее для генеральной совокупности. Естественно, важную роль должна играть оценка подобного различия, поскольку нас, вообще говоря, интересуют закономерности, свойственные генеральной совокупности, хотя на практике мы и имеем дело лишь с выборкой. Именно такую оценку мы и сможем сделать, пользуясь положениями математической статистики.
Основные методы, лежащие в русле математической статистики, обычно делят на две большие группы, определяемые характером рассматриваемых закономерностей и технологией их поиска: методы статистической оценки параметров (способы расчета выборочных значений параметров и перехода от выборочных значений к генеральным; математическая статистика говорит о том, каким качествам эти оценки должны обладать, чтобы как можно более походить на их генеральные прообразы, и каким образом надо строить "хорошие" статистики, отражающие известные параметры вероятностных распределений)28 и методы проверки статистических гипотез (оценка степени правдоподобности гипотезы о наличии некоторых соотношений между случайными величинами в генеральной совокупности на основании расчета определенных характеристик соответствующих выборочных распределений). Подробнее о сути этих задач можно прочесть, например, в [Гласс, Стэнли,1976; Паниотто, Максименко, 1982; Статистические методы анализа информации в социологических исследованиях, 1979, гл. 6]29. Здесь подчеркнем только, что правила переноса результатов с выборки на генеральную совокупность базируются на рассмотрении некоторых выборочных статистик как случайных величин и изучении определенных параметров их вероятностных распределений (скажем, если статистика – среднее арифметическое значение какого-либо признака, то упомянутое распределение для нее получится, если представить себе бесконечное количество выборок одного и того же размера и расчет для каждой выборки этого среднего; заметим, что, как известно, дисперсия такого распределения средних обычно называется средней ошибкой выборки и очень часто используется в эмпирических исследованиях).
В решении описанных двух задач по существу и заключается поиск статистических закономерностей. Ясно, что эти задачи весьма актуальны и для социолога. Другими словами, для него является естественным такое же понимание сути искомых соотношений между наблюдаемыми величинами, какое "заложено" в математической статистике. Обоснуем это более подробно.
Должны ли случайные величины интересовать социолога? Конечно. И социолог ими фактически пользуется, не употребляя, правда, соответствующего термина. В своей специфичной ситуации исследователь использует термин "признак" или "совокупность признаков". Обращение социолога к математической статистике по существу начинается со статистической трактовки значений используемых признаков. К примеру, чаще всего, социолога интересует не тот факт, что, скажем, ученик 10 класса средней школы № 5 города N Ваня Иванов намеревается поступить в институт, а более общее явление: например, то, что среди десятиклассников рассматриваемого региона, обладающих определенными социально-демографическими характеристиками (мужчин, горожан и т.д. ), велика доля людей, намеревающихся получить высшее образование. Обобщая сказанное, можно полагать, что социолога интересует распределение долей тех объектов совокупности (десятиклассников изучаемого региона), которые обладают определенными значениями рассматриваемого признака (в нашем примере речь идет о признаке "намерение респондента"), или определенными сочетаниями значений нескольких рассматриваемых признаков (например, трех: пола, местожительства, намерения).
Первым шагом сжатия информации, содержащейся в матрице объект-признак (см. таблицу 1), как правило, является получение частотных распределений разной размерности (см. таблицы 2 и 3). Именно с изучения таких распределений обычно начинается анализ данных.
Таким образом, в качестве случайной величины перед социологом выступает признак (набор признаков), вместо вероятностей значений случайной величины исследователь имеет дело с относительной частотой встречаемости значений признака, вместо вероятностного распределения – с частотным, вместо параметров распределения – с отвечающими им статистиками. Рассчитав интересующие его статистики, он стремится обобщить результаты на генеральную совокупность.
Итак, основной объект, изучаемый математической статистикой, – случайная величина – является основным объектом изучения и для эмпирической социологии. Основные задачи, решаемые математической статистикой служат таковыми и для социолога, занимающегося изучением собранных эмпирических данных. Но, к сожалению, оказывается, что непосредственное применение математической статистики в социологии, зачастую, бывает весьма проблематично. Условия, предполагаемые строгими теоремами математической статистики, отнюдь не всегда выполняются на практике. И тогда вместо строгой математической статистики на сцену выступает не совсем строгое ее "приближение" - анализ данных.
Поясним, что именно мешает применению методов математической статистики в социологических исследованиях. Проведем линию размежевания между математической статистикой и теми лежащими вне ее методами, которые, давая социологу возможность поиска статистических закономерностей, в то же время позволяют преодолеть соответствующие трудности.
Сразу подчеркнем, что эти трудности можно разделить на две большие группы.
Трудности первой группы типичны не только для социологии, но и для многих других наук, имеющих дело с эмпирическими данными и направленных на выявление статистических закономерностей (в числе таких наук могут быть названы биология, геология, медицина, история, психология). Именно потребности таких наук послужили толчком к развитию методов анализа данных как некой замены математико-статистических подходов для тех ситуаций, когда последние оказываются неприменимыми.
Трудности второй группы специфичны именно для социологии. Говоря о них, мы будем иметь в виду не анализ данных вообще, а анализ социологических данных. В следующем параграфе коснемся трудностей первой группы. Социологическая специфика будет затронута в разделе 5.
4. Математическая статистика и анализ данных:
Линия размежевания
Ниже, параллельно анализу рассматриваемых проблем, будем четко выделять причины, приведшие к необходимости введения наряду с термином “математическая статистика” термина “анализ данных”.