Специфика использования методов анализа данных в социологии
5.1. Необходимость соотнесения модели, "заложенной" в методе, с содержанием задачи
Выше мы уже говорили о том, что любой математический метод предполагает адекватной реальности определенную модель того явления, которое с помощью этого метода изучается. Но любая модель – это лишь некоторое приближение к действительности. Рассмотрим более подробно вопрос о достаточности такого приближения для социологических задач анализа данных.
Одним из проявлений трудностей с формализацией наших представлений о социальных явлениях является то, о чем мы уже упоминали: если для решения какой-то задачи существует некоторый математический метод, то этот метод практически никогда не бывает единственным. Примером могут служить уже самые простые характеристики одномерных распределений. Так, вообще говоря, существует много мер средней тенденции (и разброса) частотного распределения значений любого признака. Выше уже говорилось о том, что для измерения связи даже между двумя номинальными признаками могут служить более сотни известных из литературы коэффициентов соответствующего плана. Еще большее разнообразие присуще сложным методам изучения многомерных распределений33. И за каждым методом "стоит" свое понимание изучаемого явления (средней тенденции, разброса, связи и т.д.).
Какой метод выбрать? Как сравнивать результаты применения разных методов? Эти и другие подобные вопросы встают практически перед каждым исследователем. И любой социолог, использующий хотя бы самые элементарные математические методы (скажем, рассчитывающий среднее арифметическое значение, моду, медиану какого-либо признака), зачастую фактически дает ответы на вопросы такого рода, даже если он об этом и не задумывается (а, к примеру, при использовании какого-либо относительно сложного метода выбирает с помощью ЭВМ вариант "по умолчанию").
Все сказанное обусловливает особую остроту для социологии вопроса об адекватности модели, заложенной в том или ином методе, содержанию решаемой с помощью этого метода задачи (точнее, концептуальным представлениям исследователя о ее сути). Реализация процесса соответствующего соотнесения – задача социолога. И здесь вряд ли помогут советы представителей других наук. Ведь решение этой задачи требует обеспечения естественности используемого математического языка; вычленения из живой реальности моделируемых с помощью математики фрагментов; четкого выделения таких элементов используемых алгоритмов, которые имеют непосредственный "выход" на содержательные представления социолога об изучаемом явлении. Приведенное утверждение является достаточно общим и, вероятно, может показаться в какой-то степени очевидным. Однако лишь задавшись целью обязательного сопряжения формализма и содержания, можно прийти к тем многочисленным и (как нам представляется), далеко не столь тривиальным, утверждениям, которые можно считать конкретизацией высказанного положения применительно к реальным интересующим социологов методам.
Приведем несколько примеров.
Начнем, казалось бы, с самого простого – с расчета мер средней тенденции. В математике известно бесконечное количество таких мер. В руководствах, ориентированных на социолога, обычно рекомендуют три из них – те, которые были названы нами выше – среднее арифметическое, медиану, моду. Сейчас мы не будем принимать в расчет то, что, как хорошо знает каждый социолог, далеко не для всех шкал могут быть использованы две первые меры. Рассмотрим случай, когда тип шкалы нас не ограничивает в выборе среднего (предположим, например, что мы имеем дело с интервальными шкалами). Для того, чтобы показать, что такой выбор может диктовать нам содержание задачи, позволим себе описать несколько эксцентричный пример, приведенный нами в [Толстова, 1990а, с. 62-63].
Опишем некоторую задачу о моде в житейском смысле этого слова. Предположим, что модельер должен определить, какая длина должна быть у очередной модели женских юбок, выпускаемых какой-то фабрикой, и для этой цели опрашивает женщин рассматриваемого региона, просит их указать "любимую" длину. Если мы в качестве длины, рекомендуемой фабрике, укажем медиану соответствующего распределения, то тем самым окажемся перед риском выпустить неходовой товар: половина женщин решит, что юбка для них слишком коротка, а половина – что чересчур длинна. Покупать продукцию фабрики никто не захочет. А вот если в качестве меры средней тенденции мы используем моду, то удовлетворим женщин, выразивших наиболее часто встречающееся мнение.
Коротко укажем на другие известные из литературы примеры. Терстоун, предлагая свой хорошо известный (см., например, [Толстова, 1998]) метод построения шкалы для измерения установки, рекомендовал на последнем этапе процедуры, при расчете приписываемого каждому респонденту итогового балла, использовать медиану в качестве среднего значения весов тех суждений, с которыми этот респондент согласился (а не среднее арифметическое, хотя с формальной точки зрения его в данном случае можно было бы посчитать; правда, здесь мы используем определенный взгляд на тип получающихся шкал, который требует специального обсуждения).
В некоторых конкретных ситуациях может возникнуть потребность использования совершенно иных мер средней тенденции. Так, в [Дэйвисон, 1988] рассматривается задача изучения пространства восприятия респондентами некоторых объектов с помощью многомерного шкалирования. Предлагается способ построения матрицы близости между объектами на основе своеобразного опроса респондентов. И для усреднения соответствующих мнений рекомендуется использовать среднее геометрическое.
Приведем еще один пример, где речь идет о более сложном (по сравнению с расчетом средних) методе анализа данных. Предположим, что мы хотим построить типологию изучаемых объектов, используя для этого какой-либо из алгоритмов многомерной классификации (напомним, что в соответствии с этими алгоритмами каждый классифицируемый объект задается как точка некоторого признакового пространства). В таком случае выбор алгоритма должен определяться нашими априорными представлениями об искомых типах. Так, если мы считаем, что каждый тип может быть представлен неким "центральным" объектом, вокруг которого "кучкуются" другие объекты того же типа (т.е. если все однотипные объекты близки друг к другу одновременно по всем рассматриваемым признакам и, вследствие этого, центральный объект может служить как бы "олицетворением" типа), то мы должны выбрать какой-либо из алгоритмов, направленных на поиск круглых "сгущений" в рассматриваемом признаковом пространстве. Если же мы отождествляем каждый искомый тип с тем, какова форма зависимости какого-либо из рассматриваемых признаков от остальных, то подобные алгоритмы в принципе становятся неприменимыми. В таких случаях надо использовать методы, позволяющие искать "длинные" скопления точек в признаковом пространстве, "олицетворяющие" упомянутые зависимости.
Более обстоятельное описание подобных ситуаций можно найти, например, в работах [Патрушев и др., 1980; Типология и классификация в социологических исследованиях, 1982; Математические методы анализа и интерпретация . . ., гл. 1], где подробно говорится о той априорной модели, которую должен сформировать исследователь, желающий решать задачу типологии тех или иных объектов с помощью методов многомерной классификации (речь идет об априорных представлениях об искомых типах и о том, что, не имея таких представлений, исследователь рискует получить нелепые результаты, поскольку в таком случае математика не может выполнять функции "орудия труда" социолога).
Ясно, что социолог должен уделять большое внимание анализу моделей, заложенных в используемых им методах. И это – одна из причин присутствия термина "социологический" в названии нашей работы. Но существуют и другие.