Статистическая закономерность как результат "сжатия" исходных данных
Посмотрим на проблему поиска статистических закономерностей с иной точки зрения. Поставленный в п. 1.1 вопрос о том, как "увидеть" в матрице "объект-признак" интересующие нас закономерности, можно сформулировать по-другому: как сжать исходную информацию, чтобы искомые закономерности предстали перед нами в явном виде? Известные способы сжатия – это и суть алгоритмы анализа данных. Поясним более подробно, какое "сжатие" здесь имеется в виду.
Начнем с того, что любая выявленная в процессе научного исследования закономерность (и не только в социологии) является определенного рода сжатием какой-то информации об изучаемых объектах, имеющейся в распоряжении исследователя. Виды такого сжатия весьма разнообразны. Выбор конкретного вида зависит от исследователя и определяется его априорными представлениями о характере изучаемого явления, пониманием цели сжатия. Коснемся двух аспектов таких представлений.
Первый аспект касается формальной сути алгоритмов сжатия. Дело в том, что в интересующем нас случае (когда рассматриваются только статистические закономерности) результаты такого сжатия чаще всего выражаются в виде определенных характеристик частотных (вероятностных) распределений значений рассматриваемых признаков (подробнее об этом пойдет речь в разделе 3). Так, совокупность из 1000 значений какого-либо признака может быть сжата до одного числа - соответствующего среднего арифметического значения. Множество из 2000 значений двух признаков можно сжать до одного числа – какого-либо коэффициента парной связи между этими признаками. Совокупность из 10000 значений 10-ти признаков может быть сжата до 9-ти коэффициентов регрессионного уравнения, связывающего один из рассматриваемых признаков с 9-ю другими и т.д.
Второй интересующий нас аспект представлений исследователя, выбирающего алгоритм анализа данных, касается некоторых моментов трактовки роли сжатия исходной информации в выявлении любых интересующих человека закономерностей природы (общества). Мы имеем в виду определенные стороны понимания самого термина "закономерность". Здесь, в свою очередь, выделим два момента.
Во-первых, при выявлении любой закономерности практически всегда неизбежна потеря исходной информации об изучаемых объектах (здесь мы не говорим о том, что эта потеря может быть не "абсолютна", все исходные данные могут быть сохранены, скажем, где-то в памяти ЭВМ): такова "цена" найденных исследователем научных положений. Казалось бы, это утверждение довольно естественно. С потерей информации тот же социолог сталкивается на каждом шагу. Скажем, она происходит уже благодаря использованию анкетного опроса (т.е. при сборе данных, еще до всякого анализа; здесь представляется уместным отметить, что, в соответствии со сказанным в предыдущем параграфе, в социологии отсутствует четкая граница между сбором и анализом данных), в таком случае вместо живого, неповторимого человека мы имеем набор чисел - ответов этого человека на вопросы анкеты. И необходимо тщательно "отслеживать", правомерны ли допускаемые потери (в частности, надо решить поставленные выше вопросы: те ли признаки мы выбрали для характеристики интересующих нас процессов, так ли определили тип шкалы, правильно ли заранее спрогнозировали, какой смысл будем вкладывать в числа, получающиеся в результате реализации алгоритма анализа данных и т.д.).
Подобные вопросы очень актуальны для социологии. Процесс поиска ответов на них далеко не всегда прост. Но суть соответствующих процедур в значительной мере состоит в выявлении того, какую информацию мы можем позволить себе потерять при сборе и анализе данных.
Во-вторых, во многих алгоритмах анализа встает вопрос о степени сжатия исходной информации. Например, в агломеративных алгоритмах классификации (т.е. таких, в соответствии с которыми разбиение совокупности на классы осуществляется в процессе реализации целой серии шагов, на первом из которых каждый исходный объект являет собой отдельный класс, а на последнем - все объекты объединяются в единый класс; описание подобных алгоритмов можно найти, например, в книге [Статистические методы …, 1979. Гл.12]; заметим, что именно агломеративные алгоритмы классификации заложены в известном пакете программ SPSS) встает вопрос, какое разбиение выбрать, сколько классов это разбиение должно содержать. В алгоритмах многомерного шкалирования (или, например, факторного анализа) требуется ответить на вопрос о том, какова размерность искомого признакового пространства, т.е. сколько латентных переменных определяют интересующее нас явление и т.д.
Наиболее естественным ответом на подобные вопросы, вероятно, можно считать тот, в соответствии с которым сжатие должно осуществляться до тех пор, пока человеческий разум не окажется способным охватить единым взглядом полученный результат. Иначе то, что формально могло бы вроде считаться закономерностью, для нас фактически таковой не будет. Так, строя типологию каких-либо объектов с помощью упомянутых методов классификации, мы при любой постановке задачи вряд ли сможем разумно проинтерпретировать как типологию, скажем, совокупность из 200 классов, каждый из которых характеризуется 15 признаками. В подобной ситуации мы, вероятно, поставим перед собой задачу дальнейшего сжатия исходной информации. То же можно сказать и о той ситуации, когда мы выявили 200 латентных факторов, формирующих пространство восприятия респондента, найденное с помощью многомерного шкалирования. Оси 200-мерного пространства мы даже и не будем называть латентными факторами17.
Заметим, что рассмотренные аспекты понимания искомой закономерности касаются одного из аспектов проблемы интерпретации результатов применения математического метода.