Основные цели анализа данных
Итак, в соответствии со сказанным выше, основная цель анализа данных - выявление (подтверждение, корректировка) каких-то интересующих исследователя статистических закономерностей; или, другими словами, - определенного рода сжатие, усреднение содержащейся в данных информации. Однако мы не можем ограничиться только такой формулировкой. Она нам говорит лишь о формальной стороне действий социолога, изучающего эмпирические данные. Но естественно, что за выбором алгоритма анализа не могут не стоять содержательные соображения, о чем мы частично уже говорили. Причины, побуждающие исследователя искать ту или иную закономерность, могут быть разными. Это должно учитываться в процессе анализа.
Ниже мы коротко рассмотрим те стороны априорных концепций ученого, которые должны играть роль при определении общей стратегии работы. Речь пойдет о вопросах, обычно относимых к области функций научного исследования. Эти вопросы серьезны и не достаточно основательно разработаны применительно именно к социологии. Будучи ограниченными жанром настоящей работы, мы будем "скользить по поверхности". Однако хотелось бы, чтобы читатель почувствовал скрывающуюся под этой "поверхностью" глубину. Изучению того, каковы функции научного исследования, уделяли огромное внимание такие крупные ученые, как О.Конт, Дж.С.Милль, Э.Мах, К.Поппер, К.Гемпель и другие. Много работ соответствующего плана имеется и в отечественной литературе. Для интересующегося читателя мы назовем лишь выпущенные в последние годы учебные пособия [Степин и др., 1995; Философия и методология науки, 1996], и ставшие классическими работы [Лакатос, 1995; Поппер, 1983]; см. также [Ядов, 1998, с.53-62].
Задачу поиска закономерности иногда отождествляют с задачей объяснения интересующего исследователя явления (напомним, что главный смысл объяснения состоит в подведении объясняемого явления под какой-либо закон, см. также [Девятко, 1996; Терборн, 1994]; подчеркнем, что здесь явление – это не обязательно наша содержательная закономерность; см. об этом ниже). Конечно, достижение соответствующей цели (точнее, реализации отвечающей ей функции науки) является актуальной в любом социологическом исследовании. Вероятно, ее почти всегда можно считать основной целью анализа. Так, выяснив в приведенном в п. 1.3 примере, что коэффициент корреляции между уровнем безработицы и числом суицидов в регионе близок к единице, мы считаем, что самоубийство объясняется материальной неустроенностью человека. Однако этот же пример показывает сложность процесса объяснения. Поясним это.
Упомянутая сложность снова начинается с понимания используемых терминов. То явление, которое мы объясняем, можно понимать по-разному. Во-первых, его можно отождествить с совокупностью наблюдаемых фактов (т.е с формальными данными в нашей терминологии). В рассматриваемом примере – это пары значений уровня безработицы и частоты суицидов в регионах. Тогда закон, под который мы "подводим" явление – это и есть найденный коэффициент корреляции. Величина коэффициента говорит о наличии статистической связи, что как бы объясняет, почему в наблюдаемых данных большим значениям уровня безработицы отвечают большие частоты суицидов (потому, что между соответствующими признаками имеется сильная статистическая связь). Здесь представляется уместным вспомнить, что статистическая связь, вообще говоря, не доказывает наличие причинно-следственной (см. сноску 15). Выявление статистической закономерности - это как бы формальное объяснение того, что в действительности интересует социолога. Хотя такое объяснение зачастую играет огромную роль в исследовании, социолог, как правило, стремится им не ограничиваться. Вероятно, с объяснением можно отождествлять выявление причинно-следственных отношений. А это чаще всего бывает возможно сделать как мы отмечали в конце п. 1.3, только на основе применения качественных методов.
Во-вторых, объясняемое явление можно понимать так, как мы предложили это делать выше (в конце п.1.3) – как содержательную закономерность в нашем смысле. Для рассматриваемого примера – это содержательные представления о том, что невозможность найти работу подталкивает человека к самоубийству. В таком случае расчет упомянутого выше коэффициента корреляции можно рассматривать как формальную закономерность, отвечающую этой содержательной закономерности и подтверждающую ее. Тогда "закон", под который мы подводим объясняемое явление, можно отождествлять с теми самыми причинно-следственными отношениями, о котором шла речь выше.
Только поиском объяснения цели научного исследования обычно не ограничиваются. Наряду с объяснением изучаемого явления, представляется целесообразным всегда иметь в виду по крайней мере еще две цели: описание исходных данных и осуществляемое на основе выявленной закономерности предсказание того или иного явления. Описание - цель, достичь которую часто бывает необходимо прежде, чем непосредственно приступать к поиску основной интересующей исследователя закономерности (однако некоторые ученые - например, Э.Мах - полагали, что описание – единственная функция научного исследования; объяснение и предвидение, по Маху, сводятся к описанию). Предсказание тоже зачастую считается основной целью научного исследования (ср. с известным афоризмом О.Конта: "Знать, чтобы предвидеть"), и с этим трудно спорить.
Описание требуется для того, чтобы исследователь мог хотя бы самым приблизительным образом сориентироваться в том "море" данных, о котором шла речь выше. А потребность в этом обычно имеется. Ведь далеко не всегда социологу бывает с самого начала полностью ясно, каков вид закономерностей, "скрывающихся" за интересующими его данными, не всегда понятно, например, какими признаками эти закономерности должны описываться, возможно ли в принципе подобрать соответствующие признаки и т.д. Описание может помочь дать ответы на подобные вопросы с тем, чтобы потом уже можно было более направленно искать интересующие социолога соотношения. Описание данных обычно достигается с помощью самых простых способов сжатия исходных данных. Примеры: доля женщин в изучаемой совокупности; средний возраст респондентов; величина разброса респондентов по возрасту (например, выраженная в виде соответствующей дисперсии); наиболее часто встречающаяся среди респондентов профессия; нижний уровень дохода 10 % самых богатых респондентов и т.д. Заметим, что совокупность наиболее употребительных приемов получения закономерностей, описывающих изучаемое множество объектов, называется описательной, или дескриптивной, статистикой. Это – одна из областей анализа данных (см. раздел 1 части 2).
Прогноз тех или иных характеристик жизни общества по существу служит целью выявления любой закономерности: изучать ту или иную сторону жизни общества чаще всего надо для того, чтобы научиться управлять какими-либо процессами. Прогноз осуществляется обычно с помощью довольно сложных алгоритмов. Часто методы анализа данных (в качестве "прогнозных" методов могут использоваться, например, алгоритмы регрессионного анализа, см. п. 2.6.2 части II) здесь сопровождаются полуформализованными процедурами построения экспертных сценариев (см., например, [Задорин, 1994]) .
Для понимания сути анализа данных важно отметить, что и при описании данных, и при прогнозе могут использоваться алгоритмы того же рода, что и при поиске основной закономерности. Границы между этими тремя целями часто бывают размыты. Кроме того, можно выделить и другие цели18. Упомянем здесь лишь одну из них, лежащую в русле уже упомянутой нами гуманитарной парадигмы – понимание изучаемого явления.
Как известно, термин "понимание" как название одной из главных функций науки с конца XIX века является ключевым для социологии. Если творчество О.Конта было шагом вперед в том смысле, что он одним из первых сказал, что социология – такое же строгое направление в науке, как и ее естественные ветви, и был явным сторонником того, что в наше время называют социологическим реализмом (мы полагаем, что это было шагом вперед, хотя в современной отечественной литературе принято "ругать" Конта за то, что он, говоря о методах социологии, "не усмотрел" человека; на наш взгляд, подобная "критика" не учитывает исторических условий жизни основоположника социологии), то к названному периоду стала ясна необходимость обращать больше внимания на мотивы поведения отдельных людей, т.е. необходимость учета постулатов социологического номинализма. В творчестве В.Дильтея родился термин "понимающая психология", в творчестве М.Вебера – термин "понимающая социология" (красноречиво выглядит также то, что В.А.Ядов при последнем переиздании своей известной книги по методике социологических исследований [Ядов, 1998] снабдил ее подзаголовком: "описание, объяснение, понимание социальной реальности").
В литературе уделяется огромное внимание анализу сходства и различия смыслов терминов "объяснение" и "понимание" как отражений соответствующих функций науки. Как известно, с именем Дильтея связано разделение наук на науки о природе и науки о духе (социология принадлежит к числу последних). Бытует точка зрения, в соответствии с которой главная познавательная функция наук о природе – объяснение (подведение единичного объекта под общий закон, в результате чего уничтожается неповторимость объекта), а наук о духе – понимание (т.е. изучение объекта в его неповторимости). Мы присоединяемся к другому мнению, в соответствии с которым любая наука (это особенно касается наук о человеке и, в частности, социологии) должна и объяснять, и понимать (свое "понимание" имеется, скажем, даже в математике; этого мы здесь не касаемся) .
Мы не можем не упомянуть о понимании как об одной из познавательных функций социологии в силу огромной важности достижения понимания изучаемого объекта (человека) в любом социологическом исследовании. Однако, поскольку в данной работе нас интересует только анализ данных, то ограничимся сказанным и напоминанием читателю того, что "понимание" обычно достигается с помощью мягких методов исследования, что для анализа их результатов существует масса приемов, составляющих т.н. анализ качественных данных, о котором мы уже говорили в п. 1.2. Вернемся к описанию, объяснению, предсказанию.
Подчеркнем, что выше мы везде неявно предполагали, что для описания какого-либо явления, выявления определяющих его причин, предсказания последствий и т.д. необходимо использование математики. Мы считали очевидным, само собой разумеющимся, что анализировать данные, изучать на этой основе окружающую нас реальность, можно только с помощью математических методов. А так ли это? Этот вопрос тем более актуален, что любому социологу не раз приходилось слышать о том, что использование математики в социологии связано с определенными проблемами.
Теперь попытаемся пояснить, почему процесс анализа данных должен опираться на применение математического аппарата, и какого рода сложности возникают при использовании математики в науке вообще и в социологии в частности.