Проблемы, связанные с использованием сводных данных
Из предшествующего изложения видно, что специфические проблемы, встающие при анализе сводных данных, меняются в зависимости от типов и источников этих данных. Существуют, однако, некоторые общие проблемы, с которыми всегда приходится сталкиваться при использовании сводных данных. Мы рассмотрим две такие проблемы, не ставя перед собой цели предложить готовые их решения, но желая предупредить исследователя о необходимости не упускать их из поля зрения.
Обсудим сначала так называемую проблему экологической ошибки, которую необходимо учитывать при составлении плана исследования и при спецификации и операционализации переменных, равно как и собственно при принятии решения об использовании сводных данных применительно к конкретному исследовательскому вопросу.
Исследователь рискует совершить одну из нескольких экологических ошибок всякий раз, как он пытается, основываясь на данных, собранных на одном уровне анализа, обобщить результаты на другой уровень анализа. Например, если мы, собирая данные о расовой принадлежности получателей государственного социального пособия в разных штатах США, обнаружим наличие сильной прямой зависимости между получением регулярной помощи от государства и принадлежностью к небелому населению, у нас может возникнуть искушение распространить этот результат на более высокий, т.е. общенациональный, уровень и объявить, что эта зависимость верна для данного государства в целом, либо, наоборот, обобщить “вниз”, допустив, что зависимость, обнаруживаемая в каждом отдельном штате, будет также верна и для каждого из его округов. Если же сведением данных мы занимаемся на общенациональном или окружном уровне, то, возможно – а по сути дела, почти наверняка, – мы обнаружим, что на [c.302] этих уровнях наблюдается зависимость, сильно отличная от той, которая была получена на основе данных, сведенных на уровне штата. Эмпирическое изучение “экологической” проблемы показало, что зависимости на разных уровнях могут быть не просто слабее или сильнее, но они могут быть даже разнонаправленными5. Когда исследователь экстраполирует результаты одного уровня анализа на другой, он рискует неверно проинтерпретировать свои данные и прийти к ошибочным выводам.
Значит ли это, что мы должны использовать только те данные, которые были сведены на уровне единиц анализа, изначально выбранных нами для изучения, и что мы в своем исследовании совсем не можем обобщать “вверх” или “вниз”? Нет, это не так. Существуют методы анализа данных, которые при определенных условиях помогают по меньшей мере свести к минимуму тот риск, с которым бывают связаны межуровневые обобщения6. Когда исследователь видит, что он волей обстоятельств вынужден использовать данные, сведенные не на том уровне анализа, с которым он имеет дело, а на другом, то, прежде чем собирать данные, он должен предусмотреть применение одного или нескольких таких методов и проследить, чтобы имеющиеся у него данные отвечали их требованиям.
Наверное, еще важнее проявлять бдительность – памятуя о риске “экологических” заключений – при планировании исследования и операционализации понятий. Здесь надо по возможности избегать применения показателей, требующих обобщения результатов разных уровней анализа. Пусть, например, задачей нашего исследования является определение зависимости между членством в профсоюзе и поддержкой демократической партии (в США), и в нашем распоряжении оказываются сводные данные по избирательным округам, где указано, какой процент избирателей каждого округа голосовал на последних выборах за демократов и какой процент трудящихся каждого округа состоит в профсоюзе. Мы сможем использовать эти данные только в том случае, если единицей нашего анализа являются избирательные округа, а целью анализа – суждения типа: “Чем больше в округе членов профсоюзов, тем больше вероятность, что на выборах в нем победит кандидат от демократов”. Однако если единицей анализа у нас выступают отдельные избиратели [c.303] (индивиды), то мы будем стремиться к получению суждений типа: “Члены профсоюзов, как правило, голосуют за кандидатов от демократов”. При этом мы не можем сколь-нибудь уверенно использовать сводные данные по избирательным округам, и будет разумнее, если мы попытаемся поискать данные, относящиеся к членству в профсоюзе и поведению на выборах отдельных индивидов.
Вторая (близкая первой) группа проблем, часто встречающихся при анализе сводных данных, связана с трудностями построения на основе сводных данных валидных показателей. Редко когда случается обнаружить сводные цифры, которые можно было бы использовать в качестве непосредственной меры какого-либо интересного для политолога понятия. Чаще всего мыимеем дело с числами, представляющими такие переменные, которые можно рассматривать как часть какого-то более крупного явления, с которым связаны наши базовые понятия. При изучении политических последствий научно-технического прогресса, например, исследователю, возможно, не удастся найти сводных данных, непосредственно отражающих уровень научно-технического прогресса в различных странах. Но он, наверное, сможет получить информацию о том, какая часть населения каждой страны грамотна, или живет в населенных пунктах численностью свыше 25 тыс. человек, или занята в несельскохозяйственных отраслях экономики; все эти параметры могут рассматриваться как составляющие научно-технического прогресса. Подобные цифры часто называют необработанными (“сырыми”) данными; они интересуют исследователя не сами по себе, а как основа для создания важных в рамках конкретного исследования понятий.
Перед исследователем стоит задача найти поддающиеся теоретическому и методологическому обоснованию пути превращения необработанных данных в пригодные для использования меры. Существует два основных подхода к этому – через формирование индексов и через преобразование данных.
Построение индекса заключается в сведении сложных данных в единый показатель, который отражает значение понятия полнее, чем любой из его компонентов. Широко используются три типа индексов – аддитивные, мультипликативные и взвешенные. Аддитивный индекс употребим [c.304] в тех случаях, когда доступные исследователю данные отражают различные меры одной и той же базовой переменной. Например, для получения показателя понятия “размеры экспорта сельскохозяйственной продукции” мы могли бы просто сложить все отчетные цифры, отражающие количество экспортированной пшеницы, кукурузы и соевых бобов (в бушелях); для выяснения размеров “религиозного сообщества” в некоторой стране можно было бы просуммировать все числовые данные, отражающие количество приверженцев различных религий, исповедуемых в этой стране.
Часто, однако, сводные данные отражают меры различных сторон некоторого явления, что не допускает возможности суммирования. Следуя законам математической логики, мы не можем, например, складывать число людей, участвовавших в беспорядках, с числом часов, в течение которых длились эти беспорядки, в надежде тем самым построить индекс степени серьезности беспорядков. Число участников и продолжительность являются неаддитивными элементами явления под названием “беспорядки”. Можно, однако, утверждать, что эти два элемента взаимодействуют друг с другом, и тогда для получения показателя степени серьезности беспорядков мы могли бы число участников умножить на число часов, вычислив таким образом число “человеко-часов”, пришедшихся на беспорядки. Полученный таким путем показатель называется мультипликативным индексом. Подобные индексы бывают нужны в тех случаях, когда мы измеряем различные аспекты некоторого понятия7.
При определенных обстоятельствах необработанные данные – для того чтобы стать обоснованным показателем понятий – нуждаются во взвешивании с помощью некоторого эталона. Например, использование числа участников антиправительственной манифестации в качестве показателя величины кредита доверия к правительству правомерно только тогда, когда это число выражено в форме процентного отношения к численности всего населения. Чтобы получитьвзвешенный индекс, мы должны одну переменную (число участников антиправительственных манифестаций) взвесить с помощью другой (численности населения). Точно так же, исходяиз предположения, что десять демонстраций в год указывают на [c.305] большую политическую нестабильность, чем те же десять демонстраций, но растянутые на десять лет, мы могли бы число антиправительственных демонстраций взвесить с помощью эталонной переменной “время”, получив индекс количества демонстраций в год. Этот конкретный тип взвешивания называется стандартизацией.
Взвешивание – технически простая операция, но с концептуальной стороны зачастую бывает трудно определить, нуждается ли конкретная мера во взвешивании и что следует выбрать в качестве эталона веса. Неясно, к примеру, что выступает в роли спускового крючка гонки вооружений: абсолютные уровни вооружений вовлеченных в гонку государств или определенное соотношение этих уровней? Следует ли в качестве эталона веса использовать уровень вооружений государства-противника? Ответы на подобные вопросы обычно можно получить посредством эмпирического выяснения того, как именно применение взвешенных и невзвешенных показателей влияет на результаты статистического анализа.
Случается, что при использовании сводных данных исследователь сталкивается с такими мерами, которые невозможно сделать пригодными для целей конкретного исследования путем простого сочетания с другими мерами и их необходимо видоизменить в индивидуальном порядке. Иногда даже индексы после их видоизменения становятся более пригодными. Такие видоизменения обычно называются преобразованиями данных. Данные преобразуются главным образом для того, чтобы они отвечали требованиям определенных статистических процедур, которые исследователь намеревается применять в процессе анализа. Самым общим основанием для преобразования данных является необходимость избежать такого искажения результатов статистического анализа, которое бывает обусловлено определенными свойствами распределения необработанных данных.
Существует много методов преобразования данных, и каждый из них рассчитан на исправление вполне определенных изъянов, имеющихся у необработанных данных8. Однако логарифмическое преобразование может, пожалуй, служить хорошим общим примером того, как работают эти методы. Некоторые из наиболее часто используемых статистических процедур могут быть законно применены [c.306] только к данным с нормальным распределением (о нормальном распределении см. гл.15). Применение этих процедур к данным, не характеризующимся нормальным распределением, может привести к серьезной недооценке силы зависимостей, существующих между переменными, и к другим неверным выводам. Но необработанные сводные данные чаще всего не отличаются нормальным распределением. Логарифмические преобразования рассчитаны как раз на то, чтобы как можно более приблизить данные к нормальному распределению. Основная процедура состоит в том, что к “оценке” каждого случая в рамках множества необработанных данных прибавляется некоторая константа, после чего исходная оценка заменяется на подходящий логарифм с использованием логарифмической таблицы. Итог такого преобразования виден на рис.10.1, где показаны результаты преобразования гипотетических данных о числе людей, принявших участие в демонстрациях в защиту прав гомосексуалистов в 57 городах США. Распределение преобразованных данных (см. рис. рис.10.1б) не образует нормальной, или колоколообразной, кривой, но оно гораздо ближе к ней, чем распределение необработанных данных (см. рис. рис.10.1а).
Сказанное выше не следует интерпретировать в том смысле, что иметь дело сразу с несколькими мерами нежелательно. Наоборот, иметь множественные показатели (multiple indicators) понятий весьма желательно; при этом зачастую полезно как объединять разные меры в индексы, так [c.307] и изучать их на каком-то этапе анализа данных отдельно друг от друга. Это мотивируется тем, что использование множественных показателей позволяет контролировать степень обоснованности нашей операционализации понятий.
Пусть, например, мы хотим измерить понятие “дискриминация по признаку пола в сфере занятости” применительно к разным американским штатам. Допустим, нам удалось раздобыть данные по следующим переменным:
(1) соотношение средней заработной платы мужчин и женщин;
(2) доля женщин среди работников квалифицированного труда;
(3) соотношение уровней безработицы среди мужского и среди женского населения.
Мы можем использовать все три показателя, приписав каждому штату оценку (ранг) в рамках каждой переменной, а затем сравнив полученные результаты. Если те штаты, в которых выявляется наибольшая степень дискриминации по одному показателю, заняли высокий ранг и по другим показателям, то у нас есть все основания полагать, что каждый из этих показателей является валидной мерой базового понятия “дискриминация по признаку пола в сфере занятости”. С другой стороны, если мы обнаружим, что штаты, занявшие высокий ранг по двум каким-то показателям, по третьему из показателей имеют низкий ранг, то нам придется воздержаться от дальнейшего использования этого последнего девиантного показателя в качестве меры нашего базового понятия.
Чем больше независимых показателей удается выделить для каждого понятия, тем лучше, потому что большее количество показателей позволяет осуществить более основательную проверку валидности каждого из них. Так, в отношении предыдущего примера, где были выделены всего три меры, мы не можем быть совершенно уверены в том, что “девиантная” мера не является на самом деле валидной, а две другие, наоборот, лишенными валидности. Возможно, именно в силу своей валидности эта мера отклоняется от других показателей в том, как они ранжируют штаты. Если бы, однако, у нас было пять или десять мер, которые бы вполне непротиворечиво ранжировали штаты, наряду с одной стоящей в стороне от них мерой, то мы бы могли быть совершенно уверены в том, что валидности [c.308] лишена именно эта девиантная мера, а не остальные. Существует целый ряд методов, использующих множественные меры для проверки и усиления валидности показателей9.
Существует еще один очень важный вопрос, о котором необходимо помнить при использовании сводных данных. Он связан с тем фактом, что сводные данные доступны подчас только в форме, не позволяющей делать состоятельных сравнений между единицами. Так, например, если нас интересует, какое внимание уделяется в различных американских штатах вопросам народного образования, то нам следовало бы поискать данные о величине ежегодных расходов каждого штата на народное образование. Было бы, однако, некорректно сравнивать общую сумму денег, расходуемых Техасом, с общей суммой, расходуемой Род-Айлендом, ввиду того что эти штаты несопоставимы по размерам и благосостоянию. Род-Айленд может расходовать только малую долю того, что расходует Техас, и при этом демонстрировать большую степень заботы о народном образовании, благодаря тому что здесь на школы будет тратиться намного больше в расчете на каждого ребенка школьного возраста или относительно объема всего бюджета штата. Чтобы сравнить бюджеты штатов, нужно перевести данные об их расходах на образование в такую форму, которая бы учитывала имеющиеся между ними различия в численности населения и в величине бюджета. Если мы этого не сделаем, то у нас не будет валидного показателя базового понятия и наши выводы будут отражать не столько относительную величину заботы каждого штата о народном образовании, сколько его относительные размеры и благосостояние.
Подобные ситуации вынуждают нас каким-то образом стандартизовать наши меры. Мера является стандартизованной, когда она сформулирована так, чтобы в ней учитывались возможные расхождения между отдельными случаями в рамках переменных, отличных от той, которую она отображает. Очень часто бывает необходимо стандартизовать сводные данные перед тем, как приступать к сравнению единиц анализа. Это может повлечь за собой необходимость сбора данных по переменным, не имеющим прямого отношения к данному исследованию. Так, возвращаясь к предыдущему примеру, нам могут [c.309] понадобиться данные по численности населения и общей величине расходов штатов, чтобы с их помощью можно было стандартизовать расходы штатов на образование, выразив их в количестве долларов, приходящихся на обучение каждого ребенка школьного возраста, или в форме процентного отношения ко всему бюджету штата.
Точно так же, если бы мы захотели измерить понятие “милитаризация”, опираясь на цифры военных расходов различных государств, то, прежде чем делать какие бы то ни было сравнения, нам нужно было бы стандартизовать эту меру, выразив ее в форме процентного отношения к валовому национальному продукту (общая стоимость всех товаров и услуг, произведенных в данной стране за определенный период). Не сделай мы этого, и богатое государство будет выглядеть большим милитаристом, чем бедное, даже если оно расходует на военные цели относительно общей суммы своих доходов в десять раз меньше, чем бедное государство.
Итак, всякий раз, как вы собираетесь сравнивать какие-нибудь группы (страны, города, организации и т.п.), вам надо помнить о необходимости стандартизовать ваши меры и запланировать сбор дополнительных данных, которые могут понадобиться для стандартизации. Стандартизация обычно заключается в приведении меры к выражению вида “такое-то количество единиц в расчете на единицу какой-то другой переменной” или к форме процентного отношения к какой-то другой переменной. Это зачастую предполагает вычисление некоторого коэффициента, или уровня, как-то: уровень преступности (количество преступлений на тысячу человек населения), уровень грамотности (количество грамотных на тысячу человек населения), уровень детской смертности (количество детских смертей на тысячу рождений) и т.п. Дополнительная работа по сбору данных по тем переменным, с помощью которых должна быть стандартизована ключевая переменная, совершенно необходима, если стремиться к обоснованности сравнений между теоретически сильно различающимися случаями.
Итак, при анализе сводных данных исследователь должен не только проявлять осторожность в использовании необработанных данных в качестве показателей понятий, но и помнить о пользе множественных мер, а также о [c.310] возможности усовершенствования показателей посредством их сочетания, преобразования или стандартизации.[c.311]
ИСТОЧНИКИ СВОДНЫХ ДАННЫХ
Количество имеющихся в мире сводных данных так велико, что начинает казаться, что для каждого эмпирически полезного понятия могут найтись свои показатели. Изобилие данных иногда само по себе представляет проблему для исследователя, когда тот вынужден просматривать сотни источников в поисках всех существующих показателей. И в то же время при всем многообразии имеющихся данных исследователь бывает часто не в состоянии найти показатели, относящиеся именно к тому понятию, которое он хочет измерить, именно к нужному ему периоду времени и сведенные именно на нужном ему уровне анализа.
Мы не можем перечислять все источники сводных данных10. Но мы упомянем те источники данных общего характера, которые скорее всего могут понадобиться политологу. Хотя некоторые источники включают в себя данные по целому ряду проблем и поэтому не могут быть охарактеризованы как содержащие какой-то один конкретный тип данных, мы сгруппировали перечисляемые ниже источники в соответствии с тем, какой основной тип данных в них отражен.
Ключ к успешной работе с любыми документами и архивами данных лежит в точном знании того, какой тип показателей вы ищете. В уяснении этого вам может помочь испытываемая вами гипотеза, разрабатываемая теория или точная формулировка вашего исследовательского вопроса, благодаря которой вы лучше поймете, какой тип данных (например, общенациональный показатель производительности труда или размеры вооруженных сил страны) необходим для операционализации применяемых в вашем исследовании понятий. Если вы отправляетесь в библиотеку с намерением просто полистать доступные источники и, возможно, натолкнуться на какие-то полезные показатели, то вас почти наверняка постигнет самая горькая и абсолютно заслуженная неудача. Если же вы идете туда, имея в голове ясно продуманный план исследования, то вы по крайней мере будете в состоянии объяснить библиографу или работнику справочного отдела, что вам нужно.[c.311]
1. Демографические и связанные с ними данные по США. Вся статистика, публикуемая службами федерального правительства, находит отражение в “Американском статистическом указателе” (“American Statistical Index”), который можно использовать для установления того, какие имеются источники по конкретным показателям. Кроме того, публикации Бюро переписей отражаются в “Каталоге публикаций итогов переписей в США” (“Catalog of the United States Census Publications”), где описаны данные переписей жилищного фонда, населения, правительственных учреждений, сельского хозяйства и пр. Большая часть этих данных суммируется в издании “Статистическая сводка по США” (“Statistical Abstract of the United States”), которое содержит избранные статистические очерки по США в целом и по отдельным регионам страны, а также обширный указатель государственных и частных источников данных. Итоги каждой переписи в США в сжатом виде приводятся в издании “Subject and U.S. Area Reports”. В издании “Каталог Бюро переписей” (“The Bureau of the Census Catalog”) описываются все материалы, находящиеся в распоряжении Бюро переписей (опубликованные и неопубликованные). Это издание содержит географический и предметный указатели и выходит ежеквартально.
Из специализированных источников наиболее широко используются “Справочник по избирательным округам США” (“Congressional District Data Book”), где приводится демографическая и экономическая информация, а также результаты голосования в различных избирательных округах США, и “Справочник по округам и городам США” (“County & City Data Book”), содержащий ежегодные демографические и экономические данные по отдельным штатам, округам, городам и городским поселениям с населением свыше 25 тыс. человек. Сходные сведения имеются и в “Справочнике по отдельным штатам и столичному району” (“The State and Metropolitan Area Data Book”), издаваемом Бюро переписей. Данные голосования в сжатом виде публикуются в “Справочнике по выборам в США” (“Guide to U.S. Elections”), где даются сведения о результатах выборов президентов, губернаторов штатов и депутатов сената и палаты представителей (начиная с 1824 г.), и в издании “Америка голосует” (“America Votes”), [c.312]освещающем результаты всеобщих и первичных выборов (с 1952 г.).
2. Демографические и связанные с ними данные по другим странам. Сознавая все трудности, возникающие при поиске сравнимых данных по практически любой переменной, некоторые исследователи взяли на себя труд составления справочных пособий, в которых приводятся сведения по общенациональным показателям, представляющим наибольший интерес для политолога. Особой популярностью пользуются следующие три справочника:
1. Тауlоr Ch. L., Jоdiсе D.A. (eds.). World Handbook of Political and Social Indicators. – New Haven: Yale Univ. Press, 1983. Здесь представлены показатели почти по всем странам мира, отражающие как демографические, так и политические особенности отдельных государств (например, форму и степень стабильности государственного режима и пр.);
2. Rummеl R.J. Dimensions of Nations. – New Haven: Yale Univ. Press, 1971. Данное издание представляет собой исследование 82 стран мира по 236 показателям демографических, экономических и политических признаков;
3. Вanks A.S. Cross-Polity Time-Series Data. – Cambridge (Mass.): MIT Press, 1971. Содержит сведения исторического характера по 102 политическим, экономическим и демографическим признакам для 155 государств.
Существуют также и другие подобные издания.
Имеется, кроме того, целый ряд источников, в которых содержатся данные, собираемые различными международными организациями и государствами. Исследователь, обращающийся к таким источникам, должен быть особенно внимателен в отношении сравнимости приводимых в них цифр. Статистическое бюро ООН, Отдел экономических и социальных проблем (UN Statistical Office, Department of Economical and Social Affairs), регулярно публикует три в высшей степени полезных издания. В “Статистическом ежегоднике” (“Statistical Yearbook”) в сжатом виде приводятся данные по народонаселению, экономической деятельности, системе образования, средствам связи всех стран мира. “Статистический ежегодник государственных бюджетов” (“Yearbook of National Accounts Statistics”) содержит подробную информацию об экономической [c.313] деятельности, а “Демографический ежегодник” (“Demographic Yearbook”) – исторические сведения по народонаселению, а также специальные очерки по отдельным проблемам (по территориальному распределению населения, по уровням смертности, по этническому составу населения и пр.). Кроме того, ЮНЕСКО публикует “Статистический ежегодник” (“Statistical Yearbook”), в котором суммируются данные документов ЮНЕСКО по вопросам народного образования, здравоохранения и др. Существует также “Ежегодник государственного деятеля” (“Statesman’s Yearbook”), предоставляющий подробную информацию о различных странах, собранную из ряда государственных и международных источников. “Ежегодник Европы” (“Europe Yearbook”) несет в себе различные сведения по европейским, а в последние годы и по неевропейским странам (в удобной для использования форме). Дополнительные цифры итогового характера можно обнаружить в изданиях “Мировой альманах” (“World Almanac”) и “Энциклопедия стран мира” (“Worldmark Encyclopedia of Nations”), снабженных хорошими указателями. Много экономической информации содержится в “Статистическом ежегоднике международной торговли” (“Yearbook of International Trade Statistics”).
3. Данные по правительственным учреждениям в США. Американские федеральные и местные органы власти выпускают тысячи публикаций, отражающих различные аспекты положения в обществе и их собственной деятельности и приуроченных к проведению различных мероприятий государственной политики. Конечно, в качестве наиболее плодовитого поставщика информации выступает федеральное правительство, чьи многочисленные публикации перечисляются в “Ежемесячном каталоге публикаций правительства США” (“Monthly Catalog of U.S.Government Publications”). Если вы приблизительно знаете, от какого ведомства или правительственного органа может исходить интересующая вас информация, то в “Ежемесячном каталоге” вы можете обнаружить сведения о публикациях этого органа. “Окружной ежегодник” (“County Yearbook”) .и “Муниципальный ежегодник” (“Municipal Yearbook”) содержат данные местного уровня по политическим, экономическим и демографическим переменным. [c.314]
4. Событийная информация. По своей природе событийные данные не могут фиксироваться регулярно и в сжатой форме. Их приходится отыскивать в текущих сводках новостей, составляемых, как правило, без какой-либо оглядки на специфические интересы политологов. Два наиболее полных источника газетных новостей – это указатели (индексы) к “Times of London” и “New York Times”. Еженедельный дайджест текущих событий (с распределением их по темам) представлен в “Facts-on-File”; впоследствии эти сведения собираются в ежегоднике “New Dictionary”, уделяющем основное внимание событиям внутри и вокруг США. “Deadline Data on World Affairs” сообщает о событиях в мире, группируя их по странам и темам. По-видимому, самым пространным дайджестом новостей общего характера является “Keesing’s Contemporary Archives: Weekly Diary of World Events”, где печатаются стенограммы важнейших речей, информация о выборах и сводки новостей, а также имеются предметный и именной указатели.
5. Опросные данные. Все перечисленные выше источники представляют данные в печатном виде. Использование их в крупных исследовательских проектах предполагает необходимость аккуратной регистрации данных и приведения их к машинночитаемому виду. Наиболее полезные источники опросных данных, наоборот, являют собой множества необработанных данных, зафиксированных в машинно-читаемой форме. Доступ к ним можно получить в ряде архивов данных, о которых мы говорили выше.
Важно упомянуть о том, что существует также много частных источников данных. Какие из них способны пригодиться в каждом конкретном исследовании, определяется спецификой предмета исследования. Если исследование касается структуры капиталовложений западноевропейских компаний, то полезные для нее данные можно найти в частных банках или общенациональных и международных ассоциациях банков. [c.315]
СБОР СВОДНЫХ ДАННЫХ
Установив, какие источники данных нужны для исследования, исследователь оказывается перед проблемой перевода данных источника в пригодную для использования форму (кроме тех случаев, когда данные записаны на [c.315]перфокартах и магнитных носителях). Основная задача тут заключается в систематическом кодировании и регистрации данных.
Хотя эти операции займут всего лишь малую долю того времени, которая понадобилась бы для сбора тех же самых данных полевым способом, тем не менее такая работа может оказаться весьма трудоемкой. Поэтому очень важно организовать ее как можно более эффективно. Прежде всего следует заранее тщательно обдумать план исследования и ход намечаемого вами анализа данных, с тем чтобы уяснить для себя, применительно к каким именно случаям вам необходимы сводные данные и какие именно меры вас интересуют в отношении каждого из этих случаев. Не сделав этого, вы рискуете потерять время на фиксацию в конечном счете ненужных вам данных. Более того, если достаточно тщательно спланировать исследование, составив список приоритетных случаев и переменных, то при внезапно обнаруживающейся нехватке времени или средств на сбор данных можно будет легко принять наиболее рациональное решение, выключив из рассмотрения некоторые случаи или переменные, так чтобы обойтись при этом по возможности малыми жертвами. Если не принять такого решения, то это будет значить, что надо действовать строго последовательно, собирая либо сразу все данные по каждому случаю (в ситуации, когда вы хотите оставить за собой право опускать по ходу дела какие-то случаи, сохраняя, однако, все переменные), либо данные сразу по всем случаям для каждой переменной или собирать данные для всех случаев по каждой переменной в отдельно взятый момент (если вам нужна эта информация, но вы хотите иметь возможность исключить некоторые переменные).
Так или иначе вам понадобятся два основных средства сбора данных: набор спецификаций данных и регистрационный бланк данных (recording form). Спецификации данных – это просто подробные описания данных, подлежащих регистрации для каждого случая и для каждой переменной, включая любые инструкции по кодированию. Иногда в качестве спецификации может выступать одна-единственная фраза (в случае данных переписи и ведомственной статистики), например общая численность муниципальных служащих в 1980 г. или взрослое население [c.316]страны в 1970 г. Случается, однако, что простые по видимости данные требуют пространных спецификаций. Например, если мы хотим получить цифру, отражающую общую величину государственных расходов на программы социального обеспечения в каком-то определенном году, нам придется сформулировать, что в рамках данного исследования понимается под “программой социального обеспечения”; если нам нужна мера численности личного состава вооруженных сил государства, то мы должны будем включить в спецификацию этой меры оговорку, исключающую из подсчета полицейские силы применительно к тем странам, где полиция формально входит в состав вооруженных сил. Навыки работы с подобными деталями приходят в результате предварительного изучения, с одной стороны, предмета исследования, а с другой – различных систем фиксации конкретных единиц анализа. Но и после такого изучения исследователь может столкнуться с дополнительными трудностями. Так, например, может выясниться, что запланированные бюджетом и реальные расходы на социальное обеспечение сильно различаются или что в исследовании, предполагающем анализ временного ряда, необходимо учитывать поправки на инфляцию. Но какую бы корректировку ни приходилось вносить в исследование в ответ на подобные “хитрости” материала, делать это надо методологически грамотно и сообразуясь со значением понятия, операционализированного посредством конкретной меры.
При сборе событийной информации понадобятся очень подробные спецификации данных, гарантированно учитывающие все значимые различительные признаки. К примеру, может оказаться необходимым различать беспорядки и мирные демонстрации, про- и антиправительственные демонстрации и т.д. Самый надежный способ это сделать – занести в кодировочную инструкцию, которой предстоит пользоваться кодировщику при заполнении листа регистрации, те признаки (пусть даже мелкие), которые отличают интересующее исследователя событие от других событий. (О кодировании см. подробнее в гл.12.)
Регистрационный бланк предназначен для облегчения процесса сбора данных. Это аналог бланка интервью, используемого в опросном исследовании, поскольку, как и [c.317]бланк интервью, регистрационный бланк является средством систематизации и кодирования наблюдений. Если данные предстоит впоследствии переносить на перфокарты или на дисплей, в листе регистрации для ускорения ввода в машину может быть оговорена ширина каждого столбца, рассчитанного на запись того или иного типа информации. В книге Т.Р. Гурра11 приводится пример заполнения регистрационного бланка событийных данных (см. рис. 10.2 и 10.3).[c.318]
ЗАКЛЮЧЕНИЕ
Мы хотели бы призвать начинающих исследователей отдать должное потенциальным возможностям сводных данных как дополнения к другим видам данных. Хотя существует множество исследований, опирающихся исключительно на сводные данные, последние часто могут быть использованы также и для контрольной проверки точности результатов, полученных на основании данных других видов. Например, те, кому доводилось изучать поведение избирателей на выборах, наверняка сталкивались со случаями, когда те люди, которым свойственно всегда занимать сторону победителя, в интервью, взятых после выборов, начинают обманывать, заявляя, что они голосовали за победившего кандидата. Долю ложной информации в выборке здесь могут помочь оценить как раз сводные данные по результатам голосования. Если из ответов опрашиваемых следует, что за победителя на последних президентских выборах голосовало 75% избирателей округа, а статистика результатов голосования говорит, что реально за него голосовало лишь 25% избирателей, то результаты опроса придется признать недостаточно (по меньшей мере) валидным показателем той степени поддержки, которой победивший кандидат пользуется в данном округе.
Кроме подобного применения, возможно использование сводных данных в качестве основы для выработки дополнительных показателей понятий, что позволяет контролировать валидность с помощью множественных показателей (этот подход обсуждался нами выше). Так, желая определить степень стабильности социально-политического положения в некотором районе, мы могли бы, с одной [c.318]стороны, опросить жителей на предмет того, собираются ли они и дальше проживать в этом районе, а с другой – в качестве дополнительного показателя изучить сводные данные о частоте смены домовладельцев в районе за последние несколько лет. Когда результаты исследования подтверждаются данными, собранными столь различными методами, степень доверия к этим результатам сильно возрастает. [c.319]
Дополнительная литература к главе 10
Специальных руководств, посвященных исключительно анализу сводных данных, не существует. Информация о сводных данных большей частью разбросана по отдельным работам, отражающим результаты применения различных методов анализа сводных данных. Методика использования сводных данных в политологии в общих чертах лучше всего описана в работах: Gurr T.R. Politimetrics. – Englewood Cliffs (N.J.): Prentice-Hall, 1972; Merritt R.L. Systematic Approaches to Comparative Politics. – Skokie (Ill.): Rand McNally, 1970. Chap. 2. Целый ряд практических советов приводится в работе: Stewагt D.W. Secondary Research. – Beveriy Hills (Calif.): Sage, 1984. Более развернутое изложение проблем и методов применения сводных данных (с примерами) содержится в кн.: Тауlоr Ch. L. (ed.) Aggregate Data Analysis. – Paris: Mouton, 1968. Дополнительные примеры исследований, основанных на сводных данных, собраны в кн.: Тufte Ed. R. (ed.) The Quantitative Analysis of Social Problems. – Reading (Mass.): Addison-Wesley, 1970. [c.327]
Работа: Steward Ph. L., et al. Political Mobility and the Soviet Political Process: A Partial Test of Two Models. // American Political Science Review. 1972. Vol. 66. P. 1269–1290, – представляет собой особо впечатляющий прием использования в качестве сводных данных результатов контент-анализа публикаций. Примером использования в качестве сводных данных результатов опроса может служить исследование: Hamilton R.F. Class and Politics in the United States. – N.Y.: Wiley, 1972. На использовании оценочных данных построена в основном работа: Banks A.S., Техtоr R.B. A Cross-Polity Survey. – Cambridge (Mass.): MIT Press, 1965. Весьма поучительным примером использования демографических данных и ведомственной статистики может считаться работа: Lеwis-Bесk M.S. The Relative Importance of Socioeconomic and Political Variables for Public Policy. // American Political Science Review. 1977. Vol. 71. P. 559–566.
Построение индексов обсуждается в работе: Valkonen Т. Individual and Structural Effects in Ecological Research. // Dоgan M., Rоkkan S. (eds). Social Ecology. Cambridge (Mass.): МГГ Press, 1968. P. 53–68, – а преобразование данных (и вообще способы сбора и применения сводных данных) – в кн.: Wеbb E.L. et al. Nonreactive Measures in the Social Sciences. – Boston Houghton Mifflin, 1981.[c.328]
Мангейм Дж.Б., Рич Р.К. Политология. Методы исследования: Пер. с англ. / Предисловие А.К. Соколова. – М.: Издательство “Весь Мир”, 1997. – 544 с.