Глава 5. Оптимизация социальной функции языка. Политическая лингвистика
Политическая лингвистика
может реализоваться и в тексте о правилах техники безопасности на производстве. Предсказать такие значения К-переменной довольно трудно. Понятно, что компьютерный контент-анализ пока используется только как средство жесткого контент-анализа. Использование разрабатываемых в настоящее время интеллектуальных процессоров может в перспективе изменить ситуацию.
На пятом этапепроисходит кодировка данных.
И, наконец, на шестом этапеосуществляется подсчет данных и интерпретация результатов. Для обработки результатов часто используются сложные статистические методы анализа, в том числе факторный и кластерный анализ.
Факторы контроля качества эксперимента. Втеории контент-анализа уделяется большое внимание обеспечению адекватности и точности проведения эксперимента. Для подготовки экспериментов и оценки их результатов учитываются факторы надежности (reliability) и достоверности/обоснованности (validity). Фактор надежностипроявляется в трех основных формах — стабильности, повторяемости и тщательности (accuracy). Стабильность— самая слабая форма надежности. Она определяется тем, насколько один и тот же кодировщик через некоторое время после первой кодировки так же сможет обработать данные. Понятно, что для компьютерной версии контент-анализа эта характеристика надежности выполняется постольку, поскольку не меняется программа кодировки. Повторяемостьявляется более сильной формой надежности, она характеризует возможность получения тех же результатов разными кодировщиками в разное время и в разных ситуациях по тем же инструкциям. Если разные кодировщики в разное время похожим образом кодируют одни и те же данные, используя одинаковые инструкции, то повторяемость эксперимента достаточно велика. Самой сильной формой надежности является тщательность,под которой понимается соответствие некоторой норме кодирования, выработанной экспертами. В элементарном случае тщательность проявляется в следовании выработанным инструкциям.
Фактор достоверности/обоснованностипроявляется во многих разнообразных формах. Одна из них — семантическая достоверность— определяется тем, насколько инструкции кодировщику учитывают многозначность языковых выражений, являющихся значениями К-переменной. Так, при проведении контент-анализа на К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) инструкция кодирования, учитывающая фактор семантической достоверности, должна делать различие между значениями слова война, отсеивая употребления типа (1).
(1) После этого тихо тлевшая войнаперешла в открытые боевые действия. «Мослифт» полностью перестал обращаться на тот самый завод, чьи технологии — капельная пропитка статоров, централизованная нарезка канатов с обваркой концов, автоматизированная очистка редукторов главного привода и тому подобные лифтовые премудрости, — существенно улучшают качество ремонта.
[«Известия»]
Для достижения семантической достоверности в компьютерном контент-анализе широко используется метод Key-Word-In-Context, сводящийся к построению конкордансов на каждое из значений К-переменной. Эксперт (иногда в интерактивном режиме) помогает компьютерной программе и отбрасывает те контексты, в которых языковой репрезентант К-переменной употребляется не в том значении, которое нужно.
Семантическая достоверность может быть усилена и в том случае, если вкачестве концептуальной переменной и ее репрезентантов выступает не одно слово, а словосочетание, более точно указывающее на сферу поиска. Например, в только что рассмотренном случае К-переменную «ВОЙНА-МИР» (по отношению к межгосударственным связям) можно переформулировать в виде «МЕЖГОСУДАРСТВЕННЫЙ КОНФЛИКТ» или «ПРОБЛЕМЫ В МЕЖДУНАРОДНЫХ ОТНОШЕНИЯХ» со значениями типа кризис в межгосударственных отношениях, международный конфликт/международные конфликты, напряженность в отношениях между странами X и Y и т. п. В литературе это иногда не вполне удачно называется введением темы[Мангейм, Рич 1999, с. 274, 275].
Еще одна форма достоверности — достоверность отбора данных(sampling validity) — относится к формированию корпуса данных. Выборка данных для кодирования должна быть репрезентативна для проблемной области. В контент-анализе для отбора данных часто используется метод случайной выборки, а также метод стратификационной выборки. В последнем случае проблемная область разбивается по релевантным параметрам и на каждое значение параметра подбирается пример. Наконец, для некоторых типов данных, характеризующихся регулярностью, привлекается систематический отбор. Анализ объявлений о найме жилья предполагает сплошной отбор материала из определенных изданий за фиксированный промежуток времени. В принципе, здесь могут использоваться те же критерии репрезентативности, которые разрабатывались в корпусной лингвистике — см. § 3 главы 3. Другим аспектом достоверности отбора данных является отбор единицы кодирования, которая может определяться самим кодировщиком или диктоваться структурой данных.
Прагматическая достоверностьили достоверность предсказания,будучи довольно сильной формой фактора достоверности, характеризует возможность распространения выбранного метода и/или результатов на другие данные.
Виды контент-анализа.Выше уже говорилось о том, что в зависимости от принципов кодировки контент-анализ может быть жесткий и мягкий. Выделяется также содержательный и структурный контент-анализ. Контент-анализ, основанный на выделении концептуальной переменной и исследовании ее значений (репрезентантов) в тексте, называется содержательным.Возможен и другой вариант контент-анализа, при котором также предполагается выделение концептуальной переменной, однако ее репрезентанты изучаются с точки зрения формы. Например, К-пе-ременная «ВЫБОРЫ ПРЕЗИДЕНТА РОССИИ» может анализироваться