Методы аттестации текстов
Эти методы, как и большинство других, являются комплексными и основываются как на структурных и статистических методах, так и на методах качественного анализа. При аттестации текстов решаются следующие задачи:
- установление источника (и получателя), его пространственных и временных координат;
- установление логико-фактографической компоненты текста, его тематики;
- анализ полноты и непротиворчивости аргументации в рамках сообщения;
- установление эмоциональной компоненты текста и системы оценочных суждений источника;
- установление специфики лексикона источника в интересах паспортизации источника;
- выявление ценностной ориентации источника;
- установление категории текста;
- установление цели генерации текста;
- установление достоверности излагаемых фактов.
Весомый вклад в развитие этих методов внесли практически все перечисленные выше науки. Для специфических классов информационно-аналитической работы этот список может приобретать специфические черты за счет изъятия тех или иных пунктов. Полный комплекс задач, как правило, подлежит решению лишь в весьма специфических отраслях, как правило — связанных с решением задач обеспечения безопасности.
Задача установления источника (и получателя), его пространственных и временных координат может иметь очевидное решение, содержащееся в самом тексте, однако в ряде случаев может вызывать серьезные затруднения. В этом случае приходится применять достаточно сложные процедуры, связанные с анализом распределения служебных терминов, определением специфики лексикона источника. В частности, может строиться «спектр», а вернее — распределения частот употребления слов, принадлежащих к эталонному словарю, сопоставление с имеющимися спектрами-паспортами известных источников с целью отнесения к профессиональной/социальной, этнической/диалектной группе и т. п. Исследуются все имеющиеся в сообщении указания на его принадлежность к некоторому временному интервалу, отраженному в ссылках на некоторые значимые события, времена и даты которых известны или могут быть установлены (в том числе, такую информацию могут нести ссылки на цитируемые источники и т. п.). Определяется область пространства, из которой могло исходить сообщение, либо область, в которой имели место события, описываемые в сообщении. В некоторых случаях рассматривается схема построения адресации, используемая для описания размещения источника (такие задачи могут встречаться, например в глобальной телекоммуникационной сети Интернет, где по адресам серверов может быть установлена государственная принадлежность источника, опубликовавшего те или иные данные и т. д.).
Задача установления логико-фактографической компоненты текста, его тематики представляет собой задачу высокой сложности. Это связано с тем, что статус факта в сообщении может быть придан не только реальным событиям и явлениям, но и тем, которые на самом деле к этому разряду отнесены быть не могут. Такие искажения могут быть обусловлены множеством причин, в число которых могут входить и непреднамеренные ошибки логического плана, и некорректное построение грамматических конструкций, и преднамеренные искажения аргументации. Особый класс проблем возникает в связи с эмоциональной окрашенностью повествования, способной вызвать впечатление реальности факта, упоминание которого даже не встречалось в сообщении. Здесь важно выявить в тексте те маркеры, которые указывают на присутствие в тексте конструкций, соответствующих причинно-следственным, временным и пространственным отношениям, установить модальные конструкции типа «вероятно», «очевидно» и т. п., отсылающие к некоторой субъективной интерпретационной модели (редко декларируемой источником сообщения). На основе такого анализа текст может быть разделен на: 1) компоненты, которые могут быть отнесены к разряду фактов на основе объективных критериев; 2) компоненты, которые потенциально могут быть отнесены к разряду фактов (в существенной степени зависящие от совместимости субъективных моделей мира источника и потребителя сообщения); 3) компоненты, которые не могут быть интерпретированы как факт, но отражают специфику модели мира источника суждения.
Задача анализа полноты и непротиворечивости аргументации в рамках сообщения, чаще всего, требует формализации текста, приведения его к нормализованной лексике, исключающей метафорическое или некорректное употребление терминов. Для этого могут быть использованы методы, широко применяемые в современной лингвистике и теории формальных языков, реализованные на базе аппарата формальных грамматик в сочетании с семантическими сетями. После выполнения процедуры формализации текст становится пригоден для производства анализа логической корректности системы аргументов на основе применения формально-логических процедур.
Задача установления эмоциональной компоненты текста и системы оценочных суждений источника требует применения методов контент-анализа, основанных на детальном анализе текста с целью выявления слов, терминов или специфических ситуаций их употребления, способных воздействовать на эмоциональное состояние потребителя сообщения. При этом анализ должен проводиться на различных уровнях иерархии смысловыражающих и словообразующих единиц — от уровня морфем до уровня связных цепочек терминов, включая также выявление ритмического рисунка и аллитераций. Явным образом представленная расстановка эмоциональных акцентов в тексте (их соотнесение с терминами, выступающими в различных семантических ролях) позволяет выявить систему ценностей источника сообщения, сопоставить ее с набором классификационных эталонов и — в некоторых случаях — предсказать поведенческие особенности источника, а также более точно определить цели, преследуемые источником при генерации сообщения. Для этого могут использоваться различные методы — от традиционных методов морфологического разбора и анализа контекста употребления до новейших нейросетевых методов (в данном случае механизмы реализации несущественны).
Задача установления специфики лексикона источника в интересах паспортизации источника является существенной в приложениях, связанных с решением задачи сбора априорной информации об источнике сообщения (например, для дальнейшего взаимодействия с ним или выявления общеобразовательного уровня и/или профессиональной подготовленности в некоторой предметной области). В большинстве случаев эта задача может быть решена на основе статистического анализа текста и сопоставления с набором эталонов, полученных в результате анализа текстов аналогичной тематики, порожденных людьми с известными исследователям уровнем специальной подготовки и психологическими особенностями. При работе с текстами средств массовой информации, генерируемыми одной и той же группой авторов может быть сформирована адаптивная стратегия отбраковки текстов по авторам и тематике с учетом их квалификации в той или иной области знаний, а также для выявления «заказных» статей, написанных «под диктовку». Настоящий аналитик в состоянии оценить полезность подобных знаний. Здесь может быть использован опыт анализа принадлежности текстов перу того или иного автора или исторической эпохи, приобретенный в области источниковедения — специального раздела науки, лежащего на стыке исторической науки и лингвистики.
Задача выявления ценностной ориентации источника связана с решением задачи эмоциональной оценки текста. Ее успешное решение позволяет предвидеть поведенческие реакции источника сообщения, типы событий, оказывающие на него влияние и побуждающие к генерации сообщений. При наличии известных навыков, аттестация источника (выявление его ценностной ориентации) по порождаемым им текстам позволяет сформировать социальный, мировоззренческий портрет автора, его менталитет, позволяющий при использовании специальных методик осуществить информационное управление им. Здесь, в частности, могут быть использованы социальные технологии А.А. Шияна. Еще одно — весьма важное — приложение знаний о специфике ценностной ориентации источника сообщения — это фильтрация оценочных суждений источника. Кроме того, на основе анализа ценностной ориентации источника может быть сформирована гипотеза о мотивационных доминантах, определяющих процессы целеполагания автора.
Задача установления категории текста является задачей, решение которой целесообразно проводить в два этапа: формальный экспресс-анализ и детальный анализ. Экспресс-анализ направлен на оценивание целесообразности дальнейшей обработки текста, для чего в зависимости от целей анализа могут быть введены различные эталонные модели, позволяющие по ряду формальных признаков отнести текст к той или иной категории. К числу таких признаков могут быть отнесены: длина и степень сложности предложений, характеристика частотно-рангового распределения длин слов, пунктуационная специфика и иные. В литературе по лингвистике функциональная категория текста часто отождествляется со стилистическими особенностями, однако это именно тот подход, который реализуется на первом этапе установления категории текста. Детальный же анализ позволяет отнести текст именно к функциональной категории на основе более объективных критериев, возможность оценивания которых может быть получена лишь в результате решения всех задач, перечисленных ранее. При этом классификация функциональных категорий текста примерно соответствует функциональной классификации предложений и выделяет следующие категории текстов:
- информативные тексты, содержащие изложение фактов и/или нейтральных в эмоциональном плане суждений (эта категория примерно соответствует повествовательным предложениям), реализующие функцию передачи информации;
- проблемно-постановочные тексты, содержащие логическую аргументацию, направленную на выделение проблемы или комплекса проблем, однако не предлагающие путей решения проблемы (эта категория примерно соответствует вопросительным предложениям);
- побудительные тексты, содержащие побуждение к действиям, подкрепленные логической и/или эмоциональной аргументацией, реализующие функцию побуждения к действию.
Задача установления цели генерации текста непосредственно связана с предыдущей задачей установления функциональной категории текста, однако требует анализа прагматической компоненты и оснований для реализации функции целеполагания источником сообщения. Учитывая, что любое информационное взаимодействие направлено на формирование/модификацию модели мира потребителя сообщения, при решении этой задачи целью является установление того, направлен ли данный текст на синхронизацию модели мира потребителя с моделью мира источника или же целью источника является внесение рассогласования, десинхронизация моделей мира.
Задача установления достоверности излагаемых фактов является задачей, для решения которой требуется привлечение дополнительных источников информации, обладающих иным уровнем доказательности фактов, в том числе — использования результатов наблюдения за физическими проявлениями деятельности или пребывания некоторых объектов и систем в декларируемом состоянии.