Глава 2. Оптимизация когнитивной функции языка. § 2. Прикладные аспекты квантитативной лингвистики43
§ 2. Прикладные аспекты квантитативной лингвистики43
коммерческие; б) субъективно-конъюнктурные; в) субъективно-эстетические; г) субъективно-психологические; д) субъективно-идеологические факторы. Есть и объективные факторы: а) документально-рукописные (археологические); б) исторические (биографии, свидетельства современников); в) историко-идеологические и сопоставительно-идеологические; г) историко-стилистические; д) художественно-стилистические; е) лингвостилистические. Однако чисто филологическое направление авторизации не позволяет построить объективные операциональные критерии анализа и атрибуции текста. К сожалению, большинство факторов, на которые обращает внимание В. В. Виноградов, плохо формализуемы. Иными словами, разные эксперты, используя одни и те же факторы, могут сделать совершенно различные выводы.
Перспектива объективизации экспертного знания была обнаружена в использовании количественных, статистических методов анализа текста. Пионером в этой области стал Н. А. Морозов, перу которого принадлежит опубликованная в 1915 г. работа «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд». Существенно, что в квантитативном анализе Морозов предлагал опираться не на тематически связанную лексику — слова, определяемые спецификой описываемого материала, его предметной и проблемной ориентацией, — а на служебные слова и слова тематически нейтральные. Дело в том, что именно особенности употребления служебных слов, лексем с общей семантикой, не привязанной к тематике художественного произведения, формируют авторский стиль и практически не поддаются имитации.
В настоящее время развитие методик авторизации текста наиболее продуктивно проходит в рамках стилеметрии. Лингвистические основания авторизации могут быть различны, но использование количественных методов анализа оказывается неизбежным. Одно из перспективных направлений в этой области — привлечение к авторизации текста теории распознавания образов. При таком подходе стиль описывается как пространство количественно выразимых параметров — средняя длина предложения, количество вложенных синтаксических структур, количество слов в предложении, количество предложений в абзаце и т.д. Далее каждый анализируемый текст выражается через вектор, координаты которого задаются значениями выбранных параметров. Сходство векторов определяет и сходство стилей[11].
Разрабатываются подходы, основанные на изучении количественных особенностей реализации синтаксических структур [Севбо 1981], а также на выявлении некоторых особенностей формальной структуры текста, связанных с выражением типов чужой и авторской речи. Соотношение чужой речи (прямой, смешанной, вложенной) с авторской также
оказывается стилеобразующим фактором. Эта характеристика стиля отражена в «формально-пунктуационном» методе структуризации текста, который реализован в компьютерной системе DISSKOTE [Гринбаум 1996]. Ниже разбирается пример авторской экспертизы текста, основанный на методике анализа квазисинонимичных лексем.
2.3. Авторизация текста: пример экспертизы
Одна из наиболее распространенных областей использования знаний о статистических закономерностях языковых явлений — экспертиза авторства текста. Типологически можно представить следующие базовые ситуации экспертного анализа.
A. Множественная неопределенность.Имеется множество текстов или
их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это,
разумеется, наиболее сложный случай анализа.
Б. Сравнение по образцу.Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).
B. Конкуренция образцов.Имеются образцы текстов авторов X, У,
Z... . Необходимо установить, кто из них является автором текстов
T1,T2,... ,Тn.
Приводимая ниже экспертиза[12] вписывается в рамки случая В. Речь шла о спорном авторстве. В качестве материала для исследования были получены тексты следующих произведений: «Следователь президента»; «Смоленская площадь»; «Безумные глаза»; «В погоне за невидимым убийцей»; «Незнакомец»; «Шакалы»; «Трудное решение».
Тексты были представлены в печатной и машиночитаемой форме (файлы в формате DOS TEXT). Выборочное сравнение файлов и страниц печатных текстов произведений показало, что они полностью совпадают с точностью до разметки гарнитуры и графических выделений в файлах. При компьютерной обработке символы разметки не учитывались.
Исходная проблема экспертизы была сформулирована следующим образом. Автором произведений «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» является Э. Плющихин, а произведений «Шакалы», «Трудное решение» — В. Непомнящий. Авторство произведений «Следователь президента», «Смоленская площадь» является предметом спора.
В процессе проведения экспертизы необходимо было подготовить ответ на следующие вопросы: