Авторизация текста: пример экспертизы
Одна из наиболее распространенных областей использования знаний о статистических закономерностях языковых явлений — экспертиза авторства текста. Типологически можно представить следующие базовые ситуации экспертного анализа.
A. Множественная неопределенность. Имеется множество текстов или их фрагментов. Необходимо установить, скольким авторам принадлежат тексты, и атрибутировать каждый текст конкретному автору. Это, разумеется, наиболее сложный случай анализа.
Б. Сравнение по образцу. Имеется пример текста (текстов) некоторого автора X. Необходимо установить, является ли он и автором некоторого другого текста (текстов).
B. Конкуренция образцов. Имеются образцы текстов авторов X,Y,Z... . Необходимо установить, кто из них является автором текстов Т1,Т2,... ,Тn
Приводимая ниже экспертиза12) вписывается в рамки случая В. Речь шла о спорном авторстве. В качестве материала для исследования были получены тексты следующих произведений: «Следователь президента»; «Смоленская площадь»; «Безумные глаза»; «В погоне за невидимым убийцей»; «Незнакомец»; «Шакалы»; «Трудное решение».
Тексты были представлены в печатной и машиночитаемой форме (файлы в формате DOS TEXT). Выборочное сравнение файлов и страниц печатных текстов произведений показало, что они полностью совпадают с точностью до разметки гарнитуры и фафических вьщелений в файлах. При компьютерной обработке символы разметки не учитывались.
Исходная проблема экспертизы была сформулирована следующим образом. Автором произведений «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» является Э. Плющихин, а произведений «Шакалы», «Трудное решение» — В. Непомнящий. Авторство произведений «Следователь президента», «Смоленская площадь» является предметом спора.
В процессе проведения экспертизы необходимо было подготовить ответ на следующие вопросы:
12)Фамилии истца и ответчика, а также названия литературных произведений изменены. Экспертиза проводилась на основании запроса адвокатского бюро «Резник, Гагарин и партнеры». Приводимые материалы, разумеется, нельзя рассматривать как окончательное доказательство. В рассматриваемом случае, кроме лингвистической экспертизы, была проведена также литературная экспертиза, подтвердившая выводы лингвистического анализа.
1. Есть ли специфические языковые особенности, отличающие произведения В. Непомнящего «Шакалы», «Трудное решение» от произведений Э. Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец», а также от спорной группы произведений — «Следователь президента», «Смоленская площадь»?
2. Есть ли специфические языковые особенности, характерные одновременно для произведений Э.Плющихина «Безумные глаза», «В погоне за невидимым убийцей», «Незнакомец» и спорной группы произведений «Следователь президента», «Смоленская площадь», но не присущие произведениям В. Непомнящего «Шакалы» и «Трудное решение»?
3. Можно ли считать, что выявленные языковые особенности являются существенной чертой авторских стилей названных писателей и могут использоваться при установлении авторства художественного текста?
В исследовании по экспертизе использовалась методика количественного анализа квазисинонимичных лексем. Сущность методики заключается в выявлении авторских предпочтений в выборе из группы квазисинонимов — близких по значению слов или устойчивых словосочетаний (фразеологизмов). В литературоведении и структурной поэтике близкие методы привлекаются для характеристики стиля писателя и особенностей его видения мира. Интересную информацию об идиолекте писателя дает изучение частотных характеристик служебных и модальных слов. Так, частицы разве и неужели по-разному распределены в романах М. Булгакова «Мастер и Маргарита» и «Белая гвардия»: разве значительно чаще встречается в «Мастере и Маргарите», а неужели — наоборот. Значение частицы разве предполагает более активную, действенную позицию говорящего, подвергающего сомнению некоторое положение дел. В противоположность разве частица неужели скорее указывает на то, что некоторое положение дел практически принимается говорящим и он лишь недоумевает, удивляется, почему оно имеет место13*. Учитывая значение этих частиц, указанные факты распределения разве и неужели можно интерпретировать как лингвистический коррелят авторской позиции в изображении событий и действий героев: нечто вроде пассивного «изумления», «удивления» автора в «Белой гвардии» и при активном восприятии реальности в «Мастере и Маргарите».
Такие «всплески» распределения частот служебных и модальных слов характеризуют не только отдельные тексты художественной прозы, но и оказываются характерологическими для одного писателя, оказываясь поверхностным проявлением его идеологической и творческой позиции. Явная нестандартность распределения частоты некоторых служебных слов наблюдается и в произведениях Ф. М. Достоевского.
13)Более подробно о семантике этих частиц см. [Баранов 1986].
В современном русском языке распределение служебных фразеологизмов по меньшей мере и по крайней мере таково: на 1 употребление по меньшей мере приходится 4,1 употреблений по крайней мере14).
В художественных текстах Достоевского мы встречаемся с совершенно иной ситуацией: на одно употребление по меньшей мере приходится 342,5 употреблений по крайней мере (по крайней мере — 685 вхождений по 35 художественным текстам, по меньшей мере — 2 вхождения по 35 художественным текстам). Всего употреблений по меньшей мере три, но одно из них приходится на контекст, более подходящий для по крайней мере ср. (1).
(1) Точно так же невозможно было бы разъяснить в нем с первого взгляда: любил он свою безответную, покорную жену или нет, а между тем он ее действительно любил, и та, конечно, это понимала. Эта Марфа Игнатьевна была женщина не только не глупая, но, может быть, и умнее своего супруга, по меньшей мере рассудительнее его в делах житейских, а между тем она ему подчинялась безропотно и безответно, с самого начала супружества, и бесспорно уважала его за духовный верх.
[Братья Карамазовы]
В этом примере по крайней мере явно удачнее.
В противоположность по меньшей мере, по крайней мере с несомненностью относится к словам Достоевского. Конкордансы на это словосочетание занимают более двухсот страниц текста.
Можно было бы подумать, что в русском языке времен Достоевского распределение между по крайней мере и по меньшей мере было именно таким: частота по крайней мере существенно превосходила частоту по меньшей мере. Однако это не так. Предварительный анализ корпуса текстов Гоголя (около трех мегабайт) показывает, что различие в частотности этих единиц не так велико, как у Достоевского: на 1 употребление по меньшей мере — 83 употребления по крайней мере. Весьма вероятно, что в сфере публицистики того времени различие в частоте употребления по меньшей мере и по крайней мере было еще меньшим и приближалось к современной норме. Здесь тоже можно видеть коррелят авторского видения мира, авторского стиля.
По полученным файлам произведений Э. Плющихина, В. Непомнящего и спорных произведений (для каждого текста в отдельности и потрем группам — «спорная группа», «группа произведений Плющихина», «группа произведений Непомнящего») были составлены словники с указанием абсолютной и относительной частоты употребления (общее количество словоупотреблений по произведениям и по группам см. в приложении к экспертизе). Для компьютерной обработки использовалась программа DIALEX и база данных ACCESS 7 в среде Windows.
14)По крайней мере — 236 вхождений; по меньше мере — 57 вхождений (репрезентативная выборка корпуса текстов по современному русскому языку, включающая около 10 тыс. страниц разножанровых текстов).
Из сферы анализа были исключены слова с предметным значением, частота употребления которых определяется конкретной проблемной областью. Были проанализированы группы квазисинонимов для следующих слоев лексической системы языка:
• наречия,
• частицы,
• вводные слова и выражения,
• фразеологические выражения (идиомы),
• глаголы речи,
• союзы и союзные слова.
Рассмотрим последовательно примеры квазисинонимов из каждой группы лексем.
Наречия степени. Первая проанализированная группа — наречия со значением неполноты проявления какого-либо свойства, характеристики — едва и немного. Эти наречия во многих контекстах близки по значению. Однако стилистические предпочтения авторов проявляются в тенденциях выбора этих слов. Относительная частота15) едва и немного для спорных произведений и произведений Плющихина практически идентична, однако она существенно отличается от относительной частоты употребления этих единиц у Непомнящего: едва = 0,007 % (спорные), 0,006% (Плющихин), 0,018% (Непомнящий); немного = 0,002% (спорные), 0,002% (Плющихин), 0,031 % (Непомнящий) (см. табл. 1).
Таблица 1
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. частота | Относит. частота | Абсолют. частота | Относит. частота | Абсолют. частота | Относит. частота | |
Едва Немного | 6+716)=13 2+1=3 | 0,007 % 0,002 % | 12+3+12=27 1+2+2=5 | 0,006% 0,002 % | 11+18=29 25+25=50 | 0,018% 0,031 % |
Вторая группа исследованных наречий степени характеризует степень) ожидания некоторого события. К ним относятся лексемы вдруг, внезапно, неожиданно. Все эти наречия очень близки по значению. Тем самым их частотное распределение может рассматриваться как характеристика j авторского стиля. Анализ показывает, что относительные частоты употре-. бления наречий вдруг, внезапно и неожиданно в произведениях «спорной
15)Относительная частота считалась по всем словам соответствующих текстов.
16)Здесь и далее абсолютные частоты словоупотреблений в конкретном произведении указываются в последовательности, соответствующей порядку перечисления исследуемых текстов в Приложении 1.
группы» и произведений Плющихина практически совпадают: вдруг — 0,052% (спорные), 0,05% (Плющихин); внезапно — 0,001 % (спорные), 0,000% (Плющихин); неожиданно — 0,007% (спорные), 0,006% (Плющихин) (см. табл. 2). Относительные частоты соответствующих наречий в группе произведений Непомнящего существенно отличаются от первых двух групп: вдруг — 0,065 %; внезапно — 0,005 %; неожиданно — 0,016 %.
Таблица 2
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | |
Вдруг Внезапно Неожиданно | 61+30=91 1+1=2 10+2=12 | 0,052% 0,001 % 0,007 % | 52+16+39=107 0+0+0=0 5+0+7=12 | 0,05% 0,000 % 0,006% | 79+25=104 7+1=8 12+13=25 | 0,065 % 0,005 % 0,016% |
Третья группа проанализированных наречий степени — лексемы очень и слишком. Частотное распределение этих единиц с определенностью указывает на сходство спорной группы произведений с произведениями Плющихина. С другой стороны, относительная частота употребления очень и слишком в текстах Непомнящего существенно выше — 0,17 % для очень (0,06 % и 0,05 % в спорной группе и в группе текстов Плющихина соответственно), 0,06% для слишком (0,01 % и 0,01 % в спорной группе и в группе текстов Плющихина) — см. табл. 3. Тенденция к использованию лексем, имеющих в значении идею «превышения нормы какого-то свойства», характерная для Непомнящего, проявляется и в частоте употребления количественного наречия много, ср. 0,06 % в текстах Непомнящего (абс. част. 100), 0,01 % (абс. част. 26) в спорной группе, 0,02% (абс. част. 42) в произведениях Плющихина.
Таблица 3
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | |
Очень Слишком | 47+49=96 9+4=13 | 0,06% 0,01% | 32+36+42=110 3+3+8=14 | 0,05% 0,01% | 103+164=267 43+46=89 | 0,17% 0,06% |
Частицы. Из лексико-грамматического разряда частиц были проанализированы единицы тоже и также, лексема так (в разных значениях). Если по относительной частоте частицы также все группы произведений приблизительно равны, то по относительной частоте частицы тоже первая и вторая группы (спорные произведения и произведения Плющихина) объединяются и противопоставляются третьей — произведениям Непомнящего. Аналогично по частоте лексемы так противопоставлены спорная группа произведений и произведения Плющихина, с одной стороны, и произведения Непомнящего — с другой (см. табл.4).
Таблица 4
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | |
Тоже | 74+63=137 | 0,08% | 55+36+66=157 | 0,07% | 89+129=218 | 0,14% |
Также | 13+29=42 | 0,02% | 11+5+15=31 | 0,01% | 5+21=26 | 0,02% |
Так | 208+223=431 | 0,25% | 166+239+118=523 | 0,25% | 370+295=665 | 0,42% |
Вводные слова и выражения. Как известно, к числу вводных слов относятся лексемы, в которых говорящий выражает свое отношение к сказанному, в частности оценку достоверности-недостоверности пропозиции. Была исследована частота употребления лексических единиц конечно, разумеется, естественно, связанных с выражением уверенности в истинности утверждаемого (см. табл. 5). Легко видеть, что относительные частоты употребления этих выражений в группе спорных произведений и в произведениях Плющихина практически совпадают, причем из группы квазисинонимов конечно, разумеется, естественно предпочтение отдается конечно. В группе произведений Непомнящего относительная частота употребления конечно ниже, чем в первых двух группах, что компенсируется использованием вводных слов разумеется и естественно.
Таблица 5
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. | Относ. | Абсолют. | Относ. | Абсолют. | Относ. | |
частота | частота | частота | частота | частота | частота | |
Конечно | 114+86= 200 | 0,12% | 113+55+100= 268 | 0,13% | 88+77=165 | 0,10% |
Разумеется | 0+0=0 | 0,00% | 0+0+0=0 | 0,00% | 33+13=46 | 0,03% |
Естественно | 2+1=3 | 0,002 % | 0+0+0=0 | 0,00% | 16+3=19 | 0,01% |
Фразеологизмы. Специфические особенности использования фразеологизмов относятся к числу наиболее характерных стилевых особенностей. Для анализа была привлечена группа бранных идиом с компонентом черт, хер и хрен типа черт/хер/хрен его знает, черт/хер/хрен их знает и т. д. Было установлено, что эти выражения встречаются только в группе спорных произведений (абс. частота 8) и в текстах Плющихина (абс. частота 17).
Показательно использование довольно редкой идиомы тем паче: она не встречается в произведениях Непомнящего, но представлена в текстах спорной группы (5 употреблений) и в произведениях Плющихина (2 употребления).
Глаголы речи. Среди глаголов речи наибольший интерес представляют те лексемы, которые используются как авторские ремарки для введения речи персонажей. В имеющемся материале были проанализированы глаголы сказать и возразить. Несмотря на то, что по законам жанра (исследовались детективные романы) конфликтных ситуаций в спорных текстах и в произведениях Плющихина не меньше, чем в произведениях Непомнящего, возразить существенно чаще используется именно в последней группе, что является несомненным признаком авторского стиля — см. табл. 6.
Таблица 6
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | |
Сказать Возразить | 0,61% 0,00% | 0,51% 0,00% | 0,57% 0,03% |
Союзы и союзные слова. Анализировались также союзы и союзные слова поскольку, почему и если. Слово почему, кроме собственно союзного употребления, функционирует как вопросительное слово; для данного типа исследования это несущественно. По распределению частоты употребления и в этом случае группа произведений Плющихина существенно сближается с группой спорных произведений, а группа произведений Непомнящего противопоставлена первым двум группам, ср. для поскольку 0,03 % и 0,03 % vs. 0,00 %; для почему 0,05 % и 0,04 % vs. 0,13 %; для если 0,22 % и 0,23 % vs. 0,31 % (см. табл. 7).
Проведенное исследование позволяет говорить о том, что существуют специфические языковые особенности, отличающие стиль произведений Э. Плющихина от стиля произведений В. Непомнящего. Эти особенности проявляются на различных уровнях лексической системы языка — в выборе наречий, вводных слов, частиц, фразеологизмов, союзов и союзных
Таблица 7
Спорные произведения | Произведения Плющихина | Произведения Непомнящего | ||||
Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | Абсолют. частота | Относ. частота | |
Поскольку Почему Если | 0,03% 0,05% 0,22% | 0,03% 0,04% 0,23% | 0,00% 0,13% 0,31% |
слов, а также глаголов речи. Характерные черты стиля Э. Плющихина прослеживаются в произведениях спорной группы «Следователь президента» и «Смоленская площадь». С другой стороны, характерные языковые черты стиля В. Непомнящего не обнаруживаются в произведениях спорной группы. В рамках данного ограниченного по объему материала (для предложенных текстов двух данных писателей) выявленные особенности авторского языка могут рассматриваться как существенный фактор в пользу признания авторства Э. Плющихина на произведения спорной группы.
Приложение к экспертизе
Общее количество словоупотреблений по произведениям и трем группам:
Группа спорных произведений (I):
«Следователь президента» = 80498
«Смоленская площадь» = 93 040
Общая сумма = 173 538
Группа произведений Плющихина (II):
«Безумные глаза» = 68 735
«В погоне за невидимым убийцей» = 39 548
«Незнакомец» = 103 872
Общая сумма = 212 155
Группа произведений Непомнящего (III):
«Шакалы» = 68 583 «Трудное решение» = 91 244 Общая сумма = 159827
Основная литература
1.Виноградов В. В. Проблема авторства и теория стилей. М., 1961.
2.Марусенко М.А. Атрибуция анонимных и псевдонимных текстов методами
прикладной лингвистики// Прикладное языкознание. СПб., 1996.
3 Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977.
4. Шайкевич А. Я. Дистрибутивно-статистический анализ в семантике // Принципы и методы семантических исследований. М., 1976.
5. Шайкевич А. Я. Количественные методы // Лингвистический энциклопедический словарь. М., 1990.
Дополнительная литература
1.Виноградов В. В. Лингвистические основы научной критики текста // Вопросы языкознания. 1958. №2, 3.
2.Harris Z. S. From Phoneme to Morpheme // Language. 1955. Vol.31. №2. P. 190-222.