Атрибуция анонимных и псевдонимных текстов: филологический и нефилологический подходы
Анонимные тексты – это тексты вообще без подписи автора, а псевдонимные – подписанные под псевдонимом. Задача идентификации текстов на основе анализа предложений является тривиальной из-за уникальности предложений. Поэтому больший интерес представляет задача идентификации текстов на основе анализа слов, то есть задача атрибуции текстов, имеющая большое научное и практическое значение. К этой задаче сводится:
- определение вероятного авторства текстов в случае, когда автор не указан (анонимный текст) или указан его псевдоним (псевдонимный текст);
- датировка текста.
Методы распознавания образов были впервые применены при атрибуции анонимных и псевдонимных произведений на основе индивидуальных характеристик авторского стиля в работе М. А. Марусенко в 1990 году.
В данной работе текст рассматривается как сложный лингвистический объект, характеризующийся обширным инвентарем элементов и многоуровневостью анализа. В основу нового метода атрибуции анонимных и псевдонимных произведений был положен многомерный статистический анализ, представленный в его наиболее развитой форме – теории распознавания образов.
В терминах распознавания образов стиль определяется как набор свойств (параметров), характеризующих состав, способы объединения и статистико-вероятностные закономерности употребления речевых средств, образующих данную разновидность языка. Набором свойств, характеризующих структуру текста в синтаксическом аспекте, становится в данном случае совокупность информативных параметров, чей состав определяется путем выполнения специальной процедуры отбора информативных параметров для каждого конкретного случая.
Важное теоретическое положение рассматриваемой работы заключается в том, что процедура атрибуции расчленяется на три относительно самостоятельных этапа:
1. Формирование литературно-критической атрибуционной гипотезы, которое выполняется методами традиционного филологического анализа с применением всех доступных субъективных и объективных методов и приемов атрибуции.
2. Поверка литературно-критической гипотезы, для выполнения которой используются средства теории распознавания образов.
3. Интерпретация результатов проверки атрибуционной гипотезы.
Гипотеза считается статистически подтвержденной, если результаты распознавания согласуются с исходной литературно-критической атрибуционной гипотезой (при установленном уровне значимости). В противном случае гипотеза считается опровергнутой, и проверяется либо альтернативная гипотеза, либо переформулированная исходная гипотеза. При реализации такой схемы атрибуции статистико-вероятностные методы анализа языка и стиля используются лишь в качестве вспомогательных средств для проверки исходной атрибуционнной гипотезы, сформированной с помощью филологических методов атрибуции.
Проверка литературно-критической гипотезы происходит в несколько этапов с использованием определенного комплекса процедур:
1. Определение априорного набора индивидуальных стилистических параметров. Поскольку параметры из априорного словаря параметров должны определять стиль в структурно-синтаксическом аспекте, они берутся из работ тех авторов, которые исследовали структуру и состав предложения математическими методами.
2. Определение априорного набора классов. Состав априорных классов определяется требованиями временной и жанровой однородности, а объем измеряется в основных единицах синтаксиса – предложениях.
3. Описание классов из априорного алфавита классов на языке параметров из априорного словаря параметров. Каждому лингвистическому объекту, подвергаемому анализу в целях стилистической диагностики, ставится в соответствие математический объект p, характеризуемый n-мерным вектором, где n – число параметров.
4. Определение информативного набора параметров. Этот этап атрибуции заключается в выделении из имеющегося информационного параметрического пространства необходимого и достаточного числа параметров для отнесения объекта к классу, благодаря чему удаляются «шумовые» параметры.
5. Выбор решающего правила. Задача установления автора анонимного или псевдонимного текста в данной работе рассматривается как задача нахождения расстояния между многомерным вектором, соответствующим априорному классу M1, и многомерным вектором, соответствующим априорному классу M2 неизвестного автора. Решающим правилом называется функция, выбранная для измерения этого расстояния и принятия решения о сходстве или различении этих объектов. Применяемый алгоритм распознавания должен обеспечивать разделение пространства признаков на области, соответствующие классам, с минимумом ошибок распознавания. В данной работе алгоритм распознавания предусматривает двухступенчатую процедуру распознавания: детерминированную и вероятностную.
6. Оценка качества классификации. Поскольку полученные в результате математической процедуры классификации классы могут представлять собой артефакты, необходимо проведение оценки качества классификации, которая может повлечь за собой корректировку составов полученных классов.
Конкретные математические выражения для каждого этапа процедуры атрибуции приводятся в гл. 3 настоящей работы.
Применение разработанного М. А. Марусенко математического аппарата к реальному историко-литературному материалу показало его высокую эффективность. В настоящее время проводится несколько исследований по атрибуции художественных и публицистических произведений с применением данного метода. По результатам проверок реальных атрибуционных гипотез, описанных в нескольких работах, можно сделать вывод об устойчивости системы распознавания к колебаниям объема текстов и к временной эволюции параметров авторского стиля. В большинстве случаев система распознавания обеспечивает полное разведение объектов по соответствующим классам, в противном случае после оценки качества классификации может быть выдвинута гипотеза о существовании еще одного или нескольких классов авторов, не учитываемых в первоначальной атрибуционной гипотезе. При этом последовательное применение детерминированного и вероятностного алгоритмов распознавания исключает случаи отказов от распознавания. В целом эксперименты по проверке надежности распознающей системы показали, что она способна обеспечивать «стопроцентно надежное определение принадлежности текста данному автору».
ПРАКТИЧЕСКОЕ ЗАДАНИЕ
Задание 1. Силлаби́ческое стихосложе́ние – в каждой строке 13 слогов, кроме того, после 7 слога обязательный словораздел.
Поэзия Тредиаковского складывается как бы из трех разнородных пластов – силлабические дореформенные стихи, стихи индивидуального метра Тредиаковского (тонизированный силлабический тринадцатисложник, с точки зрения силлаботоники он представлял собой цезурованный семистопный хорей) стихи ломоносовских метров: короткие (трех- и четырехстопный хорей, четырехстопный ямб), и длинные (александрийский стих). И каждая из этих трех групп лирики отличается присущими только ей жанрово-стилевыми свойствами.
Подобное явление в стихосложении мы наблюдаем в этом примере:
Строчки | Количество слогов |
Тор/же/ству/йте/, все/ рос/си/йсти/ на/ро/ды: | |
У /нас/ и/дут/ зла/ты/е/ го/ды/. | |
Вос/при/и/мем/ с ра/дос/ти/ пол/ны/ ста/ка/ны/ | |
Вос/пле/щем/ гром/ко/ ру/ка/ми/, | |
За/ска/чем/ ве/се/ло/ но/га/ми/ | |
Мы/, вер/ны/е/ граж/да/ны/. | |
Но/ Па/лла/да/ преж/де/ всех/ тут/ о/це/пе/не/ла,/ | |
У/ра/зу/мев/ши/, я/ко/ Пет/ра/ уж/ не/ ста/ло/; <...> | |
Зи/я/ет,/ воз/ды/ха/ет,/ му/тит/ся/ о/чи/ма,/ | |
Без/ды/хан/на/, как/ мер/тва/ не/ слы/шит/ у/ши/ма/ <...> | |
«Плачь,/ ви/но/слов/на/, пла/чи/, плачь/ фи/ло/со/фи/я/, | |
Плачь/те/ со/ мно/ю/ ны/не,/ на/у/ки/ дра/ги/я». |
Силлабические стихи Тредиаковского написаны в основном до середины 1730-х гг., это самые ранние свои стихотворения, относящиеся к 1725–1730 гг. Если следовать этому принципу, то можно утверждать, что именно в этот период времени и было написано данное произведение.
Задание 2. «Велесова книга», или как пишется в некоторых источниках «Влесова», это летопись языческой Руси приблизительно от 650 г. до Рождества Христова, или от 1500 лет «до Дира» до последней четверти IX века.
Исследовавшая «Велесову книгу» с точки зрения языкового материала Е.В. Уханова в своей книге «У истоков славянской письменности» (1997) пишет: «В том, что Влесова книга написана на славянском языке, сомнений быть не может: её лексика, безусловно, славянская. Значит, речь должна идти лишь о том, что перед нами некий язык, так же, как и остальные славянские языки, восходящий к общеславянскому языку, но изменивший его по своим, особым законам». Анализируя особенности «фонетической системы» языка «Велесовой книги», исследователь приходит к убеждению, что язык с непоследовательной, противоречащей всем представлениям об истории славянских языков системой, существовать не мог. И делает вывод: «Это – искусственный язык, сконструированный крайне неграмотно». По мнению Ухановой, создатель такого крайне неумелого искусственно сконструированного «языка», руководствовался лишь одним правилом: чем больше несуразностей окажется в тексте, тем архаичнее он будет выглядеть.
Историками она признана абсолютно достоверным историческим документом, соответствующим многим современным историческим представлением о тех древних и загадочных временах. «Велесова книга» – сложный и объёмный источник древних знаний о русской праистории. Но с точки зрения лингвистических исследований, очевидно, что эта книга является подделкой.
Задание 3.
Древнерусские памятники | Старославянские памятники |
Лhпо ~сть чл_вкоу имhти паче вьсего жития:да не прилhжить имhньи зhло, нъ тhлеси въздьржание, оудобрени~норовоу. 1) согл. -ч-: паче; 2) полногласие -оро-: норовоу | Отъвѣща же емоу Петръ, рече емоу ги аще ты еси, повели ми прити к себh. I_с же рече емоу приди. Излhзъ же ис кораблh Петръ и хождаше по водh и приде к I_сu. 1) согл. -щ- на месте русского -ч-: отъвѣща; 2) -жд- на месте русского -ж-: хождаще |
И подажь алчюштиимъ хлhбъ свои, одежю сво\ нагымъ, чюжемоу не похошти зъла Признаки ст.-сл.: мягк. сочет. -шт- алчюштиимъ, похошти. Признаки др. русского: согл. -ж-: одежю, чюжемоу | И въшъдъше же в храмин@ видhш# отроч# съ Мари~\ м_тери\ его и падъше поклониш# с# емоу и отврьзъше съкровища принесоша ему дары: злато и ливанъ Спорно!!! 1) сочетание -ла- на месте русского -оло-: злато; Отроча (др. рус.) |
Чл_вкъ моудръ оумлъчить до врhмене и оумнож#и словеса мьрьзькъ боудеть |
Задание 4.
Остромирово евангелие (1056–1057 гг.)
Не ос@ждаите, да не ос@ждени б@дете; имъ же бо с@дъмь с@дите— соудитьс# вамъ. и въ ню же мhр@ мhрите, възмhритьс# вамъ. Чьто же види с@чьць, иже ~сть въ очеси брата твоего, а бьрьвьна, ~же ~сть въ очеси тво~мь, не чоу~ши? Или како речеши братоу твоемоу: остави и изьм@ с@чьць из очесе твоего — и се бьрьвьно въ оцh тво~мь! Лицhмере, изьми прьвh~ брьвьно из очесе твоего!..
Не дадите с_тааго пьсомъ, ни помhтаите бисъре своихъ прhдъ свиниями, да не попер@ть ихъ ногами своими и вращьшеся растрьгн@ть вы.
Мстиславово евангелие (1117 г.)
1. Не ос@жаите, да не осоужени боудете, имъ же бо соудъмь соудите, то отъсоудится вамъ, и въ ню же мhроу мhрите, отъмhриться вамъ.
Что же видиши соукъ въ оцh брата своего, а бьрвьна, ~же есть въ оцh твоемь, не видиши? Или како речеши братоу сов~моу: не дhи, да изьмоу соукъ изъ очесе твоего – и се бьрвьно въ оцh твоемь! Лицhмере, изъми пьрвhе бьр’вьно изъ очесе твоего!
Не дадите с_тго jомъ, ни помещhте бисьръ своихъ прhдъ свиниями, да не попероуть, ихъ ногами своими и възвращьшеся растьргноуть вы.
2. Что же видиши соукъ, иже есть въ оцh брата твоего, а бьрвьно, иже есть въ оцh твоемъ, не чюеши? Или како можеши рещи братоу твоемоу: брате, остави да изьмоу соукъ, иже есть въ оцh твоемь, самъ бьрвьна не видя въ оцh твоемь!
Остромирово евангелие | Мстиславово евангелие |
ос@ждаите (сочетание -жд- на месте русского -ж-) | ос@жаите |
ос@ждени (сочетание -жд- на месте русского -ж-) | осоужени |
б@дете | боудете |
с@дъмь | соудъмь |
– | .., то.. |
соудитьс# | отъсоудится |
мhр@ | мhроу |
възмhритьс# (старослав. префикс) | отъмhриться |
Чьто | Что (пр-с падения редуцированных) |
види | видиши |
очеси | Оцh(упрощение гр. согл. и появление магк. шипящего ц ) |
бьрьвьна | Бьрвьна (пр-с падения редуцированных) |
остави | не дhи |
и | .., да |
прьвh~ | пьрвhе |
вращьшеся | възвращьшеся |
Задание 5.
Доказательство того, что данный текст может являться памятником второй половины XVIII века можно проиллюстрировать следующими примерами: использование книжного союза дабы; в тексте присутствует i – присутствiи, в компанiи; ъ – вопросовъ, немогутъ, языкъ, онъ напротивъ; частотные книжные (церковнославянские) окончания -аго – невоздержанаго, котораго. Таким образом, исследованный отрывок текста позволяет выявить особенности, свидетельствующие о принадлежности текста к досоветскому периоду.
Задание 6.
Текст принадлежит перу писателя В.А. Жуковского. В качестве обоснования этого служит факт из биографии писателя: в 1841 году Жуковский, получив отставку (почетную), принял решение переселиться в Германию, где весной этого года женился на юной Елизавете, дочери своего старого друга художника Рейтерна. Он делал несколько попыток вернуться в Россию, но состояние здоровья жены и надвигающаяся слепота не позволили осуществить эти намерения – В. А. мог находиться в 1847 году во Франкфурте; кроме того, в самом письме есть указание на болезнь жены (а женина болезнь).
Задание 8.
Пётр Андре́евич Вя́земский (12 [23] июля 1792, Москва – 10 [22] ноября 1878, Баден-Баден) – князь, русский поэт, литературный критик, историк, переводчик, публицист, мемуарист, государственный деятель.
Исходя из периода творчества писателя, форма графической записи оригинала стихотворения П. А. Вяземского соответствует современной для того стилизации.
Задание 9.
Использование ея – искусственно-книжное произношение формы род. ед. от она (вместо живого произношения «её»), возникшее вследствие того, что эта форма до реформы орфографии 1917 г. писалась «ея» в отличие от вин., писавшегося «ее».
Присутствие в тексте «i», «ъ» и «Ѣ» позволяют установить, что текст был написан до реформы 1917–1918 года.
Хотя в тексте присутствует упоминание: «…до революціи академическія изданія не подлежали цензурѣ…», «Въ официальномъ Церковномъ Календарѣ на 1919 годъ на 4-й страницѣ обложки мельчайшимъ шрифтомъ напечатано», значит, можно предположить, что сам текст мог быть написан незадолго после проведенной реформы (в конце 1919 – начале 1920 гг.).