Индивидуальности литературного текста

профессор Бубнов В.А.

аспирант ГОУ МГПУ Сурвило А.В.

При изучение прозаических произведений на уроках литературы рассматриваются прежде всего такие содержательные параметры как сюжет, идейная направленность, характеры и поступки героев, основная мысль произведения, тема и т.д.; и, как правило, не обращается внимания на языковые средства выражения содержательных характеристик.

Действительно, любой текст, представленный средствами естественного языка, есть набор букв, из которых формируются слова, а из последних строятся предложения. Слова делятся на неделимые единицы, обилие которых в словах и предложениях позволяют с одной стороны каждому человеку при построение предложений выдерживать индивидуальность, а с другой стороны каждую индивидуальность речи можно отличать формальными математическими характеристиками текста.

На это обстоятельство впервые обратил внимание выдающийся русский учёный – энциклопедист Морозов Н.А. (1854-1946г). Вот, что он писал в статье [1]:

«Каждый литературно-образованный» человек знает, что все оригинальные авторы отличаются своим складом речи, даже и в том случае, когда мы сравниваем их с писателями того же самого поколения. Мы, русские, легко отличаем, например, склад речи Гоголя от склада речи Пушкина или Тургенева. В английской литература склад речи Теккерея совсем не похож на склад речи Диккенса».

… «Чтобы выяснить сразу, что я хочу здесь сказать, рассмотрю несколько примеров. Возьмём хотя бы в нашем русском языке два легко заменяемых друг другом слова: «так как» и «потому что». Почти в каждой фразе одно из них можно заменить другим с сохранением первоначального смысла, и потому в переводе на иностранный язык такое различие в складе речи исчезает, между тем как в оригинале одни авторы могут машинально употреблять почти исключительно первую из этих «служебных частиц речи», редко вспоминая о существовании второй, другие же авторы понии второй, другие же авторы паи второй, другие же авторы поступять совершенно наоборотем как в оригинале одни авторы могут машступят совершенно наоборот».

По мнению Морозова Н.А. служебные частицы распоряжаются нашей речью и их он назвал распорядительными частицами, с помощью которых можно различать особенности склада речи писателя.

Рассматривая вопрос о том, какие слова могут определять индивидуальность склада речи, он обратил внимание на то, что такие группы слов, как имена существительные, прилагательные и глаголы зависят от содержания текста и частота их употребления ничего не скажет об индивидуальности автора.

Однако, по мнению Морозова Н.А.: «даже и при разнородности сюжетов, есть во всех языках ряд слов, которые употребляются почти одинаково во всех родах литературы и которые по своему характеру могут быть названы, как я уже выражался ранее, служебными или распорядительными частицами человеческой речи».

Говоря конкретно об указанных частицах, он писал следующее [1]:

«Это, прежде всего союзы, предлоги и отчасти местоимения и наречия, а затем и некоторые вставные словечки, в роде: «т.е.», «например» или «и так далее». Затем идут деепричастные и причастные окончания, как задние приставные частицы, характеризующие среднюю сложность фразы у того или другого автора. Даже и самые знаки препинания могут быть названы в этом случае попутными (или паузными) распорядительными частицами всех человеческих языков».

Далее Морозов здесь же задает такой вопрос: «Нельзя ли по частоте таких частиц узнавать авторов, как будто по чертам их портретов?»

На этот вопрос он отвечает так: «Для этого, прежде всего надо перевести их на графики, обозначая каждую распорядительную частицу на горизонтальной линии, а число ее повторения на вертикальной, и сравнить эти графики между собой у различных авторов».

Подобные графики Морозов Н.А. назвал лингвистическими спектрами, а исследование различных текстов с их помощью - лингвистическим анализом. Технология этого анализа, предложенная Морозовым Н.А., такова: отсчитывается первая тысяча слов любого текста и затем подсчитывается число встретившейся той или иной служебной частицы.

Чтобы упростить спектры, Морозов Н.А. разделил их на предложные, союзные и местоименные. По его подсчетам оказалось, что часто повторяющимися у всех русских авторов оказались предлоги в, на, с, поэтому их графики им были названы главным предложным спектром. Например, на тысячу слов у Гоголя предлог в повторялся в «Тарасе Бульбе» 23 раза, в «Майской ночи» - 15, а в «Страшной мести» - 16 раз; предлог на повторился 24 раза в «Майской ночи» и 26 раз в «Тарасе Бульбе» и «Страшной мести». Когда же значения частот рассматриваемых предлогов на указанных графиках были соединены прямыми линиями, то во всех трех рассматриваемых произведениях Гоголя получились довольно сходные ломаные линии. В произведениях же Пушкина - «Барышня-крестьянка», «Дубровский», «Капитанская дочка» характер таким же образом построенных ломаных оказался другим.

Статья [1] была опубликована в 1915 году. Через некоторое время появилась статья известного русского математика Маркова А.А. (старшего) [2], в которой лингвистический анализ Морозова Н.А. был подвергнут резкой критике.

Суть критики Маркова А.А. сводилась к следующему. Если для подсчёта частоты той или иной служебной частицы брать исследуемые 1000 слов текста в разных местах одного и того же произведения, то частота появления данной частицы может резко измениться, что в свою очередь изменит характер лингвистического спектра.

В тот период времени все расчёты частотного анализа производились «вручную» и подтвердить или опровергнуть критику маститого математика Маркова В.А. не представлялось возможным. Современные же компьютерные технологии позволяют проверить опасения Маркова А.А.

Для этого постулируем следующую гипотезу. Поиск числа повторений той или иной служебной частицы среди тысячи слов исследуемого текста отождествим с известной задачей математической статистики о повторение испытаний, т.е. количество слов текста будем считать числом испытаний ni, а число mi повторений частицы – числом появлений события. Тогда можно ввести понятие частоты

, (1)

как отношение указанных чисел.

В математической статистике известны случаи, когда при увеличении числа испытаний числовые значения частот колеблются около некоторой величины и отклонения частот от указанной величины уменьшаются с ростом числа испытаний. Как правило, в качестве таковой величины принимается среднее арифметическое Pср частот Pi. Если в формуле (1) символом i будем обозначать номер серии испытаний, то Pср необходимо вычислять так:

, (2)

где N – число серий.

В статистике описанный факт повторяемости частот называется законом устойчивости частот, а на основе известной теоремы Я. Бернулли, величина Pср принимается в качестве вероятности появления разыскиваемого события.

Если для всех служебных частиц будет иметь место закон устойчивости частот, то критику Маркова А.А. следует признать несостоятельной.

Для выявления закона устойчивости частот применительно к главному предложному спектру (в, на, с) весь рассматриваемый текст разделим на фрагменты из тысячи слов. Далее начинаем разыскивать число повторений каждого предлога данного спектра в первой тысячи слов. В этом случае число испытаний n1 = 1000 назовём первой серией испытаний, а получившееся число m1 повторений данной служебной частицы следует считать числом появлений разыскиваемого события. Теперь по формуле (1) можно вычислить частоту P1 первой серии испытаний. Для получения частоты P2 второй серии, необходимо к первому фрагменту текста добавить второй и для n2 = 2000 с учётом нового значения m2 вычислить P2 по (1). Указанный процесс продолжить до тех пор, пока указанным анализом не будет охвачен весь исследуемый текст. Полученный таким образом набор чисел Pi покажет, имеет ли место закон устойчивости частот.

Если закон устойчивости частот будет иметь место, то среднюю частоту Pср характеризующую вероятность появления данной служебной частицы вычислим по формуле (2).

Реализацию описанного выше алгоритма продемонстрируем на произведения Н.В. Гоголя «Страшная месть» с помощью информационных технологий.

Для этого в сети Интернет с помощью поисковой системы Рамблер найдём текст данного произведения в электронной форме, для чего воспользуемся специализированной программой-браузером Internet Explorer.

После запуска Internet Explorer введём в его адресную строку, следующую запись «www.rambler.ru» и выполним однократное нажатие клавиши Ввод (Enter) на клавиатуре.

В результате этих действий в окне программы Internet Explorer отобразиться Web-страница поисковой системы Рамблер. Далее, на отобразившейся странице, в строке поиска введём запрос « », подведём указатель мыши к кнопке «Поиск» и выполним однократное нажатие левой клавиши мыши.

После этого, поисковая система Рамблер проведёт поиск сайтов, удовлетворяющих условию нашего запроса и отобразит их список в порядке уменьшения популярности.

Выберем один из ресурсов, расположенных вначале полученного списка и перейдём на него, для чего подведём курсор мыши к названию этого ресурса и выполним однократное нажатие левой клавиши мыши.

После перехода на страницы выбранного ресурса, найдём на них ссылку на документ, содержащий текст произведения Н.В. Гоголя «Страшная месть» и загрузим его на локальный компьютер, на котором планируется проведение его анализа с помощью вышеуказанного алгоритма. Для этого подведём курсор мыши к найденной ссылке и выполним однократное нажатие правой клавиши мыши. Далее, в появившемся контекстном меню, подведём курсор мыши к команде «Сохранить как» и выполним однократное нажатие левой клавиши мыши. Документ будет сохранён в указанную нами папку на локальном компьютере.

Теперь, имея в наличие электронную версию произведения Н.В. Гоголя «Страшная месть» проведём его анализ, используя вышеописанный алгоритм. Для чего, первоначально, преобразуем, текст данного произведения таким образом, чтобы на каждой строке документа, содержащего данный текст, находилось лишь одно слово или предлог, что необходимо для проведения расчётов с использованием программы Microsoft Excel.

Для этого воспользуемся редактором Microsoft Word из пакета Microsoft Office. После запуска Microsoft Word откроем в нём документ, содержащий текст анализируемого нами произведения. После этого подведём курсор мыши к имени меню «Правка» расположенного в строке главное меню Microsoft Word и выполним однократное нажатие левой клавиши мыши. В открывшемся каскадном меню подведём курсор мыши к команде «Заменить» и выполним однократное нажатие левой клавиши мыши. Далее, в появившемся диалоговом окне «Найти и заменить» в текстовое поле «Найти» введём символ пробел, а в текстовое поле «Заменить на» служебный символ «^p». После чего подведём курсор мыши к кнопке «Заменить всё» и выполним однократное нажатие левой клавиши мыши.

В результате проделанных действий, получим документ, содержащий текст произведения Н.В. Гоголя «Страшная месть», в котором на каждой строке документа находится лишь одно слово или предлог.

Для проведения дальнейшего анализа по указанному выше алгоритму, перенесём преобразованный текст в программу Microsoft Excel, для чего скопируем его в буфер обмена в программе Microsoft Word, откроем программу Microsoft Excel, активизируем ячейку A1 на Листе 1 рабочей книги Excel и выполним вставку из буфера обмена.

Теперь, проведём подсчёт абсолютных величин появления элементов главного предложного спектра (в, на, с) в анализируемом тексте учитывая, что количество ni в каждой серии испытаний изменяется согласно приведенному выше алгоритму. Для этого воспользуемся существующей в программе Microsoft Excel статистической функцией «СЧЁТЕСЛИ». В качестве первого аргумента функции будем использовать значение ni для каждой серии испытаний. В качестве второго аргумента, будем использовать, элементы главного предложного спектра (в, на, с).

В результате проведения расчетов с использованием статистической функции «СЧЁТЕСЛИ» получим ряд значений числа mi появлений элементов главного предложного спектра в произведение Н.В. Гоголя «Страшная месть» для каждой серии испытаний. После чего вычислим с помощью программы Excel значения частоты Pi для каждой серии испытаний по формуле (1). Результаты указанных вычислений иллюстрирует таблица 1.

Таблица 1

Из анализа поведения числовых значений частот появления рассматриваемых предлогов в каждой серии испытаний, представленных в таблице 1, следует, что для элементов данного предложного спектра имеет место закон устойчивости частот. Этот факт позволяет провести вычисления Pср по формуле (2) и принять их в качестве вероятностей появления элементов изучаемого спектра.

Установленный закон устойчивости частот иллюстрируют также графики поведения значений Pi от номера серии i испытаний построенные по данным таблицы 1 и представленные на рисунках 1, 2 и 3.

Рис. 1. Иллюстрация закона устойчивости частот

появления предлога в главного предложного спектра

в произведение Н.В. Гоголя «Страшная месть»

Рис. 2. Иллюстрация закона устойчивости частот

появления предлога на главного предложного спектра

в произведение Н.В. Гоголя «Страшная месть»

Рис. 3. Иллюстрация закона устойчивости частот

появления предлога с главного предложного спектра

в произведении Н.В. Гоголя «Страшная месть»

Аналогичным образом проведём анализ нескольких произведений Н.В. Гоголя и А.С. Пушкина с целью выявления закономерностей главного предложного спектра у данных авторов, результаты которого представим в виде таблицы 2.

Таблица 2

Автор Произведение Средние частоты Pср появления предлогов
в на с
Гоголь Н.В. Тарас Бульба 0,023692 0,019624 0,010764
Гоголь Н.В. Майская ночь 0,018637 0,020738 0,009172
Гоголь Н.В. Страшная месть 0,018631 0,021633 0,010593
Пушкин А.С. Капитанская дочка 0,024261 0,014827 0,013712
Пушкин А.С. Дубровский 0,027574 0,013946 0,011741
Пушкин А.С. Барышня-крестьянка 0,029733   0,014413 0,012516

Данные таблицы 2 позволяют построить графики главного предложного спектра для произведений Н.В. Гоголя (Рис. 4) и А.С. Пушкина (Рис. 5).

Рис. 4.

Рис. 5.

Из этих графиков следует, что для произведений одного автора они имеют одинаковый качественный и количественный характер, совпадающий с результатами исследований Морозова Н.А.

В тоже время характер главных предложных спектров произведений Н.В. Гоголя и А.С. Пушкина значительно различаются, что характеризует индивидуальность авторов.

Таким образом, критику Маркова А.А. лингвистического анализа Морозова Н.А. следует признать несостоятельной.

Литература

1. Морозов Н.А. Лингвистические спектры: средство для отличия плагиатов от истинных произведений того или иного известного автора. Стилиметрический этюд. // Известия отд. Русского языка и словесности Имп. Акад. Наук, Т. XX, кн. 4, 1915

2. Марков А.А. Об одном применение статистического метода. // Известия Имп. Акад. Наук, сер. VI, Т. X, №4, 1916, с 249


Наши рекомендации