Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 135


Корпусная лингвистика 135



занимающиеся обработкой текстов, чаще всего создают свое собственное программное обеспечение, которое, однако, далеко не всегда позволяет выполнять все необходимые операции. Общая проблема программ это­го класса — проблема группировки текстов, отвечающих какому-либо признаку. Наиболее часто используемые программы предлагают поль­зователям создавать список текстов вручную. Начнем с того, что эта процедура требует от пользователя определенных знаний о компьютере и изрядного терпения, чтобы, скажем, ввести в текстовом редакторе список типа:

c:\dost\txt\bs.txt

c:\dost\txt\bkl.txt

c:\dost\txt\bk2.txt

c:\dost\txt\podr.txt

Кроме того, следует отметить, что когда количество текстов корпуса превышает 1 000 единиц хранения (что имеет место в данном случае), и имя файла не всегда отражает все признаки текста, пользователь про­сто не в состоянии это сделать вручную. Процедура составления списка текстов должна быть максимально упрощена. От пользователя можно по­требовать лишь указания интересующих его параметров текста — издание, автор, тематика, жанр и т. п.

Получение конкордансов и словников.Система позволяет осуще­ствлять следующие функции:

1. Стандартный просмотр текстов, входящих в состав корпуса (в виде просмотра таблицы базы данных).

2. Выборка и упорядочивание текстов по указанным формальным или содержательным признакам, а также на основе различных их комби­наций. В системе реализован стандартный набор типовых запросов в виде выбора из списка, автоматически переводимых затем на язык SQL; возможен также ручной ввод запросов на SQL.

3. Получение текстовых массивов, являющихся подмножествами исход­ного корпуса на основе изменяемой случайной выборки и задания процентов от общего корпуса по одному из параметров.

4. Просмотр массивов-подмножеств и их обработку: получение слов­ников и списков контекстов (конкордансов).

Формирование корпуса текстов.Размеченные в соответствии с описан­ными выше параметрами тексты представляют собой лишь сырой матери­ал. Отметим, что в традиционной технологии это и есть окончательный результат. В технологии динамического корпуса текстов размеченный исходный массив является источником для формирования конкретных корпусов, более точно отражающих информационную потребность поль­зователя. Массив хранится в виде базы данных, а каждый отдельный текст — в одной записи (параметры — в текстовых и числовых полях, са­ма статья — в поле MEMO). Перевод размеченных текстов в формат базы данных осуществляется с помощью специальной служебной утилиты.

Состояние проекта.К настоящему времени сформирован корпус тек­стов по современной публицистике объемом 15 мегабайт (около 7,5 тыс. страниц). Корпус можно оценить как представительный с точки зрения параметров, которые были определены для отбора текстов в результиру­ющий массив. Иными словами, все значения параметров и их сочетания (за исключением малочастотных и невозможных) представлены в кор­пусе. Например, в журнале «Новый мир» не были обнаружены статьи по финансам, а в журнале «Эксперт» — по литературе. Тем самым эти сочетания значений параметров (издание «Новый мир» & тематика «фи­нансы» и, соответственно, издание «Эксперт» & тематика «литература») в результирующем корпусе не представлены. С другой стороны, темати­ка «внутренняя политика» сочетается в исходном массиве практически со всеми привлекавшимися изданиями. Следовательно, в корпус были введены тексты, в которых реализуются все встретившиеся сочетания те­матики «внутренняя политика» с названиями представленных в корпусе газет и журналов: «внутренняя политика» & «Новый мир», «внутренняя политика» & «Московские новости», «внутренняя политика» & «Итоги», «внутренняя политика» & «Российская газета» и т. д.

Созданный корпус текстов по современной русской публицисти­ке с точки зрения выбранных параметров может рассматривается как модель функционирования языка современной публицистики в дис­курсе. Наиболее полно в корпусе представлены следующие источники: «Век» (около 8 %), «Завтра» (около 14 %), «Известия» (около 5 %), «Итоги» (около 11 %), «Литературная газета» (около 6%), «Московские новости» (более 8 %), «Независимая газета» (около 6 %), «Новый мир» (около 12 %), «Российская газета» (около 8 %).

В имеющейся версии корпуса и программного обеспечения имеет­ся возможность варьирования набора текстов по следующим параметрам: 1) источник; 2) автор; 3) время публикации; 4) тема текста; 5) жанр текста (внутри «публицистического» стиля). Программная оболочка содержит четыре стандартных варианта корпуса — полный корпус, а также про­порциональные сужения (до 25 %) по изданиям, темам и жанрам соответ­ственно. Пользователь может формировать собственный корпус из имею­щихся текстов, запоминать его конфигурацию и производить обработку. Разработанный программный продукт, являющийся одновременно источником языковых данных, представляется уникальным в двух отно­шениях. Во-первых, это первый корпус по русскому языку, в котором представлен язык российской публицистики. Близкие по жанру корпусы текстов, даже относящиеся к другому временному отрезку, к настоящему времени отсутствуют. Во-вторых, создана новая технология организации и эксплуатации корпуса текстов — концепция «динамического корпуса текстов», которая более гибка по сравнению с традиционной и предоста­вляет пользователю существенно больше информации о составе корпуса и больше возможностей адаптации исходного массива к конкретной лин­гвистической (и не только лингвистической) задаче. Следует заметить,

Наши рекомендации