Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 135
Корпусная лингвистика 135
занимающиеся обработкой текстов, чаще всего создают свое собственное программное обеспечение, которое, однако, далеко не всегда позволяет выполнять все необходимые операции. Общая проблема программ этого класса — проблема группировки текстов, отвечающих какому-либо признаку. Наиболее часто используемые программы предлагают пользователям создавать список текстов вручную. Начнем с того, что эта процедура требует от пользователя определенных знаний о компьютере и изрядного терпения, чтобы, скажем, ввести в текстовом редакторе список типа:
c:\dost\txt\bs.txt
c:\dost\txt\bkl.txt
c:\dost\txt\bk2.txt
c:\dost\txt\podr.txt
Кроме того, следует отметить, что когда количество текстов корпуса превышает 1 000 единиц хранения (что имеет место в данном случае), и имя файла не всегда отражает все признаки текста, пользователь просто не в состоянии это сделать вручную. Процедура составления списка текстов должна быть максимально упрощена. От пользователя можно потребовать лишь указания интересующих его параметров текста — издание, автор, тематика, жанр и т. п.
Получение конкордансов и словников.Система позволяет осуществлять следующие функции:
1. Стандартный просмотр текстов, входящих в состав корпуса (в виде просмотра таблицы базы данных).
2. Выборка и упорядочивание текстов по указанным формальным или содержательным признакам, а также на основе различных их комбинаций. В системе реализован стандартный набор типовых запросов в виде выбора из списка, автоматически переводимых затем на язык SQL; возможен также ручной ввод запросов на SQL.
3. Получение текстовых массивов, являющихся подмножествами исходного корпуса на основе изменяемой случайной выборки и задания процентов от общего корпуса по одному из параметров.
4. Просмотр массивов-подмножеств и их обработку: получение словников и списков контекстов (конкордансов).
Формирование корпуса текстов.Размеченные в соответствии с описанными выше параметрами тексты представляют собой лишь сырой материал. Отметим, что в традиционной технологии это и есть окончательный результат. В технологии динамического корпуса текстов размеченный исходный массив является источником для формирования конкретных корпусов, более точно отражающих информационную потребность пользователя. Массив хранится в виде базы данных, а каждый отдельный текст — в одной записи (параметры — в текстовых и числовых полях, сама статья — в поле MEMO). Перевод размеченных текстов в формат базы данных осуществляется с помощью специальной служебной утилиты.
Состояние проекта.К настоящему времени сформирован корпус текстов по современной публицистике объемом 15 мегабайт (около 7,5 тыс. страниц). Корпус можно оценить как представительный с точки зрения параметров, которые были определены для отбора текстов в результирующий массив. Иными словами, все значения параметров и их сочетания (за исключением малочастотных и невозможных) представлены в корпусе. Например, в журнале «Новый мир» не были обнаружены статьи по финансам, а в журнале «Эксперт» — по литературе. Тем самым эти сочетания значений параметров (издание «Новый мир» & тематика «финансы» и, соответственно, издание «Эксперт» & тематика «литература») в результирующем корпусе не представлены. С другой стороны, тематика «внутренняя политика» сочетается в исходном массиве практически со всеми привлекавшимися изданиями. Следовательно, в корпус были введены тексты, в которых реализуются все встретившиеся сочетания тематики «внутренняя политика» с названиями представленных в корпусе газет и журналов: «внутренняя политика» & «Новый мир», «внутренняя политика» & «Московские новости», «внутренняя политика» & «Итоги», «внутренняя политика» & «Российская газета» и т. д.
Созданный корпус текстов по современной русской публицистике с точки зрения выбранных параметров может рассматривается как модель функционирования языка современной публицистики в дискурсе. Наиболее полно в корпусе представлены следующие источники: «Век» (около 8 %), «Завтра» (около 14 %), «Известия» (около 5 %), «Итоги» (около 11 %), «Литературная газета» (около 6%), «Московские новости» (более 8 %), «Независимая газета» (около 6 %), «Новый мир» (около 12 %), «Российская газета» (около 8 %).
В имеющейся версии корпуса и программного обеспечения имеется возможность варьирования набора текстов по следующим параметрам: 1) источник; 2) автор; 3) время публикации; 4) тема текста; 5) жанр текста (внутри «публицистического» стиля). Программная оболочка содержит четыре стандартных варианта корпуса — полный корпус, а также пропорциональные сужения (до 25 %) по изданиям, темам и жанрам соответственно. Пользователь может формировать собственный корпус из имеющихся текстов, запоминать его конфигурацию и производить обработку. Разработанный программный продукт, являющийся одновременно источником языковых данных, представляется уникальным в двух отношениях. Во-первых, это первый корпус по русскому языку, в котором представлен язык российской публицистики. Близкие по жанру корпусы текстов, даже относящиеся к другому временному отрезку, к настоящему времени отсутствуют. Во-вторых, создана новая технология организации и эксплуатации корпуса текстов — концепция «динамического корпуса текстов», которая более гибка по сравнению с традиционной и предоставляет пользователю существенно больше информации о составе корпуса и больше возможностей адаптации исходного массива к конкретной лингвистической (и не только лингвистической) задаче. Следует заметить,