Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 129
Корпусная лингвистика 129
С 1993 г. несколько общенациональных немецких газет выпускают компьютерные варианты своих текстов на CD-ромах — «Frankfurter Allgemeine», «Neue Zürcher Zeitung», «Tageszeitung». CD-ромы, кроме текстов газет, содержат программное обеспечение, которое позволяет/проводить поиск информации по ключевым словам, названиям статей, авторам и некоторым другим параметрам. Впрочем, возможности обработки текстовой информации с помощью содержащихся на CD-ромах программ сравнительно невелики [Wagner 1996].
Корпусная лингвистика во Франции.Один из наиболее грандиозных французских проектов — создание «Сокровищницы французского языка», включающей корпус текстов в 90 млн словоупотреблений. Разработка проекта началась в 1963 г. Ввод основного материала закончен в 1968 г. Введены тексты XIX-XX вв. Корпус уже используется для создания 15-томного словаря французского языка Х1Х-ХХ вв. — «Trésor de la langue française», включающего 80 тыс. лексических входов [Trésor 1988]. Корпусы текстов по русскому языку.Работа над созданием корпусов текстов по русскому языку начата сравнительно недавно. Первые разработки в этой области относятся к началу 1970-х годов. Реально используемых корпусов сравнительно немного. В первую очередь здесь следует упомянуть «Уппсальский машинный фонд русского языка», создававшийся с 1987 г. в Уппсальском университете. Общий объем корпуса — около 1 миллиона словоупотреблений. В корпус отбирались художественные тексты с начала 1960 г., специальные журнальные тексты — с начала 1985 г. и газетные статьи — с начала 1987 г. По замыслу корпус должен отражать современное состояние русского языка; временное распределение статей в корпусе из различных источников отражает взгляды составителей на процессы старения лексики. Цель формирования корпуса заключалась в том, чтобы представить в первую очередь литературный язык, поэтому в массив не включались образцы разговорной речи. Минимальной единицей хранения Уппсальского корпуса является целый текст, а не фрагменты текстов. Корпус состоит из 200 подмас-сивов по 5 000 словоупотреблений в каждом. Подмассив может состоять из одного текста. В текстах корпуса в равной пропорции представлена художественная и специальная литература. Классификация специальной литературы осуществляется по тематике (биология, химия, физика и т. д.), а художественной литературы — по авторам. Если автор тематически разнообразен, то в выборку включаются все важные тематические области. Например, В.Астафьев представлен военной прозой, описаниями природы и сельской тематикой. Каждому тексту сопоставлено формальное описание, в котором содержится информация о типе текста (специальная vs. художественная литература), об источнике, тематике, авторе. Кириллический алфавит исходных текстов передается латиницей.
Собственно российский опыт составления корпусов.В рассматриваемом подходе формированию корпуса текстов должен предшествовать
анализ исследовательской программы возможного или реального пользователя, а также предварительная инвентаризация проблемной области. Инвентаризация проблемной области в качестве результата предполагает получение некоторого комплекса параметров, которые достаточно полно характеризуют содержащиеся в ней тексты. Фактически параметризуя проблемную область, лингвист выделяет из объекта исследования предмет исследования. В настоящее время не разработано более или менее ясных принципов выделения параметров в связи с поставленной задачей лингвистического описания. Создатель корпуса текстов по большей части действует, основываясь на интуиции и здравом смысле.
Особая задача — выявление информационной потребности пользователя корпуса, если создатель корпуса и исследователь — не одно и то же лицо. В описываемых примерах потребители и составители корпусов практически выступают в одном лице, тем самым проблема выявления информационной потребности (исследовательской программы) существенно упрощается.
Корпус по дискурсивным словам русского языка[28]. Составление корпуса по дискурсивным словам преследовало две основных задачи. Первая — обеспечение исследователя контекстами употребления дискурсивных слов, которые в должной мере отражали бы функционирование этих единиц в проблемной области. Первая задача типична для исследовательского корпуса. В рамках второй задачи корпус использовался как источник примеров для словарных статей словаря дискурсивных слов, и здесь корпус должен был иметь некоторые характеристики иллюстративного. В качестве источников выступали тексты, в которых широко используются частицы различных семантических групп.
Для формирования корпуса текстов по дискурсивным словам (единица хранения — связный текст, объемом три-четыре абзаца и более) были учтены следующие факторы исходных массивов исходной проблемной области:
• временное распределение (периоды: классическая литература XIX в.; художественная литература первой половины XX в.; художественная литература второй половины XX в., а также публицистика 90-х гг.); привлечение публицистики 90-х двадцатого века объясняется прежде всего тем, что многие газеты и журналы имеют электронные версии; сканирование газетного и журнального текста изданий 60-80-х гг. сильно затруднено из-за низкого качества бумаги;
• авторское распределение — Ф. Достоевский, И. Бунин, Л. Толстой, А. и Б. Стругацкие, Ф. Искандер, А. Вампилов, К. Симонов, Б. Окуджава, Ю.Трифонов, С.Довлатов и т.д.;