Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 129


Корпусная лингвистика 129



С 1993 г. несколько общенациональных немецких газет выпускают компьютерные варианты своих текстов на CD-ромах — «Frankfurter Allge­meine», «Neue Zürcher Zeitung», «Tageszeitung». CD-ромы, кроме текстов газет, содержат программное обеспечение, которое позволяет/проводить поиск информации по ключевым словам, названиям статей, авторам и некоторым другим параметрам. Впрочем, возможности обработки тек­стовой информации с помощью содержащихся на CD-ромах программ сравнительно невелики [Wagner 1996].

Корпусная лингвистика во Франции.Один из наиболее грандиоз­ных французских проектов — создание «Сокровищницы французского языка», включающей корпус текстов в 90 млн словоупотреблений. Раз­работка проекта началась в 1963 г. Ввод основного материала закончен в 1968 г. Введены тексты XIX-XX вв. Корпус уже используется для созда­ния 15-томного словаря французского языка Х1Х-ХХ вв. — «Trésor de la langue française», включающего 80 тыс. лексических входов [Trésor 1988]. Корпусы текстов по русскому языку.Работа над созданием корпу­сов текстов по русскому языку начата сравнительно недавно. Первые разработки в этой области относятся к началу 1970-х годов. Реаль­но используемых корпусов сравнительно немного. В первую очередь здесь следует упомянуть «Уппсальский машинный фонд русского язы­ка», создававшийся с 1987 г. в Уппсальском университете. Общий объем корпуса — около 1 миллиона словоупотреблений. В корпус отбирались художественные тексты с начала 1960 г., специальные журнальные тек­сты — с начала 1985 г. и газетные статьи — с начала 1987 г. По замыслу корпус должен отражать современное состояние русского языка; времен­ное распределение статей в корпусе из различных источников отражает взгляды составителей на процессы старения лексики. Цель формирования корпуса заключалась в том, чтобы представить в первую очередь лите­ратурный язык, поэтому в массив не включались образцы разговорной речи. Минимальной единицей хранения Уппсальского корпуса является целый текст, а не фрагменты текстов. Корпус состоит из 200 подмас-сивов по 5 000 словоупотреблений в каждом. Подмассив может состоять из одного текста. В текстах корпуса в равной пропорции представлена художественная и специальная литература. Классификация специальной литературы осуществляется по тематике (биология, химия, физика и т. д.), а художественной литературы — по авторам. Если автор тематически раз­нообразен, то в выборку включаются все важные тематические области. Например, В.Астафьев представлен военной прозой, описаниями при­роды и сельской тематикой. Каждому тексту сопоставлено формальное описание, в котором содержится информация о типе текста (специ­альная vs. художественная литература), об источнике, тематике, авторе. Кириллический алфавит исходных текстов передается латиницей.

Собственно российский опыт составления корпусов.В рассматрива­емом подходе формированию корпуса текстов должен предшествовать

анализ исследовательской программы возможного или реального поль­зователя, а также предварительная инвентаризация проблемной области. Инвентаризация проблемной области в качестве результата предполагает получение некоторого комплекса параметров, которые достаточно полно характеризуют содержащиеся в ней тексты. Фактически параметризуя проблемную область, лингвист выделяет из объекта исследования пред­мет исследования. В настоящее время не разработано более или менее ясных принципов выделения параметров в связи с поставленной задачей лингвистического описания. Создатель корпуса текстов по большей части действует, основываясь на интуиции и здравом смысле.

Особая задача — выявление информационной потребности поль­зователя корпуса, если создатель корпуса и исследователь — не одно и то же лицо. В описываемых примерах потребители и составители корпусов практически выступают в одном лице, тем самым проблема вы­явления информационной потребности (исследовательской программы) существенно упрощается.

Корпус по дискурсивным словам русского языка[28]. Составление кор­пуса по дискурсивным словам преследовало две основных задачи. Пер­вая — обеспечение исследователя контекстами употребления дискурсив­ных слов, которые в должной мере отражали бы функционирование этих единиц в проблемной области. Первая задача типична для исследова­тельского корпуса. В рамках второй задачи корпус использовался как источник примеров для словарных статей словаря дискурсивных слов, и здесь корпус должен был иметь некоторые характеристики иллюстра­тивного. В качестве источников выступали тексты, в которых широко используются частицы различных семантических групп.

Для формирования корпуса текстов по дискурсивным словам (едини­ца хранения — связный текст, объемом три-четыре абзаца и более) были учтены следующие факторы исходных массивов исходной проблемной области:

• временное распределение (периоды: классическая литература XIX в.; художественная литература первой половины XX в.; художественная литература второй половины XX в., а также публицистика 90-х гг.); привлечение публицистики 90-х двадцатого века объясняется прежде всего тем, что многие газеты и журналы имеют электронные версии; сканирование газетного и журнального текста изданий 60-80-х гг. сильно затруднено из-за низкого качества бумаги;

• авторское распределение — Ф. Достоевский, И. Бунин, Л. Толстой, А. и Б. Стругацкие, Ф. Искандер, А. Вампилов, К. Симонов, Б. Оку­джава, Ю.Трифонов, С.Довлатов и т.д.;

Наши рекомендации