Динамический корпус текстов по современной публицистике (90-е гг.)29).
Этот корпус текстов относится к числу новых проектов, осуществляемых в отделе экспериментальной лексикографии Института русского языка РАН. Основная цель проекта — дать источник для проведения различных лингвистических исследований, ориентированных на изучение изменений языковой системы в период перестройки и постперестройки. В 90-е гг. произошли существенные изменения в языке средств массовой информации, в политическом дискурсе, что оказало существенное влияние на художественную прозу, научный язык и пр.
Динамический корпус текстов как новая технология прикладной лингвистики. Как было показано выше, корпус текстов в идеальном случае должен удовлетворять критерию репрезентативности и в то же время быть существенно меньше проблемной области, которую он отражает. С другой стороны, репрезентативность корпуса прямо связана и с теми задачами, которые стоят перед исследователем. Сложность совмещения требований статистической репрезентативности и установок пользователя приводит к тому, что многие значительные по объему корпусы вообще не имеют четких критериев отбора текстов. В проекте динамического корпуса текстов по современной публицистике была предложена такая стратегия формирования, которая позволяет каждому пользователю получить для решения конкретной задачи из базового массива свое подмножество текстов. Базовый, исходный массив текстов, из которого осуществляется отбор, вместе с программным обеспечением называется динамическим корпусом текстов.
Получение репрезентативного корпуса текстов по публицистике представляет собой сложную задачу, поскольку количество периодических изданий огромно, а количество текстов, появляющихся даже в течение одного дня, с трудом поддается исчислению. Эти тексты пишет целая армия журналистов и аналитиков, да и сами тексты сильно отличаются как по форме, так и по тематике. Отдельной проблемой, которую мы здесь не затрагиваем, является определение понятия публицистического текста. При формировании массива авторская группа опиралась на интуицию: не включались чисто информативные тексты, краткие заметки, лишенные авторского взгляда на описываемое положение дел, и т. п.
Стратегия формирования исходного массива. В плане репрезентативности основное внимание было обращено на выбор периодических изданий различной ориентации наиболее важных для общественного сознания в исследуемый период, и на соблюдение пропорции, учитывающей значимость и популярность последних. Кроме того, вторым важным фактором организации корпуса был количественный критерий: текстов должно было быть достаточно много, чтобы отразить все релевантные свойства
29)Проект финансировался в 1996-1997 гг. Российским фондом фундаментальных исследований (грант № 96-06-80359). Авторская группа: Баранов А. Н., Михайлов М. Н., Сидоров Г. О.
проблемной области. Верхний предел корпуса ограничивался прагматическими соображениями — местом на носителе информации и скоростью работы сервисных программ.
Как уже говорилось выше, разные пользователи предъявляют различные требования к корпусу. Нельзя не учитывать и тот факт, что многие пользователи могут оказаться нелингвистами. Этих людей будет интересовать отражение конкретных событий в прессе определенного периода, они захотят читать целые тексты, а не отбирать ограниченные по объему примеры употребления. Чтобы учесть разнообразные интересы, необходимо составлять корпус из целых текстов, а не из отрывков, как зачастую практиковалось в начальный период развития корпусной лингвистики30).
Следует учитывать, что лингвисты разных профилей предъявляют разные требования к корпусу данных. Для исследований по морфологии и синтаксису, как правило, не требуется очень больших массивов текстов. В ряде случаев это просто нежелательно: например, объем конкордансов на употребление служебных слов типа или, да, нет может достигать нескольких тысяч страниц. На один интересный пример может приходится сотня тривиальных. Для исследований по грамматике представляется важным иметь в корпусе тексты, различающиеся по структуре и по жанру. В то же время массив текстов должен быть достаточно большим, чтобы обеспечить получение примеров на редкие слова. Только в этом случае корпус будет представлять интерес для лексикологов и лексикографов.
Таким образом, задача составителей корпуса текстов — постараться по возможности учесть интересы различных пользователей. Для этого необходимо, чтобы все тексты, входящие в корпус, были снабжены достаточно подробным «поисковым образом», который позволил бы программному обеспечению «фильтровать» исходный большой массив, исходя из нужд пользователя.
В отличие от корпуса языка Достоевского, корпус по современной публицистике потребовал разработки сетки параметров, позволяющих осуществить инвентаризацию проблемной области и обеспечить ее репрезентативное представление в корпусе. Единицей хранения корпуса текстов по публицистике является текст или его относительно законченный фрагмент. Параметризация проблемной области при формировании корпуса текстов по современной публицистике основывается на следующих основных факторах:
30)Ср., например, Брауновский корпус, составленный из отрывков по 1 000 слов каждый.
• фактор автора текста: журналист/непрофессиональный политик vs. профессиональный политик (распределение по политикам учитывает как крупных политических деятелей типа Ельцина, Путина, Черномырдина, Немцова, Хакамады, Селезнева, Гайдара, Жириновского, так и политиков второго ряда); отдельно стоит проблема выявления «команд спичрайтеров», определяющих собственно языковое оформление текста — в ряде случаев данная проблема решается довольно легко, но для многих текстов это не возможно в принципе;
• фактор персонификации-деперсонификации автора (конкретный человек vs. партия/общественное движение/политическая организация/учреждение vs. деперсонифицированный текст — лозунги, передовицы и т. п.);
• фактор адресата (кому адресован текст: сторонники — противники — нейтральная аудитория; профессиональная ориентация — выступление перед шахтерами; творческой интеллигенцией и пр,);
• фактор прагматических условий порождения текста (речь на митинге — речь на заседании институционального органа — интервью — пресс-конференция (всего было учтено 15 типов условий произнесения));
• фактор источника: журнальный текст — книжный текст — листовка — агитационный плакат — лозунг — телевидение — радио,
• коммуникативное распределение (монологический текст — диалог;общие типы иллокуций: демонстрация намерений, например, политическая программа — аргументативный диалог и пр.).
На основе сформулированных факторов была сформирована матрица параметров, позволившая выделить из проблемной области около 70 типов текстов. Эта типология и была положена в основу отбора текстов в корпус.
Кодировка единиц хранения массива. После параметризации текстов были определены те характеристики, которые фиксировались в дескрипции каждого текста в корпусе (о фасетной формуле — см. особенности организации фактографических информационно-поисковых систем в § 4 главы 4): 1) источник (значения параметра: «Век», «Дружба народов», «Завтра», «Знамя», «Известия», «Итоги», «Молодая гвардия», «Московский комсомолец» и т.д.); 2) автор (около 1 000 авторов); 3) название статьи (1 368 названий); 4) политическая ориентация издания («общедемократическая» пресса; «левая» пресса); 5) жанр (значения параметра: «воспоминания», «интервью», «критика», «круглый стол», «очерк», «проблемная статья», «репортаж», «рецензия», «фельетон»); 6) тема (значения параметра: «внутренняя политика», «внешняя политика», «литература», «искусство» — всего 39 различных тем); 7) время (период 90-х гг.; было включено также несколько характерных статей периода «ранней перестройки»).
Программное обеспечение. Корпус текстов очень сильно проигрывает, если к нему не сделан «дружественный» пользовательский интерфейс» позволяющий производить обработку текстов и не требующий специальной подготовки пользователя.
Вообще, следует отметить, что в настоящее время не существует стандартного программного пакета обработки текстов, который удовлетворял бы нужды всех пользователей, работающих с письменкьшк источниками (см. по этому поводу выше). По этой причине организации, занимающиеся обработкой текстов, чаще всего создают свое собственное программное обеспечение, которое, однако, далеко не всегда позволяет выполнять все необходимые операции. Общая проблема программ го класса — проблема группировки текстов, отвечающих какому-ли признаку. Наиболее часто используемые программы предлагают пользователям создавать список текстов вручную. Начнем с того, что э процедура требует от пользователя определенных знаний о компьюте] и изрядного терпения, чтобы, скажем, ввести в текстовом редакто список типа:
c:\dost\txt\bs.txt
c:\dost\txt\bkl.txt
c:\dost\txt\bk2.txt
c:\dost\txt\podr.txt
…
Кроме того, следует отметить, что когда количество текстов корпуса превышает 1 000 единиц хранения (что имеет место в данном случае), и имя файла не всегда отражает все признаки текста, пользователь просто не в состоянии это сделать вручную. Процедура составления списка текстов должна быть максимально упрощена. От пользователя можно потребовать лишь указания интересующих его параметров текста — издание, автор, тематика, жанр и т. п.
Получение конкордансов и словников. Система позволяет осуществлять следующие функции:
1. Стандартный просмотр текстов, входящих в состав корпуса (в виде просмотра таблицы базы данных).
2. Выборка и упорядочивание текстов по указанным формальным или содержательным признакам, а также на основе различных их комбинаций. В системе реализован стандартный набор типовых запросов в виде выбора из списка, автоматически переводимых затем на язык SQL; возможен также ручной ввод запросов на SQL.
3. Получение текстовых массивов, являющихся подмножествами исходного корпуса на основе изменяемой случайной выборки и задания процентов от общего корпуса по одному из параметров.
4. Просмотр массивов-подмножеств и их обработку: получение словников и списков контекстов (конкордансов).
Формирование корпуса текстов. Размеченные в соответствии с описанными выше параметрами тексты представляют собой лишь сырой материал. Отметим, что в традиционной технологии это и есть окончательный результат. В технологии динамического корпуса текстов размеченный исходный массив является источником для формирования конкретных корпусов, более точно отражающих информационную потребность пользователя. Массив хранится в виде базы данных, а каждый отдельный текст — в одной записи (параметры — в текстовых и числовых полях, сама статья — в поле MEMO). Перевод размеченных текстов в формат базы данных осуществляется с помощью специальной служебной утилиты.
Состояние проекта. К настоящему времени сформирован корпус текстов по современной публицистике объемом 15 мегабайт (около 7,5 тыс. страниц). Корпус можно оценить как представительный с точки зрения параметров, которые были определены для отбора текстов в результирующий массив. Иными словами, все значения параметров и их сочетания (за исключением малочастотных и невозможных) представлены в корпусе. Например, в журнале «Новый мир» не были обнаружены статьи по финансам, а в журнале «Эксперт» — по литературе. Тем самым эти сочетания значений параметров (издание «Новый мир» & тематика «финансы» и, соответственно, издание «Эксперт» & тематика «литература») в результирующем корпусе не представлены. С другой стороны, тематика «внутренняя политика» сочетается в исходном массиве практически со всеми привлекавшимися изданиями. Следовательно, в корпус были введены тексты, в которых реализуются все встретившиеся сочетания тематики «внутренняя политика» с названиями представленных в корпусе газет и журналов: «внутренняя политика» & «Новый мир», «внутренняя политика» & «Московские новости», «внутренняя политика» & «Итоги», «внутренняя политика» & «Российская газета» и т.д.
Созданный корпус текстов по современной русской публицистике с точки зрения выбранных параметров может рассматривается как модель функционирования языка современной публицистики в дискурсе. Наиболее полно в корпусе представлены следующие источники: «Век» (около 8 %), «Завтра» (около 14 %), «Известия» (около 5 %), «Итоги» (около 11 %), «Литературная газета» (около 6%), «Московские новости» (более 8 %), «Независимая газета» (около 6 %), «Новый мир» (около 12 %), «Российская газета» (около 8 %).
В имеющейся версии корпуса и программного обеспечения имеется возможность варьирования набора текстов по следующим параметрам: 1) источник; 2) автор; 3) время публикации; 4) тема текста; 5) жанр текста (внутри «публицистического» стиля). Программная оболочка содержит четыре стандартных варианта корпуса — полный корпус, а также пропорциональные сужения (до 25 %) по изданиям, темам и жанрам соответственно. Пользователь может формировать собственный корпус из имеющихся текстов, запоминать его конфигурацию и производить обработку.
Разработанный программный продукт, являющийся одновременно источником языковых данных, представляется уникальным в двух отношениях. Во-первых, это первый корпус по русскому языку, в котором представлен язык российской публицистики. Близкие по жанру корпусы текстов, даже относящиеся к другому временному отрезку, к настоящему времени отсутствуют. Во-вторых, создана новая технология организации и эксплуатации корпуса текстов — концепция «динамического корпуса текстов», которая более гибка по сравнению с традиционной и предоставляет пользователю существенно больше информации о составе корпуса и больше возможностей адаптации исходного массива к конкретной лингвистической (и не только лингвистической) задаче. Следует заметить, что элементы динамической технологии — в частности, возможность выборки подмножества текстов из генеральной совокупности — ранее были использованы при создании Бирмингемского корпуса текстов.
Заключение
К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.
Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата представления дополняется и несовместимостью программного обеспечения.
В имеющихся описаниях корпусов нет ясной информации о содержательных принципах отбора материала. Поскольку корпус является сужением проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представительности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употребления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-видимому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величиной и меняется в зависимости от характера проблемной области и задач исследования.
Необходимо проводить ясное разграничение между «исследовательскими» корпусами и «иллюстративными» корпусами (первые создаются для изучения явления, а вторые — для иллюстрации установленных закономерностей). Очень часто требования, предъявляемые пользователем к исследовательскому корпусу текстов, по сути аналогичны требованиям для иллюстративных корпусов, при том что исследование еще не проведено.
Последовательное выполнение принципов построения корпусов текстов приводит к тому, что корпус может быть построен только после того, как уже завершена та работа, для которой он предназначается. Удел «сборщиков» корпусов — балансирование между этими крайностями — уже завершенной работой и необозримым множеством текстов проблемной области.
Основная литература
1. Баранов А. Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема//Русистика сегодня. 1998 № 1-2. С. 179-191.
2 Баранов А. Н., Добровольский Д. О. Немецкая корпусная лингвистика // Вестник МГУ. Сер. Иностранные языки. 1998. № 1.
3.Исаев И. А. Опыт автоматизации лексикографических исследований. Система DIALEX // Слово Достоевского. М., 1996.
4.Михайлов М. Н. Компьютерное обеспечение корпуса текстов (взгляд пользователя) // Русистика сегодня. 1998. № 1-2. С. 192-201.
5.Мошкович Ж. Г. Автоматическая лексическая система Унилекс-2. М., 1989.
6.Фрэнсис У. Н. Проблемы формирования и машинного представления большого корпуса текстов // Новое в зарубежной лингвистике. Вып. XIV Проблемы и методы лексикографии. М., 1983. С. 334-353.
Дополнительная литература
1.Леннгрен Л., Ферм Л. Уппсальский машинный фонд русского языка // Труды машинного фонда русского языка. Т. 1. М., 1991.
2.Renouf A. Corpus development at Birmingham University, Corpus linguistics. Recent developments in the use of computer corpora in English language research / Eds. Aarts J. & Meijs W. Amsterdam, 1984.
3.WordCruncher. WC Index Text Retrieval Sofrware. Birgham Young University, 1989а.
4.Word Cruncher. WC View Text Retrieval Sofrware. Birgham Young University, 1989b.