Опыт разработки корпусов текстов
К настоящему времени накоплен серьезный опыт разработки корпусов текстов для различных языков. Наибольший интерес представляют
Глава 3. Оптимизация эпистемической функции языка
Корпусная лингвистика
фундаментальные корпусы текстов, отражающие состояние языка в целом, а не каких-то его отдельных феноменов, подсистем.
Фундаментальные корпусы.Наиболее известен Брауновский корпус американского варианта современного английского языка, создававшийся в Брауновском университете в 1962-1963 гг. под руководством У. Фрэнсиса. Брауновский корпус существует в компьютерном варианте и на микрофишах. Объем корпуса около 1 млн словоупотреблений. Корпус состоит из 500 текстов, каждый из которых включает 2 000 словоупотреблений. В корпус вошли тексты, впервые вышедшие в 1961 г. и относящиеся к литературному варианту английского языка. Тексты охватывают 15 различных жанров американского английского: газетные статьи (репортажи, передовицы, обзоры); религиозную литературу; профессиональную литературу; научно-популярную литературу; беллетристику; образцы деловой прозы (в том числе правительственные документы); научную литературу; художественную прозу; детективы и научную фантастику; приключенческую литературу и вестерны; романтическую литературу; юмористические истории и рассказы. В 1980 г. появилась индексированная (аннотированная) версия Брауновского корпуса, в которой была проведена лемматизация словоформ, маркировка их поверхностно-синтаксических функций и пр.
Британским аналогом Брауновского корпуса является Ланкастерско-Осло-Бергенский корпус (принятое сокращение LOB). Он создавался несколько позже Брауновского, но включал тексты того же временного периода и тех же жанров, но британского варианта английского языка. Аннотированная версия корпуса LOB появилась уже в 1985 г. Существование двух фундаментальных корпусов-аналогов для американского и британского вариантов английского языка стимулировало проведение сравнительных исследований в этой области и дало весьма интересные результаты.
Существенно отличается от Брауновского корпуса — Лондонско-Лундский корпус, разработанный в рамках проекта «Обзор употребления английского языка». Цель проекта заключалась в том, чтобы по возможности полно зафиксировать особенности грамматической системы английского языка в речи взрослого образованного носителя. Проект разрабатывался с 1960 г. под руководством Рэндола Квирка в Лондонском университетском колледже. Объем корпуса — 1 млн словоупотреблений. Лондонско-Лундский корпус, кроме письменных текстов, включает и тексты устной речи (100 письменной и 100 устной), представленные в орфографической записи с маркировкой некоторых просодических и паралин-гвистических особенностей естественного дискурса. Текстами устной речи были записи радиопередач, заседаний официальных структур, а также неформальных бесед. Машинный вариант корпуса создавался в Лундском университете (Швеция) и был готов для использования с 1979 г. Машинная версия содержит подробный указатель словоформ, а также маркеры
некоторых просодических особенностей речи. На основе корпуса была подготовлена и выпущена в 1985 г. Полная грамматика английского языка. Еще один интересный опыт создания фундаментального корпуса — Бирмингемский корпус. В отличие от ранее рассмотренных примеров Бирмингемский корпус основан на идеологии мониторного или динамического корпуса. Идеологом этого проекта стал Дж. Синклер — один из отцов современного дискурс-анализа. Мониторный корпус отличается от обычного по следующим параметрам: 1) объем такого корпуса достигает нескольких десятков миллионов словоупотреблений; 2) корпус постоянно пополняется и изменяется, отражая те изменения, которые происходят в языке; 3) пользователь получает возможность в автоматическом или полуавтоматическом режиме создавать рабочие корпусы из генерального корпуса.
Первым этапом на пути создания корпуса стала Бирмингемская коллекция английских текстов, предназначенная для поддержки проекта «Словаря современного английского языка». Для реализации проекта было организовано специальное подразделение COBUILD (Corpus Building). К 1986 г. объем коллекции текстов достигал 20 млн словоупотреблений. Единицей хранения коллекции является целый текст или его достаточно большой фрагмент. Объем каждой единицы хранения порядка 70 тыс. словоупотреблений. Отбор текстов — с 1970 г., периодика привлекалась с 1979 г. Коллекция объединяет тексты всех вариантов английского языка — 65-70% британский английский, 25-30% американский английский, 5 % прочие варианты английского языка. Сфера письменных текстов не ограничивается опубликованными материалами: в коллекцию входят образцы эпистолярного жанра, неопубликованные рукописи. Часть коллекции представлена устными затранскрибированными текстами. В настоящее время исследователям доступен фрагмент Бирмингемской коллекции — Бирмингемский корпус, достигающий 7,3 млн словоупотреблений (6 млн письменные тексты, 1,3 млн — устные тексты). Общий состав Бирмингемского корпуса таков: нехудожественная литература (66 текстов), художественная литература (25 текстов), газеты (4 текста), журналы (12 текстов), деловая проза (правительственные документы) — 5 документов, письма — 6 документов. Среди текстов устной речи наиболее частотны радиодискуссии (44 текста), неформальные личные диалоги (15 документов), радиоинтервью (60 текстов), университетские лекции (18 текстов).
Корпусная лингвистика в Германии.В Германии появление Брауновского корпуса дало толчок разработке проекта LÏMAS-корпуса, создававшегося в рамках проекта системы немецко-английского машинного перевода[27]. LIMAS-Kopnyc состоит из 500 подкорпусов по 2 000 слово-