Глава 3. Оптимизация эпистемической функции языка. что элементы динамической технологии — в частности, возможность выборки подмножества текстов из генеральной совокупности — ранее были использованы при
что элементы динамической технологии — в частности, возможность выборки подмножества текстов из генеральной совокупности — ранее были использованы при создании Бирмингемского корпуса текстов.
Заключение
К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.
Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата представления дополняется и несовместимостью программного обеспечения.
В имеющихся описаниях корпусов нет ясной информации о содержательных принципах отбора материала. Поскольку корпус является сужением проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представительности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употребления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-видимому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величиной и меняется в зависимости от характера проблемной области и задач исследования.
Необходимо проводить ясное разграничение между «исследовательскими» корпусами и «иллюстративными» корпусами (первые создаются для изучения явления, а вторые — для иллюстрации установленных закономерностей). Очень часто требования, предъявляемые пользователем к исследовательскому корпусу текстов, по сути аналогичны требованиям для иллюстративных корпусов, при том что исследование еще не проведено.
Последовательное выполнение принципов построения корпусов текстов приводит к тому, что корпус может быть построен только после того, как уже завершена та работа, для которой он предназначается. Удел «сборщиков» корпусов — балансирование между этими крайностями — уже завершенной работой и необозримым множеством текстов проблемной области.
Корпусная лингвистика
Основная литература
1. Баранов А. Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема// Русистика сегодня. 1998. № 1-2. С. 179-191.
2. Баранов А. #., Добровольский Д. О. Немецкая корпусная лингвистика // Вестник МГУ. Сер. Иностранные языки. 1998. № 1.
3. Исаев И. А. Опыт автоматизации лексикографических исследований. Система DIALEX // Слово Достоевского. М., 1996.
4. Михайлов M. H. Компьютерное обеспечение корпуса текстов (взгляд пользователя) // Русистика сегодня. 1998. № 1-2. С. 192-201.
5. Мошкович Ж. Г, Автоматическая лексическая система Унилекс-2. М., 1989.
6. Фрэнсис У. Н. Проблемы формирования и машинного представления большого корпуса текстов // Новое в зарубежной лингвистике. Вып. XIV. Проблемы и методы лексикографии. М., 1983. С. 334-353.
Дополнительная литература
1. Леннгрен Л., Ферм Л. Уппсальский машинный фонд русского языка // Труды машинного фонда русского языка. Т. 1. М., 1991.
2. Renouf A. Corpus development at Birmingham University, Corpus linguistics. Recent developments in the use of computer corpora in English language research / Eds. Aarts J. & Meijs W. Amsterdam, 1984.
3. WordCruncher. WC Index Text Retrieval Software. Birgham Young University, 1989 a.
4. WordCruncher. WC View Text Retrieval Software. Birgham Young University, 1989 b.
[1] Термин словарь имеет в лингвистике и другое значение, обозначая всю совокупность слов некоторого языка (иначе говоря, его лексику). Вэтом значении словарь противопоставляется грамматике — своду правил, по которым из слов строятся более сложные языковые выражения (словосочетания и предложения).
[2] От греч. glossa 'язык, слово'.
[3] Более подробно о начальном периоде итальянской лексикографии см. [Лободанов 1998].
[4] Здесь имеется в виду церковнославянский язык.
[5] К чисто лингвистической относится, например, информация о морфологическом роде слова стол, об особенностях его склонения, произношения в различных формах, его многозначности и наборе значений т.д. Экстралингвистической информацией является, например, знание о том, что «Наполеон Бонапарт умер в 1821 г.».
[6] Ср. английский термин «unabridged», характеризующий в англоязычной традиции лексикографии как разнообразие словника словаря, так и его полноту.
[7] Термин «тезаурус» имеет еще два значения. Одно из них — очень полный, самый полный словарь; второе же относится не к лексикографии, а к теоретической семантике, а также теории знаний и теории коммуникации: тезаурусом называется вся совокупность имеющихся у человека знаний.
[8] Подробнее о таком подходе к построению тезауруса см. [Баранов, Добровольский 1992].
[9] Первое издание под ред. Ю.Д.Апресяна и Э. М. Медниковой.
[10] Термин предложен П. Б. Паршиным.
[11] Например, высокая степень выраженности признака — Magn — обозначается при словах, обозначающих различные признаки, по-разному и при этом непредсказуемым способом: гробовое молчание, круглый дурак, полная темнота, абсолютный слух, исключительная наглость и т.д.; заботами окружают, а приветствиями осыпают, но не наоборот и т.д.
[12] Цитируется по [Шайкевич 1995].
[13] Состав терминальных таксонов вос-производится частично.
[14] Подробнее о программе DIALEX и технологиях формирования корпусов текстов см. в § 3 главы 3.
[15] В необходимых случаях привлекаются и тексты русской классической литературы.
[16] «Конечный пользователь» отличается от «неконечного» тем, что он стоит в конце технологической цепочки использования АС. Автоматические словари могут иметь и других — побочных — пользователей, которыми часто оказываются не люди, а другие программы, использующие данный АС для своих целей.
[17] Структура словарной статьи приводится по [Беляева, Герд, Убин 1996, с. 324-327].
* Раздел 2.4 основывается на [Баранов, Добровольский 1990а; 1993].
[18] Особый слой лингвистической терминологии образован единицами номенклатур (см. выше) — названиями конкретных языковых фактов, явлений, ср. двойной дательный падеж, саксонский падеж, «арабский айн».
[19] Термины таксонов приводятся выборочно.
[20] Хотя можно говорить о существовании соответствующей словарной традиции — ср., например, [Brugmann 1909].
[21] Целый ряд методов полевого исследования языка обсуждается в [Кибрик 1972].
[22] Например, изучение функционирования выражения по крайней мере в художественных произведениях Ф.М.Достоевского требует анализа более чем 500 употреблений этого грамматического фразеологизма. Между тем представление о реальной картине употребления появляется после просмотра первых 70-80 контекстов. Остальной материал не дает практически ничего нового. См. по этому поводу [Баранов 1996].
[23] Термин «мониторный» прямо связан с идеей лингвистического мониторинга — см. § 4 главы 5.
[24] Ср. формальные требования к представлению текстов в Машинном фонде русского языка в [Андрющенко 1987].
[25] Распространяется организацией Zentrum für Umfragen, Methoden und Analysen — ZUMA (г. Мангейм, Германия).
[26] Подробный сравнительный анализ некоторых программных пакетов обработки корпусов см. в [Müller 1993].
[27] LIMAS — сокращение от названия исследовательской группы Linguistische und MAschinelle Sprachübersetzung, работавшей в Институте исследования проблем коммуникации и фонетики Боннского университета с 1965 по 1976 гг.
[28] Корпус словаря языка Достоевского разрабатывается в рамках проекта, поддержанного РГНФ; корпус текстов по дискурсивным словам русского языка создавался в совместном российско-французском проекте описания дискурсивных слов русского языка, частично финансировавшемся INTAS.
[29] Проект финансировался в 1996-1997 гг. Российским фондом фундаментальных исследований (грант № 96-06-80359). Авторская группа: Баранов А. Н., Михайлов M. H., Сидоров Г. О.
[30] Ср., например, Брауновский корпус, составленный из отрывков по І 000 слов каждый.