Глава 3. Оптимизация эпистемической функции языка. что элементы динамической технологии — в частности, возможность выборки подмножества текстов из генеральной совокупности — ранее были использованы при


что элементы динамической технологии — в частности, возможность выборки подмножества текстов из генеральной совокупности — ранее были использованы при создании Бирмингемского корпуса текстов.

Заключение

К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы. Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.

Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата предста­вления дополняется и несовместимостью программного обеспечения.

В имеющихся описаниях корпусов нет ясной информации о содержа­тельных принципах отбора материала. Поскольку корпус является суже­нием проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представи­тельности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употре­бления лексем в тех или иных значениях или для составления словников некоторой проблемной области. Необходимо разработать общепринятую процедуру сужения проблемной области до корпуса текстов. По-види­мому, таких процедур должно быть несколько, поскольку соотношение между корпусом и проблемной областью не является постоянной величи­ной и меняется в зависимости от характера проблемной области и задач исследования.

Необходимо проводить ясное разграничение между «исследователь­скими» корпусами и «иллюстративными» корпусами (первые создаются для изучения явления, а вторые — для иллюстрации установленных за­кономерностей). Очень часто требования, предъявляемые пользователем к исследовательскому корпусу текстов, по сути аналогичны требованиям для иллюстративных корпусов, при том что исследование еще не про­ведено.

Последовательное выполнение принципов построения корпусов тек­стов приводит к тому, что корпус может быть построен только после того, как уже завершена та работа, для которой он предназначается. Удел «сбор­щиков» корпусов — балансирование между этими крайностями — уже завершенной работой и необозримым множеством текстов проблемной области.

Корпусная лингвистика

Основная литература

1. Баранов А. Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема// Русистика сегодня. 1998. № 1-2. С. 179-191.

2. Баранов А. #., Добровольский Д. О. Немецкая корпусная лингвистика // Вест­ник МГУ. Сер. Иностранные языки. 1998. № 1.

3. Исаев И. А. Опыт автоматизации лексикографических исследований. Система DIALEX // Слово Достоевского. М., 1996.

4. Михайлов M. H. Компьютерное обеспечение корпуса текстов (взгляд пользо­вателя) // Русистика сегодня. 1998. № 1-2. С. 192-201.

5. Мошкович Ж. Г, Автоматическая лексическая система Унилекс-2. М., 1989.

6. Фрэнсис У. Н. Проблемы формирования и машинного представления большо­го корпуса текстов // Новое в зарубежной лингвистике. Вып. XIV. Проблемы и методы лексикографии. М., 1983. С. 334-353.

Дополнительная литература

1. Леннгрен Л., Ферм Л. Уппсальский машинный фонд русского языка // Труды машинного фонда русского языка. Т. 1. М., 1991.

2. Renouf A. Corpus development at Birmingham University, Corpus linguistics. Recent developments in the use of computer corpora in English language research / Eds. Aarts J. & Meijs W. Amsterdam, 1984.

3. WordCruncher. WC Index Text Retrieval Software. Birgham Young University, 1989 a.

4. WordCruncher. WC View Text Retrieval Software. Birgham Young University, 1989 b.

[1] Термин словарь имеет в лингвистике и другое значение, обозначая всю совокупность слов некоторого языка (иначе говоря, его лексику). Вэтом значении словарь противопоста­вляется грамматике — своду правил, по которым из слов строятся более сложные языковые выражения (словосочетания и предложения).

[2] От греч. glossa 'язык, слово'.

[3] Более подробно о начальном периоде итальянской лексикографии см. [Лободанов 1998].

[4] Здесь имеется в виду церковнославянский язык.

[5] К чисто лингвистической относится, например, информация о морфологическом роде слова стол, об особенностях его склонения, произношения в различных формах, его многозначности и наборе значений т.д. Экстралингвистической информацией является, например, знание о том, что «Наполеон Бонапарт умер в 1821 г.».

[6] Ср. английский термин «unabridged», характеризующий в англоязычной традиции лексикографии как разнообразие словника словаря, так и его полноту.

[7] Термин «тезаурус» имеет еще два значения. Одно из них — очень полный, самый полный словарь; второе же относится не к лексикографии, а к теоретической семантике, а также теории знаний и теории коммуникации: тезаурусом называется вся совокупность имеющихся у человека знаний.

[8] Подробнее о таком подходе к построению тезауруса см. [Баранов, Добровольский 1992].

[9] Первое издание под ред. Ю.Д.Апресяна и Э. М. Медниковой.

[10] Термин предложен П. Б. Паршиным.

[11] Например, высокая степень выраженности признака — Magn — обозначается при словах, обозначающих различные признаки, по-разному и при этом непредсказуемым спо­собом: гробовое молчание, круглый дурак, полная темнота, абсолютный слух, исключительная наглость и т.д.; заботами окружают, а приветствиями осыпают, но не наоборот и т.д.

[12] Цитируется по [Шайкевич 1995].

[13] Состав терминальных таксонов вос-производится частично.

[14] Подробнее о программе DIALEX и технологиях формирования корпусов текстов см. в § 3 главы 3.

[15] В необходимых случаях привлекаются и тексты русской классической литературы.

[16] «Конечный пользователь» отличается от «неконечного» тем, что он стоит в конце тех­нологической цепочки использования АС. Автоматические словари могут иметь и других — побочных — пользователей, которыми часто оказываются не люди, а другие программы, использующие данный АС для своих целей.

[17] Структура словарной статьи приводится по [Беляева, Герд, Убин 1996, с. 324-327].

* Раздел 2.4 основывается на [Баранов, Добровольский 1990а; 1993].

[18] Особый слой лингвистической терминологии образован единицами номенклатур (см. выше) — названиями конкретных языковых фактов, явлений, ср. двойной датель­ный падеж, саксонский падеж, «арабский айн».

[19] Термины таксонов приводятся выбо­рочно.

[20] Хотя можно говорить о существовании соответствующей словарной традиции — ср., например, [Brugmann 1909].

[21] Целый ряд методов полевого исследования языка обсуждается в [Кибрик 1972].

[22] Например, изучение функционирования выражения по крайней мере в художествен­ных произведениях Ф.М.Достоевского требует анализа более чем 500 употреблений этого грамматического фразеологизма. Между тем представление о реальной картине употребле­ния появляется после просмотра первых 70-80 контекстов. Остальной материал не дает практически ничего нового. См. по этому поводу [Баранов 1996].

[23] Термин «мониторный» прямо связан с идеей лингвистического мониторинга — см. § 4 главы 5.

[24] Ср. формальные требования к представлению текстов в Машинном фонде русского языка в [Андрющенко 1987].

[25] Распространяется организацией Zentrum für Umfragen, Methoden und Analysen — ZUMA (г. Мангейм, Германия).

[26] Подробный сравнительный анализ некоторых программных пакетов обработки кор­пусов см. в [Müller 1993].

[27] LIMAS — сокращение от названия исследовательской группы Linguistische und MAschinelle Sprachübersetzung, работавшей в Институте исследования проблем комму­никации и фонетики Боннского университета с 1965 по 1976 гг.

[28] Корпус словаря языка Достоевского разрабатывается в рамках проекта, поддержанного РГНФ; корпус текстов по дискурсивным словам русского языка создавался в совместном российско-французском проекте описания дискурсивных слов русского языка, частично финансировавшемся INTAS.

[29] Проект финансировался в 1996-1997 гг. Российским фондом фундаментальных ис­следований (грант № 96-06-80359). Авторская группа: Баранов А. Н., Михайлов M. H., Сидоров Г. О.

[30] Ср., например, Брауновский корпус, составленный из отрывков по І 000 слов каждый.

Наши рекомендации