Компьютерная лексикография

Современная лексикография существенно расширила и усилила свой инструментарий компьютерными технологиями создания и эксплуатации словарей. Специальные программы — базы данных, компьютерные картотеки, программы обработки текста — позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографических программ можно разделить на две больших группы: программы поддержки лексикографических работ и автоматические словари (АС) различных типов, включающие лексикографические базы данных.

Компьютерные программы поддержки лексикографических работ. Работа лексикографа непосредственно связана со словами, примерами их употребления и словарными статьями создаваемого словаря. Традиционная форма фиксации словарных данных — каталожная карточка, в которой указывается описываемое слово, пример употребления, источник примера, автор, а также различная дополнительная информация. Современные компьютерные технологии позволяют упростить процесс сбора и хранения лексикографической информации, используя вместо обычной картотеки базу данных, записи которой представляют собой аналог традиционной каталожной карточки. В отличие от обычной картотеки, записи базы данных дают возможность автоматически сортировать массив по выбранным параметрам, отбирать нужные примеры, объединять их в группы и т. д. Специализированных лексикографических баз данных — имеются в виду специальные программные оболочки — на рынке нет. Однако современные базы данных типа D-Base, ACCESS, FOX-Base, PARADOX вполне подходят для ведения электронных словарных картотек. Приведем пример записи базы данных по современной русской идиоматике, созданной в Институте русского языка РАН, которая поддерживается программой ACCESS.

ЗАПИСЬ 28982 ID {идиома}

у черта на куличках EXAMPLE {пример}

А когда, например, Баранов позвонил Ефиму и сказал, что может угостить свежей телятиной, тот немедленно выскочил из дому, схватил такси и поперся к Баранову к черту на кулички в Беляево-Богородское вовсе не в расчете на отбивную или ростбиф, а приехав, получил на очень короткое время то, ради чего и ехал, — книгу Солженицына «Бодался теленок с дубом».

SOURCE {источник}

Шапка

AUTH {автор} Войнович В.

Лексикографические базы данных фиксируют первичный лексикографический материал, который используется для написания словарных статей словаря.

Еще один важный этап лексикографической работы — поиск примеров на слово и формирование картотеки примеров. В традиционной технологии сбор примеров производится вручную и отнимает огромное количество времени. Современные компьютерные программы дают возможность выбирать примеры на нужное слово из корпусов текстов, хранящихся в машинном формате на компьютере, в автоматическом режиме. Поиск примеров на употребление слова называется построением конкордансов. Некоторые компьютерные программы построения конкордансов по желанию пользователя могут преобразовывать найденные контексты в записи базы данных. Например, программа DIALEX позволяет получать конкордансы как в традиционной форме (в виде файла для текстового редактора), так и в формате базы данных PARADOX14).

После подготовки первичного словарного материала — словарной картотеки — непосредственно следует этап составления словарной статьи. Технологическая цепочка словарных работ и здесь не остается без компьютерной поддержки. Новая словарная статья вводится в базу данных, которая становится исходной базой данных создаваемого словаря. Редактирование словарных статей также происходит в базе данных, а не в обычном текстовом файле. Все это существенно сокращает время разработки словаря, поскольку упрощается обработка системы отсылок, в автоматическом режиме происходят сортировки (в том числе алфави-тизация словарных статей), сравнительно легко порождаются различные указатели. Для редактирования словаря можно привлекать компьютерные программы проверки орфографии.

Наконец, последний этап — формирование текста словаря, создание оригинал-макета книги — также существенно облегчается. Технологическая цепочка и здесь не прерывается: существующее программное обеспечение позволяет выдать текстовый материал сразу из базы данных с разметкой под топографематические выделения. Поля записи базы данных трансформируются в автоматическом режиме в зоны словарной статьи с соответствующими шрифтами, кеглями, курсивом, подчеркиваниями и пр.

Ниже на рис. 2 представлены этапы лексикографической работы в традиционном варианте (А) и компьютерная технология создания словаря (Б). Разумеется, в каждом конкретном случае проекты создания словарей могут модифицировать стандартные схемы. Например, в некоторых случаях для сбора корпуса примеров могут использоваться не только корпусы текстов, но и лексикографические базы данных. Так, проект Фразеологического словаря современного русского языка опирается не только на корпус текстов по современному русскому языку (включающий тексты художественной прозы, публицистики, детективной литературы15)), но и на базу данных по современной идиоматике, включающей в настоящее время около 50 тысяч контекстов употребления

14)Подробнее о программе DIALEX и технологиях формирования корпусов текстов см. в §3 главы 3.

15)В необходимых случаях привлекаются и тексты русской классической литературы.

Рис. 2 Традиционная компьютерная технология создания словаря

Формирование словника словаря

Компьютерная лексикография - student2.ru

Компьютерная лексикография - student2.ru А. Традиционная технология

Б. Компьютерная технология

дном [Баранов, Добровольский 1995]. Иными словами, корпус примеров , формируется не только в результате обработки корпуса текстов, но и базы данных — см. рис. 3. Для словарей писателей может быть предусмотрен этап формирования корпуса текстов писателей-современников, необходимый для выявления различий между особенностями идиостиля данного автора и общими характеристиками языка соответствующей эпохи.

База данных словаря

Рис. 3. Схема компьютерного обеспечения проекта Фразеологического словаря современного русского языка

Особо следует упомянуть о существовании издательских систем, используемых для создания оригинал-макета (верстки) словарей. К ним относятся, например, издательский пакет программ Quark-X-Press, различные версии программ Page-Maker и WinWord. Для словарной верстки наибопее удобны системы, имеющие встроенные языки, позволяющие формировать макросы — относительно простые, но технологически эффективные операции обработки редактируемого и верстаемого текста. К ним относятся процедуры приписывания стилей зонам словарной статьи, алфавитизации, создания указателей и т. п.

Автоматические словари. Автоматический словарь — это словарь в специальном машинном формате, предназначенный для испюльзования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного пользователя-человека (АСКП) 16) и автоматические словари для программ обработки текста (АСПОТ). Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от АС, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т. д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. Так, на рынке программного обеспечения имеются компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства «Коллинз», автоматический вариант «Нового большого англо-русского словаря» под ред. Ю. Д. Апресяна и Э. М. Медниковой), существует компьютерная версия словаря Ожегова, которая, впрочем, пока не имеет широкого коммерческого распространения. Автоматические словари такого типа практически повторяют структуру словарной статьи обычных словарей, однако они обладают функциями, недоступными своим прототипам. Например, многие АСКП позволяют осуществлять сортировку данных по полям словарной статьи (ср. отбор всех прилагательных), проводить автоматический поиск всех вокабул, имеющих в толковании определенный семантический компонент и т. д.

Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют. Так, количество зон словарной статьи такого словаря может варьировать от одной до сотни. Чрезвычайно разнообразны и области лексикографического описания. Это может быть синтаксический словарь, семантический словарь, словарь морфем, псевдооснов, словарь устойчивых словосочетаний и т.д. АС, используемые в системах информационного поиска, имеют вид тезаурусов, а АС систем машинного перевода включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова.

В принципе, к автоматическим словарям можно применить те же параметры классификации, которые подходят для обычных словарей. Есть примеры обычных словарей, которые широко используются как АСПОТ. Так, фамматический словарь А. А. Зализняка [Зализняк 1977] в машинной форме реализуется как часть подавляющего большинства компьютерных программ, предусматривающих морфологический анализ или синтез словоформ русского языка. К профаммам такого рода относятся, например, многочисленные системы проверки орфофафии, распознавания письменного текста.

16)«Конечный пользователь» отличается от «неконечного» тем, что он стоит в конце технологической цепочки использования АС. Автоматические словари могут иметь и других — побочных — пользователей, которыми часто оказываются не люди, а другие программы, использующие данный АС для своих целей.

Компьютерная форма представления словарной информации и целевая ориентация АСПОТ позволяет создавать комплексные словари с разнообразной фамматической и лексической информацией. Например, один из стандартов автоматических переводных словарей, разработанный во Всесоюзном (ныне Всероссийском) центре переводов (ВЦП), включает тринадцать следующих зон17): 1) заглавная единица, или лексический вход (морфема, слово, словосочетание в канонической форме); 2) лексико-грамматический класс (принадлежность к части речи; для словосочетаний часть речи определяется в зависимости от синтаксической функции); 2 а) лексико-фамматический класс русского переводного эквивалента; 3) морфолого-фамматическая информация (включает не только информацию о словоизменении, но и о стандартных сокращениях заглавной единицы); 3 а) сокращения русского переводного эквивалента; 4) тематическая рубрика и стилевая характеристика; 5) индекс надежности перевода, отражающий степень общепринятости русского эквивалента (А - эквивалент зафиксирован в каком-либо из существующих стандартов; Б — эквивалент имеется в известных переводных словарях; В -эквивалент зафиксирован в тетрадях новых терминов ВЦП; Г — переводной эквивалент представлен в переводах или предложен автором словарной статьи); 6) русские переводные эквиваленты (с порядковыми номерами); если перевода нет, то ставится специальный маркер и обязательно заполняется зона толкования; 7) пояснительные пометы, уточняющие значение заглавной единицы; 8) толкование заглавной единицы; 9) примеры употребления; 10) фразеологические сочетания с заглавной единицей; 11) информация об авторе или редакторе словарной статьи; 12) источник переводного эквивалента; 13) дата составления или редактирования словарной статьи.

Наиболее известные автоматические переводные словари, как правило, являются многоязычными. Так, AC LEXIC содержит лексикофа-фические данные по немецкому, английскому, французскому, русскому, итальянскому, датскому и португальскому языкам; автоматический переводной словарь ВЦП включает переводные эквиваленты по четырем языкам: английскому, немецкому, французскому и русскому.

Важным типом АС являются автоматические словари конкордансов, содержащие в машинном виде примеры на употребление всех слов (словоформ), представленных в конкретном произведении или в творческом наследии писателя.

Задание 1. Определите параметры, на основании которых выделяются:

• одноязычные vs. многоязычные словари;

• обычные словари vs. фразеологические словари vs. словари пословиц и поговорок vs. словари цитат;

• словари литературного языка vs. словари жаргонов vs. терминологические словари.

17) Структура словарной статьи приводится по [Беляева, Герд, Убин 1996, с. 324-327]

Задание 2. Зоны словарной статьи можно иерархически упорядочить. Напри мер, в зону значения входят более мелкие зоны толкования, примеров/иллюстра ций и т. д. В некоторых словарях зона фразеологизмов подчинена зоне кон! кретного значения, а не словарной статье в целом. Выявление иерархии внутри словарной статьи позволяет описать словарную статью в виде системы порождающих правил. Например, (i) вокабула à грамматические пометы + стилистические пометы + значение + фразеология; (ii) грамматические пометы à категориальные характеристики (принадлежность к части речи) + характерные грамматические формы; (iii) значение à номер значения + {дополнительные грамматические пометы + дополнительные стилистические пометы} + толкование и т.д. Составьте порождающую схему для представительной словарной статьи следующи[ словарей:

• Даль В. И. Толковый словарь живого великорусского языка / Под ред. И. А. Бодуэна де Куртенэ. М., 1903-1909 [любое переиздание].

• Фразеологический словарь русского языка / Под ред. А. И. Молоткова. М., 1978 [любое переиздание].

• Толковый словарь русского языка: В 4 т. / Под ред. Д. Н. Ушакова. М., 1935-1940 гг. [любое переиздание].

• Словарь русского языка: В 4 т. / Под ред. Евгеньевой А. П. Т. 1. М., 1985 [любое переиздание].

• Словарь современного русского литературного языка: В 17 т. М.—Л., 1950-1965 [любое переиздание].

Задание 3. Создайте структуру записи базы данных (в любой доступной компьютерной БД) для фиксации контекстов употребления слова, которая включала бы информацию о самом слове, примере употребления, авторе, источнике примера, а также предварительное описание значения.

Основная литература

1. Беляева Л. Н., Герд А. С., Убин И. И. Автоматизация в лексикографии //Прикладная лингвистика. СПб., 1996. С. 318-333.

2. Как пользоваться словарем // Словарь русского языка: В 4 т. / Под ред. Евгеньевой А. П. Т. 1. М., 1985.

3. Протчснко И. Ф. Словари русского языка. М, 1996. С. 25-72.

4. Щерба Л. В. Опыт общей теории лексикографии // Щерба Л. В. Языковая система и речевая деятельность. М., 1974. С. 265—304.

Дополнительная литература

1. Караулов Ю. Н. Общая и русская идеография. М., 1976.

2. Скляревская Г. Н. Новый академический словарь: Проспект. СПб., 1994