Глава 3. Оптимизация эпистемической функции языка. идиом [Баранов, Добровольский 1995]
Лексикография 85
идиом [Баранов, Добровольский 1995]. Иными словами, корпус примеров формируется не только в результате обработки корпуса текстов, но и базы данных — см. рис. 3. Для словарей писателей может быть предусмотрен этап формирования корпуса текстов писателей-современников, необходимый для выявления различий между особенностями идиостиля данного автора и общими характеристиками языка соответствующей эпохи.
Особо следует упомянуть о существовании издательских систем, используемых для создания оригинал-макета (верстки) словарей. К ним относятся, например, издательский пакет программ Quark-X-Press, различные версии программ Page-Maker и WinWord. Для словарной верстки наиболее удобны системы, имеющие встроенные языки, позволяющие формировать макросы — относительно простые, но технологически эффективные операции обработки редактируемого и верстаемого текста. К ним относятся процедуры приписывания стилей зонам словарной статьи, алфавитизации, создания указателей и т.п.
Автоматические словари.Автоматический словарь — это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного
Глава 3. Оптимизация эпистемической функции языка
Лексикография
пользователя-человека(АСКП)[16] и автоматические словари для программ обработки текста(АСПОТ). Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от АС, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т. д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. Так, на рынке программного обеспечения имеются компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства «Коллинз», автоматический вариант «Нового большого англо-русского словаря» под ред. Ю. Д. Апресяна и Э. М. Медниковой), существует компьютерная версия словаря Ожегова, которая, впрочем, пока не имеет широкого коммерческого распространения. Автоматические словари такого типа практически повторяют структуру словарной статьи обычных словарей, однако они обладают функциями, недоступными своим прототипам. Например, многие АСКП позволяют осуществлять сортировку данных по полям словарной статьи (ср. отбор всех прилагательных), проводить автоматический поиск всех вокабул, имеющих в толковании определенный семантический компонент и т. д.
Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют. Так, количество зон словарной статьи такого словаря может варьировать от одной до сотни. Чрезвычайно разнообразны и области лексикографического описания. Это может быть синтаксический словарь, семантический словарь, словарь морфем, псевдооснов, словарь устойчивых словосочетаний и т. д. АС, используемые в системах информационного поиска, имеют вид тезаурусов, а АС систем машинного перевода включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова.
В принципе, к автоматическим словарям можно применить те же параметры классификации, которые подходят для обычных словарей. Есть примеры обычных словарей, которые широко используются как АСПОТ. Так, грамматический словарь А. А. Зализняка [Зализняк 1977] в машинной форме реализуется как часть подавляющего большинства компьютерных программ, предусматривающих морфологический анализ или синтез словоформ русского языка. К программам такого рода относятся, например, многочисленные системы проверки орфографии, распознавания письменного текста.
Компьютерная форма представления словарной информации и целевая ориентация АСПОТ позволяет создавать комплексные словари с разнообразной грамматической и лексической информацией. Например, один из стандартов автоматических переводных словарей, разработанный во Всесоюзном (ныне Всероссийском) центре переводов (ВЦП), включает тринадцать следующих зон[17]: 1) заглавная единица, или лексический вход (морфема, слово, словосочетание в канонической форме); 2) лексико-грамматический класс (принадлежность к части речи; для словосочетаний часть речи определяется в зависимости от синтаксической функции); 2 а) лексико-грамматический класс русского переводного эквивалента; 3) морфолого-грамматическая информация (включает не только информацию о словоизменении, но и о стандартных сокращениях заглавной единицы); 3 а) сокращения русского переводного эквивалента; 4) тематическая рубрика и стилевая характеристика; 5) индекс надежности перевода, отражающий степень общепринятости русского эквивалента (А - эквивалент зафиксирован в каком-либо из существующих стандартов; Б — эквивалент имеется в известных переводных словарях; В -эквивалент зафиксирован в тетрадях новых терминов ВЦП;Г — переводной эквивалент представлен в переводах или предложен автором словарной статьи); 6) русские переводные эквиваленты (с порядковыми номерами); если перевода нет, то ставится специальный маркер и обязательно заполняется зона толкования; 7) пояснительные пометы, уточняющие значение заглавной единицы; 8) толкование заглавной единицы; 9) примеры употребления; 10) фразеологические сочетания с заглавной единицей; 11) информация об авторе или редакторе словарной статьи; 12) источник переводного эквивалента; 13) дата составления или редактирования словарной статьи.
Наиболее известные автоматические переводные словари, как правило, являются многоязычными. Так, AC LEXIC содержит лексикографические данные по немецкому, английскому, французскому, русскому, итальянскому, датскому и португальскому языкам; автоматический переводной словарь ВЦП включает переводные эквиваленты по четырем языкам: английскому, немецкому, французскому и русскому.
Важным типом АС являются автоматические словари конкордансов, содержащие в машинном виде примеры на употребление всех слов (словоформ), представленных в конкретном произведении или в творческом наследии писателя.
Задание1. Определите параметры, на основании которых выделяются:
• одноязычные vs. многоязычные словари;
• обычные словари vs. фразеологические словари vs. словари пословиц и поговорок vs. словари цитат;
• словари литературного языка vs. словари жаргонов vs. терминологические словари.