Теория и практика информационно-поисковых систем 207
с пользователем на ограниченном естественном языке, а поиск осуществляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка. Работа с естественным языком предполагает, что в ИПС должны быть встроены грамматические парсеры. Проводившиеся эксперименты показали, что ИПС последнего типа, несколько снижая параметры поиска по полноте, существенно повышают точность выдачи [Панков, Захаров 1996]. Именно в этом направлении идет развитие современных информационно-поисковых систем.
Задание 1. Иерархические отношения в информационно-поисковом тезаурусе, в частности отношения «род-вид», часто скрывают за собой комплекс более сложных отношений. Если эти более «дробные» отношения встречаются в проблемной области регулярно, то иерархическая структура может дополняться фасетной классификацией — альтернативной по отношению к семантическому дереву тезауруса. В [Варга 1970, с. 93, 94] разбирается показательный пример такого типа. Рассмотрим его подробнее.
Таксон РАКЕТА ИПТ по ракетной технике включает следующее множество единиц:
РАКЕТА
баллистическая ракета; одноступенчатая ракета; электрическая ракета, ракета без человека; ракета с человеком на борту; ракета с орбитой вокруг луны; лунная ракета; межпланетная ракета; управляемая ракета; исследовательская ракета; квантовая ракета; ракета, запускаемая с аэростата; высотная ракета; ракета, несущая приборы; ракета без пилота; ракета-спутник; солнечная ракета; термическая ракета; многоступенчатая ракета; космическая ракета.
Семантический анализ показывает, что таксон не однороден и может быть разбит по нескольким различным основаниям: 1) вид горючего; 2) число ступеней; 3) способ управления; 4) способ старта; 5) характер груза; 6) пилотируемость; 7) назначение; 8) характер орбиты.
1. Сделайте фасетное разбиение таксона по указанным параметрам.
2. Предложите свои параметры фасетной классификации и проведите разбиение таксона по ним.
Задание 2. Среди иерархических отношений в ИПТ может отражаться и отношение «часть-целое», которое также не всегда оказывается однородным. Однако в рассматриваемом ниже примере это не тот тип неоднородости, который был разобран выше в Задании 1. Семантика «части-целого» в данном случае сохраняется и распространяется дальше по дереву, формируя более дробные непересекающиеся таксоны. Предложите свой вариант иерархического членения таксона РАКЕТА, сформированного на основании отношения «часть-целое»:
РАКЕТА
бак горючего, бак топлива, бак средства окисления, защитный конус, кабина, камера сгорания, механизм управления, несущая ракета, носовой конус, плоскость управления, подача горючего, полезная нагрузка, приборы, привод, тело ракеты, управление, форсунка.
Основная литература
1. Панков И. П., Захаров В. П. Информационно-поисковые системы // Прикладное языкознание. СПб., 1996.
2. Московии В. А. Информационные языки. М., 1971.
Дополнительная литература
1. Дейт К. Введение в системы баз данных. М., 1980.
2. Информатика / Под ред. К. В.Тараканова. М., 1986.
3. Мартин Дж. Организация баз данных в вычислительных системах. М., 1980.
4. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М., 1973.
[1] Ср. характерное утверждение авторов этой статьи: «Специфика и трудности публикации [литературных текстов XVIII в.] во многом сродни проблемам, возникающим при переводе художественного текста» [Лотман, Толстой, Успенский 1981, с. 312].
[2] Mittag «полдень» в обычном случае воспринимается не как временной интервал, а как точка.
[3] См. в первую очередь [Weisgerber 1962; Gipper 1972; Уорф 1960 а; Уорф 19606].
[4] Ср. для английского и французского языков [Fontenelle 1997].
[5] Заметим в скобках, что не менее интересной модификацией текста оригинала, которую Л. В. Щерба не обсуждает в своей работе, является замена «ели» (Fichtenbaum или Fichte — по-немецки «ель» или «пихта») на «сосну».
[6]По отношению к обсуждаемой категории русские выражения велосипедная цепь и цепь от велосипеда образуют привативную оппозицию: велосипедная цепь может относиться как к отдельно взятой детали велосипеда, так и к цепи, находящейся на велосипеде. Выражение цепь от велосипеда используется только по отношению к отчужденной сущности.
[7] Ср. сходные наблюдения в [Костева 1996, с. И].
[8] На основе этого типологического параметра, выработанного в рамках генеративной грамматики, всякий язык может быть включен в одно из двух множеств: языки prodrop vs. языки non-pro-drop. Языки pro-drop обладают следующими характеристиками: (а) при определенных условиях местоимения, не несущие логического ударения, могут быть опущены; (б) имеется развитая система спряжения глагола; (в) подлежащее и сказуемое свободно могут меняться местами в простом предложении; (г) позиция вопросительных слов в предложении может варьироваться. В соответствии с этой типологией английский является языком non-pro-drop, а, к примеру, русский и итальянский — языками pro-drop. См. по этому поводу, в частности, [Chomsky 1981, р. 240-248, 253-275].
[9] Строго личных местоимений (параметр (а)), он обладает достаточно развитой системой спряжения глагола (параметр (б)); ср. [Comrie 1987, р. 218].
[10] Заметим, что такой способ аргументирования требует весьма искусного манипулирования метафорическими моделями, что не всегда удается и часто порождает сложности в понимании текста речи. Например, с одной стороны, перестройка, которая началась как революция надежд, не даст им угаснуть,а с другой — люди, народ не дадут угаснуть перестройке. Но надежды — это удел человека. Если так, то перестройка в этом рассуждении оказывается вообще излишней. Перестройка предстает здесь как некий государственный институт — «министерство надежд», курирующее их и распределяющее надежды в соответствии с социальным заказом. Такой способ рассуждения не был необычным для советской политической культуры, оказываясь естественной частью политической коммуникации лозунгового типа, не предполагавшей диалога политических субъектов на уровне публичной политики.
[11] По проблематике перевода контекстов языковой игры см., например, [Freidhof, Kosta 1987; Timkovic 1990].
[12] Заметим попутно, что Выготский использует функционально близкий термин «инте-риоризация», см. также работы Дюркгейма и его коллег («французская социологическая школа»).
[13] 'Уместно вспомнить известный тезис Романа Якобсона о том, что «Наука о языке не может интерпретировать ни одного лингвистического явления без перевода его знаков в другие знаки той же системы или в знаки другой системы» [Якобсон 1985 в, с. 363].
[14] Сокращение от Georgetown Automatic Translation.
[15] Centre d'études pour la Traduction Automatique.
[16] Groupe d'études pour la Traduction Automatique.
[17] Traduction Automatique de l'Université de Montréal.
[18] Электротехнический Автоматический Перевод.
[19] Полное описание системы ЭТАП-2 см. в [Апресян 1988].
[20] Подробнее описание системы АМПАР см. в [Марчук 1983].
[21] Chinese University Language Translator.
[22] Ср. характерное высказывание: «(...) по оценкам американских специалистов, к 2000 г. для удовлетворения потребности в программистах надо будет обучить программированию всех жителей США» (Попов 1982, с. 14).
[23] О понятии иллокутивного вынуждения см. [Баранов, Крейдлин 1992а; Баранов, Крейдлин 1992 6].
[24] Классификация дается по [Преображенский 1990].
[25] Год в данном случае не нужен, поскольку разработанный вариант системы содержал информацию только об играх 1959 г.
[26] Воспроизводится по [Преображенский 1990, с. 52].
[27] В реляционных БД типа FOX, D-Base, ACCESS поле Memo не ограничено по длине.