Теория и практика информационно-поисковых систем 207



с пользователем на ограниченном естественном языке, а поиск осуще­ствляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка. Работа с естественным языком предполагает, что в ИПС должны быть встроены грамматические парсеры. Проводившиеся эксперимен­ты показали, что ИПС последнего типа, несколько снижая параметры поиска по полноте, существенно повышают точность выдачи [Панков, Захаров 1996]. Именно в этом направлении идет развитие современных информационно-поисковых систем.

Теория и практика информационно-поисковых систем 207 - student2.ru

Задание 1. Иерархические отношения в информационно-поисковом теза­урусе, в частности отношения «род-вид», часто скрывают за собой комплекс более сложных отношений. Если эти более «дробные» отношения встречаются в проблемной области регулярно, то иерархическая структура может дополняться фасетной классификацией — альтернативной по отношению к семантическому дереву тезауруса. В [Варга 1970, с. 93, 94] разбирается показательный пример такого типа. Рассмотрим его подробнее.

Таксон РАКЕТА ИПТ по ракетной технике включает следующее множество единиц:

РАКЕТА

баллистическая ракета; одноступенчатая ракета; электрическая ракета, ра­кета без человека; ракета с человеком на борту; ракета с орбитой вокруг луны; лунная ракета; межпланетная ракета; управляемая ракета; исследовательская ракета; квантовая ракета; ракета, запускаемая с аэростата; высотная ракета; ра­кета, несущая приборы; ракета без пилота; ракета-спутник; солнечная ракета; термическая ракета; многоступенчатая ракета; космическая ракета.

Семантический анализ показывает, что таксон не однороден и может быть разбит по нескольким различным основаниям: 1) вид горючего; 2) число ступеней; 3) способ управления; 4) способ старта; 5) характер груза; 6) пилотируемость; 7) назначение; 8) характер орбиты.

1. Сделайте фасетное разбиение таксона по указанным параметрам.

2. Предложите свои параметры фасетной классификации и проведите разбие­ние таксона по ним.

Теория и практика информационно-поисковых систем 207 - student2.ru

Задание 2. Среди иерархических отношений в ИПТ может отражаться и от­ношение «часть-целое», которое также не всегда оказывается однородным. Однако в рассматриваемом ниже примере это не тот тип неоднородости, который был ра­зобран выше в Задании 1. Семантика «части-целого» в данном случае сохраняется и распространяется дальше по дереву, формируя более дробные непересекающие­ся таксоны. Предложите свой вариант иерархического членения таксона РАКЕТА, сформированного на основании отношения «часть-целое»:

РАКЕТА

бак горючего, бак топлива, бак средства окисления, защитный конус, ка­бина, камера сгорания, механизм управления, несущая ракета, носовой конус, плоскость управления, подача горючего, полезная нагрузка, приборы, привод, тело ракеты, управление, форсунка.

Основная литература

1. Панков И. П., Захаров В. П. Информационно-поисковые системы // При­кладное языкознание. СПб., 1996.

2. Московии В. А. Информационные языки. М., 1971.

Дополнительная литература

1. Дейт К. Введение в системы баз данных. М., 1980.

2. Информатика / Под ред. К. В.Тараканова. М., 1986.

3. Мартин Дж. Организация баз данных в вычислительных системах. М., 1980.

4. Сэлтон Г. Автоматическая обработка, хранение и поиск информации. М., 1973.

[1] Ср. характерное утверждение авторов этой статьи: «Специфика и трудности публи­кации [литературных текстов XVIII в.] во многом сродни проблемам, возникающим при переводе художественного текста» [Лотман, Толстой, Успенский 1981, с. 312].

[2] Mittag «полдень» в обычном случае воспринимается не как временной интервал, а как точка.

[3] См. в первую очередь [Weisgerber 1962; Gipper 1972; Уорф 1960 а; Уорф 19606].

[4] Ср. для английского и французского языков [Fontenelle 1997].

[5] Заметим в скобках, что не менее интересной модификацией текста оригинала, которую Л. В. Щерба не обсуждает в своей работе, является замена «ели» (Fichtenbaum или Fichte — по-немецки «ель» или «пихта») на «сосну».

[6]По отношению к обсуждаемой категории русские выражения велосипедная цепь и цепь от велосипеда образуют привативную оппозицию: велосипедная цепь может относиться как к отдельно взятой детали велосипеда, так и к цепи, находящейся на велосипеде. Выражение цепь от велосипеда используется только по отношению к отчужденной сущности.

[7] Ср. сходные наблюдения в [Костева 1996, с. И].

[8] На основе этого типологического параметра, выработанного в рамках генеративной грамматики, всякий язык может быть включен в одно из двух множеств: языки pro­drop vs. языки non-pro-drop. Языки pro-drop обладают следующими характеристиками: (а) при определенных условиях местоимения, не несущие логического ударения, могут быть опущены; (б) имеется развитая система спряжения глагола; (в) подлежащее и сказуемое свободно могут меняться местами в простом предложении; (г) позиция вопросительных слов в предложении может варьироваться. В соответствии с этой типологией английский является языком non-pro-drop, а, к примеру, русский и итальянский — языками pro-drop. См. по этому поводу, в частности, [Chomsky 1981, р. 240-248, 253-275].

[9] Строго личных местоимений (параметр (а)), он обладает достаточно развитой системой спряжения глагола (параметр (б)); ср. [Comrie 1987, р. 218].

[10] Заметим, что такой способ аргументирования требует весьма искусного манипули­рования метафорическими моделями, что не всегда удается и часто порождает сложности в понимании текста речи. Например, с одной стороны, перестройка, которая началась как ре­волюция надежд, не даст им угаснуть,а с другой — люди, народ не дадут угаснуть перестройке. Но надежды — это удел человека. Если так, то перестройка в этом рассуждении оказывается вообще излишней. Перестройка предстает здесь как некий государственный институт — «министерство надежд», курирующее их и распределяющее надежды в соответствии с соци­альным заказом. Такой способ рассуждения не был необычным для советской политической культуры, оказываясь естественной частью политической коммуникации лозунгового типа, не предполагавшей диалога политических субъектов на уровне публичной политики.

[11] По проблематике перевода контекстов языковой игры см., например, [Freidhof, Kosta 1987; Timkovic 1990].

[12] Заметим попутно, что Выготский использует функционально близкий термин «инте-риоризация», см. также работы Дюркгейма и его коллег («французская социологическая школа»).

[13] 'Уместно вспомнить известный тезис Романа Якобсона о том, что «Наука о языке не может интерпретировать ни одного лингвистического явления без перевода его знаков в другие знаки той же системы или в знаки другой системы» [Якобсон 1985 в, с. 363].

[14] Сокращение от Georgetown Automatic Translation.

[15] Centre d'études pour la Traduction Automatique.

[16] Groupe d'études pour la Traduction Automatique.

[17] Traduction Automatique de l'Université de Montréal.

[18] Электротехнический Автоматический Перевод.

[19] Полное описание системы ЭТАП-2 см. в [Апресян 1988].

[20] Подробнее описание системы АМПАР см. в [Марчук 1983].

[21] Chinese University Language Translator.

[22] Ср. характерное высказывание: «(...) по оценкам американских специалистов, к 2000 г. для удовлетворения потребности в программистах надо будет обучить программированию всех жителей США» (Попов 1982, с. 14).

[23] О понятии иллокутивного вынуждения см. [Баранов, Крейдлин 1992а; Баранов, Крейдлин 1992 6].

[24] Классификация дается по [Преображенский 1990].

[25] Год в данном случае не нужен, поскольку разработанный вариант системы содержал информацию только об играх 1959 г.

[26] Воспроизводится по [Преображенский 1990, с. 52].

[27] В реляционных БД типа FOX, D-Base, ACCESS поле Memo не ограничено по длине.

Наши рекомендации