Информационное построение текста 5 страница

В итоге, комбинаторно-лексемная оценка гипотезы fh, нормирован-ная относительно всей длины цепочки, определяется с помощью равенства

L-1 L

Elex = 1/ C2LS ·S j(h)k, (h)i, k < s.

hk,=1 hs=hk,+1

Подобно акустико-графической оценке оценка Elex имеет штрафной характер: рост ее значения указывает на уменьшение совпадения двоек (троек) слово-форм гипотезы с аналогичными словосочетаниями в эталоне.

7.1.3. Ситуативный фильтр. Этот фильтр, направлен на выбор такой гипотезы, описывающей содержание текста-сигнала T или его фрагмента, ко-торая соответствовала бы прагматической информации, заложенной отправи-телем в T. Однако возможности его реализации сильно ограничены. Заглав-ный фильтр может эффективно работать при условии, что ЛА располагает, исчерпывающим и жестко-структурирован-ным описанием той предметной области, к которой принадлежит T. Формальная процедура, реализующая задачу “понимания”, строится в этом ситуации следующим образом.

Предположим, что имеется ПО, представляющая собой конечное множество ситуаций запросов, ответов, сообщений и управляющих команд

ПО = {St1, St2,...Sti,...Stn}.

Каждая ситуация может быть реализована с помощью конечного множества актов

Sti = {A1, A2,...Aj,..Am},

причем за каждым актом Aj закреплены канонический запрос, команда, или указание Кkj. Участники реального управленческого диалога часто отходят от канонических форм, используя их синонимические варианты. Поэтому каж-дый акт оформляется с помощью потенциально бесконечного подмножества реплик Кj, называемого классом условных эквивалентностей (КУЭ), который состоит из канонической команды (запроса) и их синонимов

Aj® Кj= {Кkj.., Кj1 , Кj2..., Кjh }.

КУЭ, реализующий акт разрешения посадки самолета без дополнительных ограничений в ПО “Управление воздушным движением” см. в табл. 19.

На следующем шаге процедуры оценивается лингвистическое рассто-яние, отделяющее от канонической команды Кkj и ее вариантов Кjhкаждую из пропущенных предыдущими фильтрами гипотезу о входном сигнале fh . Эта задача решается исходя из следующих соображений:

 поскольку лексическая и особенно синтаксическая вариативность КУЭ практически ничем не ограничена, гипотеза

fh =f(h)1, f(h)2,... f(h)i,...f(h)n

и команды K* (т. е. Кkj, Кjh) будут сопоставляться не как кортежи, но как множества словоформ,

 каждой словоформе из команды K* приписывается экспертным путем семантический вес Фi, при этом естественно служебные и общеупотребите-льные ЛЕ имеют меньший вес, чем ключевые термины типа посадка, разрешите, разрешаю и т.п.,

 сумма весов словоформ команды есть постоянная величина

L

S Фi = const.

i=1

Тогда каждую команду K* можно представить как неупорядоченное множество пар <ЛЕ, семантический вес>, т.е.

K* ® {< w1, Ф1>, <w2, Ф2>, < wi, Фi>,...< wL, ФL>}, L = çK*ç

В поступающем на вход ЛА потоке текстов-сигналов практически невозможно рассчитать семантический вес каждой с/ф. Поэтому гипотеза о лексико-грамматическом наполнении входного предложения-сигнала записывается как

fh ={w1, w2, wi,... wM}, M = çfhç.

Теперь последовательно оценим семантические несходства между гипотезой fhи командами К*. Эти расхождения зависят от лексического соста-ва fh, К*, а также от величин L, M, Фi . Количественно оценить эти расхожде-ния можно путем использования разностей и пересечения множеств fh, К*:

Z1= fh\K*; Z2= K*\ fh; Z3= fhÇ K*, (см. рис. 21).

Информационное построение текста 5 страница - student2.ru Информационное построение текста 5 страница - student2.ru Информационное построение текста 5 страница - student2.ru

Z 1 Z 3Z 2

Рис. 21. Расхождение гипотезы fh и команд K*.

Легко заметить, что величина расхождения между гипотезой и командой растет вместе с увеличением ½Z1½и½Z2½, а также с ростом суммарного веса команды SФi. Нормализовав функционал по длине гипотезы и команды с помощью множителя 1/(L + M), а также используя заранее заданные экспер-тами семантические оценки p1 для Z1 и p2 для Z2, получаем прагматические оценки расхождения гипотезы и команды

Dpr(fh,K*) = (p1½Z1½ + p2½Z2½)( Информационное построение текста 5 страница - student2.ru Фi+1)/(L+M).

текста-сигнала T конкретной команде K* из множества команд Kj, реализующих акт Aj. Отсюда следует, что

Epr = min D(fh, K*)

есть наилучшая прагматическая оценка входного Т.

Обобщающая оценка гипотез, описывающих значение входного тек-ста-сигнала представляет собой взвешенную сумму синтактической, семан-тической и прагматической оценок

Eintegr = [aE2ag + a2E2lex + a3E2pr(Aj)]½ ,

где a1, a2, a3 являются заранее задаваемыми экспертами весовыми коэффи

циентами каждого из описанных фильтров. Eintegr указывает на степень несответствия, существующего между каждой гипотезой и командой, реализующей акт Аj. Гипотеза, характеризующаяся наименьшей величиной Eintegr, рассматривается как окончательное “озарение” ЛА, завершающее процесс рас-познания и “понимания” текста-сигнала. При необходимости ЛА может вы-дать пользователю несколько наиболее вероятных гипотез, интерпретирую-щих входной сигнал Т (cм. ниже 7.2).

Таблица 23. Канонический запрос пилота и КУЭ команда диспетчера

в переговорах "борт  земля" (Пулково, 1981г.), см. [16а; 44, c. 34 - 35]

Ситуация (Sti) Запрос на посадку (П.) Разрешение на П. Частота употреб-ления команд  
Акт (Aj) П.без ограни -чений П. Без ограничений  
Канонический запрос Разрешите посадку Посадку разрешаю  
Синонимические Варианты Дайте посадку и др. Посадка разрешена Посадку подтвер-ждаю К посадке готовы Разрешаю посадку Садитесь Посадка разреша-ется Посадку подтвер- дили Разрешено в сто- рону Пулкова посадку Вам и т.д.           ......  
    Всего команд  

Как было сказано, описанная процедура, особенно ее последний фильтр, хорошо работает на текстах, которые порождаются закрытыми, жест-ко структурированными подъязыками-исчислениями типа языка управления воздушным движением. Планом содержания таких языков является заранее заданное дерево ситуаций и актов, каждому из которых соответствует опре-деленный КУЭ. Поэтому отождествление входного предложения-сигнала с одной из фраз КУЭ сигнализирует о том, что ЛА “понял” этот сигнал. Если же возникает необходимость перевести сигнал Т на другой язык, например, английский, то ЛА использует заранее введенный эквивалент (в нашем слу-чае cleared to land, соответствующий канонической команде Kkj посадку раз-решаю, табл. 23). При этом отпадает всякая необходимость в сложном семан-тико-синтаксическом анализе входного и синтезе выходного предложений.

7.2. Рспознавание смысла фрагментов нежестко структурирован-

Ого документа

К текстам этого типа относятся типовые договоры и соглашения, про-гнозы погоды, отчасти тексты служебных (реже частных) телеграмм. Наряду с основной задачей, состоящей в автоматическом извлечении смысла и перево-де этих документов, заглавная процедура применяется при нормализации устных текстов, автоматическое распознавание которых дает большое количе-ство ошибочных решений. Она необходима и при пакетной переработке боль-ших массивов несегментированных письменных документов. Чаще всего та-кая нужда возникает при пакетной переработке китайских и японских текстов, в которых пробелы между "словами", записанными иероглифами или знака-ми слоговых азбук, специально не отмечаются. Если такой текст записан в

цифровых кодах (J IS или Плейна), то применение указанной процедуры не-обходимо для обнаружения ЛЕ (словоформ и словосочетаний), являющихся смысловыми квантами текста [1. С. 20; ср. 107. С. 73 - 92]. Тем более необхо-дим этот анализ при переработке потоков иероглифических документов, вво-димых в ЛА с помощью читающих устройств. Дело в том, что современные сканеры обычно предлагают потребителю практически для многих иерогли-фов несколько альтернативных интерпретаций.

Так, следящая автоматическая система, включающая сканер и ЛА, мо-жет распознать непрерывную цепочку китайских иероглифов

祝 您 幸 福 健 康 和 一 切 都 好(Zhù nín xìngfú jiànkāng hé yīqiē dōu hǎo), которая является традиционным поздравлением (желаю Вам счастья, здоровья и всего хорошего) только при условии, что эта цепочка будет заранее задана в китайско-русском автоматическом словаре. При пословном же пере-воде автомат будет выдавать не вполне осмысленные цепочки типа поздрав-лять Ваше благополучие здоровье и (мир/согласие/в сумме/подпевать) и т.п.

Выбрать из этих переводов правильный вариант (т.е. метеозапрос) по-могает процедура, включающая описанные акустико-графический, комбина-торно-лексический и ситуативный фильтры. Однако встречается немало не-сложных по своему построению документов, распознать смысловой образ ко-торых удается с помощью простого позиционного анализа текста.

В качестве простейшего примера рассмотрим пакетную перера-ботку ЛА потоков китайских телеграфных сообщений [78, с. 95 - - 100]. Все они строятся по следующей традиционной схеме:

Информационное построение текста 5 страница - student2.ru Информационное построение текста 5 страница - student2.ru

АДРЕС ПОЛУЧАТЕЛЯ + СОДЕРЖАНИЕ ТЕЛЕГРАММЫ +

Информационное построение текста 5 страница - student2.ru

Информационное построение текста 5 страница - student2.ru ПОДПИСЬ +АДРЕС ОТПРАВИТЕЛЯ

(последний указывается не всегда).

Это дает возможность сравнительно легко снимать многозначность

тех иероглифов и их сочетаний, которые, обозначая предметы, понятия и действия, одновременно являются географическим названиями. Так, попадая в адресную часть телеграммы иероглифы и их комбинации

1) 吉 林 jílín, 2) 旅顺口lüshùnkôu

становятся сокращенными обозначениями следующих городов Китая:

1) Гирин, уезд Линьсянь в пров. Хэнань;

2) Люйшунькоу (Порт-Артур).

Если эти иероглифы попадут в содержательную часть телеграммы, то

ЛА с большой вероятностью правильного решения переведет их как:

1) свадьба, лесное хозяйство (лес),

2) бригада (отряд), вдоль по (приятный и др.), рот (отверстие, устье, порт и др.).

Более сложная ситуация возникает при переводе и каталогизации па-тентов. Хотя патентный документ ориентирован на каноническую организа-цию и использует большое количество традиционных штампов, обычно толь-ко первая часть, содержащая служебно-библиографическую информацию о стране патентования, номере патента, дате подачи заявки имеет стандартный вид и может быть "понята" и переведена ЛА с помощью простых приемов но-менклатурной обработки или исчисления. При этом, если говорить о патен-тах, написанных на английском языка, то указанная стандартизация выдержи-вается обычно в американских патентах. Британские патенты стандартизова-ны в меньшей степени. Что касается содержательной части патента, то здесь вариативность достаточно велика. Так, раздел, посвященный тому классу изо-бретений, к которому относится англоязычный патент, может быть озаглавлен и как Bakground of the Invention, и как Field of Invention. Раздел, где излагается суть изобретения, обозначается как Summary of the Invention или Description of the Invention и т.д.

Таким образом, если служебно-библиографические фрагменты патента мож-но перерабатывать, пользуясь описанными выше приемами, то к содер-жательным разделам приходится применять менее надежную методику ф р е й м о в. Сущность ее состоит в том, что автомату заранее сообщается тот сценарий, по которому будет предположительно развертываться обрабатыва-емый документ. Сценарий строится в виде системы фреймов. Каждый из них имеет шаблон-заголовок и набор информационных и чисто лингвистических признаков. По этим признакам ЛА находит в тексте фрагменты, содержащие сведения, которыми следует заполнить пустые поля (с л о т ы) фреймов сцена-рия [25. С. 213]. Эти текстовые фрагменты обрабатываются либо путем лекси-ческого анализа, т.е. через отождествление их ЛЕ с единицами автоматичес-кого словаря, либо по многоуровневому алгоритму анализа текста (см. ниже).

Наши рекомендации