Фрейм и автоматическая переработка текста
Исследования 60 – 70-х гг. нечеткой природы когнитивных и комму-нкативи-ных процессов, в том числе механизмов образования речемыслитель-ных кате-горий, порождения и приема сообщения, привели к важным теорети-ческим выводам. Выяснилось, что рациональное сознание, на моделирование которо-го были нацелены системы искусственного интеллекта (ИИ) в 60-е – 80-е гг., является вторичным по отношению к нерефлексивному опыту, на ко-торый опирается человек при переработке речевой информации. Оказалось также, что эти процессы не универсальны. Они реализуются неодинаково кон-кретными индивидуумами или их коллективами. Каждый из них по-своему использует универсальные ментальные пространства, опираясь при этом на свой индивидуальный опыт, мировоззренческие и культурные ценности, свое целеполагание и скрытые мотивы, свою телесную организацию и эмоциона-льное состояние [108а]. Поэтому языковое поведение отдельного человека и коллектива сравнительно редко бывает последовательной реализацией зара-нее спланированной схемы. Чаще всего оно зависит от меняющегося контек-ста и субъективных оценок коммуникантов.
Отсюда следует, что при планировании и построении новых “интеллек-туальных” систем автоматической переработки текста (АПТ) и ЛА в частно-сти необходимо связать компьютерную метафору человеческого мышления и логистическую технологию инженерии знаний, выработанные в период пер-вой когнитивной революции 60-70-х гг., с идеями второй когнитивной рево-люции рубежа 80-х и 90-х гг. [93a. С. 25 – 35; 106a. С.. 3 и сл.].
Как известно, одним из популярных приемов организации выходного ре-зультата в системах ИИ, АПТ и обучающих лингвистических автоматов 60-х
– начала 90-х гг. (см. ниже) явилось использование заранее заготовленных шаблонов-ожиданий или фреймов. Этот прием был подсказан машинной
Таблица 24. Фреймовая аннотация французского патента и её перевод
Заполненные строки фрейма | С Л О Т Ы | |
иноязычный вход | русский выход | |
1 | 2 | 3 |
Страна патентования | République Française | Франция |
Номер патента | 2.046.469 | 2.046.469 |
Регистр. № заявки | 70.15001 | 70.15001 |
Вид публикации | Brevet d'invention | Патент |
Дата подачи заявки | 24 avril 1970, 17 h. | 24 апреля 1970, 17 h. |
Дата опубл.патента | 22 février 1971 | 22 февраля1971 |
Дата опубл. форм. изобретения и № бюллетеня | 5.03.1973, B.O.P.I. "Listes" | 5.03.1973, B.O.P.I. "Listes" |
Международная классификация изобретения | B 60 K 17/00 | B 60 K 17/00 |
Заявитель | Porsche AG: RFA | Porsche AG: RFA |
Название изобретения | Transmission compound pour véhicule | Сложная трансмиссия для транспортных средств |
Текст патента на входном языке | Transmission compound pour véhicule avec un convertisseur hydrodyna-mique de couple pouvant être ponté par un embra-yage friction... и т.д. | |
Формула патента (набор ключевых слов и с/с) | Транспортных средств, сложная трансмиссия, гидро-трансформатор, крутящий момент, фрикционное сцепление и др. | |
Сегментирование текста на концептуальные поля и их перевод | ||
Название предмета изобретения . | Сложная трансмиссия для транспортных средств | |
1 | 2 | 3 |
Назначение предме-та изобретения | Для транспортных средств с гидротранс-форматором крутя-щего момента, кото- рый можно монти-ровать при помощи и т.д. | |
Совокупность отли-чительных характе-ристик предмета изобретения | Отличающийся тем, что он монтирован/ собран/установлен в промежуточном кар-тере в двух частях и т.д. |
метафорой человеческого интеллекта, предложенной в период первой ког-нитивной революции. Вторая когнитивная революция, как уже говорилось, поставила под сомнение предположение о жестко фреймовом характере са-мого человеческого мышления. Вследствие этого некоторые разработчики систем АПТ и ИИ спешат отказаться от применения фреймовой методики. Это выплескивание из “ванны информатики” вместе с водой (т.е. логиисти-ческой концепцией человеческого мышления) ребенка (иначе говоря, оправ-давшей себя технологии АПТ) еще раз свидетельствует о том, что многие со-временные специалисты в области компьютерной лингвистики и ИИ до сих пор не понимают сущности тех барьеров, которые отделяют речемыслитель-ную деятельность человека от "языка" компьютера.
Многолетний опыт построения промышленных и эксперименталь-ных систем машинного перевода (МП) и автоматического аннотирования в группе Статистика речи и выделившихся из нее в 90-х гг. коммерческих коллек-тивах показывает, что при помощи фреймов эффективно обрабаты-ваются стандартизованные документы типа устных реплик переговоров «борт – земля» (табл. 23), аннотируются и переводятся патенты (табл. 24, ср. [62a]). Неплохо обрабатываются с помощью фреймов стандартные пун-кты коммерческих дооворов (табл. 25), переводятся телеграммы (табл. 26), проводится атрибуция научно-технических документов (см. выше).
Как это следует из приведенных примеров, фреймы строятся по традиционной схеме, в которой заранее заполненные топиковые (тематиче-ские) строки сопровождаются пустыми "дырами" – слотами. В них ЛА должен вставить обнаруженные им в тексте рематические комментарии. Задача алгоритмизатора состоит в том, чтобы передать в базу знаний ЛА индикаторы, выявляющие с достаточно большой вероятностью и отправ-ляющие в слоты те рематические фрагменты текста, которые комментиру-ют соответствующие им топиковые строки. Алгоритм, достаточно полно учитывающий вероятности коммуникативно- семантических связей между заранее заданными во фрейме топиками и попадающими в слоты тексто-выми фрагментами или их переводами, не только дает возможность ЛА передать содержание текста, но также обеспечивает пользователю опре-деленный психологический комфорт при восприятии машинной аннотации, перевода и т.п.
Таблица 25.Фрейм для анализа и синтеза начального фрагмента
коммерческого договора
Заполненные строки фрейма | С Л О Т Ы |
Предприятие | Вставляется название предприятия |
- Именуемое в дальнейшем ЗАКАЗЧИК, с одной стороны, и предприятие | Вставляется название предприятия |
-Именуемое в дальнейшем ИСПОЛНИТЕЛЬ, с другой стороны, заключили настоящий Контракт о нижеследующем: | Вставляются формули-ровки существа догово-ра и обязанностей заказ-чика и исполнителя) |
Уязвимой стороной фреймовой методики является то, что выбранный систе- мой рематический фрагмент может попасть в “чужой” слот. Так, если ЛА, анализирующий китайскую телеграмму, поместит лексические единицы lüshùnkŏu или jílín не в адресный, а в текстовой слот, то ЛА переведет их в первом случае как бригада (отряд) – вдоль по (приятный и др.) - устье (от-верстие, рот, порт), а во втором – как свадьба, лес (лесное хозяйство), но не как названия городов Порт-Артур (Люйшунькоу) и Гирин.
Таблица 22. Фрейм для анализа и перевода китайской телеграммы
Заполненные строки фрейма | Слоты | |
китайский текст | русский перевод | |
АДРЕС | lüshùnkŏu 12/324 | Порт-Артур 12/324 |
АДРЕСАТ | Zhāng Wèn-huāng | Чжан Вэнь-хуан |
СОДЕРЖАНИЕ ТЕЛЕГРАММЫ | Zhù nín giànkāng | Желаю Вам крепкого здоровья |
ОТПРАВИТЕЛЬ | Bèi Gùei-mài | Бэй Гуэй-май |
АДРЕС ОТПРАВИТЕЛЯ | jílín 10/517 | Гирин 10/517 |
Развивая фреймовую методику, группа “Статистика речи” работает над созданием шаблонов, позволяющих организовать нормативный пере-вод многокомпонентных терминологических словосочетаний, а затем в бу-дущем и простых предложений. Этот подход, наиболее подробно разрабо-танный в кандидатской диссертации А.В.Ивкиной, опирающийся на сов-мещение тезаурусного описание лексики подъязыков с ориентирован-ным на эти подъязыки набором текстовых фреймов, представляет собой попыт-ку смоделировать в ЛА функционирование триады система языка–сис-тема речи–текст. Преимуществом этого подхода является то, что фрей-мовая матрица заранее задает нормализованную семантико-синтаксичес-кую и морфологическую структуру выходного текста, упрощая тем самым его синтез. Одновременно у адресата создается иллюзия того, что система стремится понять содержание входного текста. Такая иллюзия повышает комфортность восприятия реферата или перевода со стороны потребителя. Рассмотрим аспекты тезаурусно-фреймовой технологии.
Предварительно строится древесный тезаурус, представляющий собой ментальную модель указанной ПО. На узлах тезауруса помещены термино-логические лексические единицы (с/ф или с/с), каждой из которых припи-сан код узла (см. рис. 22, cр. [88a]). Затем создаются входные и выходные фреймы-матрицы, причем каждой входной матрице соотнесена одна и толь-ко одна выходная матрица (но не наоборот). Последовательность и коды слотов матриц отражают, с одной стороны, соотношение узлов отраслевого тезауруса; с другой – они моделируют семантико-синтаксические схемы терминологических с/с в соответствующем языке. На том же рисунке пока-заны схемы английской и соответствующих ей русской и французской фрей-мовых матриц, которые организуют терминологические с/с из подъязыков «Телекоммуникация» и «Телефония» вместе с вводящими их служебными словами, а также следующими за этими с/с предикативными реляторами типа is used in ‘используется в’.
|
|
|
|
|
|
|
|
|
Английский язык | ||||||
Препозиционные текстовые реляторы | Слоты зависимых препозиционных компонентов и их коды | Центральный слот для ядерной словоформы | Постпозиционные текстовые реляторы | |||
Предлоги, союзы, союзные c/с | Артикли, прилагате-льные, местоимения | Типы телефонной сети по удалённости соеди- по используемым няемых абонентов программным и тех- ническим средствам | Система, объединя- яющая воедино час- ти сети | Предлоги, союзы, прилагательные, глаголы, причастия, словосочетания | ||
If, when | a, the, this | 31.12.1 (31.12.2; 31.12.3) long distance | 31.12 telephone | 31.1 network | is used for… | |
если, когда | этот, такого рода | телефонная | сеть | дальней связи | используется для... |
Предлоги, союзы, союзные словосочетания | Прилагательные, местоимения, словосочетания | Способ использования программных и тех- нических средств | Система, объеди- няющая воедино части сети | Тип по удалённости соединяемых абонентов | Предлоги, союзы, прилагательные, гла-голы, причастия, с/с |
Препозиционные текстовые реляторы | Слот зависимых препозиционных компонентов и их коды | Центральный слот для ядерной словоформы | Слот зависимых пост-позиционных компо-нентов с предложными реляторами и их коды | Постпозицион-ные текстовые реляторы | |
Русский язык |
Si, quand | un, le, ce | réseau | téléphonique | á grandes distances | est utilisé pour |
Предлоги, союзы, союзные словосочетания | Артикли, прилагательные, Местоимения | Система, объеди- няющая воедино части сети | Способ использования программных и тех- нических средств | Тип по удалённости соединяемых абонентов | Предлоги, союзы, с/с прилагательные, глаголы, причастия, |
Препозиционные текстовые реляторы | Центральный слот для ядерной словоформы | Слот зависимых постпозиционных беспредложных компонентов и их коды | Слот зависимых постпозиционных компонентов с предложными реляторами и их коды | Постпозиционные текстовые реляторы | |
Французский язык |
Рис. 22. Фрагмент тезаурусной сети с иерархическими отношениями подъязыка «Телефония» в сочетании с фреймовым переводом английского многокомпонентного термина и его окружения на русский и французский языки.
|
7.4. Многоуровневая переработка неструктурированного текста
Наиболее сложной задачей является переработка неструктурованных текстов, таких как общественно-политические документы, научные статьи и т. п. Единый типовой алгоритм их АПТ создать не удается, поскольку возмо-жность типовой алгоритмизации и виды cамих алгоритмов зависят от устро-йства и синергетики языка. Так, алгоритм анализа и синтеза тюркской с/ф выглядит иначе, чем схемы разбора и сборки русской с/ф [66. С. 49 - 50]. Не удается также применить алгоритм лексико-грамматического анализа англий-ского предложения к близкородственному голландскому языку. В то же вре-мя обнаруживается, что некоторые блоки английского семантико-синтаксиче-ского анализа оказываются пригодными при построении анализа китайского предложения. Поэтому придется ограничиться изложением общих принци-пов многоуровневой АПТ, опирающейся на информационно-статистический подход. Используем для этого описание организации алгоритмов МП, приве-денную в работах [5. С. 38 - 46; 38. С. 42 - 50; 79. С. 26 - 35]. Весь процесс работы МП=модуля организован здесь в виде многоуровневой блочной иерар-хии, каждый блок которой осуществляет перевод лингвистических единиц на следующих уровнях:
1) словарном, на котором производится перевод с/ф и устойчивых лексикализованных с/с;
2) микросегментном, на котором выполняется перевод отдельных суб-стантивных с/с, а также вербальных групп, ядром которых служат личные и неличные формы глагола;
3) макросегментном, на котором достигается опознание и обработка -
функциональных сегментов, т.е. групп подлежащего, сказуемого, дополнения, обстоятельств;
4) уровне предложения, на котором выявляется синтаксическая струк-
тура входного предложения и подбирается соответствующая ей выходная -
структура;
5) конечном (текстовом) уровне, на котором должна быть осуществлена окончательная корректировка и разметка результатов МП, исходя из тема-тики, структуры и прагматики текста.
Поскольку функционирование модулей начального ("нулевого") уров-ня было описано в разделах 6.1.1, 7.1.1 и 7.1.2, ограничимся общим описанием работы блоков, соответствующих названным уровням.
Каждый блок отвечает здесь за опознание входных лингвистических единиц (или групп) соответствующего уровня, их описание и подбор выход-ных эквивалентов. При этом входное предложение Т преобразуется на каждом уровне в цепочку пар:
входная единица/группа (u) + ее лексико-грамматическая или семантико-синтаксическая характеристика (c) и выходная единица/группа (u') + ее характеристика (c'), т.е.
T = u1c1,u'1c'1, u2c2,u'2c'2,...uic i,u'ic'i,...uncn,u'nc'n.
Само собой разумеется , что характеристики c и c' потребителю обычно не сообщаются.
Переработка текста опирается здесь на идею пошагового уменьшения неопределенности. Она идет снизу вверх от лексических фактов к семанти-ко-синтаксической цели. На низшем уровне ЛЕ и фразы-шаблоны, о кото-рых говорилось выше, получают свои лексико-грамматические характери-стики c и c' прямо из автоматического словаря. Для единиц или групп более высоких уровней семантико-синтаксические ко характеристики пере-даются снизу либо вырабатываются в соответствующем блоке. Как уже говорилось, при па-кетной переработке больших потоков ненормали-зованных, а иногда и дефек-тных текстов каждая система АПТ постоянно сталкивается со "сбойными" ситуациями. Рассмотрим наиболее типичные случаи таких сбоев и приемы их преодоления.
1. Если на n-ом уровне процесса МП происходит отказ от формирования структуры выходного текста, потребителю выдаются те результаты перевода, которые получены ЛА на предыдущем уровне.
2. Если на n-ом уровне автомат вырабатал несколько выходных схем,
- то на (n+1)-й уровень передаются все выходные варианты, чтобы эта многозначность была разрешена на следующих уровнях пользователем или самим ЛА;
- ЛА выбирает тот выходной вариант, который структурно оказывается ближе всего к семантико-синтаксической схеме входа и поэтому нуждается в минимальном ее преобразовании.
Проиллюстрируем эти ситуации на двух примерах.
Предположим, что ЛА перерабатывает заголовок английского докумен-та "Hierarchical indexed direct-access method", русским эквивалентом которого является сложный термин иерархический индексно-прямой метод доступа. Поскольку речь идет об именном словосочетании, то в переводе участвует только два блока: словарный и микросегментный. Поведение автомата и ре-зультаты его работы зависят здесь от информации, заложенной в автоматиче-ском словаре (АС), и от правил построения выходной именной группы, кото-рыми располагает микросегментный блок. Рассмотрим случай, при котором
1) АС содержит только английские словоформы и их русские переводы, а словосочетания и слова, соединенные дефисом в нем отсутствуют;
2) микросегментный уровень содержит правило, согласно которому анг-лийская группа "существительное1 + существительное2" (stone wall) транс-формируется в словосочетание "существительное2 + (предлог) + существи-тельное1 в косвенном падеже" (стена [из] камня). В этом случае МП нашего заглавия будет выглядеть как Иерархический индексный прямой метод доступа (*).
Введем для микросегментного уровня еще одно правило, согласно кото-рому прилагательные, входящие в именную группу, рассматриваются как определения к ближайшему правому существительному. Тогда перевод примет вид Метод иерархического индексного прямого доступа.
Далее преобразуем АС, вводя в него такие машинные обороты, как direct access ― прямой доступ, access methode ― метод доступа, без указания на их приоритеты. В этом случае ЛА будет выдавать наряду с двумя первыми вариантами еще один перевод ― иерархический индексный метод прямого доступа. Исходя из названных правил, автомат должен передать на макро-сегментный уровень либо первый перевод (*), поскольку он структурно бли-же всего к английскому оригиналу, либо все три варианта.
Однако ни один из перечисленных вариантов не соответствует приве-денному выше и зафиксированному во всех терминологических словарях рус-скому обозначению рассматриваемого понятия. Причина здесь в том, что построение русского нормативного терминологического словосочетания идиоматично, т.е. неизоморфно по отношению к английскому прототипу. Чтобы получить адекватный перевод английского заголовка в автоматичес-кий словарь следует включить устойчивое с/с direct access method - прямой метод доступа, снимающее противоречие между оборотами direct access и access methode.
Второй пример иллюстрирует проход системы МП по всем пяти уров-ням переработки текста (детали, связанные с устранением лексико-грамма-тической неоднозначности, мы опустим).
Исправленная спеллером на нулевом уровне и адаптированная к линг-вистическому обеспечению системы английская фраза A man attacking and eating fish called the piranha is found in the tropical fresh-water region of South America поступает на лексический уровень переработки, который способен выдать грамматически неоформленный пословно-пооборотный подстрочник типа Человек атакующий/охотящийся и питающийся/поедающий рыба называемый пиранья есть/является найденный/найден в тропический пресная вода/пресноводный регион Южная Америка.
На микросегментном уровне осуществляется формирование именных и глагольных групп, в результате чего образуется два варианта пооборотного перевода:
1) человек, охотящийся на и поедающий рыба, называемая пиранья, есть найден в тропические/тропических пресноводные/пресноводных реги-оны/регионах Южная Америка;
2) человека атакующая и поедающая рыба, называемая пираньей, * есть найден... и т.д. (значком * обозначены границы сегментов).
Несмотря на то, что на макросегментном уровне осуществляется распо-знание и формирование групп подлежащего, сказуемого и косвенного допол-нения, вариативность "понимания" и перевода устранена быть не может, и мы снова имеем два варианта:
1) человек, охотящийся на и поедающий рыбу, называемую пираньей найден в тропических пресноводных регионах Южной Америки,
2) атакующая и поедающая человека рыба, называемая... и т.д.
Не удается устранить неоднозначность и на четвертом уровне, поско-льку и здесь семантико-синтаксический анализ нашего предложения, взятого вне широкого контекста, не дает возможность определить, кто является субъ-ектом суждения ― человек или рыба. Эту вариативность можно снять с вы-сокой вероятностью правильного решения лишь на 5-м уровне переработки при условии, что автомат уже располагает информацией о тематике текста. Так, если речь идет об этнографическом описании, то ЛА должен выдать пе-ревод типа человек, охотящийся на рыбу, называемую пираньей, и поедаю-щий ее, найден... и т.д. Если же текст на нулевом уровне отнесен к ихтиоло-гическому подъязыку, то субъектом суждения становится рыба, атакующая и поедающая человека.
Кстати, знание широкого контекста очень часто является обязатель-ным условием для осуществления правильного перевода человеком. Так, по информации проф. Л.Н.Беляевой, приведенное выше английское предложе-ние было предъявлено для перевода в группе старшего курса филологичес-кого факультета РГПУ им. А.И.Герцена. Из десяти участников этого теста только четыре, знакомых, очевидно, с реалиями Амазонии, поняли, что субъ-ектом суждения является рыба, а не человек. Остальные шесть предлагали переводы типа человек, охотящийся и питающийся рыбой, называемой пира-нья, обнаружен в тропическом пресноводном районе Южной Америки.
Экспериментальная и промышленная эксплуатация систем АПТ, ко-торая проводилась в 80 – 90-х гг. показала, что основным недостатком те-заурусно-фреймовых систем является их изначально заданная жесткая стру-ктура (86a; 86б. С. 172 и сл.; 108д. С. 205 – 211). Она не позволяет раегиро-вать на изменения в содержании и организации конкретного текста, не гово-ря уже о разнообразии семантики и форматов текстов, которые входят в ин-формационные потоки, обрабатываемые в режиме реального времени. Жесткость этих систем затрудняет также их адаптацию к постоянным измене-ниям в лексико-грамматической организации (точнее к терминологическо-му развитию) предметных областей, т.е. подъязыков. Поиски преодоления этих недостатков ве-лись по двум направлениям: во-первых, путем исполь-зования динамичных сценарных фреймов, с помощью которых АПТ после-довательно анализирует все фрагменты документа, во-вторых, с помощью семантико-прагматической рубрикации этих фрагментов. Создание массива сценарных фреймов, который был бы достаточен для эффективного анали-за больших текстовых потоков, наталкивается на кризис размерности. По-этому более реалистичным приемом оказывается семантико-прагматиче-ская рубрикация с помощью лексических сигнализаторов, в качестве кото-рых используются ЛЕ (с/ф и с/c), способные с достаточно высокой степе-нью вероятности указывать на появление в тексте (или в потоке текстов) новых ситуаций, которые релевантны относительно одной из заданных те-матических рубрик. Выбор сигнализаторов-ключевых ЛЕ и их системати-зация производится на основе предварительного статистического обследо-вания обучающих тематических выборок, а также на основе информации о референтных ситуациях, получаемой от экспертов.