Информационное построение текста 3 страница
– немецкого и английского;
– испанского и французского (или румынского);
– русского (или польского и чешского) и болгарского.
С этой же целью можно сопоставить избыточности архаичного казахского и более продвинутого благодаря сильной тюрко-иранской интерференции узбекского языка.
Результаты такого сопоставления во всех случаях одни и те же: из-быточность и соответственно энтропия языков, вступивших в результате интерференции в зону перестройки, остаются на том же уровне, что и из-быточность их более архаичных синтетических родственников, не испы-тавших интерференционного удара других языков. Поэтому можно пред-положить, что в ходе структурного преобразовании языковой системы в этот процесс включается некоторый особый механизм защиты гомеостаза, благодаря которому в си-стеме сохраняется равновесие "порядка" и "хао-са", обеспечивающее языку бесперебойное функционирование в качестве полновесного средства обще-ния и реализации когнитивных мыслитель-ных функций. Отсюда следует, что перескок из одного состояния равно-весия системы языка в другое и измене-ние ее управляющих параметров не могут быть описаны с помощью общих оценок энтропии, синтактической информации и избыточности. Необходимо найти иной лингвистический материал, в котором можно было бы обнаружить такие статистические и информационные параметры, которые реагировали бы на качественную перестройку синергетики конкретного языка.
5.9. Диахроническая синергетика и лингвостатистика.
Среди информационно-статистических измерений, которые могли бы быть использованы для выработки исчисляемых параметров динами-ческих синергетических моделей, наибольший интерес представляют измерения, связанные с законом Менцерата–Альтманна, а также со статистикой "диахронического скачка".
В первом случае речь идёт об изменении длин с/ф, измеряемых в слогах или морфемах. Рассмотрим в этой связи данные табл. 22. Они по-казывают, что в консервативных языках, несмотря на их разные истори-ческие судьбы, слоговая структура слова, т.е. энтропия распределения количества слогов в словоформе (Hсл) и средняя ее длина в слогах (l), выше, чем в более динамичных языках той же группы или семьи. Так, уменьшение значений параметров l и Hсл напрямую отражает рост аналитизма и в романской (латинский – румынский), и в германской (немецкий – английский) языковых парах. Возможно, с этим же связано уменьшение этих параметров и в татарском языке, который в большей степени, чем казахский язык, подвергся влиянию арабского, персидского, русского и соседних финно-угорских языков [18].
Таблица 22. Слоговая структура слова и ее энтропия в некоторых
индоевропейских и тюркских языках, (см. [62. C. 192; 89. C. 84])
Языки | l | Hсл bits |
Латинский | 2,36 | 2,09 |
Румынский | 1,95 | 1,83 |
Немецкий | 1,63 | 1,52 |
Английский | 1,35 | 1,22 |
Казахский | 2,56 | 3,29 |
Татарский | 2,41 | 3,17 |
Во втором случае – при скачкообразной перестройке системы языка отмечаются резкие изменения в статистике отдельных грамматических форм или лексических групп. Эти статистические изменения описываются S-образными кривыми, которые аппроксимируются в общем виде зависимостью
1
p =――――― ,
1+ ae-bt
где p ― вероятность появления слова или грамматической формы исследу-емого класса, t ― время, отсчитываемое от начала бифуркационного пери-ода, a и b ― коэффициенты, подбираемые относительно cтроя языка и лек-сико-грамматического класса с учётом резкого роста или, наоборот, сокра-щения употребительности исследуемых лингвистических объектов. Эта за-висимость, традиционно применяемая при моделировании катастрофиче-ских "скачков" в развитии биологических и экономических систем, доста-точно хорошо описывает такие лингвистические процессы, как стано-вление опреде-лённого артикля в эпоху превращения поздней народной латыни в старо-французский язык, наплыв арабизмов в средневековой персидской прозе, латинизация и славянизация венгерской лексики [62. C. 31 ― 38, 64 ― 70; 81].
5.10. Заключительные замечания
Результаты информационных измерений используются при решении как теоретических, так и прикладных проблем.
Если говорить о теоретическом аспекте, то это касается в первую очередь вопросов синергетической организации языка в целом и его раз-новидностей. Получаемые в ходе статистических и психолингвистических опытов информационные величины (см. табл. 14) являются обобщенными оценками разнородных лингвистических и экстралингвистических явле-ний. В них суммируется и синтактическая и различные виды смысловой (прагматической, сигматической, семантической и коннотативной) инфор-мации, представляющие интерес не только для языковедов, но также и для специалистов в области информатики и физиологии высшей нервной дея-тельности человека.
Выяснилось, что обследованные языки имеют примерно одинаковый уровень избыточности и энтропии, который, очевидно, обусловлен биосо-циальной природой языка, являющегося основным средством общения. Такой выработанный веками уровень избыточности служит средством за-щиты сообщения от физических, психологических и лингвистических по-мех. Выяснилось также, что изменение тематики, профессиональной и стилистической ориентации текста немедленно влечёт за собой изменение в нём баланса хаоса и порядка. Рост внешней энтропийной неупорядочен-ности в разговорной речи, поэзии и художе-ственной прозе, создаёт аль-тернативное поле для будущих конструктив-ных инноваций в системе языка. Напротив, уменьшение энтропии и рост упорядочения текста ха-рактерны для таких нормализованных стилей как публицистическая и научно-техническая речь, а особенно для “жестких” языков-номенклатур типа переговоров ‘‘земля ― воздух’’. Одновременно выясняется, что значимые отклонения энтропии текста от стандартного уровня в сторону ее увеличения свидетельствуют об ослаблении психолингвистических механизмов саморегуляции в системах языка и речи. Это наблюдается в первую очередь в индивидуальной речи больных, страдающих речемы-слительными расстройствами [3, c. 409 и cл.].
Что касается прикладного аспекта, то интерес к информационно-стати-стическим измерениям изначально был стимулирован задачами разработки секретных кодов и раскрытием кодовых систем противника [113. С. 656 ― 715]. В настоящее время диапазон прикладных выходов синергетических и информационно-статистических результатов анализа текста расширяется.
Информационные измерения выявляют некоторые другие синергетиче-ские особенности РМД представляющие интерес для физиологии высшей нервной деятельности человека. Выясняется в частно-сти, что текст дает квантовое распределение информации (рис. 15 ― 18). Это свидетельствует о том, что письменная и, вероятно, устная речь гене-рируется, воспринимается и перерабатывается нашей памятью не непреры-вно, а путем ритмической отдачи накопленных квантов информации. В ка-честве такого кванта выступает морфема ― элементарная знаковая едини-ца текста. Что же касается слова в письменном тексте, то основная часть информации сосредоточена в его начале. Концы и середины слов несут не-много информации, а иногда оказываются избыточными. Сведения о зер-нистом распределении информации в тексте, об информационной нагру-женности начал слов и избыточности их середин интересны не только с точки зрения организации РМД человека. Они учитываются при решении задач, связанных с кодированием и компрессированием информации.
.
Часть II. СИСИСТЕМЫ АВТОМАТИЧЕСКОЙ ПЕРЕРАБОТКИ ТЕКСТА
Глава 6.ЛИНГВИСТИЧЕСКИЙ АВТОМАТ*)
6.0. Вводные замечания
Выше уже говорилось о том, что эпистемологическое допущение, по которому естественный язык есть некоторое исчисление, аналогичное по своей природе логическому языку компьютера, оказалось неверным. Вы-яснилось, что между языком компьютера и языком человека существует своеобразный барьер отторжения, реализующийся в ряде генетических антиномий. Построить реально работающую систему автоматической пе-реработки текста высокой сложности невозможно без учета этих антино-мий и без создания процедур, способствующих ослаблению и понижению указанного барьера. Именно поэтому мы так подробно говорили в преды-дущих разделах о принципах моделирования лингвистических объектов и процессов, а также о синергетических механизмах языка. Эти сведения нужны для выработки эффективных приемов построения лингвистических автоматов, в том числе обучающих.
_____________________________________________________
*) В этой главе использованы идеи и материалы статей автора «Новые горизонты машинного перевода» (НТИ. Серия 2, 2002, N 1. C. 17-29) и «Linguistic automaton» (QL. 2005. C. 921 - 931). Последняя написана в соавторстве с Л.Н.Беляевой.
6.1. Архитектура лингвистического автомата
Лингвистический автомат представляет собой сбалансированный комплекс аппаратных (hardware), программных (software), лингвистических (linguware), а иногда и лингводидактических (tutorware) средств, взаимо-действующих с мощной базой лингвистических данных и знаний (ЛИБ).
Исходя из информационной и социально-экономической обстановки на рубеже XX и ХХI веков, ЛА должен обладать следующими свойствами:
– полифункциональностью, т.е. способностью осуществлять разные виды обработки больших потоков текстовой информации;
– минимизацией информационных потерь и ослаблением эффекта отторжения ЕА языком ЛА;
– живучестью, под которой понимается способность ЛА сохранять свои наиболее существенные свойства в результате воздействия на ЛА таких катастрофических факторов, как выход из строя внешних устройств или участков оперативной памяти, искажение отдельных фрагментов текста и т.п.;
– возможностью подключения к различным каналам связи, в частности к сетям Интернет;
– способностью к дальнейшему развитию и усовершенствованию, кото-рые диктуются необходимостью адаптировать ЛА не только к коммуникатив-но-информационной эволюции общества, но и к прагматике отдельных потребителей.
ЛА строится в виде иерархической системы программных модулей (М), каждому из которых присваивается определенный номер. Некоторые из них имеют вид многоуровневой системы п о д м о д у л е й. Каждый модуль осуществляет конкретную операцию по переработке текста и может функционировать как независимо, так и в сочетании с другими блоками. ЛА включает два множества модулей. Первое охваты-вает следующие ‘‘интеллектуальные’’ модули:
(1) М фонетического или графического распознавания текста входного документа, а также фонетико-графемного синтеза;
(2) М опознания языка, на котором написан текст или его фрагменты и их нормализация;
(3) М классификационного индексирования;
(4) М информационного поиска;
(5) М аннотирования;
(6) М перевода иноязычного текста;
(7) дидактический М, преобразующий ЛА в ОЛА.
Второе множество включает такие ориентированные на рутинные операции блоки как, (i) сканер, (ii) орфографические корректоры, (iii) М создания и поддержки алфавитных, обратных и частотных лексиконов, (iv) М создания документов.
Рассмотрим операции, выполняемые ‘‘интеллектуальными’’ модулями.
М (1). Фонетико-графическое распознавание входного текста стро-ится на базе современных систем устного ввода и вывода. Здесь исполь-зуется методика вероятностных гипотез, которые затем про-сеиваются через семантико-синтаксический и прагматический фильтры. В качестве таких фильтров выступают чаще всего модули (3), (5) и (6). Одна из моделей этого взаимодействия будет описана несколько позже.
М (2). ЛА подобно другим современным промышленным системам АПТ , функционируя в пакетном режиме реального времени, перерабаты-вают большие массивы устных или письменных документов. К ним отно-сятся перехваченные и дешифрованные радиотелефонные переговоры ти-па "земля - воздух" и "земля - вода", почтово-телеграфная коммуникация, коммерческая переписка, научно-техническая и патентная документация и т. п. [25; 43а; 84a]. Все это делает практически невозможным предвари-тельное или внутреннее редактирование, а тем более постредактирование таких документов.
Многие специалисты в области информатики убеждены, что указан-ные тексты используют ограниченные по объему словари и наборы семан-тических примитивов и синтаксических шаблонов. А это должно значите-льно упростить задачу их перевода, аннотирования и других форм АПТ, проходящих без вмешательства оператора. Все это так. Однако нельзя за-бывать, что передача текстовой информации по названным каналам связи характеризуется ря-дом особенностей, затрудняющих ее формальный анализ. В первую очередь здесь заслуживают внимания следующие обстоятельства.
1. Поступающие на вход компьютера тексты могут включать значи-
тельное число иноязычных вставок; это особенно характерно для корейских, арабских, ивритских и японских деловых и научно-технических документов. Ср. японский составной терминологический знак APU (эй-пи:-ю:-кайтэнкэй) ‘тахометр вспомогательной силовой установки’.
2. Информационный поток может состоять из разноязычных текстов, причем переход с одного языка на другой никак формально не отмечается (такая ситуация характерна для документов НАТО и ЕС).
3. Обрабатываемый поток может включать документы, принадлежа-
щие разным подъязыкам и жанрам, а сами документы могут состоят из разнородных тематических и стилевых фрагментов.
4. Перерабатываемые тексты содержат большое количество незакон-ченных фраз или фраз с ненормативным синтаксисом. Здесь встречаются орфографические (фонетические) ошибки и описки (оговорки), лексиче-ские, грамматические и полиграфические (фонационные) искажения, в том числе и такие, которые генерированы звуковым анализатором или читаю-щим устройством. Эти ошибки не могут быть однозначно исправлены спеллером без помощи редактора.
Определив общую задачу нормализации текста, перейдем к рассмотре-нию блока распознавания языка, на котором написан документ или его фраг-мент. Этот блок является важной составной частью ЛА, работающего как в режиме устной справки, так и перерабатывающего большие массивы много-язычной информации, например, документы НАТО или ЕС. Задача распозна-вания может решаться либо детерминистским способом с помощью индикаторов, относящих текст к одному из заранее заданного набора языков, либо путем вероятностного отнесения текста к одному из языков определенной семьи или группы.
Поскольку метод индикаторов применяется в большинстве модулей ЛА, рассмотрим его основные принципы. В случае письменного текста реше-ние опирается либо на опознании алфавита, либо на обнаружение специфиче-ских графем, буквосочетаний или наиболее частых словоформ. Технология опознания зависит здесь в первую очередь от того, описанием каких языков располагает ЛА. Так, если в этом наборе имеется только один язык, использу-ющий на письме кириллицу, например, русский, то опознание автоматом ки-риллического шрифта служит сигналомом для вызова linguware, предназна-ченного для обработки русского текста. Если же в наборе присутствуют дру-гие славянские языки, использующие кириллицу, то приходится привлекать дополнительные индикаторы: для белорусского им служит буква Ў, для сербского буквы Ђ, J, Љ, Њ, Ћ, для украинского - графемы Ї,Є а для русского – одновременное присутствие в тексте букв ы, ъ, э. Болгарский язык опознается по отсутствию всех перечисленных выше графем-индикаторов за исключением буквы ъ. Сложнее обстоит дело тогда, когда представленные в наборе данного ЛА языки пользуются общей графикой, не содержащей букв, которые могли бы стать индикатором того или иного языка. Такая ситуация возникает и тогда, когда ЛА получает текст, в котором снята диакритика, как это имеет место в Интернете. Здесь в качестве индикаторов приходится использовать cамые частотные словоформы, при условии, что каждая из них характе-ризует только один язык из имеющихся в наборе ЛА. Так, из первых пяти наиболее частых словоформ, использующихся в текстах Корпуса LOB [95]), только первые четыре ― the, of, and и to могут выступать в качестве показателей принадлежности текста к английскому языку. Что касается с/ф in, то она та-ким индикатором быть не может, поскольку используется на каждом шагу в немецком, итальянском и некоторых других языках. Немец-кий язык также имеет в этой зоне четыре специфических с/ф die, der, und, zu [26; 105]. Французский язык обнаруживает в этом диапазоне одну диагносцирующую словоформу – et [97], итальянский ― две: di и egli [85]. В испанском частотном списке такие индикаторы появляются начиная с седьмой позиции [98]. Впрочем, детерминистская процедура не гарантиру-ет нас от ошибок. Действительно, если речь идет о самостоятельном опоз-нании читающим устройством письменности документа, наличие таких омографов, как рус. сор и англ. сop ‘поймать, застать’, рус. сe и фр. ce ‘это’, рус. cepa и исп. cepa ‘пень, основа’, рус. pe (нота) и рум. pe ‘на’ не может обеспечить стопроцентное отнесение всех с/ф документа к кирил-лической или латинской письменности. Что касается устной речи, где в качестве диагностических индикаторов должны использоваться звуки и их сочетания, специфические для конкретного языка, то здесь мы сталкиваем-ся с вариативностью произношения у различных носителей конкретного языка. Для выработки вероятностных произносительных шаблонов, харак-теризующих тот или иной язык, приходится использовать многоязыч ные ЛИБ, включающие тексты, прочитанные большим числом дикторов (до 100) на разных языках [15]. При этом особое значение имеет распознава-ние звуков, ранее для ЛА неизвестных. Решение здесь достигается путем применения тонкого статистического анализе на основе скрытых марков-ских моделей [111. С.217 и сл.]. Наборы характеристик, необходимых для распознавания, должны быть независимыми от типа текста и особенностей произношения конкретного диктора.
Следует помнить, что опечатки и другие полиграфические искаже-ния могут повлечь неверное опознание со стороны ЛА диагносцирующих индикаторов. Так, нечетко отпечатанное английское and может быть про-читано сканером как немецкое und, а французское et воспринято им как испанское el, и наоборот. Чтобы избежать ошибок, целесообразно вместо лобового детерми-нистского опознания применять более осторожную и сложную, но зато более надежную вероятностно-идеографическую процедуру, которая учитывает комбинаторику и статистику появления индикаторов в обрабатываемом тексте. Эта процедура будет подробно описана в разделе, посвященном модулю (3).
Из всего сказанного следует, что первым обязательным условием для распознания смысла документа, входящего в информационный поток, являя-ется его максимальная адаптация к возможностям языка-исчисления ЛА. Эта адаптация, осуществляющаяся на начальных уровнях переработ- ки текста (модули (1) – (3) и (i)), предусматривает фонетическое или гра-фическое распознавание теста сообщения, отнесение документа или его фрагментов к определённому языку, подъязыку или тематике, формати-рование и разметку текста, коррекцию фонетических, орфографических, а иногда лексико-грамматических ошибок. В тех случаях, когда входной текст прошел оптимальную нормализацию, ЛА, обладающий достаточно сильным лингвистическим обеспечением, может выдать уже на нулевом уровне достаточно полное распознавание смысла документа.
М (3). В ходе обработки многоязычных потоков сообщений часто необходимо не только опознать язык, на котором произнесен или написан текст, но также отнести его к определенному подъязыку или темнаваатике. Эта задача решается с помощью лексико-статистических методов, которые на основе анализа вероятностного соотнесения ключевых ЛЕ документа с заранее заданными словарными эталонами позволяют cоотнести текст с определенным подъязыком или тематической рубрикой. Учитывая размытый характер большинства объектов естественного языка, для опре-деления соответствия документа и тематической рубрики используются такие оценки, применяемые в теории нечетких множеств [31. С. 30 и cл.], как низкое, среднее, высокое, очень высокое соответствие. Принципиаль-ная блок-схема алгоритма, описывающего эту процедуру, показана на рис. 18. Прокомментируем работу некоторых блоков алгоритма. Операция сегментации (блок 1), разумеется, абсолютно необходима для обычно слитнороизносимого устного текста.
Вход
0 ½ Ввод текста и диагносцирующих эталонов |
2 ½ Составление рабочего алфавитно-частотного списка ½ (АЧС) знаменательных ЛЕ из обрабатываемого текста |
1 ½ Акустическая или графическая сегментация текста и ½ идентификация сегментов с ЛЕ одного из рабочих языков ЛА |
3 ½ Сравнение очередной ЛЕ из АЧС с лексической ½ единицей очередного диагносцирующего эталона |
Есть ли
|
нет
5 Вычисление значения c2 для ЛЕ из АЧС, совпавшей с ЛЕ диагносцирующих эталонов |
да
да
АЧС текста
6½просмотрен полностью? 3
7 Суммирование всех ЛЕ из АЧС текста, значение c2 которых попадает в зону согласия. Определение степени принадлежности текста к языку (подъязыку или тематике) |
нет
да
Выход
Рис. 18. Принципиальная блок-схема отнесения текста к определенному языку, подъязыку или тематике
Вместе с тем в условиях пакетной обработки больших массивов нередактированных письмен-ных документов автоматическое расчленение слитно записанных последовательностей с/ф также становится до-статочно актуальным (см. ниже). В результате этой операции входной текст T оказывается представленным в виде последовательности сегментов
T = s1, s2,...si,...sn.
Разумеется не все эти сегменты выделены правильно и соответствуют слово-формам языка документа. Поэтому в последующих блоках работа ведется только с теми сегментами, которые совпали с ЛЕ того или иного из рабочих языков ЛА.
При составлении рабочего алфавитно-частотного списка (АЧС) слово-форм и с/с (блок 2) в него вносятся только такие ЛЕ, которые являя-ются диагносцирующими применительно к данному языку, подъязы-ку, предметной области или тематике. Для этого из предварительно состав-ленного словаря текста исключаются антипризнаки. Для русских и других индоевропейских языков такими антипризнаками считаются служебные слова, т.е. союзы (рус. и, но, англ. and, but), предлоги (рус. в, к, фр. à, dans) и т.п., а также общеупотребительные ЛЕ типа вопрос, время, в настоящее время и т. д.
Затем, путем сравнения словоформ и словосочетаний из АЧС текста с ЛЕ диагносцирующих эталонов (см. блоки 3 - 4) отбираются такие ЛЕ , кото-ые могут выступать в качестве индикаторов принадлежности текста к тому или иному подъязыку (тематике или языку).
На следующем шаге (блоки 5 – 6) определяется мера статистической связи между каждой отобранной из АЧС ЛЕ и ее двойником в диагносцирующем эталоне. Эта операция осуществляется с помощью критерия c2 вида:
(N + Ni – 1) (FiNj– FijN) 2
c2 = --------------------------------------------,
NNi(Fj+Fij) [(N – Fi)+ (Ni– Fij)]
где N ― объем обрабатываемого текста, Fj―частота j-й ЛЕ-индикатора в те-ксте обрабатываемого документа, Ni ― объем эталонной выборки для i-й предметной области (тематики, подъязыка или языка), Fi j ― частота употреб-ления j-й индикаторной ЛЕ в i- й предметной области (подъязыке и т.д.). По-лученные для каждой j-й ЛЕ из АЧС текста значения c2 сравниваются с задан-ной пороговой величиной c2(q, r), где q есть c2 уровень значимости, а r ― ко-личество степеней свободы. Значения c2, лежащие ниже порога c2(q, r), попа-дают в зону согласия. Это указывает на то, что статистическое поведение j-й ЛЕ из АЧС в тексте соответствует вероятностной характеристике ее двойника в эталоне. В заключение в блоке 7 вычисляется коэффициент отнесения обра-батываемого текста (фрагмента) T к каждому из перерабатываемых ЛА язы-ков, подъязыков или тематик k. Для этого используется выражение Tk = G/L, где G ― число тех значений c2 для текстовых ЛЕ, которые попадают в зону согласия, т. е. c2 < c2(q, r), относительно предметной области, языка, подъязыка, тематики k, а L ― количество значений c2, полученных для всех инди-каторных ЛЕ текста.
Применительно к задаче опознания языка описанная процедура одно-значно указывает на тот язык, к которому с наибольшей вероятостью относит-ся обрабатываемый текст. При этом отбрасываются как малове-роятные лож-ные гипотезы об отнесении этого текста к другим языкам. Такие гипотезы мо-гут появиться в результате ошибочного прочтения ЛА некоторых диагносци-рующих ЛЕ (ср. выше). В тех случаях, когда текст предположительно содер-жит иноязычные вставки, в алгоритм необходи-мо ввести блоки, фиксирующие адреса этих вставок. Для определения подъязыка, тематики или предмет-ной области может быть использован весь вероятностный спектр атрибуции текста (см. рис. 18).
Описанная процедура применяется в качестве первого шага смыс-ловой обработки самых разнообразных текстов. Особенно эффективно она работает при условии, что ЛА располагает жестко структурированным описанием конкретной предметной области. К таким областям относятся: