Информационное построение текста 4 страница

― диалоги справочных служб, предоставляющих информацию об адресах, телефонах, наличии билетов на самолет, поезд, пароход, сведения о погоде и т.п. [120. С. 5 - 7];

― устные переговоры "земля - вода" (лоцманская служба) и "земля - воздух"; последние охватывают не только управление воздушным движением на гражданских трассах, но и управление стратегической авиацией [102. С. 41 и сл.] ;

― потоки текстов почтово-телеграфной связи или документов, фиксиру-ющих характер неисправностей воздушного судна [25. С. 228-234];

― массивы патентных документов, информационных сообщений, тезисов конференций и совещаний: передаваемых по каналам Интернета.

Потребитель (человек): Прошу определить тематику следующего текста:

F.E. Wellings. Geological Aspects of the Origin of Oil <<Journal of the Institute of Petrolium>> Volume 52, no. 508, April 1966. P. 124

The origin of oil is one of the most baffling problems in natural science because oil does not carry with it definite traces of the environment of its origin и т.д.

................................................................

Лингвистический автомат: Настоящий текст может быть отнесен к тематикам:

– «Происхождение нефти и природного газа и формирование залежей» с T1= 0.417,

– «Нефтепромысловая геология»" с T2 = 0.333,

– «"Геология нефтеносных территорий и месторождений»

с T3 = 0.15,

– «Геология нефтегазоносных акваторий» с T4 = 0.1.

Рис. 19. Диалоговая атрибуция статьи из английского подъязыка

"Геология нефти и газа"

Индексирующий модуль дает возможность следить на достаточно боль-шом статистическом материале за общим состоянием тематики и направлени-ем информационных потоков, отражающих развитие интере-сов государственных служб или частных фирм. Он позволяет также отбирать наиболее важные документы для последующего детального смыслового анализа. Модуль индексации выполняет еще одну задачу. Дело в том, что, если при опознании язы-ка правильное фонетическое и графическое распознавание всех ЛЕ документа не является обязательным, то при индексировании приходится определять значения большинства ЛЕ. Без этого дальнейшие задачи переработки текста (информационный поиск, аннотирование документа, МП и т.д.) выполнены быть не могут. Эта многоуровневая процедура, ориентированная на извлечение синтакти-ческой (акустико-графической), семантической (комбинаторно-лексемной) и прагматической (ситуативной) информации, нужна не только для нормализации устных текстов, вводимых в ЛА с помощью устройств рас-познавания слитной речи, которые дают большое количество ошибочных ре-шений. Она необходима и при пакетной переработке больших массивов несе-гментированных письменных документов. Чаще всего такая нужда возникает при пакетном переводе китайских и японских текстов[1], в которых пробелы между “словами”, записанными иероглифами или знаками слоговых азбук, специально не отмечаются. Если такой текст записан в цифровых кодах (J I S или Плейна, то применение указанной процедуры необходимо для обнаружения ЛЕ, являющихся смысловыми квантами текста. Нужен этот анализ и при переработке потоков иероглифических документов, вводимых в ЛА с помо-щью читающих устройств. Ведь эти устройства предлагают потребителю не-сколько интерпретаций практически для каждого второго иероглифа.

M (4). Информационный поиск. В эту задачу входит извлечение из ЛИБ информации по запросу пользователя. Они могут быть постоянными или меняться в зависимости от потребностей конкретного пользователя. Являясь развитием подсистемы индексации текста, модуль этот использует уже опи-санные процедуры лексико-статистического анализа. В ЛИБ включаются пол-ные тексты документов (полнотекстовые базы) и их описания в виде наборов частотных ключевых ЛЕ, объединяемых при необходимости в синонимичес-кие ряды. Запросы пользователя приводятся к виду поисковых образов, име-ющих аналогичное построение. Степень подобия между запросом и докумен-тами ЛИБ оценивается на основе совпадения элементов запроса и их вероятностных весов с аналогичными характеристиками документов. При этом ЛА может выдавать несколько решений, приписывая каждому из них определён-ный вес (рис. 19). Если степень подобия превышает заданный в модуле порог, документ выдается пользователю. Такой подход позволяет гибко соотносить неполно и нечетко выраженные запросы с массивами текстов, которые поль-зователю заранее неизвестны, и получать нужную и часто неожиданную для него информацию, особенно тогда, когда текст является политематичным.

В настоящее время одной из наиболее актуальных задач развития информационного поиска, особенно в режиме диалога, является подклюю-чение опи-санных систем к корпусам текстов, а также к сети Интернет, охватывающей полнотекстовые базы документов и предполагающей доступ к ним пользователей с разными и не всегда четко определенными запросами.

M (5). Аннотирование текста. Необходимость компьютерного анноти-рования обусловлена постоянными информационными перегрузками, при которых пользователь оказывается не в состоянии переработать поступающий к нему поток документов. В этом случае заглавный модуль должен компресси-ровать их таким образом, чтобы содержащаяся в документе основная инфор-мация была бы сохранена. Эта компрессия реализуется двумя путями.

В первом случае слоты (‘‘дыры’’) заранее введенного в ЛА фрейма за-полняются наиболее информативными словами и выражениями, полученны-ми в ходе предыдущей работы модуля (3) . Одновременно могут выполняться простейшие экспертные функции.

Во втором случае модуль выбирает из текста наиболее информативные предложения, которые формируют аннотацию. Обычно процесс компрессии реализуется в человеко-машинном диалоге с тем, чтобы пользователь мог сам оперативно задавать уровень сжатия текста. Как правило, пользователь начи--нает с высокой степени компрессии с тем, чтобы получить самое общее пред-ставление о теме документа. Так, аннотация, охватывающая 5% предложений текста, может сохранить до 70% его информации при условии, что отобраны наиболее информативно-нагруженные предложения текста. При уменьшении сжатия полнота информации увеличивается. При 25% компрессии аннотация может сохранить всю основную информацию текста [109, с. 10 - 11]. Степень информативности каждого предложения определяется, исходя из его положе-ния в тексте (заголовок, начальный фрагмент, конечный фрагмент и т.д.), кон-центрации терминов слов, обладающих высокой частотой в других предложе-ниях и во всем тексте, формальных показателей самостоятельности или неса-мостоятельности фрагмента (т.е. наличие или отсутствие коннекторов) и т.д. Используя эти параметры, модуль вырабатывает для каждого предложения или фрагмента суммирующий оценочный индекс, который сравнивается с за-ранее заданной пороговой оценкой информативности. Она выступает в роли фильтра, который включает фрагмент в аннотацию в случае, когда его индекс превышает пороговую оценку, а в противном случае отсеивает этот фрагмент [83, c. 192 - 193]. Процедура аннотирования осуществляется, как правило, на языке оригинала. Если необходим ее перевод, подключается модуль машин-ного перевода (рис. 20).

M (6). Машинный перевод. Общеизвестно, что попытки американских, советских и японских ученых в 50 - 70-х годах создать работающие системы МП на основе одного лишь номотетического подхода не увенчались успехом. Потерпел крушение и Европейский проект Eurotra, также cтроившийся на ошибочном убеждении, что ЕЯ есть логическое исчисление (см. Введение). Поэтому не только европейские, но и современные американские специалис-ты, отказываясь от глобально-дедуктивного метода, обращаются к индуктив-но-итеративному многоуровневому подходу при проектировании и организации систем АПТ, в том числе к построению МП-модуля ЛА [25. С. 168 и сл.; 118]. Этот подход опирается на результаты изучения информационно-статис-тических свойств устной и письменной речи, которые показывают, что лекси-ка несет основную часть содержащейся в тексте информации (см. разделы 2.2.4 и 5.3).

Поэтому центральной частью лингвистико-информационной базы данных и знаний (ЛИБ) этого модуля является комплекс двуязычных автоматических словарей (АС) для всех обрабатываемых автоматом языков и подъязы-ков. Этот словарный комплекс одновременно выступает в качестве базы зна-ний и лингвистических данных для других модулей. Базовыми элементами каждого АС являются словарные статьи, содержащие входные ЛЕ и их выходные эквиваленты, а также

Входной текст.Fighting in El Salvador continued Saturday as rebel and government representatives prepared to begin a new round of U.N. - mediated peace talks in Mexico. Residents of the capital were awakened early by the sound of rocket-propelled grenades and machine-gun fire as urban guerrillas attacked soldiers guarding a water tank on the city's south side. A spokesman for the armed forces press committee said two guerrillas were killed in the attack. Witnesses said three soldiers were wounded, but the army said it suffered no casualties. The attack occurred as representatives of the Rebel Farabundo Marti National Liberation Front, or FMLN, and the conservative government of president Alfredo Cristiani prepared to meet in Queretero, 120 miles (200 km) northwest of Mexico city, for a new round of U.N.- mediated peace talks. Sources close to the talks that have dragged on for more than a year say it is unlikely the new round will end with the cease-fire agreement both sides say they want. A member of the FMLN negotiating team attending a conference of Latin American socialist political parties and organizations in Mexico city described the prospects for progress in the peace process as good. We have entered a period of serious negotiations, dealing with sensitive themes key to the solution of the conflict, said Dagoberto Gutierrez, a member of the FMLN's political commission. Gutierrez said Cristiani was under pressure from militaristic groups in the armed forces, the governing party and business groups that have become accustomed to living off the war. Gutierrez called on the U.S. government to support peace by suspending its military aid and to cease using the aid to pressure the FMLN. The U.S. government has supplied about dirs I billion in military aid to successive Salvadoran governments in the 11-year-old civil war,

Машинная аннотация (30%-е компрессирование): Fighting in El Salvador continued Saturday as rebel and government representatives prepared to begin a new round of U.N. -mediated peace talks in Mexico. The attack occurred as rpresentatives of the Rebel Farabundo Marti National Liberation Front, or FMLN, and the conservative government of president Alfredo Cristiani prepared to meet in Queretero, 120 miles (200 km) northwest of Mexico city, for a new round of U.N.- mediated peace talks.

Машинный перевод аннотации (без постредактирования): Борьба в Сальвадоре продолжилась в субботу при том, что мятежные и правительственные представители подготовились начинать новый раунд при посредничестве ООН мирных переговоров в Мехико. Нападение произошло при том, что представители Мятежника Национальный фронт освобождения имени Фарабундо Mapти, или FMNL, и правительство консерваторов президента Alfiedo Cristiani подготовились встречать его, 120 миль (200 км) на северо-запад от Мехико, для нового раунда переговоров при посредничестве ООН мирные переговоры.

Рис. 20. Компрессия и аннотирование английского газетного текста

с переводом аннотации на русский язык

семантические, морфологические и синтаксические (валентностные) описания всех этих ЛЕ [25, с. 177 и сл.]. В качестве ЛЕ могут выступать общеупотребительные и терминологии-ческие ЛЕ, а также топонимы, антропонимы и аббревиатуры. Отбор общеупотребительной лекси-ки и терминологии в АС происходит на основе данных общих и отраслевых частотных словарей, а также с учетом исследования распределений этих ЛЕ в конкретной предметной области.

Организация словарной статьи и вид ее заглавной ЛЕ определяется строем языка. Для корневого китайского языка ею может быть слогоморфема, передаваемая иероглифом, либо комбинация из нескольких иероглифов. Для агглютинативных языков такой ЛЕ будет исходная форма слова. Для фузион-ных языков с внутренней флексией типа арабского ― трехконсонантный ко-рень; для фузионных языков с внешней флексией ― основа. Для флективно-аналитических языков типа английского, французского такой единицей может быть исходная форма слова или его основа [1]. Значительно расширяет возмо-жности АС переводческая память (ПП). Она формируется на основе параллельного статистического анализа корпуса входных текстов и их переводов [86; 115]. ПП включает целые предложения или их сегменты вместе с наиболее типичными пере-водами. Учитывая возможности не-верного распознавания входных фраг-ментов и неадекватности их передачи со стороны ЛА, последние сопостав-ляются с результатами уровневого лексико-грамматического пе-ревода (см. ниже), одновременно предлагаются количест-венные меры для оценки эффективности применения подпрограмм ПП. Эта память включает также парадигмы флексий и агглютинативных аффиксов, иногда суффиксов и префиксов, а также программы семантико-синтаксического анализа.

6.1.1. Принципы функционирования МП-модуля. Процесс МП орга-низован в виде блочно-уровневой иерархии, опирающейся на информационно-статистический подход и учитывающий современные представления о по-рождении и восприятии сообщения человеком. Эти представления добыты не столько путем применения строгого экспери-мента, сколько через номотетические наблюдения и размышления. После того как текст прошел акустическое или графическое распознавание и он отнесен к определенному языку или подъязыку, МП-модуль приступает к многоуровневой его переработке, основ-ная идея которой состоит в пошаговом уменьшении неопределенности. Оно идет снизу вверх от лексических фактов к семантико-синтаксической и праг-матической цели. МП-модуль строится из следующих блоков:

1) словарного, где производится перевод ЛЕ входного текста;

2) микросегментного, где выполняется перевод отдельных именных словосочетаний, а также вербальных групп;

3) макросегментного, где достигается опознание и обработка функциональ-ных сегментов, т.е. групп подлежащего, сказуемого и т.д.;

4) синтаксического, на котором выявляется поверхностная синтаксическая структура входного предложения и подбирается соответствующая ей выход-ная структура;

5) текстового, где, исходя из тематики, структуры и прагматики текста, производится итоговая корректировка перевода.

Каждый блок отвечает за опознание входных единиц соответствующего уров- ня, их описание и подбор выходных эквивалентов.

В словарном блоке ЛЕ и фрагменты из ПП получают свои лексико-грамматические характеристики прямо из АС. В блоках более высоких уров-ней семантико-синтаксические характеристики передаются снизу, либо выра-батываются в самих блоках. При пакетной переработке больших потоков не-нормализованных, а иногда и дефектных текстов ЛА постоянно сталкивается со "сбойными" ситуациями. Рассмотрим наиболее типичные случаи таких сбоев и приемы их преодоления.

1. Если на n-ом уровне процесса МП происходит отказ от формирования структуры выходного текста, потребителю выдаются те результаты перевода, которые получены ЛА на предыдущем уровне.

2. Если на n-ом уровне ЛА выработал несколько выходных схем, то на (n+1)-й уровень передаются все эти варианты с тем, чтобы многозначность была разрешена на последующих уровнях пользователем или самим ЛА. Вы-яснилось, что, исходя из ограниченных синергетических возможностей, ЛА может выбирать лишь тот выходной вариант, который структурно ближе все-го к семантико-синтаксической схеме входного текста и семантике обрабаты-ваемой ПО. Описанные выше принципы работы МП-модуля будут еще раз рассмотрены на текстовом материале в следующей главе.

МП-модуль может использоваться как самим пользователем, не вла-деющим или слабо владеющим входным языком, так и в рамках автоматизи-рованного рабочего места квалифицированного переводчика. В зависимости от необходимости модуль должен выдавать как приблизительный (грубый) перевод, достаточный для общего понимания содержания иностранного тек-ста, так и высококачественный МП, жестко ориентированный на предметную область, задачи пользователя и тип документации.

M (7). Дидактический модуль поддерживает обучение родному или иностранному языку. Его организация и работа рассмотрены в главе 8.

M (8). Создание лексиконов. Создание ЛИБ, допускающих сопостави-тельный анализ больших корпусов параллельных письменных и устных тек-стов, потребовало разработки еще одной подсиcтемы в ЛА ― модуля постро-ения лексиконов. В первую очередь это частотные, алфавитные, обратные словники и конкордансы, начали создаваться в группе Статистика речи еще в 60-е годы. В настоящее время этот модуль применяяется также при построе-нии и ведении двуязычных резидентных словарей, для создания и пополнения АС [116. С. 85 и сл.]. Статистическое обследование контекстов в параллель-ном корпусе дает возможность сузить в словаре многозначность входного слова и точнее подобрать его выходные эквиваленты.

M (9). Автоматизированное создание документов. Оно опирается на понятие контролируемого языка, представляющего собой вариант подъязыка, предназначенного для использования в специальных целях. Такие языки раз-рабатываются для автоматизированного создания документов-спецификаций на конкретное оборудование, которые затем должны переводиться на другие языки. Контролируемый язык состоит из наборов фреймов, каждый из кото-рых статистически обобщает наиболее типичные для документов данного подъязыка лексико-грамматические шаблоны.

6.2. Заключительные замечания―

ЛА, включающий все перечисленные модули и блоки, еще не создан. Однако уже сейчас существуют реальные многофункциональные системы, являющиеся его праобразами . К ним можно отнести системы ТАНД, произ-водящие вероятностное индексирование, реферирование и МП=патентов, на-учно-технических и деловых документов [25. С. 40 - 52], учебный МП (см. главу 8), системы устного машинного перевода [119]. Чтобы сформировать полный ЛА, нужно договориться об принципах анализа входного текста и генерации выходных результатов этого анализа, а затем о последовательности наращивании модулей самого автомата.

Накопленный ИЛ опыт показывает, что за альтернативами этих принци-пов стоит выбор либо глобального, либо итеративно-стратифи-кационного подходов. Целью первого является получение полного и непротиворечивого формального представления анализируемого текста. При этом не так уж важ-но, осуществляется ли его переработка путем последовательных преобразо-ваний=трансферов, записывается ли выход на языке-посреднике, в терминах выбранного кода, или прямо на ЕЯ. Уязвимой стороной такого подхода являя-ется то, что его реализация сразу же наталкивается на сопротивление барьера отторжения и образу-ющих его генетических парадоксов. Сгладить этот барьер позволяет последовательно стратификацинный подход, при котором задача непротиворечивого описания текста решается поэтапно и необязательно до конца. Такой подход особенно оправдывает себя, когда ЛА имеет дело с большими потоками ненормализованных текстов, содержащих много неопоз-нанных или многозначных лексико-грамматических единиц.

Аналогичным образом существуют два альтернативных подхода к по-строению самого ЛА. С одной стороны, это дедуктивное развертывание ЛА сверху вниз от семантико-прагматического уровня к лексико-грамматическим и фонетико-графическим блокам распознавания текста. С другой ― это ите-ративное построение автомата снизу вверх от элементар-ных блоков к более сложным модулям ‘‘понимания’’ автоматом смысла текста. При всей заман-чивости первый подход не позволяет одновременно охватить весь круг задач, возникающих при построении многофункцио-нального JIA, и не дает возмож-ности воспользоваться теми достижении-ями, которые появляются в период работы над отдельными модулями. В итоге построенный по дедуктивной схеме ЛА оказывается не способным противостоять действию генетических пара-доксов человека и компью-тера. Более конструктивным оказывается итератив-ный подход, который реализуется через открытую модульно-уровневую орга-низацию. Она позволяет, с одной стороны, устранять из ЛА лишние и вклю-чать нужные модулей, а с другой ― соотносит каждый модуль с определенным уровнем порождения и восприятия сообщения человеком. Человеко-машинный принцип организации и совершенствования ЛА, равно как и приме-няемые в нем вероятностно-информационные приемы переработки текста, подсказаны сложившимися в настоящее время представлениями об открытой окказионально-коммуникативной природе РМД человека и многоуровневом порождении и расшифровке сообщения на ЕЯ. Эта ориентация позволяет ЛА преодолевать сбойные и тупиковые ситуации, возникающие при переработке документа. Ж и в у ч е с т ь заключается здесь в сохранении жизненных функций модулей при нарушении цело-стности всего организма ЛА. Этот ‘‘эффект дождевого червя’’ крайне важен при пакетной переработке автоматом больших массивов ненорма-лизованных документов. Обеспечение живучести ЛА вместе с широким применением в нем разного вида заранее вводимых фреймов-шаблонов и сценариев можно рассматривать как опыт создания примитивных синер-гетических механизмов в системах АПТ [88. С. 177 ― 185; 99. С. 42 ― 49].

.

Глава 7. АВТОМАТИЧЕСКАЯ ПЕРЕРАБОТКА ТЕКСТОВ, РАЗЛИЧНОЙ СТЕПЕНИ СТРУКТУРИРОВАННОСТИ*)―

7.1.Промышленная переработка жестко структурированных текстов

7.1.0. Вводные замечания. Выше уже говорилось, что ЛА работает наиболее эффективно в среде подъязыков, имеющих жесткую и стандартную организацию. К таким подъязыкам относятся переговоры ‘‘борт―земля’’, те- ксты инструкций, патентов и т.п. Указанные подъязыки либо являются номен-клатурами, обладающими ограниченным набором реплик, либо строятся как исчисления, с помощью которых ЛА, используя заранее заданные фильтрую-щие эталоны акустико-графических, лексико-грамматических и других ситуа-

ций, распознает каждый фрагмент текста. Учитывая эти особенности, просле- __________________________________________________________

*)В этой главе использованы идеи и материалы, содержащиеся в статье[ автора «Behavior-based Artifiсial Intellegence and 21st Century MT Conception». International Journal of Translation. Vol.14. No 2, 2002. C.127 - 150 (написана совместно с Ю.В.Романовым) и в статье Kosarev Yu., Piotrowski R. Synergetics and `Insight' Strategy for Speech Processing// Literary and Linguistic Computing, vol. 12, no 2, 1997. C. 113 ― 118

дим как проходит переработка в ЛА устных реплик переговоров “борт (пилот воздушного судна) ― земля (диспетчер аэропорта)”. Опуская описанную в предыдущей главе задачу определения языка и письменности, на которых

выполнен текст, перейдем к рассмотрению акустико-графического фильтра. --

7.1.1. Акустико-графический фильтр. Этот фильтр, как было сказано выше, производит предварительную сегментацию семантически не интерпре-тированного входного текста-сигнала T (обычно им является предложение) в последовательность фонетических (или графических) сегментов

T = s1 , s2,...si,...sn.

Затем всякий si сопоставляется с предварительно заданными эталонами, каждый из которых описывает некоторую лексическую единицу wiиз автоматического словаря Dc данной предметной области. Для каждого si формируется подмножество

W*i = { w1, w2,... wi,...wm}

из ЛЕ, являющихся наиболее вероятными интерпретаторами сегмента si.

Сам входной текст есть последовательность подмножеств

W*1, W*2,... W*i,... W*n,

отображающееся во множество F смысловых гипотез fh о входном тексте-сигнале. Это множество есть Декартово произведение

L ___ ——

F = Информационное построение текста 4 страница - student2.ru i, .fh ={ w(h)1, w(h)2,... w(h)i,...w(h)L½ .w(h)i Î W*i}; i = 1, L

i

где L  число cловоформ в тексте-сигнале.

Для каждой гипотезы .fhÎ F задается совокупность расстояний

Ch = {c(h)1, c(h)2,... c(h)i,...c(h)L}.

между эталонными графами входящих в эту гипотезу словоформ wi и акустическим или графическим сегментом si текста T.

Тогда акустико-графическая оценка каждой гипотезы fh для входного текста-cигнала T, нормированная относительно его длины L приобретает вид:

L ___

Eag(fh) = 1/L S c(h)i; i= 1,L.

i=1

Полученная оценка имеет штрафной характер. Она растет по мере

уменьшения сходства сигнального сегмента с эталоном.

Акустико-графический анализ дает обычно большое число разных интерпретаций предложений из входного текста-сигнала. Чтобы сократить число этих гипотез в ЛА используются два фильтра, обеспечивающих машинное “понимание” текста.

7.1.2. Комбинаторно-лексемный фильтр. Этот фильтр, строится и работает следующим образом. На множестве словоформ, составляющих словарь предметной области

___

D = { d1, d2,... di, dj, dk,... dS êi = 1,S },

формируются пары c/ф (di, dj) для синтетических и троек (di, dj, dk) для аналитических [69б. С. 473  508] языков. Каждой паре (или тройке) путем экспертных оценок либо статистически присваиваются весо-вые характеристики jij (jijk), численно оценивающие вероятность совмест-ной встречаемости с/ф di, dj(di, dj, dk). Весовые характеристики выбира-ются таким образом, чтобы конечный результат стремился к нулю при усилении и, наоборот, возрастал бы при ослаблении контекстных связей и совместной встречаемости соответству-ющих ЛЕ. И действительно, в подъязыке управ-ления воздушным движением в зоне аэропорта слово-сочетания прогноз по-годы (англ. the weather forecast), пункт вылета (англ. (a) point of departure) являются более частыми и семантически устойчивы-ми комбинациями, неже-ли ЛЕ маршрут на Сыктывкар (англ. (the) route for Syktyvkar). При этом, jij ¹ jji (jijk ¹ jjk i), и т.д.; (jijk) Î [jmin, jmax], j > 0. В результате получаем мат-рицы M[SS] = ççjijçç размерностью S´S и или M[SSS] = ççjijk çç размерностью S´S´S. Учитывая раз-мытый характер границ для большинства объектов ЕЯ здесь целесообразно использовать для экспертных оценок связанности с/ф четырехмерную шкалу, выделяющую следующие виды оценок: низкая (3), средняя (2), высокая (1), очень высокая (0,1), (см. [31, c. 7 и сл.]).

Для произвольно взятой цепочки-гипотезы длиной в L cловоформ

fh =f(h)1, f(h)2,... f(h)i,...f(h)L

извлечем из матрицы M подмножество M* весовых характеристик, упорядо-ченных по одному из индексов пар (или троек) указанной цепочки

M* = {j(h)1, (h)2, ( h)3...j(h)L-2,(h)L-!, j(h)L},

причем для двоек имеемçM*ç = C2L,а для троек çM*ç = C3L.

Наши рекомендации