Переводческой лошадке?

Заменит ли переводчика переводящий автомат? Как ра­ботает "электронный переводчик"? В чем различие ме­жду "электронным" и "живым" переводчиком? Как мо­жет помочь переводчику-профессионалу переводящий автомат?

На вопрос, вынесенный в заголовок этой главы, можно с полным основанием ответить: "Не скоро. Не скоро пере­водящий автомат заменит переводчика. Если вообще за­менит". Пока что даже самый совершенный автомат пере-

водчика заменить не может. Ведь речь идет о творчестве, а в том, что перевод - занятие творческое, думаю, никого из читателей убеждать не надо.

Другое дело, что переводящий автомат сможет дейст­вительно помочь в рутинной переводческой работе. Его можно использовать для перевода списков, таблиц и тому подобных грамматически не связанных текстов, которые переводить надо, хотя и ужасно неинтересно.

Кроме того, "электронный переводчик" может оказать­ся полезным специалисту в какой-либо области, который язык знает недостаточно хорошо, но тем не менее перево­дит тексты в своей области. Правда, здесь есть высокая ве­роятность того, что переводящий автомат тоже "не очень силен" в этом языке, и к его подсказкам следует отнестись с большой осторожностью.

Огромное преимущество автомата, в том числе и пере­водящего, перед человеком заключается не в более высо­ком уровне решения задач, а в работоспособности - он не устает, не хочет спать, не просит есгь и не бастует.

В частности, по этой причине, я и решил рассказать об автоматическом переводе: о том, как он выполняется ав­томатом, и о том, стоит ли практическому переводчику использовать переводящий автомат в своей работе.

Идея автоматизации перевода возникла почти одно­временно с компьютерами. Уже в 1949 г., через пять лет после запуска в эксплуатацию в США первого достаточно мощного компьютера, математик У.Вивер обратился к ученым с призывом использовать компьютер для перево­да.

Идея Вивера была с энтузиазмом подхвачена многими математиками и лингвистами, и вскоре появились первые модели и системы автоматического, или, как принято го­ворить, машинного перевода.

Первые модели машинного перевода базировались на принципе перекодирования текста на одном языке в текст на другом: грамматика в традиционном понимании в них отсутствовала полностью. Позднее стали разрабатываться

более сложные системы, включающие грамматику, семан­тику и даже экстралингвистическую (фоновую) информа­цию1.

Об основных типах систем машинного перевода мы по­говорим позже, а сейчас давайте посмотрим, на каких принципах основывается работа переводящего автомата.

Как вам уже известно, язык можно представить в виде символьного кода, с помощью которого записываются мыслительные представления о вещах реального мира (концепты).

Мы уже говорили раньше также и о том, что, например, концепт дерева соответствует в русском языке цепочке символов ДЕРЕВО, а в английском последовательности символов TREE.

Тогда, очевидно, можно сказать, что разные цепочки символов, т.е. слова разных языков (например, ДЕРЕВО и TREE), соответствуют одному и тому же концепту (напри­мер, концепту дерева).

В таком случае, если слово одного языка, А, равно кон­цепту, С, и слово другого языка, В, тоже равно этому кон­цепту, С, то по принципу транзитивности, если А=С и В=С, то А=В.

Иными словами, элементы разных языков можно при­равнять на основе их соответствия одному и тому же значению.

На этом принципе и основана работа переводящего автомата - слова разных языков приравниваются друг другу на основе общности значения.

Для создания переводящего автомата соответствия ме­жду словами разных языков закладываются в программу компьютера, и задача такого примитивного автомата дос­таточно проста - для поступающих на вход слов одного

' Подробнее см., например: Bruderer H.E. The Present State of Machine-Assisted Translation // 3-d European Congress on Information Systems and Networks. Overcoming Language Barriers.- Luxemburg, 1977; Slocum J.A. Survey on Machine Translation: its History, Current Status and Future Prospects // Computational Linguistics. -1985.- V.I 1,1.

языка он находит соответствие в другом языке и так слово за словом переводит текст.

Однако, как вам тоже должно быть известно, общее значение в разных языках могут иметь не только отдель­ные слова, но и словосочетания, поэтому простейший пе­реводящий автомат ищет соответствия не только для от­дельных слов, но и для словосочетаний, выполняя так на­зываемый пословно-пооборотный перевод.

Кроме того, соответствие слов разных языков друг дру­гу не является однозначным, т.е. одному слову языка А может соответствовать несколько слов языка В и наобо­рот. Следовательно, в переводящем автомате необходимо предусмотреть программу выбора правильного эквивален­та.

Такие программы обычно основываются на двух прин­ципах:

1. На принципе выбора эквивалента по синтаксической модели входного текста, чаще всего по синтаксической модели предложения. Таким образом, например, авто­мат может различить эквиваленты глагола "to book" и существительного "book" (соответственно, "резервиро­вать" и "книга").

2. На принципе выбора эквивалента по семантической мо­дели. По разным семантическим моделям автомат, на­пример, может различать такие эквиваленты слова "solution" как "решение" и "раствор". Обе модели обычно применяют в комплексе. И сами модели, и процедуры выбора эквивалентов довольно сложны. Мы кратко и в общих чертах рассмотрим их ни­же.

В некоторых более сложных системах в дополнение к этим двум принципам выбора эквивалента применяют также и принцип выбора на основе внелингвистической (фоновой) информации. Модели для выбора эквивален­тов, работающие по этому принципу, еще сложнее: их от­носят к разряду моделей искусственного интеллекта.

В зависимости от сложности выбора правильного зна-

чения слов и, соответственно, правильного переводного эквивалента модели и системы машинного перевода мож­но разделить на три уровня.

К первому, низшему уровню относятся простейшие модели пословно-пооборотного перевода, в которых вы­бор эквивалентов не производится ина выход системы перевода поступают все переводные эквиваленты, имею­щиеся в словаре.

Системы второго уровня, ккоторым относятся почти все так называемые "электронные переводчики", имею­щиеся на современном рынке программного обеспечения, используют ту или иную комбинацию синтаксических и семантических моделей для выбора правильного эквива­лента и преобразования структуры входного текста в структуру текста перевода.

Наконец, модели третьего уровня в дополнение к грамматике и семантике применяют для синтеза текста перевода также и фоновые знания. Надо сказать, что мо­дели и системы этого уровня до сих пор находятся на ста­дии эксперимента.

Для того чтобы яснее представить себе возможности систем разного уровня и качество перевода, которое вы можете получить с их помощью, давайте проведем анало­гию между действиями автомата и человека.

Системы низшего уровня можно сравнить с челове­ком, который, пользуясь словарем и таблицей словоизме­нения (списком правил и форм спряжения и склонения), переводит текст на совершенно незнакомом ему языке,

Система действует так же, как действуем в этом случае мы. Берет первое слово, смотрит, есть ли оно в словаре в таком виде. Если есть, выписывает все его переводы, если нет, то ищет в таблице словоизменения форму слова, об­наруженную в тексте, определяет соответствующую сло­варную форму и выписывает все переводы. Затем берет следующее слово и т.д.

В данном случае отличие от перевода, выполняемого человеком, состоит в том, что человек, делая такой пере-

Пример взят из книги MiramG. Translation Algorithms.- Киев, 1998.

вод, отбрасывает все неподходящие переводные эквива­ленты, система же машинного перевода низшего уровня этого не делает. Вот какой, например, получается перевод короткого предложения: Lead absorbs radiation

свинец / лот / грузило / вести / руководить / лидировать / руководство / лидерство / проводник; всасывать / впи­тывать абсорбировать / амортизировать / поглощать; излучение/ радиация',

Системы второго уровня по своим действиям напоми-нают более или менее опытного переводчика, который переводит текст на совершенно непонятную ему тему. Подобно такому переводчику система сможет отбросить наиболее неподходящие эквиваленты на основе анализа синтаксиса и семантики, причем глубина и точность такого анализа у автомата будет зависеть от совершенства и пол­ноты моделей так же, как у переводчика, она зависит от полноты его профессиональных знаний.

Но так же, как переводчик, который совершенно не по­нимает содержания переводимого текста, переводящий автомат этого уровня не сможет сделать выбор экви-валентов на основе фоновой информации.

Можно, например, предположить, что такая система на сновании анализа грамматического контекста (два глаго-на подряд), переводя предложение "Lead absorbs radiation", исключит глаголы в качестве эквивалентов слова "lead". To есть получит на выходе промежуточный текст: свинец / лот / грузило / руководство / лидерство / про­водник; всасывать / впитывать абсорбировать / аморти­зировать / поглощать; излучение/ радиация. Можно также предположить, что на основе элементар-ного анализа семантики субъекта "lead" и предиката "ab­sorbs" и семантических отношений между ними переводя­щий автомат исключит эквиваленты "руководство" и "ли­дерство", т.е. получит на выходе:

свинец / лот / грузило / проводник; всасывать / впиты­вать / абсорбировать / амортизировать / поглощать; из­лучение /радиация.

После грамматического согласования перевод этого предложения, сделанный системой второго уровня, будет выглядеть приблизительно так:

свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию).

А вот сделать выбор между словами "свинец", "лот", "грузило" и "проводник", между эквивалентами "всасы­вает", "впитывает", "абсорбирует", "амортизирует", "погло­щает", а также между частичными синонимами "излуче­ние" и "радиация" переводящий автомат этого уровня не сможет, так как такой выбор можно сделать лишь на осно­ве фоновых (т.е. специальных) знаний.

Выше я написал, что перевод, выполненный синтакти-ко-семантической системой машинного перевода будет иметь приблизительно такой-то и такой-то вид. И это пра­вильно, так как приведенный здесь пример относится к конкретному случаю перевода, выполненного определен­ной системой, точнее системой, которую я сам разработал и знаю, что от нее можно ожидать1.

Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквивален­ты. Не это важно.

Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а систе­мы второго уровня фоновую информацию использовать не могут.

Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.

Приведенный пример перевода выполнен системой"СИМПАР (см. Искусственный интеллект: Справочник.- Кв.1.- М.<1990).

Системы третьего уровня используют модели синтакси­ческого и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего ми­ра. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.

Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рас­смотрим более подробно, как они работают и как их мо­жет применить в своей работе переводчик.

Очевидно, что основой любой системы машинного пе­ревода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.

Как правило, все эти системы снабжены большими сло­варями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лекси­кой.

Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следую­щие функции:

а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка пред­ложения LEAD*ABSORBS*RADIATION.(* - пробел) бу­дет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;

6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;

в) по графемному составу слова регистрирует грамматиче­скую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который мо­жет служить формальным признаком отглагольного существительного;

г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного

слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕ­НИЕ, (N); (процесс, характеристика);

д) формирует синтаксическое и семантическое представ­ление входного текста (как правило, предложения), на­пример, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:

(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);

(radiation)=N(PROC/PARAM).

Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюст­ративный характер и ни в коей мере не претендует на пол­ноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа дру­гих модулей системы автоматического перевода.

В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая ин­формация даже носит конфиденциальный характер.

Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля авто­матического словаря и других типовых модулей перево­дящего автомата. Но вернемся к описанию функций.

Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о пере­водных эквивалентах поступают на вход второго этапа об­работки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтак­тико-семантическое представление выходного. Это преоб­разование в специальной литературе носит заимствован­ное название "трансфер".

В процессе трансфера:

1. Производится анализ синтаксиса и семантики вход­ного текста и уточняется его структура. При этом структу­ра предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.

Сейчас чаще всего используют грамматику зависимо­стей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"1.

Так, например, в результате обработки на этапе анализа уточненная синтактико-семантическая структура того же английского предложения может иметь вид:

N(MATER/ABSTR)(SUBJECT)<=(PREDICATE) V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater)=> (OBJECT)N(PROQPARAM).

2. Преобразование структуры входного предложения в промежуточную (ядерную) структуру по правилам ма­шинной грамматики. Например, по правилам грамматики непосредственно составляющих такое преобразование бу­дет иметь вид:

NVN=>NV=>V.

3. Синтез синтаксической структуры выходного пред­ложения. Для нашего простого примера она может быть двоякой:

- для предложения с глаголом-сказуемым в действи­тельном залоге:

Nl(nomin) V(active) N2(accus.);

- для предложения с глаголом-сказуемым в страдатель­ном залоге:

N2(nomin) V(passive) Nl (instr.).

После этапа трансфера следует этап лексического синте­за элементов выходного предложения, т.е. выбор эквива­лентов по синтаксическим и семантическим признакам.

Здесь я снова отсылаю тех, кто этим интересуется, к своей книге:Miram G, Translation Algorithms.- Киев, 1998.

За лексическим синтезом следует графемный синтез (преобразование словарных форм переводных эквивален­тов в соответствующие текстовые формы - в нужном па­деже, лице, числе и т.д.). В результате выходное предложе­ние принимает вид:

свинец (лот / грузило / проводник) всасывает (впиты­вает / абсорбирует / амортизирует / поглощает) излуче­ние (радиацию) или

излучение (радиация) впитывается (абсорбируется / амортизируется / поглощается) свинцом (лотом / гру­зилом / проводником).

Так в общих чертах работает переводящий автомат второго уровня, построенный по схеме синтактико-семан-тического трансфера. Такой автомат строится для опреде­ленной пары языков и, как вы сами можете судить, ис­пользует алгоритмические процедуры анализа и синтеза на основе синтаксической и семантической информации.

Как уже говорилось, большинство коммерческих пере­водящих систем работает на этом принципе. В некоторых из них синтактико-семантическая информация более пол­ная и алгоритмы анализа более тонкие, чем в других. Такие "электронные переводчики" переводят чуть лучше, чем их более примитивно устроенные "братья по классу", но в лю­бом случае без привлечения фоновой информации они не в состоянии конкурировать с человеком.

Кроме схемы трансфера в переводящих системах второ­го уровня применяется также так называемый язык-посредник. Язык-посредник (interlingua, pivot language) -это некий универсальный код, с помощью которого мож­но единым образом выразить грамматическую и семанти­ческую информацию, содержащуюся в тексте на любом языке.

Задача переводящего автомата, применяющего язык-посредник, будет состоять в том, чтобы преобразовать текст на одном языке в форму языка-посредника, а затем, используя средства другого языка, генерировать выходной текст из форматов языка-посредника.

Привлекательность этой идеи достаточно очевидна, но ее практическое воплощение оказалось очень непростым. И хотя некоторые зарубежные системы в своих рекламных буклетах пишут об использовании единого языка-посредника для автоматического перевода с разных язы­ков, это, насколько мне известно, скорее рекламный при­ем, чем действительное положение вещей.

Описать в едином формате даже структурно подобные языки достаточно сложная задача сама по себе, не говоря уже о ее алгоритмической реализации. Поэтому в настоя­щее время, несмотря на обширный теоретический матери­ал, едва ли можно говорить о коммерческих системах ма­шинного перевода, работающих на принципе языка-посредника.

Такова ситуация с практической реализацией систем второго уровня.

Что же касается систем третьего уровня, то, как уже го­ворилось выше, экспериментальные системы такого типы разработаны лишь для некоторых очень ограниченных тематических сфер.

В этих системах окончательное решение о выборе пере­водного эквивалента принимается "блоком принятия ре­шений" на основе так называемой базы знаний - формаль­ного описания фрагмента реального мира (его составляю­щих и отношений между ними). Сложность концептуаль­ной и программной реализации таких систем, я думаю, очевидна.

Особое место в теории и практике машинного перевода занимают системы, основанные на статистических моделях переводных соответствий.

Согласно статистическому подходу к конструированию систем автоматического перевода, любое слово одного языка может быть переведено любым словом другого, только с разной вероятностью.

Задача переводящего автомата, работающего на веро­ятностном принципе достаточно проста.

На первом этапе, называемом этапом обучения, этот

автомат должен сравнивать оригинальные тексты и вы­полненные человеком переводы этих текстов и регистри­ровать величины вероятности разных переводных эквива­лентов.

Параллельно на этапе обучения автомата в зависимости от используемой модели регистрируется либо порядок слов в исходном и переводном предложении, либо вероят­ность перевода двух-, трехсловных словосочетаний.

В итоге на основании анализа параллельных двуязыч­ных текстов автомат после этапа обучения составляет сло­варь наиболее вероятных эквивалентов.

После этого следует этап перевода, когда автомат, поль­зуясь составленным таким образом вероятностным слова­рем, переводит новый текст. В случае неполноты словаря обучение автомата продолжают на новом массиве парал­лельных текстов.

Такова общая идея. Конечно, она представлена упро­щенно - в действительности вычисление вероятности пе­реводных эквивалентов производится по сложным много­параметрическим формулам, учитывающим текстовое ок­ружение исходного и переводного слова.

Идея статистического машинного перевода появилась еще в пятидесятые годы, но сейчас она снова становится популярной. Возрождение идеи статистического машин­ного перевода можно объяснить следующим:

• Огромными технологическими возможностями со­временных компьютеров (память, быстродействие).

• Наличием больших объемов двуязычных параллель­ных текстов на машинных носителях.

• Отсутствием стройной и непротиворечивой теории перевода, которая смогла бы выдержать проверку на компьютерной модели.

Статистические модели перевода активно разрабатыва­ются в США и в некоторых других странах, и, на мой взгляд, у них большое будущее.

Учитывая огромное число факторов, определяющих качество перевода (значительная часть которых либо не

известна, либо не поддается формализации), статистиче­ские модели представляются пока единственным надеж­ным способом описания переводческого процесса.

Такова сегодня в общих чертах ситуация с автоматиче­ским переводом. Возможно, кто-то из читателей уже купил себе переводящий пакет, возлагая на него какие-то более или менее радужные надежды. И разочарование, увы, не­избежно. Я думаю, что, прочтя эту маленькую главу, вы несколько лучше представляете себе причины постигшего вас разочарования.

Таким образом, господа переводчики могут не волно­ваться - в обозримом будущем безработица им не грозит. Но вот как быть с "электронными переводчиками"? Нуж­ны ли они переводчикам "живым"?

Я думаю, что те "электронные переводчики", которые сейчас выпускаются, переводчику-профессионалу ни к че­му. Вот что действительно необходимо - так это большой электронный словарь, который вы можете "напустить" на иностранный текст и получить все возможные эквивален­ты, а дальше уж, я думаю, вы сами.разберетесь.

Возможно, "электронный переводчик" сможет помочь специалисту в какой-либо области переводить интересую­щие его тексты. Возможно, но берегитесь скрытых оши­бок!

Пока что единственное, на что годится автомат, - это помочь нам еще раз убедиться в собственном превосходст­ве. Давайте избавляться от столь распространенного и по­нятного у переводчика комплекса неполноценности. Про­чтите этот текст: вы бы никогда так не перевели, правда?!

"Ученик Cabanel, Comerre посетил(сопровождал) Ecole des Beaux - искусства в Париже. Академическое обучение художника ведомого его в направлении живописи чис-ла(фигуры), со специфической склонностью к типу вялой и чувственной представительницы женского пола нагой, что Cabanel так часто окрашиваемый также. В 1875 Comerre выиграл престижный Prix Рим, привлекая внима­ние публики с его портретами и картинами истории. По-

влиявшийся Символикой, его составы часто имеют основ­ные аллегорические значения и переводят мифологические предметы в современные сроки(термины), как в картине Arachne, датируя с 1905. Свободный и туманный стиль Ко-мерр, с цветами, пропитанными в свете, был много в тре-бовании(спросе) даже для главных декоративных работ, типа художественного оформления Ратуши четвертого района в Париже. Эта живопись, имеющая право Ду-шу(ливню) Золота - одна из лучше всего известных работ Комерр. Окрашенный в 1907, холст иллюстрирует историю Danae как связано Ovid в, изменяется. Запертый(захвачен-ный) в башне ее отцом, Danae был пропитан Zeus, кто на­правил себя в душ(ливень) золота, чтобы получить доступ девушке. Живописцы очень любили тему, так как мифоло­гическое урегулирование(установка) разрешило им пред­ставлять женское удовольствие без опасения цензуры. Comerre упрощает тему, устраняя любую ссылку(рекомен-дацию) на среду и изображая молодую женщину, предла­гающую себе к золотому облаку это enfolds ее. Свет transfigures Danae's белый орган(тело), сплавленный(соеди-ненный) с падающим душом(ливнем) золота. Популяр­ность Danae среди художников последних девятнадцатый века демонстрируется фактом, что Klimt окрасил версию того же самого предмета, теперь в Wels Собрании в Зальц­бурге, в том же самом году".

Наши рекомендации