Переводческой лошадке?
Заменит ли переводчика переводящий автомат? Как работает "электронный переводчик"? В чем различие между "электронным" и "живым" переводчиком? Как может помочь переводчику-профессионалу переводящий автомат?
На вопрос, вынесенный в заголовок этой главы, можно с полным основанием ответить: "Не скоро. Не скоро переводящий автомат заменит переводчика. Если вообще заменит". Пока что даже самый совершенный автомат пере-
водчика заменить не может. Ведь речь идет о творчестве, а в том, что перевод - занятие творческое, думаю, никого из читателей убеждать не надо.
Другое дело, что переводящий автомат сможет действительно помочь в рутинной переводческой работе. Его можно использовать для перевода списков, таблиц и тому подобных грамматически не связанных текстов, которые переводить надо, хотя и ужасно неинтересно.
Кроме того, "электронный переводчик" может оказаться полезным специалисту в какой-либо области, который язык знает недостаточно хорошо, но тем не менее переводит тексты в своей области. Правда, здесь есть высокая вероятность того, что переводящий автомат тоже "не очень силен" в этом языке, и к его подсказкам следует отнестись с большой осторожностью.
Огромное преимущество автомата, в том числе и переводящего, перед человеком заключается не в более высоком уровне решения задач, а в работоспособности - он не устает, не хочет спать, не просит есгь и не бастует.
В частности, по этой причине, я и решил рассказать об автоматическом переводе: о том, как он выполняется автоматом, и о том, стоит ли практическому переводчику использовать переводящий автомат в своей работе.
Идея автоматизации перевода возникла почти одновременно с компьютерами. Уже в 1949 г., через пять лет после запуска в эксплуатацию в США первого достаточно мощного компьютера, математик У.Вивер обратился к ученым с призывом использовать компьютер для перевода.
Идея Вивера была с энтузиазмом подхвачена многими математиками и лингвистами, и вскоре появились первые модели и системы автоматического, или, как принято говорить, машинного перевода.
Первые модели машинного перевода базировались на принципе перекодирования текста на одном языке в текст на другом: грамматика в традиционном понимании в них отсутствовала полностью. Позднее стали разрабатываться
более сложные системы, включающие грамматику, семантику и даже экстралингвистическую (фоновую) информацию1.
Об основных типах систем машинного перевода мы поговорим позже, а сейчас давайте посмотрим, на каких принципах основывается работа переводящего автомата.
Как вам уже известно, язык можно представить в виде символьного кода, с помощью которого записываются мыслительные представления о вещах реального мира (концепты).
Мы уже говорили раньше также и о том, что, например, концепт дерева соответствует в русском языке цепочке символов ДЕРЕВО, а в английском последовательности символов TREE.
Тогда, очевидно, можно сказать, что разные цепочки символов, т.е. слова разных языков (например, ДЕРЕВО и TREE), соответствуют одному и тому же концепту (например, концепту дерева).
В таком случае, если слово одного языка, А, равно концепту, С, и слово другого языка, В, тоже равно этому концепту, С, то по принципу транзитивности, если А=С и В=С, то А=В.
Иными словами, элементы разных языков можно приравнять на основе их соответствия одному и тому же значению.
На этом принципе и основана работа переводящего автомата - слова разных языков приравниваются друг другу на основе общности значения.
Для создания переводящего автомата соответствия между словами разных языков закладываются в программу компьютера, и задача такого примитивного автомата достаточно проста - для поступающих на вход слов одного
' Подробнее см., например: Bruderer H.E. The Present State of Machine-Assisted Translation // 3-d European Congress on Information Systems and Networks. Overcoming Language Barriers.- Luxemburg, 1977; Slocum J.A. Survey on Machine Translation: its History, Current Status and Future Prospects // Computational Linguistics. -1985.- V.I 1,1.
языка он находит соответствие в другом языке и так слово за словом переводит текст.
Однако, как вам тоже должно быть известно, общее значение в разных языках могут иметь не только отдельные слова, но и словосочетания, поэтому простейший переводящий автомат ищет соответствия не только для отдельных слов, но и для словосочетаний, выполняя так называемый пословно-пооборотный перевод.
Кроме того, соответствие слов разных языков друг другу не является однозначным, т.е. одному слову языка А может соответствовать несколько слов языка В и наоборот. Следовательно, в переводящем автомате необходимо предусмотреть программу выбора правильного эквивалента.
Такие программы обычно основываются на двух принципах:
1. На принципе выбора эквивалента по синтаксической модели входного текста, чаще всего по синтаксической модели предложения. Таким образом, например, автомат может различить эквиваленты глагола "to book" и существительного "book" (соответственно, "резервировать" и "книга").
2. На принципе выбора эквивалента по семантической модели. По разным семантическим моделям автомат, например, может различать такие эквиваленты слова "solution" как "решение" и "раствор". Обе модели обычно применяют в комплексе. И сами модели, и процедуры выбора эквивалентов довольно сложны. Мы кратко и в общих чертах рассмотрим их ниже.
В некоторых более сложных системах в дополнение к этим двум принципам выбора эквивалента применяют также и принцип выбора на основе внелингвистической (фоновой) информации. Модели для выбора эквивалентов, работающие по этому принципу, еще сложнее: их относят к разряду моделей искусственного интеллекта.
В зависимости от сложности выбора правильного зна-
чения слов и, соответственно, правильного переводного эквивалента модели и системы машинного перевода можно разделить на три уровня.
К первому, низшему уровню относятся простейшие модели пословно-пооборотного перевода, в которых выбор эквивалентов не производится ина выход системы перевода поступают все переводные эквиваленты, имеющиеся в словаре.
Системы второго уровня, ккоторым относятся почти все так называемые "электронные переводчики", имеющиеся на современном рынке программного обеспечения, используют ту или иную комбинацию синтаксических и семантических моделей для выбора правильного эквивалента и преобразования структуры входного текста в структуру текста перевода.
Наконец, модели третьего уровня в дополнение к грамматике и семантике применяют для синтеза текста перевода также и фоновые знания. Надо сказать, что модели и системы этого уровня до сих пор находятся на стадии эксперимента.
Для того чтобы яснее представить себе возможности систем разного уровня и качество перевода, которое вы можете получить с их помощью, давайте проведем аналогию между действиями автомата и человека.
Системы низшего уровня можно сравнить с человеком, который, пользуясь словарем и таблицей словоизменения (списком правил и форм спряжения и склонения), переводит текст на совершенно незнакомом ему языке,
Система действует так же, как действуем в этом случае мы. Берет первое слово, смотрит, есть ли оно в словаре в таком виде. Если есть, выписывает все его переводы, если нет, то ищет в таблице словоизменения форму слова, обнаруженную в тексте, определяет соответствующую словарную форму и выписывает все переводы. Затем берет следующее слово и т.д.
В данном случае отличие от перевода, выполняемого человеком, состоит в том, что человек, делая такой пере-
Пример взят из книги MiramG. Translation Algorithms.- Киев, 1998.
вод, отбрасывает все неподходящие переводные эквиваленты, система же машинного перевода низшего уровня этого не делает. Вот какой, например, получается перевод короткого предложения: Lead absorbs radiation
свинец / лот / грузило / вести / руководить / лидировать / руководство / лидерство / проводник; всасывать / впитывать абсорбировать / амортизировать / поглощать; излучение/ радиация',
Системы второго уровня по своим действиям напоми-нают более или менее опытного переводчика, который переводит текст на совершенно непонятную ему тему. Подобно такому переводчику система сможет отбросить наиболее неподходящие эквиваленты на основе анализа синтаксиса и семантики, причем глубина и точность такого анализа у автомата будет зависеть от совершенства и полноты моделей так же, как у переводчика, она зависит от полноты его профессиональных знаний.
Но так же, как переводчик, который совершенно не понимает содержания переводимого текста, переводящий автомат этого уровня не сможет сделать выбор экви-валентов на основе фоновой информации.
Можно, например, предположить, что такая система на сновании анализа грамматического контекста (два глаго-на подряд), переводя предложение "Lead absorbs radiation", исключит глаголы в качестве эквивалентов слова "lead". To есть получит на выходе промежуточный текст: свинец / лот / грузило / руководство / лидерство / проводник; всасывать / впитывать абсорбировать / амортизировать / поглощать; излучение/ радиация. Можно также предположить, что на основе элементар-ного анализа семантики субъекта "lead" и предиката "absorbs" и семантических отношений между ними переводящий автомат исключит эквиваленты "руководство" и "лидерство", т.е. получит на выходе:
свинец / лот / грузило / проводник; всасывать / впитывать / абсорбировать / амортизировать / поглощать; излучение /радиация.
После грамматического согласования перевод этого предложения, сделанный системой второго уровня, будет выглядеть приблизительно так:
свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию).
А вот сделать выбор между словами "свинец", "лот", "грузило" и "проводник", между эквивалентами "всасывает", "впитывает", "абсорбирует", "амортизирует", "поглощает", а также между частичными синонимами "излучение" и "радиация" переводящий автомат этого уровня не сможет, так как такой выбор можно сделать лишь на основе фоновых (т.е. специальных) знаний.
Выше я написал, что перевод, выполненный синтакти-ко-семантической системой машинного перевода будет иметь приблизительно такой-то и такой-то вид. И это правильно, так как приведенный здесь пример относится к конкретному случаю перевода, выполненного определенной системой, точнее системой, которую я сам разработал и знаю, что от нее можно ожидать1.
Не исключено, что другие, более совершенные системы смогут провести более тонкий синтактико-семантический анализ и отбросить некоторые неподходящие эквиваленты. Не это важно.
Важно здесь то, что выполнить качественный перевод без использования фоновых знаний невозможно, а системы второго уровня фоновую информацию использовать не могут.
Системы третьего, высшего уровня можно сравнить с переводчиком-профессионалом, знающим тематику переводимого текста.
Приведенный пример перевода выполнен системой"СИМПАР (см. Искусственный интеллект: Справочник.- Кв.1.- М.<1990).
Системы третьего уровня используют модели синтаксического и семантического анализа и синтеза, а также (что их и отличает) концептуальные модели окружающего мира. К сожалению, как уже говорилось, они существуют лишь на стадии эксперимента.
Таким образом, рынок коммерческих программных продуктов для автоматического перевода предлагает пока что лишь системы второго уровня. Давайте рассмотрим более подробно, как они работают и как их может применить в своей работе переводчик.
Очевидно, что основой любой системы машинного перевода является автоматический словарь, и коммерческие системы второго уровня не являются исключением.
Как правило, все эти системы снабжены большими словарями, а в некоторых из них имеется очень важная, на мой взгляд, функция пополнения словарей новой лексикой.
Автоматический словарь системы машинного перевода - это программный модуль, который выполняет следующие функции:
а) распознает во входном тексте символьные цепочки слов и словосочетаний, например, символьная строка предложения LEAD*ABSORBS*RADIATION.(* - пробел) будет разделена на цепочки словоформ LEAD, ABSORBS и RADIATION;
6) преобразует текстовые словоформы в словарный вид, например, словоформу ABSORBS в вид ABSORB;
в) по графемному составу слова регистрирует грамматическую информацию о слове, например, флексию S в слове ABSORBS, которая может быть признаком третьего лица глагола или множественного числа существительного, или суффикс -TION в слове RADIATION, который может служить формальным признаком отглагольного существительного;
г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного
слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕНИЕ, (N); (процесс, характеристика);
д) формирует синтаксическое и семантическое представление входного текста (как правило, предложения), например, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:
(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);
(radiation)=N(PROC/PARAM).
Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюстративный характер и ни в коей мере не претендует на полноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа других модулей системы автоматического перевода.
В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая информация даже носит конфиденциальный характер.
Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля автоматического словаря и других типовых модулей переводящего автомата. Но вернемся к описанию функций.
Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о переводных эквивалентах поступают на вход второго этапа обработки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтактико-семантическое представление выходного. Это преобразование в специальной литературе носит заимствованное название "трансфер".
В процессе трансфера:
1. Производится анализ синтаксиса и семантики входного текста и уточняется его структура. При этом структура предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.
Сейчас чаще всего используют грамматику зависимостей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"1.
Так, например, в результате обработки на этапе анализа уточненная синтактико-семантическая структура того же английского предложения может иметь вид:
N(MATER/ABSTR)(SUBJECT)<=(PREDICATE) V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater)=> (OBJECT)N(PROQPARAM).
2. Преобразование структуры входного предложения в промежуточную (ядерную) структуру по правилам машинной грамматики. Например, по правилам грамматики непосредственно составляющих такое преобразование будет иметь вид:
NVN=>NV=>V.
3. Синтез синтаксической структуры выходного предложения. Для нашего простого примера она может быть двоякой:
- для предложения с глаголом-сказуемым в действительном залоге:
Nl(nomin) V(active) N2(accus.);
- для предложения с глаголом-сказуемым в страдательном залоге:
N2(nomin) V(passive) Nl (instr.).
После этапа трансфера следует этап лексического синтеза элементов выходного предложения, т.е. выбор эквивалентов по синтаксическим и семантическим признакам.
Здесь я снова отсылаю тех, кто этим интересуется, к своей книге:Miram G, Translation Algorithms.- Киев, 1998.
За лексическим синтезом следует графемный синтез (преобразование словарных форм переводных эквивалентов в соответствующие текстовые формы - в нужном падеже, лице, числе и т.д.). В результате выходное предложение принимает вид:
свинец (лот / грузило / проводник) всасывает (впитывает / абсорбирует / амортизирует / поглощает) излучение (радиацию) или
излучение (радиация) впитывается (абсорбируется / амортизируется / поглощается) свинцом (лотом / грузилом / проводником).
Так в общих чертах работает переводящий автомат второго уровня, построенный по схеме синтактико-семан-тического трансфера. Такой автомат строится для определенной пары языков и, как вы сами можете судить, использует алгоритмические процедуры анализа и синтеза на основе синтаксической и семантической информации.
Как уже говорилось, большинство коммерческих переводящих систем работает на этом принципе. В некоторых из них синтактико-семантическая информация более полная и алгоритмы анализа более тонкие, чем в других. Такие "электронные переводчики" переводят чуть лучше, чем их более примитивно устроенные "братья по классу", но в любом случае без привлечения фоновой информации они не в состоянии конкурировать с человеком.
Кроме схемы трансфера в переводящих системах второго уровня применяется также так называемый язык-посредник. Язык-посредник (interlingua, pivot language) -это некий универсальный код, с помощью которого можно единым образом выразить грамматическую и семантическую информацию, содержащуюся в тексте на любом языке.
Задача переводящего автомата, применяющего язык-посредник, будет состоять в том, чтобы преобразовать текст на одном языке в форму языка-посредника, а затем, используя средства другого языка, генерировать выходной текст из форматов языка-посредника.
Привлекательность этой идеи достаточно очевидна, но ее практическое воплощение оказалось очень непростым. И хотя некоторые зарубежные системы в своих рекламных буклетах пишут об использовании единого языка-посредника для автоматического перевода с разных языков, это, насколько мне известно, скорее рекламный прием, чем действительное положение вещей.
Описать в едином формате даже структурно подобные языки достаточно сложная задача сама по себе, не говоря уже о ее алгоритмической реализации. Поэтому в настоящее время, несмотря на обширный теоретический материал, едва ли можно говорить о коммерческих системах машинного перевода, работающих на принципе языка-посредника.
Такова ситуация с практической реализацией систем второго уровня.
Что же касается систем третьего уровня, то, как уже говорилось выше, экспериментальные системы такого типы разработаны лишь для некоторых очень ограниченных тематических сфер.
В этих системах окончательное решение о выборе переводного эквивалента принимается "блоком принятия решений" на основе так называемой базы знаний - формального описания фрагмента реального мира (его составляющих и отношений между ними). Сложность концептуальной и программной реализации таких систем, я думаю, очевидна.
Особое место в теории и практике машинного перевода занимают системы, основанные на статистических моделях переводных соответствий.
Согласно статистическому подходу к конструированию систем автоматического перевода, любое слово одного языка может быть переведено любым словом другого, только с разной вероятностью.
Задача переводящего автомата, работающего на вероятностном принципе достаточно проста.
На первом этапе, называемом этапом обучения, этот
автомат должен сравнивать оригинальные тексты и выполненные человеком переводы этих текстов и регистрировать величины вероятности разных переводных эквивалентов.
Параллельно на этапе обучения автомата в зависимости от используемой модели регистрируется либо порядок слов в исходном и переводном предложении, либо вероятность перевода двух-, трехсловных словосочетаний.
В итоге на основании анализа параллельных двуязычных текстов автомат после этапа обучения составляет словарь наиболее вероятных эквивалентов.
После этого следует этап перевода, когда автомат, пользуясь составленным таким образом вероятностным словарем, переводит новый текст. В случае неполноты словаря обучение автомата продолжают на новом массиве параллельных текстов.
Такова общая идея. Конечно, она представлена упрощенно - в действительности вычисление вероятности переводных эквивалентов производится по сложным многопараметрическим формулам, учитывающим текстовое окружение исходного и переводного слова.
Идея статистического машинного перевода появилась еще в пятидесятые годы, но сейчас она снова становится популярной. Возрождение идеи статистического машинного перевода можно объяснить следующим:
• Огромными технологическими возможностями современных компьютеров (память, быстродействие).
• Наличием больших объемов двуязычных параллельных текстов на машинных носителях.
• Отсутствием стройной и непротиворечивой теории перевода, которая смогла бы выдержать проверку на компьютерной модели.
Статистические модели перевода активно разрабатываются в США и в некоторых других странах, и, на мой взгляд, у них большое будущее.
Учитывая огромное число факторов, определяющих качество перевода (значительная часть которых либо не
известна, либо не поддается формализации), статистические модели представляются пока единственным надежным способом описания переводческого процесса.
Такова сегодня в общих чертах ситуация с автоматическим переводом. Возможно, кто-то из читателей уже купил себе переводящий пакет, возлагая на него какие-то более или менее радужные надежды. И разочарование, увы, неизбежно. Я думаю, что, прочтя эту маленькую главу, вы несколько лучше представляете себе причины постигшего вас разочарования.
Таким образом, господа переводчики могут не волноваться - в обозримом будущем безработица им не грозит. Но вот как быть с "электронными переводчиками"? Нужны ли они переводчикам "живым"?
Я думаю, что те "электронные переводчики", которые сейчас выпускаются, переводчику-профессионалу ни к чему. Вот что действительно необходимо - так это большой электронный словарь, который вы можете "напустить" на иностранный текст и получить все возможные эквиваленты, а дальше уж, я думаю, вы сами.разберетесь.
Возможно, "электронный переводчик" сможет помочь специалисту в какой-либо области переводить интересующие его тексты. Возможно, но берегитесь скрытых ошибок!
Пока что единственное, на что годится автомат, - это помочь нам еще раз убедиться в собственном превосходстве. Давайте избавляться от столь распространенного и понятного у переводчика комплекса неполноценности. Прочтите этот текст: вы бы никогда так не перевели, правда?!
"Ученик Cabanel, Comerre посетил(сопровождал) Ecole des Beaux - искусства в Париже. Академическое обучение художника ведомого его в направлении живописи чис-ла(фигуры), со специфической склонностью к типу вялой и чувственной представительницы женского пола нагой, что Cabanel так часто окрашиваемый также. В 1875 Comerre выиграл престижный Prix Рим, привлекая внимание публики с его портретами и картинами истории. По-
влиявшийся Символикой, его составы часто имеют основные аллегорические значения и переводят мифологические предметы в современные сроки(термины), как в картине Arachne, датируя с 1905. Свободный и туманный стиль Ко-мерр, с цветами, пропитанными в свете, был много в тре-бовании(спросе) даже для главных декоративных работ, типа художественного оформления Ратуши четвертого района в Париже. Эта живопись, имеющая право Ду-шу(ливню) Золота - одна из лучше всего известных работ Комерр. Окрашенный в 1907, холст иллюстрирует историю Danae как связано Ovid в, изменяется. Запертый(захвачен-ный) в башне ее отцом, Danae был пропитан Zeus, кто направил себя в душ(ливень) золота, чтобы получить доступ девушке. Живописцы очень любили тему, так как мифологическое урегулирование(установка) разрешило им представлять женское удовольствие без опасения цензуры. Comerre упрощает тему, устраняя любую ссылку(рекомен-дацию) на среду и изображая молодую женщину, предлагающую себе к золотому облаку это enfolds ее. Свет transfigures Danae's белый орган(тело), сплавленный(соеди-ненный) с падающим душом(ливнем) золота. Популярность Danae среди художников последних девятнадцатый века демонстрируется фактом, что Klimt окрасил версию того же самого предмета, теперь в Wels Собрании в Зальцбурге, в том же самом году".