Классификация технологий компьютерного перевода
Автоматический ("машинный") перевод текстов исторически был одной из первых задач, решение которых люди попытались переложить на вычислительные устройства. По-видимому, первым, кто попытался получить правительственные субсидии на развитие вычислительной техники, был выдающийся математик XIX века Чарльз Бэббидж. В числе благ, которые он сулил британскому правительству в случае поддержки его проекта вычислительной машины, было обещание, что когда-нибудь эта машина сможет автоматически переводить разговорную речь.
Другие изобретатели тоже пытались создать механические переводящие устройства еще до наступления компьютерной эры. Например, Петр Троянский в середине 1930-х годов получил в СССР патент, предложив не только автоматический двуязычный словарь, но и схему кодирования межъязыковых грамматических ролей, основанную на языке эсперанто. Тем не менее, сейчас принято считать, что основные принципы современного машинного перевода были изложены только в 1947 году в письме директора естественнонаучного отделения Рокфеллеровского фонда Уоррена Уивера к Норберту Винеру.
За этим письмом последовала активная дискуссия среди специалистов, а уже через пять лет был переведен знаменитый Джорджтаунский эксперимент, имевший грандиозный успех. В ходе него был продемонстрирован электронный словарь, содержавший всего 250 слов и шесть грамматических правил. Это обеспечивало перевод полусотни заранее отобранных предложений.
После этого эксперимента возможности компьютерного перевода рассматривались в самом радужном свете, а будущее переводчиков-профессионалов, наоборот, представлялось очень и очень проблематичным. Однако уже в 1966 году консультативный комитет по автоматической обработке языка при Национальной академии наук США (ALPAC) представил крайне пессимистический отчет о перспективах машинного перевода, после чего почти все работы в этой области были свернуты и практически заморожены до самого конца 1970-х годов (причем не только в США, но и в СССР, и в большинстве стран Европы). Только падение "железного занавеса", развитие международной коммерции и Интернета дали новый мощный толчок (подкрепленный финансовыми вливаниями) для исследований в этой сфере.
С середины 90-х годов перевод веб-страниц "на лету" постепенно становится одной из приоритетных задач всех систем машинного перевода. При этом, конечно, никто всерьез не рассматривает "чисто машинный перевод" как окончательный. Основные работы сейчас ведутся в сферах, которые принято обозначать аббревиатурами MAHT (Machine-Aided Human Translation, человеческий перевод с привлечением машин) и HAMT (Human-Aided Machine Translation, машинный перевод с участием человека).
Обобщая технологии компьютерного перевода, можно сказать, что существует два вида таких программ: словарные программы (резидентные словари и переводческие накопители) и программы-переводчики (пакетные переводчики). Среди наиболее известных отечественных разработок: словарные программы Lingvo 4.5 (фирма Bit Software) и Polyglossum II (фирма ETS). Ряд функций этих программ реализован в соответствии с функциями человека при работе с традиционными полиграфическими издательскими ("бумажными") словарями: перевод слова или словосочетания, получение текста "вложенной статьи" (то есть новой статьи по имеющейся ссылке), а часть из них (автоматизированный поиск слова из словарной статьи, вставка перевода в редактируемый текст и создание своих собственных (пользовательских) словарей на основе уже имеющихся) открывают для пользователя новые возможности работы со словарем. Среди наиболее интересных российских разработок программ второго типа (программ-переводчиков) - системы фирмы ПРОМТ (город Санкт-Петербург), система семантико-синтаксического перевода ЭТАП, разрабатываемая в лаборатории компьютерной лингвистики Института проблем передачи информации (ИППИ РАН), и система фразеологического перевода К-ЕТКЗ, над разработкой которой трудится группа ученых и инженеров во Всероссийском институте научной и технической информации (ВИНИТИ) (см. гл. 3).
В последнее время все большее распространение получают новые системы компьютерного перевода, так называемые, Translation Memory Tools (TM-инструментарий). В их основе лежит использование переводческого накопителя(Translation Memory). Переводческий накопитель — это особого рода база данных, создаваемая самим переводчиком во время работы. Как и электронный словарь, эта база содержит пары терминов на двух языках, но в отличие от обычного словаря в качестве элементарной единицы базы выступает не отдельное слово, а целое выражение (вплоть до нескольких строк текста). Такой накопитель формируется на основе уже переведенных пользователем файлов: то есть работа с TM-инструментом часто начинается с того, что в него загружается два текста — оригинальный текст и его перевод, на базе которых и создается накопитель. Понятно, что чем больше объем исходной пары (или нескольких пар) и чем квалифицированней сделан перевод, тем более полезным окажется накопитель.
При использовании накопителя переводчик оперирует, как правило, тремя окнами. В одном — представлен исходный текст, во второе — вводится перевод, а в третьем — по мере продвижения по оригиналу появляются подсказки. Допустим, встретилось вам выражение «заданный пользователем параметр», которое вы в прошлый раз уже перевели. Теперь в окне подсказки появляется этот — уже готовый — перевод, и одним нажатием нужной клавиши вы можете согласиться снова использовать его. Разумеется, если вы переводите Шекспира, количество таких повторов будет весьма невелико. Но при переводе, например, компьютерной документации большая часть выражений встретится вам не один десяток раз. При этом можно настроить TM-программу таким образом, чтобы она выдавала подсказки, не только найдя в накопителе в точности нужное выражение, но и в случае частичного совпадения (можно указать, какой процент совпадения вас устраивает). Это, во-первых, поможет вам справиться с типичными для русского языка изменениями окончаний (ведь помимо выражения «заданный пользователем параметр» вам может встретиться оборот «по заданному пользователем параметру», а также «заданные пользователем параметры» и много чего еще). Во-вторых, поскольку перевод фразы «Выберите пункт Новый из меню Файл» мало чем отличается от перевода фразы «Выберите пункт Шрифт из меню Формат», то, настроив программу на поиск не только точных совпадений, но и близких выражений, можно использовать один и тот же шаблон для перевода всех фраз такого рода.
Таким образом, установка определенного процента совпадения позволит вам с помощью одного элемента из накопителя подбирать эквиваленты для множества сходных выражений. По мере продвижения по исходному файлу ваш накопитель будет пополняться, причем для некоторых TM-продуктов при определенных настройках благоприобретенные знания немедленно используются при переводе следующих фраз. Иными словами, если вы один раз придумали, как перевести выражение «далее следуйте появляющимся на экране инструкциям», то все встреченные в оригинале повторы этой фразы будут автоматически переведены именно так.
Переводческие накопители полезны при работе над объемными однородными материалами с большим количеством повторов. Особенно если речь идет о многотомных фолиантах, переводимых большими коллективами. В этом случае переводческий накопитель может быть исходно составлен ведущим переводчиком коллектива, а затем роздан остальным его членам. Кроме громадной экономии сил, это обеспечит единство терминологии, которого так трудно бывает достичь при совместной работе даже двух человек. Среднее повышение производительности составляет, по отзывам пользователей, 30 процентов, но на некоторых текстах скорость перевода может увеличиться в несколько раз.
Помимо многократного использования однажды переведенных фрагментов, большинство TM-продуктов позволяет вам автоматически сохранять в переводе форматирование исходного текста, не вникая в тонкости того или иного редактора. Секрет в том, что текст, исходно представленный в PageMaker, FrameMaker или QuarkXPress, отображается в окне служебного редактора TM-программы, с которым вы и имеете дело. Ваша задача, таким образом, сводится к замене текста на одном языке текстом на другом, при этом форматирование сохраняется автоматически. В результате вы имеете возможность работать с текстом в любом редакторе (для которого у вас есть только сам служебный редактор продукта).