Основные этапы развития машинного перевода

1947 — дата рождения машинного перевода (МП) как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие как еще одну область применения техники дешифрования. За этим письмом последовало множество дискуссий.

1947 — А. Бут и Д. Бриттен разработали подробный «код»
для пословного машинного перевода.

1948 — Р. Риченс предложил правила разбиения словоформ
на основу и окончание.

1952 — первая конференция по МП в Массачусетском технологическом институте.

1954 — представлена первая система МП — IBM Mark II — русско-английская, которая имела словарь в 250 единиц и 6

грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП.

1967 — специально созданная в США Комиссия Национальной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу о том, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом.

70-е годы — возрождение интереса к работам в области МП. С развитием вычислительной техники появились новые возможности машинной реализации лингвистических алгоритмов.

80-е годы — время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным.

90-е годы — отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/ Intranet. Преимущества использования машинного перевода особенно очевидны при получении онлайнового перевода.

В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:

• FAMT (Fully-automated machine translation) — полностью ав
томатизированный машинный перевод;

• НАМТ (Human-assisted machine translation) — машинный
перевод при участии человека;

• МАНТ (Machine-assisted human translation) — перевод, осу
ществляемый человеком с использованием компьютера.

■ ■ ■

Как переводит компьютер

Машинный перевод — это такая специфическая область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом.

Во-первых, очевидно, что чем больше словарь, тем лучше перевод, значит, первая проблема — проблема создания больших словарей для систем.

Во-вторых, ясно, что система должна переводить предложения типа «Привет, как дела?». Значит, еще одна проблема — научить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит, есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно являются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Словарь

Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соответствовать обыкновенному русскому слову «программа»? И вообще, большой словарь — это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста?

При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, т.е. для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как правило, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, содержащие слова «программу», «программе», «программы» и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова «программа» с соответствующей словоформой из текста. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, она необходима для выполнения программой собственно процедур перевода. Какая же информация нужна в словарной статье и как должны быть описаны правила перевода для того, чтобы программа переводила?

Грамматика

Тут необходимо сделать небольшое историческое отступление, поскольку машинный перевод как область прикладной лингвистики имеет драматическую историю. В 1950-х годах практически с появлением первых вычислительных машин возникла идея машинного перевода, кстати, сам термин «машинный перевод» существует именно с тех времен. Кажущаяся простота задачи породила некоторую лингвистическую эйфорию, и было начато несколько глобальных проектов по созданию систем перевода для разных языков. Ни один из них не привел к созданию работающих систем, и в 1967 г. специальная комиссия Национальной Академии наук США объявила машинный перевод неперспективным и не заслуживающим финансирования. Только в начале 80-х годов лингвисты более или менее оправились от столь сурового вердикта и возобновили исследования в области МП. Конечно, во многом это оживление было связано с развитием вычислительной техники вообще и с интересом к проблемам искусственного интеллекта как области применения компьютеров в частности.

Глобальные проекты по-прежнему были ориентированы на решение задачи перевода в целом. В них рассматривались разработка описания лексических единиц в словаре и разработка алгоритмов перевода как разные задачи. Появилось множество лингвистических работ, предлагающих структуру описания свойств живого слова в словарной статье машинного словаря. Не появ-

лялось только реальных коммерческих систем, в которых эти исследования хоть как-то соединялись бы. Все системы, которые так или иначе существовали, имели скромное дополнение «экспериментальная» или «прототип». Но реально ни одна из таких систем никогда не была доработана до системы массового использования. Это происходило потому, что применяемые методы описания перевода при переносе их в естественную среду (т.е. при применении к произвольным текстам) приходили в противоречие с методами, предлагаемыми для формирования словарных статей.

В то же время локальные проекты были ориентированы на решение только узких задач. Установкой разработчиков было получение хоть каких-то практических результатов.

Хотя оба эти подхода не дали коммерческих систем, работы, которые проводились в этом направлении, позволили осознать сложность задачи и, по крайней мере, установить узкие места в подобных разработках. Так или иначе, но именно из локальных проектов появились системы перевода, которые сейчас предлагаются конечному пользователю.

Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получение результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамматики, с которой работает система.

Вместо принятого лингвистического подхода, предполагающего выделение последовательных процессов анализа и синтеза предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с объектно-ориентированной организацией, основанной на иерархии обрабатываемых компонентов предложения.

Сначала поясним некоторые определения. Вместе с развитием машинного перевода как области прикладной лингвистики появились и классификации систем. Стало принято делить системы перевода на системы типа TRANSFER и системы типа

INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка (TRANSFER) и затем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае. Поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. «Единственная» сложность в этом случае — разработать сам метаязык и описать естественный язык в соответствующих терминах.

Несмотря на то что эта классификация существует и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится ваша система, не было разработано еще ни одной реальной системы, основанной на принципе INTERLINGUA.

Хотелось бы надеяться, что эти сведения позволят потенциальным пользователям систем перевода понять, что создание системы машинного перевода — задача не такая уж простая и, что называется, наукоемкая. Следовательно, количество действительно пригодных к использованию систем перевода, которое может появляться в единицу времени, принципиально ограничено.

2.2.3. Классификация систем

1. Системы машинного перевода (МП)

Системы машинного перевода — программы, осуществляющие полностью автоматизированный перевод. Главным

критерием программы является качество перевода. Кроме этого, для пользователя важным является удобство интерфейса, легкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита, пополнения словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода web-страниц, электронных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM)

Системы с функцией Translation Memory (TM) предоставляют средства для так называемого Machine-assisted human translation (МАНТ) — перевода, выполняемого человеком с помощью машины.

Они основаны на технологии Translation Memory (TM) в противоположность МП, машинному переводу. Идея заключается в хранении базы данных переводов, сделанных профессиональным переводчиком, для того чтобы в процессе перевода предлагать человеку уже готовый перевод фразы или куска текста, если он уже был однажды переведен. Причем совпадение фразы не обязательно должно быть буквальным, а может определяться критериями «похожести», заложенными в программу, с возможностью их настройки пользователем. ТМ-программы очень полезны в ситуациях, в которых необходимо сделать перевод обновленной версии документа, переведенного ранее. Такая необходимость возникает при поддержке мультиязычных сайтов. Программа быстро обнаружит в документе места, подвергшиеся изменениям со времени предыдущей версии документа, и человеку останется перевести только эти изменившиеся части. ТМ-программы значительно повышают эффективность работы переводчика, избавляя его от рутинной, повторяющейся работы. Во многих фирмах, занимающихся переводом, владение одной из таких программ является существенным критерием при приеме на работу.

3. Контролируемый язык и машинный перевод на основе базы знаний

В системах на основе контролируемого языка реализован переход от свободного входного языка к контролируемому входному языку. Контроль входного языка предусматривает определенные ограничения лексики, грамматики, семантики. Контролируемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

■-

4. On-line переводчики

Службы онлайнового перевода выполняют перевод прямо в окне броузера, не требуя установки программы на компьютер пользователя. Достаточно большое количество ссылок на бесплатные сервисы машинного перевода с указаниями направлений переводов приведено по адресу http://rivendel. com/~ric/resources/free. html.

Как правило, существует ограничение на объем вводимого текста.

Бесплатный онлайновый перевод можно сделать также по адресам:

—- http://www.t-mail.com/;

— http://www.freetranslation.com/.

5. Словари on-line

Наиболее полный список словарей представлен по адресу http://members.aol.com/Mgierhake/trans.html. В словарях on-line существует возможность поиска, есть строка ввода и меню для выбора входного и выходного языка. Среди словарей данного вида известны LOGOS ONLINE DICTIONARY (английский, французский, немецкий, испанский, итальянский, чешский), TRADOS MultiTerm, Langenscheidt's New College Dictionary on-line и т.д.

6. Услуги по переводу в Интернете

Практически каждая компания — производитель систем МП предлагает услуги по переводу. Например, на странице

Languge Partners International (http://www.languagepartners. com/reg-forms/inq-trans.html) организована служба переводов, которая обрабатывает любой электронный документ с помощью систем МП и отправляет обратно без редактирования. Пользователь может предоставить термины для пополнения словаря по своей тематике (за дополнительную плату) или сам его создать. Скорость перевода — 1 рабочий день. Стоимость — 0,04 доллара за слово (приблизительно 8 долларов за страницу). За дополнительную плату предоставляются услуги по сканированию. Направления перевода: английский—французский—английский, английский—немецкий—английский, английский—итальянский—английский, английский—испанский—английский, английский- португальский —английский, английский—японский—английский, английский—русский—английский. Однако чаще всего пользователю предоставляется возможность выбора: получить только машинный перевод, либо машинный перевод с последующим редактированием профессиональным переводчиком, либо перевод, выполненный профессиональным переводчиком. Такого рода сервис можно встретить по адресу http://www.plustranslation.com/ (сервис компании Transparent Language). Цена варьируется от 0,01 доллара за слово при машинном переводе до 0,38 при переводе с участием переводчика. Подобные услуги есть у SYSTRAN, L&H, Langscheidt, Language Engineering Corporation.

2.2.4. Инновационные технологии компании ПРОМТ

Ведущие сотрудники компании ПРОМТ начали заниматься исследованиями в области прикладной лингвистики и изучать модели построения систем машинного перевода более 20 лет назад, в конце 1970-х годов. Исследования велись в лаборатории инженерной лингвистики ЛГПИ им. А.И. Герцена (ныне педагогический университет). Накопленный теоретический багаж лег в основу технологий МП, разрабатываемых в компании ПРОМТ.

За 10 лет с момента основания компании ПРОМТ удалось создать передовые технологии МП, в основе которых заложены современные лингвистические алгоритмы, разработки в области математического моделирования и нейронных сетей. На базе этих технологий были разработаны системы машинного перевода, которые по качеству на 30% превосходят ведущие мировые аналоги.

В 2000 г. компания ПРОМТ выпустила семейство систем МП на основе нового ядра перевода. В новом ядре реализованы технологии расширенных сетей переходов и формализма нейронных сетей, что вывело машинный перевод на качественно новый уровень, а также последние разработки в области алгоритмов семантического анализа и синтаксического разбора.

Новым шагом в развитии МП компании ПРОМТ стало использование технологии F2F, обеспечивающей сохранение всей форматной информации в процессе перевода, что позволило осуществлять перевод сложноформатированных документов без потери форматных признаков.

Помимо развития собственно технологии машинного перевода, были приложены специальные усилия к тому, чтобы реализовать в новых системах возможность лингвистической настройки, которая обеспечивает значительное улучшение качества перевода для специализированных текстов.

В частности, появление поддержки тематик в новом ядре позволило кардинально изменить подход к переводу специализированных текстов. Использование тематик решило проблему лингвистической настройки системы на специализированные тексты и обеспечило эффективность их сохранения.

Легкость и удобство лингвистического администрирования систем МП было реализовано на базе следующих технологий:

• AutoDetect для реализации автоматического определения
темы документа;

• SmartFolders для предварительного задания тематики пере
вода всем документам, находящимся в определенной папке;

• KeyWords — выбор тематики на основе предварительного за
данного списка ключевых слов;

• SmartURL — возможность предварительного задания тематики перевода для конкретного URL.

Компания ПРОМТ предлагает онлайновые сервисы перевода текста, web-страниц и электронных писем для английского, немецкого, французского, испанского, итальянского и русского языков. Для перевода специализированных текстов можно подключать тематические словари.

Перевод текста. Позволяет переводить любые тексты, набранные в окне перевода или скопированные из буфера обмена (Clipboard).

Перевод web-страниц. Позволяет полностью переводить web-страницы, включая гиперссылки, с сохранением исходного форматирования.

Перевод электронной почты. Позволяет переводить и отправлять электронные письма непосредственно в онлайне.

WAP-переводчик. Новый сервис перевода для пользователей мобильных телефонов.