Тема 7. Системы машинного перевода
Традиционный перевод текстов, т.е. без применения средств автоматизации, многих перестает устраивать, поскольку требует больших затрат времени и, главное, знаний и навыков. Благодаря возможностям компьютера появилась возможность перевода текстов без знания языка и достаточно быстро.
На сегодняшний день существует две технологии автоматизации переводов: системы Translation Memory (TM) и машинного перевода (МП).
Принцип работы систем ТМ построен на сравнении текста, подлежащего переводу, с внутренней базой, хранящей разбитый на предложения параллельный текст на исходном языке и его перевод, полученный традиционным способом. При загрузке нового документа в ТМ-систему происходит его разделение на сегменты и сопоставление с текстами из базы. Часть этих сегментов оказывается уже переведенной ранее, и система визуализирует их как уже известные, другие — как частично совпадающие с БД, а некоторые — как требующие перевода. Таким образом, переводчику не нужно тратить усилия на то, что он уже делал прежде. Подобные системы оказываются весьма эффективными при переводе аналогичных документов, например повторяющейся технической документации: ее можно перевесь, один раз, а для последующих выпусков достаточно переводить лишь изменения в первоисточнике.
Применение ТМ эффективно при переводе технической, финансовой, юридической и другой документации, с высокой степенью повторяемости текстов (в среднем количество повторов в проекте может достигать 50%, что означает увеличение скорости перевода в полтора-два раза). Использование данных систем также целесообразно при коллективной работе, когда необходимо обеспечить согласованный перевод в рамках одного проекта. Весь перевод автоматически сохраняется в единой базе данных, доступной всем участникам процесса перевода. В режиме реального времени пользователи видят результаты перевода друг друга. При этом переводчики могут находиться в одной локальной сети или подключаться удаленно. Это особенно важно для компаний, имеющих филиалы в разных городах и даже странах.
Среди подобных систем наиболее распространенной является SDL Trados (http://www.trados.com/). Она стала своего рода промышленным стандартом письменного перевода. По независимым оценкам, 80% переводчиков во всем мире применяют решения SDL Trados. СПО альтернативой весьма дорогой системе является OmegaT(http://www.omegat.org/, http://omegat.info/), обладающая однако не столь обширными функциями.
Данные программные продукты ориентированы для профессиональных переводчиков. Специалистам по связям с общественностью и рекламе следует быть осведомленными о существовании таких ПО, однако в их каждодневной работе они вряд ли будут полезными в отличие от технологий машинного перевода (МП).
Существуют два принципиально разных подхода к построению алгоритмов машинного перевода: основанный на правилах (rule-based) и основанный на статистике (statistical-based).
1. «rule-based» подход является традиционным и используется большинством разработчиков систем машинного перевода (ПРОМТ, on-line переводчик Translate.ru в России, SYSTRAN во Франции, Linguatec в Германии и др.)
PROMT(http://www.promt.ru/)-российское ПО, созданное в 1991 году. В 1992 году было изменено название на STYLUS, а в 1998 году было возвращено прежнее название. В 1993 году был создан пакет Stylus for Windows 2.0, ставший первой в мире программой перевода в среде Windows 3.1.
На сегодняшний день существует три основные сборки переводчика для домашнего использования: 4U, Standard, Professional, которые имеют по несколько версий в зависимости от комплектации (дополнительные словари, дополнительные опции). Стоимость колеблется от 720 до 18 тыс. рублей. Предложения для малого бизнеса стоят от 18 до 35 тыс. рублей. Далеко не каждая фирма сможет позволить себе подобное ПО.
PROMT Professional 9.5 (стоимость 18 тыс. руб.) позволяет быстро и качественно перевести технический документ, отраслевой сайт, деловое письмо или сообщение от партнера. Загрузив текст целиком можно получить связный перевод текста, а также полную справку по отдельным словам и словосочетаниям. Поддерживает пять направлений перевода с участием русского языка, в том числе с итальянского на русский. Документы можно переводить в среде MS Office 2000-2010 или OpenOffice Writer. Pdf-документы можно переводить как в редакторе PROMT с сохранением исходного форматирования, или в интерфейсе программ Adobe Acrobat и Adobe Professional. Грамматическая и стилистическая проверка позволяют избежать ошибок из-за опечаток. Присутствует возможность пакетного перевода. Осуществляет перевод веб - страниц в браузерах Internet Explorer, Mozilla Firefox, Opera и Google Chrome; сообщений в ICQ, Skype, QIP, Windows Live Messenger.
Технология Text-to-Speech позволяет услышать как звучит исходный текст или текст перевода. PROMT предлагает приобрести дополнительно около 180 словарей по 33 тематикам, или создать собственный пользовательский словарь.
Среди систем электронного перевода программы-переводчики PROMT получили наибольшее распространение. Они предоставляют широкие возможности по настройке на перевод текстов, подключению специализированных словарей (PROMT предлагает приобрести дополнительно около 180 словарей по 33 тематикам) или создать собственный пользовательский словарь. Текст для перевода может вводиться не только с клавиатуры или редактора, но и со сканера. При работе со сканером и наличии установленной на компьютере какой-либо системы оптического распознавания текстов (OCR) (FineReader, Cunieform или AutoR) можно запустить OCR-программу непосредственно из системы PROMT (об OCR-системах см. Тема 6.).
В 1998 году компания PROMT открывает первый российский веб-сервис, предназначенный для перевода текста или веб-страниц на другие языки Translate.ru (http://www.translate.ru/translator.asp?lang=ru). При переводе отдельного слова выдаёт словарную статью. Один из двух самых популярных онлайн-переводчиков в Рунете (второй - Google Переводчик). На сегодняшний момент поддерживается 25 направлений перевода. Кроме переводчика текстов, сервис включает в себя переводчик сайтов. Среди дополнительных возможностей сервис предлагает: автоопределение языка, виртуальную клавиатуру, проверку орфографии, ручной перевод (обращение в бюро переводов). При переводе слова пользователь дополнительно может прослушать его звучание на языке оригинала.
Недостатки сервиса: ограничение объёма переводимого текста (не более 3000 символов), при регистрации объём увеличивается до 10000 символов; ограничение размера переводимой веб-страницы (не более 500 Кб).
2. «Переводчики» использующие самообучаемый алгоритм статистического машинного перевода («statistical-based»).
К этому типу относятся сервисы переводчик Google, а также новый сервис от ABBYY.
Google Translator (http://translate.google.ru/) единственный on-line переводчик, не ограничивающий объем переводимого текста. Использует собственное программное обеспечение. Привлекает дружественный интерфейс, возможность автоматического определения языка, перевод веб-сайтов. От других аналогичных сервисов отличает скорость и функция автозаполнение, при ручном вводе текста. Имеется возможность услышать произношение текста. У сервиса есть свои особенности из-за того, что выдача вариантов контролируется статистическим алгоритмом, при переводе обычных общеупотребительных слов Google Переводчик может предлагать в числе возможных вариантов нецензурные слова. На результат выдачи также можно повлиять, массово предлагая некий, в том числе, заведомо неверный вариант перевода.
Google Переводчик предлагает перевод с любого поддерживаемого языка на любой поддерживаемый, но в большинстве случаев реально выполняет перевод через английский. Иногда качество от этого сильно страдает.
Компания Abbyy предлагает пользователям сервис «TextGrabber + Translater» (http://www.abbyy.ru/textgrabber_translator/). Принцип работы предполагает слудующее: пользователю достаточно запустить приложение, сфотографировать текст, который необходимо перевести, нажать кнопку «распознать», потом текст можно отредактировать и перевести на один из 40 доступных языков. Помимо полнотекстового перевода в программе доступен пословный перевод, при наличии на устройстве установленного словаря.
В повседневной работе могут весьма полезны словари.
Среди отечественных электронных словарей выделяется мощный профессиональный словарь ABBYY Lingvo х5 (http://www.lingvo.ru/). Нажатие «горячей клавиши» в любом Windows-приложении за считанные секунды выведет на экран информацию, отобранную для перевода слова (фразы) из всех словарей, подключённых к системе. Lingvo является хорошим средством для оперативной помощи при переводе, когда надо быстро просмотреть варианты перевода слова.
Грамматические комментарии на любое слово, озвучивание наиболее употребляемых слов, проверка правильности написания, возможность создания собственных словарей — вот перечень основных возможностей Lingvo, используемых не только при переводе текста, но и при изучении иностранного языка.
В сети доступно большое количество on-line словарей.
Мультитран (http://www.multitran.ru/) в настоящее время это один из наиболее полных и самых популярных автоматических онлайновых словарей Рунета. Помимо интернет-версии, распространяется оффлайн-версия «Мультитрана».
Dicto (http://dicto.org.ru/) электронный словарь, обладает полным набором свойств, свойственных качественным комплексным средствам перевода, в том числе возможностью использования глобальных горячих клавиш для перевода из внешних приложений и высокой скоростью работы. Работа над проектом приостановлена с 2009 года.
Вопросы по теме:
1. В чем заключается различие технологий Translation Memory и машинного перевода?
2. Назовите наиболее распространенные программные продукты, чья работа строится на основании «rule-based» подхода?
3. В чем заключается недостаток статистического («statistical-based») алгоритма машинного перевода?