Лингвостилистические особенности постредактирования компьютерного перевода web-сайтов
Д.А. Мячин
Оренбургский государственный университет
Научный руководитель: И.В. Переходько, кандидат педагогических наук, доцент
Сегодня особую актуальность приобретают исследования в области компьютерного перевода, так как именно компьютерный перевод позволяет оптимизировать поиск информации. Н.М. Ротшильд отмечает особую важность информации и пишет: «Кто владеет информацией, тот владеет миром». В наше время каждый человек может отыскать необходимую ему информацию в Интернете. Но большая часть источников, предоставляемых интернетом, представлена зарубежными изданиями, что затрудняет их понимание потребителем информации. Многие компании, особенно крупные, создают аналоги своих сайтов на других языках, и зачастую основную часть перевода выполняет компьютер, а человек-переводчик осуществляет в последствии постредактирование.
Вопросами компьютерного перевода занимались многие ученые: Г.Г Белоногов, Д.Ю. Панов, А.А. Ляпунов, Макото Нагао и другие.
В их исследованиях отмечается, что в настоящее время возможности компьютерного перевода ограничены и компьютерный перевод без последующего постредактирования сегодня не возможен, так как программное обеспечение не дает возможности для подбора адекватного эквивалента некоторым синтаксическим или семантическим конструкциям.
Так, Макото Нагао, профессор университета Киото, в своем докладе сделал следующее заявление, подтверждающее неспособность электронного переводчика заменить человека: «Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже» [2].
Машинный перевод – процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой, посредством систем машинного перевода [3].
Существует несколько классификаций систем машинного перевода.
По типу осуществления перевода:
1. Системы прямого перевода – перевод пословный, отсутствуют модули полного семантического и синтаксического анализа.
2. Трансферные системы – используют переводные соответствия: эквивалентные, вариативные, трансферные, то есть преобразующие текст для правильно передачи текста.
3. Системы семантического перевода – принцип действия основан на применении семантических баз данных
Ларри Чайлдс дает следующую классификацию:
1. FAMT (Fully-Automated Machine Translation) – находятся в разработке, проблемы автоматического понимания, перевода и синтеза живых текстов не решены, но один из видов – перевод устной речи (google translate).
2. HAMT (Human-Assisted) – приложения для автоматизированного перевода текстов, при участии человека (PROMT profession).
3. MAHT (Machine-Assisted Human Translation) – вспомогательные средства перевода человеком с использование компьютера (абсолютное большинство электронных переводчиков и словарей) [3].
В настоящей статье освещены результаты работы, в рамках которой были рассмотрены переводы двух сайтов, один из которых имеет русский аналог, а другой не имеет такового переводы выполнены с помощью систем перевода Googletranslate и PROMT.
Материалом нашего исследования являются сайты международной автомобильной компании Citroёn (www.citroen.fr) и французского Интернет-провайдера Orange (www.orange.fr). Данные сайты посвящены проблемам техники, их перевод вызывает большие трудности, в связи с тем, что они изобилуют специализированной лексикой.
Анализ компьютерного перевода статей указанных сайтов позволил сделать вывод о том, что чаще всего ошибки связаны с переводом семантических конструкций (50%), грамматические ошибки составили (20%), синтаксические и лексические по (15%) соответственно.
На основе полученных данных была составлена диаграмма (рисунок 1):
Рисунок 1 – Соотношение ошибок при компьютерном переводе
В ходе анализа ошибок компьютерного перевода были выявлены их причины.
Так перевод предложения: «Un orage, la foudre qui tombe pas loin de chez vous et votre box pourrait se retrouver hors service» относится к категории семантических ошибок. Перевод от Google translate звучит как: «Гроза, молния не выйди из дома и ваш ящик может обрываться». PROMT дает следующий перевод: «Буря, молния, которая падает не вас и ваш отсек мог бы вновь оказаться негодным». Причина ошибки – неспособность электронного переводчика понять смысл фразы. Перевод же может быть таким: «Гроза, молния, проходящие около вас и вашего роутера могут сделать его нерабочим» [4].
Приведем пример, демонстрирующий грамматическую ошибку: «Trois précautions valent mieux qu’une» – «Три меры предосторожности будет лучше, чем один». Здесь ошибка в неверном согласовании родов слов «мера» и числительного «один», так как «мера» – женского рода, то и «один» должно быть в женском роде, то есть: «Три меры предосторожности лучше, чем одна» [4].
К синтаксическим ошибкам мы можем отнести следующий пример, оригинал предложения звучит так: «Fidèle à son tempérament de pionnier, André Citroën ouvre les portes de son usine du Quai de Javel au public à l'occasion du salon de l'automobile». Google translate выдает перевод: «Верный своему пионерской темперамент, Андре Ситроен открывает двери своего завода Кэ де Javel к публике на автошоу» [5]. Система PROMT: «Верный его темпераменту пионера, Андрэ Ситроен открывает двери своего завода Набережной Javel публике по случаю автомобильной выставки». В русском аналоге сайта Ситроен это предложение переведено так: «Демонстрируя в очередной раз свой характер первооткрывателя, Андре Ситроен открывает двери своего завода на набережной Жавель для публики по случаю открытия парижского автомобильного салона». На основе этой и нескольких подобных ошибок мы можем сделать вывод о том, что PROMT делает меньше ошибок в синтаксисе и грамматике, в Google же напротив эта проблема еще не решена окончательно, что и показывает неспособность машины согласовать слова «пионерскому темпераменту» [6].
Лексические ошибки связаны чаще всего со специализированной лексикой, например: «une rampe commune d'injection alimente les injecteurs sous très haute pression» [5]. Эту фразу Google translate перевел как: «общий топливо распределительной рампе подает форсунки под высоким давлением», а PROMT: «общая эстакада инъекции снабжает инжекторы под очень высоким давлением». Здесь ошибка вызвана именно наличием специализированной лексики, такой как: инжекторы или общая магистрали прямого впрыска. И после постредактирования в русской версии сайта Ситроен это предложение выглядит так: «топливо подается на инжекторы под высоким давлением по общей магистрали прямого впрыска» [6].
Также при сравнении переводов данных сайтов была выявлена ошибка, допущенная постпереводчиком: «Cinq ans après la Croisière Noire, la croisière Jaune. Sans limites, Citroën s'attaque maintenant à la traversée du continent asiatique depuis Beyrouth jusqu’à Pékin» [5]. В русском варианте сайта эта фраза переведена как: «Через пять лет после «Черного рейда» организуется экспедиция «Желтый рейд». На этот раз компания Citroen не признавая никаких намеревается пересечь азиатский континент от Бейрута до Пекина». И здесь мы можем видеть, что переводчик забыл указать слово «limites», что переводится как «граница» и перевод, возможно, должен был звучать так: «Через пять лет после «Черного рейда» организуется экспедиция «Желтый рейд». На этот раз компания Citroen, не признавая никаких границ, намеревается пересечь азиатский континент от Бейрута до Пекина» [6].
Таким образом, проведенный анализ позволяет сделать вывод о том, что наибольшие проблемы при переводе у электронных переводчиков возникают с семантикой, так как для перевода семантических конструкций необходимы базы данных, которые сейчас не разработаны. Развитие электронных переводчиков сопряжено с развитием искусственного интеллекта. Когда его прогресс достигнет надлежащего уровня, электронные переводчики будут способны выдавать более адекватный и эквивалентный перевод.
Список использованной литературы
1. Компьютерная лингвистика в системе научно-технической информации. / Под ред. проф. Г.Г. Белоногова. // Вопросы информационной теории и практики. М.: ВИНИТИ, 1989.
2. Nagao, M. A framework of a mechanical translation between Japanese and English by analogy principle, in Artificial and Human Intelligence, ed. A.Elithorn and R. Banerji. NorthHolland, 1984.
3. Хорошилов, А.А. Теоретические основы и методы построения систем фразеологического машинного перевода: автореф. дис. ... канд. технических наук, Москва, 2006.
4. Интернет провайдер Orange [Электронный ресурс]: http://www.orange.com/fr/accueil.
5. Французская автомобилестроительная компания Citroёn [Электронный ресурс]: http://www.citroen.fr/accueil.html.
6. Французская автомобилестроительная компания Citroёn [Электронный ресурс]: http://www.citroen.ru.