Принцип действия ТМ-инструментов
Истоки ТМ-инструментов
Рассматривая проблемы систем МП, нельзя не упомянуть имя японского ученого Макото Нагао из университета Киото, руководителя японской национальной программы по машинному переводу. В 1982 г. в одной из своих статей он предложил новую концепцию машинного перевода, которая была основана на утверждении, что тексты должны переводиться по аналогии с текстами, ранее переведенными вручную. Для этого целенаправленно формируется большой массив билингв (исходных текстов и их переводов), который вводится в мощный компьютер с большим объемом памяти. В процессе перевода новых текстов специальная поисковая система выбирает аналоги фрагментов этих текстов из массива билингв. Макото Нагао назвал свой подход к техническому переводу с английского на русский язык „Example based translation“ (перевод, основанный на примерах). Идея Макото Нагао была использована некоторыми разработчиками систем МП, но наибольшее распространение она получила в связи с развитием новейшей технологии перевода – систем класса Translation Memory (память переводов), которые в последнее время чаще называют ТМ-инструментами.
На Западе технология TM и созданный на ее базе инструментарий переводчика – Translation Memory Tools (TMT) – хорошо известны и широко применяются. Особенностью такой технологии является механизация переводческой деятельности, а не ее автоматизация в том виде, каком ее видели создатели технологии MT. Причем это более скромное, на первый взгляд, решение принесло практической пользы неизмеримо больше, чем глобальный замысел «электронных переводчиков».
Отличие от электронных словарей и других инструментов переводчика заключается в том, что типичная программа класса ТМ основана на нейронных сетях, которые способны в определенной степени моделировать работу человеческого мозга при обработке данных. Эти сети способны обучаться и анализировать сложные наборы данных, которые сложно обрабатывать с помощью линейных алгоритмов.
В этих программах используются размытый алгоритм, позволяющий отыскивать слова не только в их словарных формах, но и в других формах, например, в другом падеже. Кроме того, они могут находить словосочетания в другом порядке слов. Самоорганизующаяся искусственная нейронная сеть способна находить закономерности и определять взаимосвязи между ними. Программа сравнивает тот фрагмент, над которым вы сейчас работаете, с содержимым базы данных, и предоставляет эту информацию на дисплей. Она может установить, что данный фрагмент похож на аналогичный фрагмент, имеющийся в памяти системы, например, на 99%, на 74%, или даже на 20%.
Состав системы ТМ
Что такое Translation Memory? Translation Memory (ТM) –база данных, где хранятся выполненные переводы. Технология ТМ работает по принципу накопления: в процессе перевода в ТМ сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то этот сегмент отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ. А в результате, нет необходимости дважды переводить одно и то же предложение!
То, что применимо к понятию «обучение языку», применимо и к «Translation Memories»:
- «Пустая» система запоминает термины и предложения
- Строится «память переводов» – Translation Memory (TM)
- TM становится «языковой памятью» по продукту или по деятельности компании в целом.
«Translation Memory» – это постоянно растущая база данных, которая «помнит» все выполненные переводы.
Идеология ТМ-инструментов
ТМ-инструменты предназначены для сохранения пар предложений в переводческой базе данных. Каждая такая пара состоит из предложения из оригинала и его технического перевода на другом языке. Возможно размещение фрагментов текста и других форматов – превышающих длину предложения или являющихся лишь его частью. Но в автоматическом режиме сохраняются именно предложения, поэтому довольно часто такие программы называют «память предложений» (от англ. Sentence Memory).
Принцип действия ТМ-инструментов
Принцип действия ТМ-инструментов прост. Для овладения этими программами не требуется никаких дополнительных знаний, а навык пользования ими приходит очень быстро. Как правило, они интегрируются с такими обычными офисными программами, как, например, Word. Некоторые из них имеют собственные средства редактирования технического текста, интерфейсы которых мало отличаются от привычных для современного переводчика интерфейсов текстовых редакторов.