Найважливіші методи машинного перекладу
Прямий комп`ютерний переклад. Слова вихідного тексту перекладаються окремо і в однаковій послідовності. Після цього порядок слів та закінчення пристосовуються до відповідної мови. Це найдавніший і найпростіший метод комп`ютерного перекладу, який створив основу для вище названої системи мовних пар російської та англійської мов.
Трансфер. Метод трансферу – класичний метод комп`ютерного перекладу, який відбувається трьома кроками, які зображенні на рисунку 2.1.
Рисунок 2.1 – Фази метода трансферу
Спочатку аналізується граматична структура вихідного речення, часто в структурі дерева. Після цього аналізу, залежно від вибору методу трансферу, визначається семантична структура. Потім ці структури переносяться у відповідну мову. В кінці текст, який перекладається, генерується, при цьому ці структури перетворюються, враховуючи граматичні правила, на речення.
Інтерлінгва. Граматична інформація вихідного тексту спочатку виражається на нейтральній мові “інтерлінгва”, з якої потім утворюється граматична інформація відповідної мови. Метод інтерлінгва продуктивний для перекладу комплексних висловів. Наприклад, речення німецької мови: „Wenn ich arbeiten würde, würde ich mir ein Auto kaufen“ (Якби я працював, я б купив собі машину) не можна перекласти за правилом würde →would, тому що в англійській мові в реченні з if не можна вживати would.
EBMT (Example-Based Machine Translation, машинний переклад, базований на прикладі). Ядро системи EBMT – блок пам`яті перекладу, в якому зберігаються речення або фрази, які часто повторюються та їх переклад. Система статистично вираховує (за допомогою методів інформаційного пошуку), чи наявні перекладені записи схожі на відповідне речення вихідної мови. Генерування перекладу відбувається таким чином, що речення, які найбільше схожі одне на одне, перекладаються і в кінці комбінуються.
SBMT (Statistics-Based Machine Translation – машинний переклад, на основі статистики). Перед перекладом програма аналізує великий обширний корпус двомовних текстів. Цей процес піклується про те, щоб слова і граматичні форми, знаходились разом на обох мовах, залежно від частоти використання та змістовної близькості. Таким чином, генерується словник та граматичні правила і тексти перекладаються на цій основі. Метод SBMT користується в останній час популярністю, тому що він не ставить за передумову ніяких знань відповідної мови. Переваги SBMT – в лінгвістичних рамках теоритично встановлюються ще точно не пояснені правила, аналізуючи “правильні” частини тексту. Якість перекладу SBMT гірша, ніж інших, основаних на правилах систем, частково, тому що SBMT ще достатньо нова програма. SBMT охоче використовується, наприклад, міністерством оборони Америки, коли йдеться про мови, які потрібно швидко перекласти за допомогою машинного перекладу і не має часу на встановлення правил людиною.
HAMT (Human-Aided Machine Translation, машинний переклад за допомогою людини). Не тільки комп`ютер перекладає весь документ, але й користувач, який уникає при цьому неясних, двозначних, складних конструкцій (так звана контрольована мова”). Це відбувається завдяки тому, що користувач зазделегіть вкорочує довгі речення або завдяки інтеракції між користувачем та програмою, наприклад, коли користувач повинен обрати значення слова.
На практиці більшість систем – це суміш з декількох методів (домінуючою тут є система трансферу з елементами “Interlingua” та EBMT).
MAHT (Machine-Aided Human Translation, комп`ютеризований переклад) означає, що людина перекладає, а комп`ютер автоматично перевіряє тим часом термінологію, шукаючи її у словнику і порівнюючи її з іншими перекладами (пам`ять перекладу). MAHT – це не машинний переклад.
Отже, всі системи комп`ютерного перекладу використовують двомовні словники і посідають щонайменше модулі базових граматичних правил. Але індивідуальні методи значно відрізняються.
Якість перекладу
Результати програм машинного перекладу часто здаються дивними. Цей ефект можна легко побачити: візьміть просто будь-який текст і внесіть його в безкоштовну програму перекладу, щоб перекласти його на вашу рідну мову.
Досить поширеними є помилки в перекладі зворотів. (Дивись табл. 2.1) Англійських зворотів у технічних текстах дуже багато, але всі вони мають загальнолітературний чи загальнонауковий характер. У ряді випадків ці словесні звороти необхідно розглядати як ідіоматичні вирази і фіксувати у словнику зворотів, що часто не збігаються з контекстом.
Таблиця 2.1
Англійський вираз | Варіант МП | Виправлення редактора |
In fact | у дійсності | Навіть, більш того |
Of the same type | Того ж типу | Однакового типу |
In the same file | На тому ж файлі | На одному файлі |
At the end of the track | У кінцевій доріжці | Наприкінці доріжки |
From this date | Від цих даних | На підставі цих даних |
The user cannot then | Користувач не може потім | Потім користувач не може тоді |
Дослідники машинного перекладу використовують шкалу для оцінювання якості перекладу. Машинні переклади оцінюються по реченню; нормована кількість речень – якість всього тексту. В більшості випадків евальвація проводиться носієм відповідної мови і виражається у вигляді індексу. В Японії використовується 5-бальна система: дивись таблицю 2.2
Таблиця 2.2 - Оцінювання якості перекладу
Кількість балів | Пояснення |
Речення не має сенсу; має вигляд випадково змішаних хаотичних слів. | |
Речення не розкриває зміст/значення. Це трапляється частково або повністю через неправильний переклад граматики. | |
Можна визначити, про що йшла мова. | |
Одне-два неправильні слова; але загалом зрозуміло. | |
Дуже зрозуміло, майже бездоганно; ніяких очевидних помилок. |
Для великих перекладів дослідники машинного перекладу використовують автоматичні алгоритми оцінювання, такі як BLEU-Score, який спирається на людські розумові здібності, що знаходяться в його основі.
Інша проблема, відносно машинного перекладу, це зависокі очікування від нього. Як наслідок – сучасні покращення досліджень машинного перекладу здаються недостатніми. Однією з передумов функціонування машинного перекладу є зрозумілість вихідного тексту та можливість створення повністю точного перекладу цього тексту людиною. Більшість лінгвістів припускають, що повне розуміння мови передбачає повне розуміння людського розуму. Деякі вважають, що бездоганна система машинного перекладу повинна симулювати процеси людського розуму.
Практичні проблеми
Для часто неякісного машинного перекладу існують вагомі причини, які частково можна усунути. Багато хто оцінює машинний переклад за безкоштовними програмами перекладу, наявними в Інтернеті, як Yahoo! або Google. Часто це старіші версії в кращому випадку не безкоштовних (і кращих) програм або лише швидких (і поганих за якістю) програм.
Користувачі розуміють вихідну мову. Особливо якщо це переклади між західними мовами, користувач розуміє до певної міри вихідну мову і тому помічає невідповідності легше, ніж хтось, чиє розуміння тексту залежить виключно від перекладу.
Кожна мова має власний стиль, який має в свою чергу свої власні особливості, не описані лінгвістами. Системи машинного перекладу дають особливо погані результати, якщо вони перекладають тексти для яких вони не призначені. Це найчастіше літературні тексти, розмовна мова або іноді технічні тексти (наприклад, відомі машинні переклади інструкцій по користуванню з Японії).