Підходи до реалізації перекладу СМП
Виходячи з завдань нашого дослідження на основі розглянутих принципів класифікації можна запропонувати наступну типологію СМП:
а. СМП, що реалізують прямий переклад (directtranslation);
б. СМП, якi базуються на трансферi (transferapproach);
в. СМП з мовою-посередником (interlinguaapproach);
г. Статистичні СМП (statistic).
При створенні СМП, які базуються на використанні лінгвістичних правил потрібне знання розпізнавання ознак тексту, що відносяться до сфери прагматики: жанр та стиль (наприклад, це публіцистична стаття, вірш чи документ встановленого зразка); область знання, до якого текст відноситься (розпізнавання термінології); зв'язаність частин тексту, що не завжди описується за допомогою синтаксичних чи лексико-семантичних критеріїв; і т.д. Можна вважати, що для адекватного перекладу автоматична система повинна:
¾ знати внутрішні структури мов, між якими здійснюється переклад;
¾ мати ясне уявлення про культуру, історію, мораль, переважні типи мислення народів, що є носіями мови;
¾ володіти по можливості більшим словниковим запасом, більш-менш структурованим по областях застосування слів (спеціальна термінологія, діалекти, ідіоматика, сленг);
¾ мати явний чи інтуїтивний тезаурус слів обох мов, тобто по даному слову вміти запропонувати семантичні функції від нього, такі як синонім, антонім, конверсив, класичний атрибут [17], а також уміти запропонувати похідні частини мови від даного слова, якщо такі існують (добро – добрий – добріше – подобрів і т.п.).
Як бачимо, виникає дві взаємозалежні проблеми:
1. формалізація об'єктів з описаних предметних областей,
2. збір фактичного (емпіричного) матеріалу.
Приступаючи до їхнього вирішення, розробники отримують "герменевтичне коло"[2]: щоб формалізувати об'єкти, вони повинні мати досить великий обсяг емпіричних даних, на якому можна будувати і перевіряти формальні теорії. З іншого боку, для автоматизованого збору таких даних (а їхній збір повинен бути саме автоматизованим через величезний необхідний обсяг) вимагаються формалізовані уявлення про предметну область. Невеликі і не завжди вдалі просування то в тому, то в іншому напрямку, ймовірно, і дадуть вирішення, однак на даний момент до цього ще далеко, що дає привід деяким фахівцям будувати дуже песимістичні оцінки і прогнози.[16]
Системи прямого перекладу будуються, виходячи з такого міркування: нехай маємо дві конкретні мови, на які задіяна дана конкретна система; в основному iнформацiя знаходиться в лексиці [8], тому, в основному, достатньо правильно перекласти лексику вхідного тексту, для чого, зрозуміло, необхідно зняти багатозначність, яка заважає цьому (в першу чергу граматичну), i привести в мiнiмально необхідну вiдповiднiсть вхідній синтаксичній структурі вихідну структуру, щоб лексика вихідного тексту дійсно передавала iнформацiю, закладену в тексті, що перекладається. Ці системи приділяють основну увагу лексиці, ігноруючи “глобальний” синтаксис речення i спираючись на мiнiмальний контекст. Останній при цьому розглядається як квазiсинтаксичне утворення: аналізуються граматичні характеристики слів i їхнє взаємне розташування, але не синтаксична, iєрархiчнаорганiзацiя речення чи його фрагментів. Важливо пiдкреслити, що при прямому перекладі речення i аналізується, i синтезується не у вигляді синтаксичного утворення, а як сукупність лiнiйних фрагментів. Безумовно, в цій лiнiйностiсинтаксичнi зв’язки i залежностi враховуються, але не прямо i далеко не в повному обсязі.
Суть прямого перекладу– в гiпотезi, згідно з якою надлишковість мови є такою, що правильний переклад лексики компенсує помилки в граматиці. Можна також припустити, що, чим ближче синтаксичне оформлення текстів двох мов, тим вищою буде якість перекладу. Як показує практика, системи прямого перекладу можуть претендувати, в першу чергу, на одержання сигнальних перекладів, тому що якість вихідного продукту в них є далекою від ідеалу, якщо йдеться про новий текст, котрий, раніше не опрацьовувався системою.[9]
Системи прямого перекладу можна удосконалювати. Їхній нижчий рівень –послівний переклад; можна було б вказати i вищий, проте головне, що цей вищий рівень існує. Розвивати безмежно такі системи неможливо, основний принцип системи в процесі вдосконалення не змінюється: прямий переклад – це так чи інакше автоматично відредагований підстрочник.
Не можна не бачити, що всі перетворення підстрочника базуються на особливостях вхідної структури. Таким чином, якщо підстрочник дав помилковий переклад через невiдповiдність вхідної та вихідної структур, то ця помилка збережеться на всіх наступних етапах обробки.
У розвинених системах прямого перекладу застосовуються процедури усунення багатозначності, котрi базуються на аналiзi обмежених лiнiйних контекстів, сегментів. При такому аналiзi, що враховує не залежності слів, а тільки їхнє лiнiйне розташування, існує можливість багатозначного та помилкового виділення фрагментів, що призводить до помилок у побудові вихідного тексту.
Як бачимо, помилковий, через неврахування синтаксичної структури речень, підстрочник призводить до того, що, одержавши його, уже пізно будь-що змінювати, помилка залишається. У зв’язку з цим, грубому прямому перекладу протиставляється трансфер-пiдхiд. Його суть: якщо при прямому перекладі лексика часто “не працює” через неврахування синтаксичної ролі слів, то необхідно виявити синтаксичну структуру вхідного речення, трансформувати її у структуру мови перекладу i тільки потім - перекладати на лексичному рiвнi, тобто підставляти слова в синтаксичну структуру вихідного тексту. Для цього конструювалася приблизно наступна схема: у вхідному тексті робиться спочатку лексичний аналіз: текст сегментується на речення, розпізнаються скорочення і різні неповні форми слів, що трансформуються в повні, робляться припущення про об'єднання деяких кортежів слів у єдині групи, що можуть розглядатися як форми одного слова. Проводиться морфологічний аналіз: слова приводяться до "основної форми", при цьому зберігаються окремо їхні морфологічні характеристики (префікс, закінчення і т.п.), сукупність яких містить інформацію про їхню граматичну форму (відмінок, час, відмінюваність і т.п.) і ролі. Те ж стосується і згаданих кортежів слів (так hasbeenoffered переходить у offer, PresentPerfectTense, passive, singular і т.д.). Після цього проводиться синтаксичний аналіз, при якому розпізнаються словосполучення, типи відносин між словами і більш великими синтаксичними одиницями, а також ідіоматичні ланцюжки (звороти). Звичайно, отримана структура залишається найбільш глибинним уявленням структури речення. Однак, нерідко, особливо в ситуації виникнення омонімії, звертаються до елементів семантики слів. На цьому ми докладніше зупинимося нижче. Отримана формальна структура піддається трансферу, тобто складові її елементи перекладаються в іншомовні еквіваленти. Далі структура розгортається в лінійний текст відповідно до законів вихідної мови, проходячи в зворотному порядку всі описані вище етапи. Як видно, цей план дуже схематичний і допускає величезну кількість варіацій. У першу чергу, багатьма дослідниками ставиться під сумнів необхідність у чіткому розподілі різних етапів (рівнів) аналізу, а згодом синтезу речення. Практика показує, що на кожному з них виникає потреба в періодичному зверненні і до верхніх, і до нижніх рівнів. При детальному проходженні по цій схемі виникає необхідність у створенні відповідних словників для кожного з них. Чи існує можливість створити єдиний словник, що містив би всю потрібну інформацію, які повинні бути принципи його організації — донині залишається питаннями досліджень. Існують і інші "шорсткості". Проте сучасні системи автоматичного перекладу дотримуються цієї, досить природної, схеми. СМП, які базуються на цьому підході, показують кращі результати перекладів, ніж ті, що реалізують прямий переклад чи використовують мову-посередник.[31]
Історично першими стали розроблятися двомовні системи автоматичного перекладу, тобто такі, у яких заздалегідь були задані вхідна і вихідна мови. Згодом стали з'являтися багатомовні системи, до яких відносяться і ті, що здатні перекладати тільки між двома мовами, але в обох напрямках[24]. Двомовні системи дозволяють виконувати найбільш точний переклад, однак вже дуальні системи (тобто, наприклад, російсько-англійські та англо-російські) вимагають окремої розробки. Ріст кількості таких систем буде пропорційний факторіалу числа мов, між якими повинен здійснюватися переклад. Тому нерідко використовують методику мови-посередника чи "шлюзів". Мова-посередник має на увазі транзитивний переклад замість прямого: якщо ми маємо, приміром, гарну систему англо-російського перекладу, то нам набагато простіше побудувати транзитивну англо-російсько-українську систему, ніж пряму англо-українську. "Шлюз" виникає (для даного прикладу), якщо вихідний текст спочатку перекладається, скажемо, з німецької мови на англійську, потім проходить англо-російський "шлюз", і потім перекладається на українську. Звичайно, якість перекладу помітно погіршується, але такий підхід виправданий своєї прагматичністю. Якщо ми маємо n мов, відповідних одному "виходу шлюзу", і k мов, відповідних іншому, то для перекладу з однієї групи в іншу нам необхідно будувати не n*k систем, а тільки (n+k-1), кожна з яких (крім самого "шлюзу"), через спорідненість, значно простіша, ніж будь-яка з цих n*k. Для взаємодії в середині груп може використовуватися одна мова посередник (наприклад, що бере участь у "шлюзі"); тоді число потрібних систем скоротитися з n! до (n -1).
Таким чином, підходи, що використовують мову-перекладач і "шлюз", виглядають дуже привабливими. Наступним логічним кроком напрошується створення єдиної універсальної мови-посередника. Саме створення, оскільки жодна з реально існуючих мов не годиться для повноцінного виконання такої ролі. Ця гіпотетична мова – універсальний посередник – дістала у літературі назву "інтерлінгва". Її створенням займалися багато дослідницьких колективів; особливо слід зазначити гренобльську школу під керівництвом професора Буате. Зрозуміло, що інтерлінгва не має потреби в певному синтаксисі, тобтоправилах перекладу значеннєвої структури в лінійний текст. Однак вона повинна, з іншого боку, бути ідеально пристосованою для вираження саме значеннєвої структури тексту. Звичайно, залучення семантичних характеристик розглядається не тільки в зв'язку з побудовою перекладу інтерлінгви. Усі діючі системи автоматичного перекладу тією чи іншою мірою використовують їх. Розроблено різні механізми відображення семантичної структури пропозиції і тексту — семантичні множники, понятійні класи, асоціативні мережі, семантичні функції і т.д. У радянській математичній лінгвістиці широкий резонанс мала робота, присвячена саме цій тематиці. Однак жодної системи автоматичного перекладу, що містить повноцінний етап семантичного аналізу, реалізовано не було. Семантична модель не виявилася спроможною повноцінно описати навіть одну мову, не говорячи вже про їх універсум. Ми уже відмічали, що поділ рівнів (етапів) аналізу тексту (речення) дуже умовний і не завжди виправданий. Очевидно, семантика не може бути відірвана від підпорядкованих їй рівнів деталізації тексту, а отже, і семантична модель не може бути незалежної від мови. Нарешті, формалізація семантики, не будучи внутрішньою властивістю її, приносить свої перекручування і проблеми. Ю.Д. Апресян писав у своєї праці: "При переході з одного рівня на іншій, більш глибокий, омонімія попереднього рівня дозволяється засобами наступного рівня, але на кожному більш глибокому рівні виникає своя омонімія. Надії на те, що використання семантичної, парадигмальної, ситуаційної, енциклопедичної чи будь-якої іншої складної інформації спростить і полегшить пошук правильної інтерпретації речення в множині формально бездоганних альтернативних інтерпретацій, ілюзорні." [7]
При статистичному підході проблема перекладу розглядається в термінах каналу з перешкодами. Уявимо собі, що нам потрібно перекласти пропозицію з англійської на російську. Принцип каналу з перешкодами пропонує нам таке пояснення відносин між англійським і російським словосполученням: англійська пропозиція являє собою не що інше, як російську пропозицію, викривлену якимось шумом. Для того, щоб відновити початкову російську пропозицію, нам потрібно знати, що саме люди зазвичай говорять по-російськи і як російські словосполучення спотворюються до стану англійської. Переклад здійснюється шляхом пошуку такої російської пропозиції, яка максимізує твори безумовної ймовірності російської пропозиції та ймовірності англійської пропозиції (оригіналу) за умови даного російської пропозиції. Згідно теореми Баєса, ця російська пропозиція є найбільш імовірним перекладом англійської:
,
де e – речення перекладу, а f – речення оригіналу
Таким чином, нам потрібна модель джерела і модель каналу, або модель мови та модель перекладу. Модель мови повинна привласнювати оцінку ймовірності будь-якій пропозиції кінцевої мови (у нашому випадку російської), а модель перекладу повинна привласнювати оцінку ймовірності пропозиції оригіналу за умови певної пропозиції на кінцеву мову.
У загальному випадку система машинного перекладу працює в двох режимах:
1. Навчання системи: береться тренувальний корпус паралельних текстів, і за допомогою лінійного програмування шукаються такі значення таблиць перекладних відповідностей, що збільшує ймовірність (наприклад) російської частини корпусу при наявної англійської відповідно до обраної моделі перекладу. На російській частині того ж корпусу будується модель російської мови.
2. Експлуатація: на основі отриманих даних для незнайомої англійської пропозиції шукається російська, максимізується створення ймовірностей, що привласнюється моделлю мови і моделлю перекладу. Програма, яка використовується для такого пошуку, називається дешифратор.
В якості моделі мови в системах статистичного перекладу використовуються переважно різні модифікації n програмної моделі, яка стверджує, що граматичність вибору чергового слова при формуванні тексту визначається тільки тим, якщо (n - 1) слів йдуть перед ним, де n - ціле позитивне число. Ймовірність кожного n-грами визначається за його повторюваності у тренувальному корпусі.
Найбільш простою статистичною моделлю перекладу є модель дослівного перекладу. У цій моделі, відомої як Модель IBM № 1, передбачається, що для перекладу пропозиції з однієї мови на іншу досить перекласти всі слова, а розміщення їх в правильному порядку забезпечить модель мови. Єдиним масивом даних, яким оперує Модель № 1 під час перекладу, є таблиця ймовірностей попарно перекладених відповідностей слів двох мов.
Слабкість Моделі № 1 полягає в тому, що іноді з точки зору моделі мови пропозиції деякі сегменти словосполучення можуть мати приблизно рівну ймовірність, хоча деякі з цих варіантів можуть явно спотворювати зміст. Крім того, Модель № 1 допускає ситуацію, в якій найбільш вживаним перекладом кількох смислових слів може бути визнано одне високочастотне, наприклад, службове слово мови перекладу.
Щоб зберегти при перекладі інформацію, укладену в порядку слів, була запропонована Модель IBM № 2. В цій моделі крім таблиці переказів вводиться таблиця ймовірностей зворотних зсувів, тобто ймовірностей, що при певній довжині пропозиції в мові перекладу l і довжині пропозиції в мові m оригіналу слову перекладу в позиції j буде відповідати слово оригіналу в позиції i.
Модель № 2 не допускає можливості, що одному слову оригіналу відповідає кілька слів перекладу. Цей недолік усувається в Моделi № 3, де вводиться поняття коефіцієнта розподілу (fertility) слова оригіналу і, відповідно, таблиця ймовірностей кожного значення коефіцієнта розподілу для кожного слова.
Крім цього в Моделi № 3 використовується поняття нульового слова, яке, відповідно до генеративної теорії Моделі № 3, з певною ймовірністю p породжує «незрозумілі» слова перекладу. «Незрозумілими» словами заповнюються позиції, незайняті «нормальними» словами.
Модель № 3 є однією з найбільш активно розроблюваних - мабуть, вона досягає деякого оптимального балансу між якістю породжуваних перекладів (і поясненням фактичних відповідностей у двомовному корпусі) і складністю навчання. Однак ця модель не закриває список класичних статистичних моделей перекладу.
У Моделі № 4 і близькою до неї Моделі № 5 робиться наступний крок до включення понять граматики в систему статистичного машинного перекладу. У Моделі № 4 з'являється поняття класу слів, яке визначається автоматично для всіх слів мови оригіналу та мови перекладу. Якщо в Моделi № 3 зміщення залежало від позиції слова оригіналу, довжини вихідної пропозиціїі, довжини кінцевої пропозиції (у практичних реалізаціях моделі № 3 останній аргумент не використовується у зв'язку з проблематичністю його обчислення a priori), то в Моделi № 4 зміщення залежить від класу слів оригіналу та перекладу. У Моделі № 4 слова перекладу поділяються на великі (heads), незаглавні (non-heads) та похідні від нульового слова. Заголовне слово - це ліве (перше) слово, пов'язане з певним словом оригіналу, незаглавне слово - це інше слово, пов'язане з тим же словом оригіналу (з'являються тільки у слів з коефіцієнтом ділення x3e 1). Зміщення заголовних слів визначається, виходячи з класу попереднього слова оригіналу та розглянутого слова перекладу. Зміщення незаглавних слів визначається на основі класу попереднього слова в ланцюжку, залежною від слова оригіналу. Похідні від нульового слова, як і в Моделі № 3, розставляються випадковим чином. Навчання моделей № 2 - № 5 відбувається аналогічно Моделі № 1. Так як кожна інтеграція навчання більш складних моделей займає значно більше часу, ніж для простих моделей, то зазвичай перед початком навчання складних моделей проводиться декілька інтеграцій молодших моделей (починаючи з першої), а потім їх результати перетворюються у формат більш високих моделей. Таким чином, оптимізаціястарших моделей починається не з випадкового рішення, а з деякого рішення, досить близького до оптимального.[13] Із пристроїв СМП, що базуються на статистичному підході випливає, що якість перекладу цих СМП залежить від того, наскільки правильно вона визначить зміст фрази і наскільки вона орієнтується в мові перекладу, що в свою чергу залежить від кількості та якості баз даних словесності та фразової відповідності. Кількість же і якість баз залежить в першу чергу від обсягу та якості проаналізованих перекладів текстів, зроблених людьми, а також простих текстів на мові перекладу.