Історія машинного перекладу
Машинний переклад у світі
Історія машинного перекладу як науково-прикладного напряму почалася в кінці 40-х років минулого століття. У березні 1947 р. Уоррен Уївер, директор відділення природничих наук Рокфеллерівського фонду, в листуванні з Ендрю Бутом і Норбертом Вінером вперше сформулював концепцію машинного перекладу. Уївер писав : «У мене перед очима текст, написаний російською, але я збираюся зробити вигляд, що насправді він написаний англійською і закодований за допомогою певних дивних знаків. Все що мені потрібне — це зламати код щоб витягувати інформацію, ув’язнену в тексті ».
Ідеї Уївера лягли в основу підходу до МП, заснованого на концепції interlingva: стадія передачі інформації розділена на два етапи; на першому етапі текст перекладається на мову-посередник (створену на базі спрощеної англійської мови), а потім результат цього перекладу представляється засобами вихідної мови.
У 1947 році Е.Бут і Д. Бриттен розробили докладний "код" для послівного машинного перекладу. А в 1948 році Р. Річенс запропонував правила розбивки словоформ на основу й закінчення.
В ті роки комп’ютери сильно відрізнялися від сучасних. Це були дуже великі і дорогі машини (дивись «Рисунок 1.1»), які займали цілі кімнати і вимагали для свого обслуговування великий штат інженерів, операторів і програмістів. В основному ці комп’ютери використовувалися для здійснення математичних розрахунків для потреб військових установ, а також математичних і фізичних факультетів, які були пов'язані з військовою сферою.
Рисунок 1.1 - OEМ «МЭСМ"
Тому на ранніх етапах розробка МП активно підтримувалася військовими, при цьому в США основна увага приділялася російсько-англійському направленню, а в СРСР — англо-російському.
У 1952 році відбулася перша конференція в Масачусетському технологічному університеті, а в 1954 році в Нью-Йорку була представлена перша система МП — IBM Mark II(Дивись рисунок 1.2), розроблена компанією IBM спільно з Джоржтаунським університетом (ця подія увійшла в історію як експеримент Джорджтауна).
Рисунок 1.2- IBM Mark II
Була представлена програма, яка дуже обмежена в своїх можливостях (вона мала словник в 250 одиниць і 6 граматичних правил), що здійснювала переклад з російської мови на англійську. Здавалося, що створити системи якісного автоматичного перекладу цілком можливо в межах декількох років (при цьому акцент робився на розвитку повністю автоматичних систем, що забезпечують високоякісні переклади; участь людини на етапі постредагування розцінювалася як тимчасовий компроміс). Професійні перекладачі серйозно непокоїлись незабаром залишитися без роботи.
На початку 50-х років дослідницькі групи в США і в Європі працювали в області МП. Результати дуже скоро розчарували інвесторів. Однією з головних причин невисокої якості МП в ті роки були обмежені можливості апаратних засобів: малий об'єм пам'яті, неможливість повноцінного використання мов програмування на високому рівні, відсутність теоретичної бази, необхідної для вирішення лінгвістичних проблем (переклад текстів відбувався без синтаксичної цілісності). У 1959 році філософ Бар-Хіллел виступив з твердженням, що це не реально досягнути високоякісного автоматичного перекладу. Як приклад він привів проблему знаходження правильного перекладу для слова pen в наступному контексті: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон шукав свою іграшкову коробку. Нарешті він її знайшов. Коробка була в манежі. Джон був дуже щасливий.). Pen в даному випадку повинно перекладатись не як "ручка" , а як "дитячий манеж". Вибір того чи іншого перекладу в цьому випадку зумовлений знанням позамовної дійсності, а це знання дуже обширне, щоб вводити його в комп'ютер. Проте Бар-Хіллел не заперечував ідею МП як таку, вважав перспективним розроблення таких машинних систем, але в перекладі повинна безпосередньо брати участь людина.
Цей виступ негативно відбився на розвитку МП в США. У 1966 р. спеціально створена Національною Академією наук комісія ALPAC (Automatic Language Processing Advisory Committee), грунтуючись у тому числі і на висновках Бар-Хіллела, прийшла до висновку, що машинний переклад неприбутковий. Доповідь суттєво загальмувала розвиток МП у цілому.
З розвитком обчислювальної техніки в кінці 70-х років (поява мікрокомп'ютерів, розвиток мереж, збільшення ресурсів пам'яті) машинний переклад увійшов до епохи "Ренесансу". Але тепер досліджувалась участь людини на різних стадіях перекладу. Системи МП із "ворога" і " конкурента" професійного перекладача перетворюються на незамінного помічника, який сприяє заощадженню часу і людських ресурсів.
Про відродження МП у 70-80 роках свідчить ряд таких фактів. Комісія Європейських общин купує англо-французьку версію Systran, а також систему перекладу з російської на англійську (остання розвивалася після доповіді ALPAC і продовжувала використовуватися ВВС США і НАСА); крім того, CEC замовляє розробку франко-англійськой і італійсько англійської версій. У той час завдяки CEC були закладені основи проекту EUROTRA, заснованого на розробках груп SUSY і GETA. Одночасно відбувається швидке розширення діяльності по створенню систем МП в Японії (головним чином заснованих на технології interligva, розробленою Уївером в кінці 40-х рр.); у США Панамериканська організація охорони здоров'я замовляє розробку іспано-англійську версію (система SPANAM); ВВС США фінансують розробку системи МП в Лінгвістичному дослідницькому центрі при Техаському університеті в Остіні; група TAUM в Канаді досягає помітних успіхів в розробці своєї системи METEO (яка використовувалася в основному для перекладу метеорологічних досліджень). Цілий ряд проектів, започаткованих в 70-80 рр. згодом розвинулися в повноцінні комерційні системи.
За період 1978-93 рр в США на дослідження в області МП витрачено 20 мільйонів доларів, в Європі — 70 мільйонів, в Японії — 200 мільйонів.
Однією з нових розробок стала технологія ТМ (translation memory), що працює за принципом накопичення: в процесі перекладу зберігається початковий сегмент (пропозиція) і його переклад, внаслідок чого утворюється лінгвістична база даних; якщо ідентичний або подібний початковому сегмент виявляється в тексті, що знов перекладається, він відображується разом з перекладом і вказівкою збігу у відсотках. Потім перекладач приймає рішення (редагувати, відхилити або прийняти переклад), результат якого зберігається системою. А зрештою "не потрібно двічі перекладати одну і ту ж пропозицію!". В даний час розробником відомої комерційної системи, заснованої на технології ТМ, є система TRADOS (заснована в 1984 р.).
90-ті роки принесли з собою бурхливий розвиток ринку ПК (від настільних до кишенькових) і інформаційних технологій, широке використання мережі Інтернет (яка стає усе більш інтернаціональною).
Отже, все це зробило можливим подальший розвиток систем МП. Переваги використання машинного перекладу особливо очевидні при одержанні онлайнового перекладу.