Теорія ієрархії рівнів мови
Оригінальну теорію щодо структури мови — теорію ієрархії рівнів — сформулював у 1962 р. французький мовознавець Еміль Бенвеніст. Суть цієї теорії полягає в тому, що мовні одиниці планом вираження спираються на нижчий рівень, а планом змісту належать до вищого рівня. Схематично це можна зобразити так:
Морфема планом вираження спирається на фонему, тобто складається з фонем, але свого змісту набуває лише в складі слова. Наприклад: закінчення -а має значення «називний відмінок, однина, жіночий рід» тільки в складі слова (рука, ріка, сестра). Фонему також можна визначити лише як складову частину одиниці вищого рівня — морфеми. Формою мовної одиниці є її здатність розкладатися на складові елементи нижчого рівня, а значенням — здатність бути складовою частиною одиниці вищого рівня. Таке розуміння мовної структури, на думку В.І. Кодухова, допускає тільки один напрям аналізу — від нижчого рівня до вищого, від форми до змісту.[19]
Із теорії ієрархії рівнів випливає, що всі нижчі рівні спираються на зміст вищого рівня. Тобто, первинний зміст вищого рівня, а все більш низькі рівні залежать від нього. Звідси випливає, що всі помилки, які спостерігаються нами в процесі аналізу переказів СМП можуть бути наслідком нерозуміння системою змісту вищого рівня. Також, так як вищі рівні виражаються через нижчі, стає зрозуміло, чому помилка перекладу СМП на нижчих рівнях може послужити досконалою неадекватністю всієї пропозиції. Наприклад, якщо машинний перекладач GoogleTranslate не впорався з розпізнаванням слова LAUNCHES на морфологічному рівні в реченні «UKRAINE SPATIAL: LAUNCHES INTO FUTURE», то й на всіх наступних рівнях, в тому числі на синтаксичному рівні, буде допущена помилка: «УКРАЇНА Просторова: LAUNCHES в майбутньому».
Розглянемо випадки допущення помилок комп'ютером на усіх рівнях мови для виявлення рівня семантико-синтаксичної адекватності перекладу. Помилки на даних мовних рівнях можуть допускатися або при розумінні вихідного тексту або при викладі тексту перекладу. Визначати мовні рівні, на яких допущена помилка, ми можемо тільки за проявами цих помилок у тексті перекладу. А саме - при викладі тексту перекладу. При цьому слід зазначити, що допущення помилки при розумінні вихідного тексту обов'язково тягне за собою допущення помилки при викладі тексту перекладу. Таким чином, виявлення помилки на будь-якому мовному рівні в тексті перекладу є наслідком допущення її на цьому ж мовному рівні в процесі перекладу (розуміння тексту на одній мові й подальшого його викладу на іншій ). Виходячи з вищесказаного, визначимо прояви та можливі причини допущення помилок при перекладі на всіх рівнях мови.
Вибираючи в машинному перекладачі мову оригіналу та перекладу, ми позбавляємо комп'ютер від необхідності розпізнавання фонологічного і морфонологічного рівня. При цьому мінімальний рівень, на якому можливо допущення помилки - морфологічний.
Помилка на морфологічному рівні допускається у випадках, коли комп'ютер не справляється з визначенням морфем при віртуальному членуванні слова. При цьому комп'ютер або переносить слово в його оригінальному написанні в текст перекладу, або транслітерує: «In a postindustrialsocietyinformationbecomesthebasicindustrialresourcewhereasin «pre-industrial» and «industrial» societiesthemainresourceswererawmaterialsandenergyrespectively.»
«Інформація postindustrial суспільства стає основним індустріальним ресурсом, тоді як в «pre-industrial» і «індустріальний» суспільство головний ресурси були сирими матеріалами і енергією відповідно» (Pragma 5).
Скорочення-абревіатури «GMES» і «ГМЕС» в реченні «Thismottoisbeingmaterializedthroughtheintergovernmentalinitiative GEOSS anditsEuropeancomponent GMES (GlobalMonitoringforEnvironmentandSecurity)» транслітеруються: «Цей девіз у цей час відбулося через міжурядові ініціативи ГЕОСС та її європейські компонент ГМЕС (Глобальний моніторинг в інтересах охорони навколишнього середовища та безпеки)» (GoogleTranslate).
«Tsiolkovsky» і «geo-positioning» при перекладі речення «Tsiolkovskywouldhavebeensurprisedtoknowthatthefirstcommercialapplicationofspacetechnologywasspacetelecommunicationsfollowedbynavigationandgeo-positioningservicesandsurfacesensing.»«Tsiolkovsky був би здивований, аби знати, що перший комерційний додаток космічної технології був космічними телекомунікаціями, завершеними навігацією і geo-positioning послугами і зовнішнім відчуттям.» (Pragma 5).
Помилка на словотворчомурівні може допускатися в тих випадках, коли комп'ютер не може визначити, з яких саме морфем складається слово або підібрати потрібні морфеми для утворення слова, при цьому слово не узгоджується з іншими в першу чергу граматично. Наприклад, при перекладі речення «Thenewprogramisalsosupposedtoyieldsignificantsocialeffects» GoogleTranslate не впорався з підбором правильної форми слова «повинен» («Нова програма також повинен принести значні соціальні наслідки.»), яке є присудком і не узгоджується з підметом. Правильна форма цього слова - «повинна».
Помилок на лексико-семантичному рівні припускаються при нерозумінні значення слова комп'ютером. При даному виді помилки полісемічне слово має правильну граматичну форму, але не вписується в зміст найближчого контексту. Так, наприклад, при перекладі речення «Innovativedevelopmentisnotonly a technologicalissue» Pragma 5 переклала слово «issue» як «результат» (Інноваційний розвиток - не лише технологічний результат), Хоча правильний варіант перекладу – «проблема» («Інноваційний розвиток - це не лише технологічна, а й соціальна проблема»).
Помилка на фразеологічному рівні виникає, коли комп'ютер не може підібрати відповідний фразеологічний еквівалент через відсутність такого в базі даних. При цьому він не здатен ні визначити, ні правильно відтворити фразовий еквівалент. Тоді весь вислів має неправильний зміст і часто не вписується в контекст пропозиції. Відносини слів усередині фрази можуть бути правильними: фраза «у світанку космічної ери» при перекладі Pragma 5 «У світанку космічної ери, цієї ролі навіть не передбачалася» англійського речення «Atthedawnofthespaceera, thisrolewasnotevenforecast. » правильно перекладається як «на початку космічної ери», як це переклала людина (Зауважимо, що така роль космонавтики не була передбачена на початку космічної ери), або «на зорі космічної ери», як це переклав GoogleTranslate («На зорі космічної ери, ця роль була навіть не прогноз»).
Помилка на синтаксичному рівні може бути викликана не розумінням смислу речення, не розумінням відносин елементів більш низьких рівнів, змісту всього тексту, предмета тексту і т.д. Наприклад, Pragma 5 при перекладі речення «WhataretheprioritiesofUkraine'sastronautics?» граматично правильно побудувала речення при перекладі, при цьому вірно підібравши словесні і фразові еквіваленти: «Чим є пріоритети української астронавтики?». Однак, синтаксис англійського речення не відповідає варіанту перекладу, що є суттєвим порушенням адекватності.
Наприклад, розберемо, на яких рівнях мови були зроблені помилки при перекладі речення: «Hence, thewell-knownformula: “pre-industrialsocietyisinteractionwithnature; industrialsocietyisinteractionwithnaturetransformedbyman; postindustrialsocietyishumaninteraction”»,яке перекладено професійним перекладачем як: «Звідси випливає відоме формулювання про три суспільства, перше з яких — взаємодія з природою, друге — взаємодія з природою, перетвореною людиною, а постіндустріальне суспільство виступає в такому разі як взаємодія між людьми.»
СМП Pragma 5:«Віднині, відома формула: "pre-industrial суспільство - взаємодія з природою; індустріальне суспільство - взаємодія з природою, перетвореною чоловіком; postindustrial суспільство - людська взаємодія ”.»
Оскільки слово «pre-industrial» перенесено в текст перекладу без змін, то на ми допускаємо, що при перекладі помилка була зроблена на морфологічному рівні. При цьому помилка переноситься на словотворчій та на лексико-семантичний рівень («pre-industrial»), на фразеологічний («pre-industrial суспільство»), та в наслідок цього – і на синтаксичний. Але при перекладі цього тексту була зроблена ще одна незалежна від попередньої помилка на морфологічному рівні – «postindustrial», що виявилось також причиною помилки перекладу фрази, до якої це слово відноситься («postindustrial суспільство»). Крім того, незалежні помилки були зроблена на лексико-семантичному рівні при перекладі слова «Hence» - «Віднині», яке треба було перекласти словом «Звідси» та слова «man» - «чоловік», яке слід було перекласти, як «людина». Також була зроблена ще одна помилка на фразеологічному рівні при перекладі фрази «humaninteraction» - «людська взаємодія», яку правильно переклав професійний перекладач – «взаємодія між людьми». Отже, ми визначили, що у цьому реченні допущені 2 помилки на морфологічному рівні, 2 помилки на лексико-семантичному рівні та одна – на фразеологічному рівні. На словотворчому та на семантичному незалежних помилок зроблено не було.
Таким чином, при вищенаведеній статистиці перекладу речень текстів, причинами неадекватності перекладу речень он-лайн перекладачем GoogleTranslate з'явилися помилки на наступних рівнях мови:
¾ на синтаксичному,
¾ на фразеологічному,
¾ на лексико-семантичному,
¾ на словотворчому,
¾ на морфологічному.
Причинами неадекватності перекладу речень он-лайн перекладачем Pragma 5 стали помилки на наступних рівнях мови:
¾ на синтаксичному,
¾ на фразеологічному,
¾ на лексико-семантичному,
¾ на словотворчому,
¾ на морфологічному.
При цьому варто враховувати, що, виходячи з теорії ієрархії рівнів мови, ми не враховували помилки на рівнях мови, якщо в складі елемента рівня вже присутня помилка на більш низьких рівнях мови. Таким чином, в одному реченні максимальна кількість помилок на рівні мови може бути не більше кількості елементів на цьому ж рівні. Наприклад, тільки одна синтаксична помилка в реченні, яку ми врахували, якщо в реченні не знайдено помилок на більш низьких рівнях мови.
У ході аналізу було помічено, що Pragma 5 частіше формує речення, правильні з позиції граматики, хоча іноді це є причиною збільшення ступеня дезінформації користувача через допущені помилки на більш низьких рівнях мови.
GoogleTranslate частіше підбирає правильні лексичні і фразеологічні еквіваленти, хоча гірше справляється з побудовою граматично правильних речень. Це можна пояснити тим, що в базі даних цієї системи більша кількість англо-українських відповідників.
Також те, що контекст статистичної системи GoogleTranslate становить лише 5 слів, пояснює складність побудови системою граматично правильних речень. Також необхідно відзначити той факт, що при перекладі довгих речень, якщо GoogleTranslate допустив помилку на початку, він може не допустити помилку в кінці, причому з більшою ймовірністю, ніж Pragma 5, яка в таких випадках спотворює все речення, намагаючись узгодити першу частину з помилкою з другою частиною. При цьому частіше всього помилка переноситься також і на другу частину.
Проведений аналіз із залученням кількісних підрахунків дає змогу зробити висновок, що СМП не в змозі досягти семантико-синтаксичної адекватності і перекладачу для редагування перекладу в обов’язковому порядку треба звертатися до оригінального тексту.
Безсумнівно, причиною більшості помилок стало нерозуміння тексту системою МП, так як розуміння вихідного тексту є первинним етапом у процесі перекладу, а, відповідно, й основою правильного викладу його на іншій мові. Оскільки людина має матеріал, який дозволяє адекватно викладати смисловий зміст певною мовою, наприклад, в першу чергу граматика, і взагалі будь-яка інформація про мову, керуючись якою, людина правильно формує свої повідомлення, володіючи інформацією, яку їй потрібно повідомити, то цілком очевидно, що проблема перекладу полягає в першу чергу в складності створення такої інформаційної системи, щоб вона могла витягти з тексту оригіналу хоча б приблизно стільки ж, скільки отримує з нього людина.
Таким чином, ми приходимо до того, що необхідно з'ясувати, на скільки сучасні СМП можуть розуміти зміст тексту, який вони перекладають і чи можливо сьогодні створити таку систему, яка б розуміла тексти так само, як і людина.
Рівень “розумiння” тексту
Останні десятиріччя розвитку мовознавства в чималій мiрi характеризуються становленням інженерно - лінгвістичної методології дослідження й опису мови. Це пов’язано як із прагненням мовознавців будувати моделі, котрі відтворюють реальні мовні факти, так i з об’єктивною необхідністю опрацювання i впровадження у промисловість i доведення до кінцевихкористувачів ефективних систем автоматичної обробки текстової інформації (далі - IС, iнформацiйнi системи).[25]
За М.С.Блехманом рівень “розуміння” (РР) тексту iнформацiйною системою - це така переробка цього тексту, яка забезпечує певну міру користі для користувача, що прагне задовольнити свою iнформацiйну потребу або iнформацiйну потребу іншої людини - кінцевого користувача. Точніше, РР тим вищий, чим більший відсоток існуючої в тексті інформації користувач може одержати від інформаційної системи.[9]
Практично максимальним був би такий рівень розуміння “тексту системою, який вiдповiдав би рівню розуміння його людиною-фахiвцем у даній області знань. При цьому фахiвець-користувач міг би одержати від “фахівця” - IС практично всю інформацію, закладену в текст автором, незалежно від ступеня експліцитності її вислову. Проте, між рівнем розуміння тексту людиною-фахiвцем i IС будь-якої мислимої мiри потужності існує істотна різниця, котра проявляється в тому, що практично будь-який текст містить, зокрема, таку інформацію, яка в принципі не може бути виявлена жодною інформаційною системою. Причиною цього нерозуміння є те, що людина розуміє i план вислову, i план змісту тексту, тоді як IС “розуміє” (з тією чи іншою мірою глибини) тільки план вислову, i ніяке лінгвістичне забезпечення, яким би потужним воно не було, не може допомогти системі зрозуміти до кінця зміст тексту. В зв’язку з цим М.С.Блехман розцінює як метафоричні вислови типу “розпізнавання змісту тексту інформаційноюсистемою ”, оскільки зміст як такий в усіх випадках залишається невловимим для ЕОМ, а це, в свою чергу, означає неможливість справжнього розуміння тексту машиною.
Дійсно, для того, щоб машина могла зрозуміти зміст, ми повинні заздалегідь пояснити їй, що це таке, i описати зміст мовних одиниць i механiзмiв. Проте будь-яке завдання змісту при цьому виявляється описовим. З часів Ф. де Сосюра лiнгвiсти, слідом за засновником структуралізму, намагаються описати зміст мовних одиниць через їх місце в системі мови i/або структури тексту, вважаючи, що зміст одиниці - це сума її оточень, деяка комбiнацiя або iєрархiя елементарних семантичних ознак i та iн. При цьому зміст оточуючих i складових одиниць не задається, так що опис не носить змістовного характеру. Можна, наприклад, сказати, що семантичний множник “каузувати” входить у значення слів “убрати”, “знищити”, “примусити”, але пояснити системі, що таке “каузувати” навряд чи можливо.[6]
Іншими словами, чим глибший (“глибинний”) опис семантики ми задаємо, тим більш очевидним стає хибне коло, до якого зводиться цей процес: для опису змісту одиниціАнеобхідно аксіоматично задати зміст Б, а при необхідності описати зміст Б - аксіоматично задається зміст А. Так, наприклад, значення слова “пори” можна пояснити за допомогою слів “дірочки”, “отвори“ та ін., але для пояснення змісту цих останніх, у свою чергу, необхідно залучення змісту слова “пори”. При такому опису змісту навряд чи можна очікувати розуміння машиною змісту виразів “безпористий матеріал”, “усадка деталі” тощо. Зрозуміло, ще складнiшi проблеми потрібно вирішити, описуючи зміст синтаксичних i, тим більше, гiперсинтаксичних відносин. Дійсно, як описати зміст причинно-наслідкових відносин між подіями? Можливо, так: “Якщо наступила подія А, то з iмовiрнiстю, рiвнiй одиниці, настане i подія Б”? Проте таке твердження є по суті аналогічним твердженню, що понеділок є причиною вівторка. У вiдомiй монографії Р.Шенка пропонується вважати, що IС розуміє текст, якщо вона може (а) перефразувати його i (б) “обчислити” всі його пресупозицiї. З нашої точки зору, ці критерії “не працюють” на реальних текстах. Справа в тому, що для обчислення пресупозицiй одного знання мови виявляється зовсім недостатньо, адже людина при обчисленні пресупозицiй використовує такі поняття, що погано формалізуються, як, скажімо, здоровий глузд. Наприклад, для висловлювання “Від Іванова пішла кохана жінка” ми не будуємо пресупозицiї “Жінка Іванова не була розбита паралічем, тобто могла ходити”, “Іванов не тримав жінку в зачиненому примiщеннi” тощо. З іншого боку, ми легко вiдповiмо на питання “Чи добре тепер Іванову?” Взагалі, розуміння тексту людиною передбачає таке тлумачення цього тексту, яке співпадає із задумом автора, інакше адресат “не так зрозуміє текст”, тобто взагалі не зрозуміє його. Ось приклад:
Пообідавши в кав’ярні, я хочу з’ясувати, чи маю віднести посуд до віконця збору брудного посуду, чи можу залишити його на столі. Звертаюсь до господині: ”Пані Надіє, я залишив посуд на столі”. Вона миттєво вiдповiдає: “Не мала жодного сумніву, бо ви ж порядна людина”.
Вони просто не порозумілися.
Отже, ми приходимо до важливого припущення: надзвичайно складним, якщо взагалі можливим, є створення IС, для функціонування яких машині необхідно виявити реальне розуміння тексту, тобто проникнення в план його змісту. IС такого типу утворюють гіпотетичний клас систем, якi можна назвати класом систем вищого рівня, а розуміння ними тексту - вищим рівнем розуміння. Наведемо приклади таких гіпотетичних систем:
¾ IС, якi самонавчаються шляхом читання наукових текстів i обчислення того, що є новим у них;
¾ IС, що перевіряють логіку викладу в наукових текстах;
¾ IС, котрі вiдповiдають на такі запитання по науковому тексту, котрi вимагають “обчислення” пресупозицiй.
Неможливість побудови реальних систем вищого класу пояснюється, без сумніву, в першу чергу, тим, що таке розуміння тексту не припускає природного для сучасних систем відриву форми від змісту. Іншими словами, користуючись метафорою ЛьюiсаКерролла, можна сказати, що форма без змісту - це посмішка без кота. За вiдсутностi ж цього “кота” будь-яка вдала вiдповiдь системи на питання людини буде по суті випадковою, тобто не обумовленою дійсним розумінням фрагменту дiйсностi, що описується текстом. Розгянемо, для прикладу, речення з “Аліси у Задзеркаллі”: ’Itwasbrillig’. На питання Howwasit? система вiдповiсть: Brillig, демонструючи таке ж “розуміння” тексту, як відома IС “Еліза” Дж. Вейценбаума.[12] Зрозуміло, що, чим складнішими (в мовному i смисловому планах) будуть питання, котрі контролюють розуміння системою змісту тексту, тим більш явним буде її повна неспроможність зрозуміти текст. Замислимося, наприклад, чи можна вимагати від IС аналізу правильності логіки авторів у нижченаведеному мiркуваннi, якщо не пояснити їй змістовно значення причинно-наслідкового відношення між висловами: „Дослідження показали, що між особливостями синтаксичної структури елементів тексту та інформацією, включеною в них, є певний зв'язок. Тоді для виявлення суттєвих елементів інформації можна використовувати синтаксичну структуру речення.[20] Головною причиною такого “вiдторження” (“отторжение” - термін Р.Г.Пiотровського) мови машиною є, на наш погляд, антропоморфізм мови, її повна зорiєнтованiсть на людину i, як наслідок, незрозумiлiсть автомату, позбавленого “людського чинника”. Дійсно, будь-яка граматична чи функцiонально-граматична категорія, будь-яке синтаксичне відношення, будь-яке семантичне узагальнення “пiдiгнанi” під людину, під її світосприйняття, є зручними для людини, i тільки для людини. Наприклад, ми розрізняємо виділений i невиділений з класу об’єкти, але не розрізняємо “158-й i не 158-й з кінця”. Ми користуємося поняттями суб’єкта, предиката i т.iн., тому що нам так звично i зручно.
Саме звичкою i вигодою, викликаними “структурою” нашого світу й особливостями життя людини в ньому, пояснюються ці та незліченні iншi особливості людської мови. Людина постійно зустрічається з причинно-наслідковими відносинами в навколишньому житті, тому вони знаходять відтворення в мові.
Якби окрема людина не знала, що значить “тому”, вона б не зрозуміла вислів “Я мислю, отже, я існую”. Якби ця людина не знала, що значить “дуже”, вона б не зрозуміла, що значить “Я дуже люблю Баха”.
Щоб зрозуміти, що значить “лавка”, треба володіти людською потребою i можливістю узагальнювати. Справді, чому в один клас об’єктів об’єднуються саме лавки, а не лавки та коні, адже й у тих, i у других є ноги, на них можна сидіти, i т.iн.?
У кожному мовному знаку, в кожній синтаксичній структурі, вислові, тексті яскраво проявляються такі суто людські, “невловимі” поняття, як “корисність”, “вигода”, “здоровий глузд” тощо. Кажучи “У нього голова, як м’яч”, ми маємо на увазі не наявність шраму (схожого на шнурівку м’яча), а скоріше тільки форму голови. Кажучи “Він пішов до лікаря”, ми скоріше маємо на увазі, що він захворів, а не, скажімо, відправився звести рахунки з приятелем своєї жінки. Приклади ці можна було б продовжувати до нескiнченностi.
Як бачимо, засіб органiзацiїмовних одиниць i відносин у систему диктується “суттю” людини i навколишнього світу. Проте глибина цих понять є недосяжною до кінця навіть самій людині, не кажучи вже про ЕОМ, для якої людини просто не існує, отже не існує й потреби розуміти те, що розуміє людина. Вiдсутнiсть же такої потреби призводить до принципової неможливості зрозуміти текст.
Таким чином, ми стверджуємо неможливість побудови систем вищого класу, обмежуючи можливості ЕОМ “згори”. У той же час, наявність діючих iнформацiйних систем свідчить про те, що машина якимось чином “розуміє” текст.
З iншого боку, i людина часто опрацьовує текст, фактично не розуміючи його. Так, М.С.Блехман стверджує, що можна непогано перекласти текст з однієї мови на іншу, не маючи жодного уявлення про суть явища, що описується в цьому тексті, тобто про план змісту даного тексту. Отже, машина “розуміє” текст, не розуміючи його.
IС - це така система, в якій текст деяким чином опрацьовується з метою задоволення iнформацiйних потреб користувача. Залежно від цих потреб ЕОМ тим чи іншим чином “розуміє” текст, не досягаючи, як ми бачили, максимального рівня розуміння. При цьому, так як IС опрацьовує текст з метою задоволення iнформацiйних потреб користувача, при наведенні будь-якої класифікації слід відштовхуватися від того, яку нову інформацію та в якій її кількості користувач отримує в результаті опрацювання тексту інформаційною системою.
Тобто, по суті,вищий рівень розуміння в даному випадку буде мати ІВ, яка розуміє текст не гірше людини. Прикладом ІС вищого рівня може служити людський мозок.
При цьому, різні ІС можуть потребувати різних рівнів розуміння для досягнення поставленої задачі, ІС може потребувати в різній кількості різного роду інформацію. Тому класифікація, на нашу думку, не повинна прив'язуватись до певних систем, і спиратися на засоби розуміння - дані та алгоритми, за допомогою яких система обробляє текст. Саме засоби розуміння і визначають здатність системи витягати інформацію з тексту.
Отже, нульовий рівень розуміння (РР0) - це, відповідно, рівень, при якому ІС, працюючи з текстом, не може витягти з тексту ніякої іншої інформації, окрім тієї, яка міститься в тексті у вигляді послідовності символів. Для цього рівня не використовується інформація про мову тексту. Прикладом такої системи може бути найпростіша пошукова система, яка сканує текст на наявність певного запитаного користувачем ряду розташованих один за одним символів.
Більш високий рівень розуміння - РР1 - при якому ІС не просто сканує текст, але в змозі розпізнати елементи тексту - абзаци, речення, фрази, слова, морфеми. Засоби розуміння даної системи обмежуються інформацією про структуру тексту. Вилучена інформаційною системою інформація використовується системами для різних цілей. До таких систем відносяться системи автоматичного звукового відтворення тесту, т.зв. „Читалка”, наприклад, програма під назвою „розмовляюча миша”. Для правильної інтонації і розстановки наголосів система не тільки здатна членувати слова на морфеми і склади, але навіть визначати типи пропозицій.
Більш високим рівнем розуміння - РР2 - можуть бути ІВ, які здатні вже в деякій мірі розуміти не тільки структуру тексту, але й орієнтуватися в змісті. Звичайно, таким системам потрібна не тільки інформація про структуру мови, а також деякі алгоритми та правила, які визначають розуміння змісту тексту. Подібні системи можуть використовувати отриману інформацію для того, щоб, наприклад, відповісти на прямо поставлені питання по тексту, не відхиливши ні на дюйм від його змісту. Прикладом такої системи є IС „Елiза” Дж. Вейценбаума.
Ідучи ще далі, говорячи про РР3, можна відзначити, що ІС з таким РР повинно вміти розуміти більше, ніж ІС з РР2, а саме, в деякій мірі розуміти суть всього тексту. Засоби даної системи повинні дозволити вийти за рамки розуміння речень тексту, і визначити, про що йде мова в тексті, використовуючи вже більш складні алгоритми та використовуючи інформацію, що міститься в базі даних системи, так, що система може отримати таку інформацію з тексту, яка в тексті не присутня у відкритому вигляді. При цьому ІС може зробити короткий висновок про зміст тексту. Прикладом такої ІС може служити система GoogleAddSense, яка сканує сторінки веб-сайту і робить висновок про тематику змісту, після чого система розміщує відповідне рекламне оголошення у відведеному для цього місці.
Якщо уявити ще більш високий рівень розуміння - РР4 - але який не досягає вищого рівня розуміння - то це має бути такий рівень, при якому ІС витягує більше інформації, ніж ІС РР3, але менше, ніж людина. Гіпотетично, це система, яка, на основі отриманої інформації, яка могла б перефразувати текст і будувати до нього пресупозиції. Інформація про існування таких систем поки відсутня.
Відповідно, вищий рівень розуміння - РР5. Системою з РР5 є людський мозок, здатний не тільки перефразувати текст або будувати пресупозиції на основі отриманої інформації, а також отримувати інформацію, глибокого змісту, що міститься в тексті, і враховувати «людський фактор». Наприклад, розуміти, що хотів висловити автор, розуміти сенс метафор, бачити ставлення автора до того чи іншого питання, тощо.
При вищому рівні розуміння система машинного перекладу перекладала б тексти подібно людині, яка могла б адекватно перекладати тексти художнього стилю.