Г) Автоматичні словники для комп'ютерного розуміння смислу тексту
Тривалий час комп'ютерні дослідження були спрямовані лише на формально-граматичний аналіз тексту, не ставлячи своєю метою семантичний аналіз. Вважали, що здійснити семантичний аналіз тексту, домогтися того, щоб комп'ютер розумів смисл тексту - просто неможливо. Щоправда, окремі групи лінгвістів вели пошуки в цьому напрямі, але досягнення їхніх зусиль більш ніж скромні.
Однак здійснення комп'ютерного семантичного аналізу тексту - чи не найважливіше завдання комп'ютерної лінгвістики, оскільки він є запорукою розв'язання низки практичних завдань, таких як машинний переклад, інформаційний пошук, автоматичне реферування й анотування тексту. Успішне здійснення їх неможливе без комп'ютерного розуміння тексту.
Як розуміє текст людина? Що їй треба знати, щоб зрозуміти текст? По-перше, необхідно знати значення кожного слова, тобто співвіднести ланцюжок літер, яким є слово, з поняттям, яке цим ланцюжком відображається. Але значення слова може змінюватися залежно від того, з якими словами воно сполучається. Отже, треба знати, як впливає сполучення з тим чи іншим словом на значення слова. Тобто, треба знати вплив речення, в якому слово вжито, на семантику слова. Але й цього не досить, необхідно також знати, як поєднуються речення в тексті, як випливає смисл тексту з поєднання речень. Адже для тексту має значення не лише смисл кожного речення, а й порядок їх розташування. Цілком можливо, що зміна порядку слідування речень приводить до порушення цілісності тексту. Візьмімо невеличкий текст: "Іван Петрович - наш учитель математики. Він дуже любить свій предмет." Якщо ми змінимо порядок речень, текст як ціле зникає, між реченнями немає зв'язку. При цьому слід мати на увазі, що у своєму сприйманні тексту людина спирається на свої фонові знання, життєвий досвід, який вона набула. Тому багато чого в тексті людина зрозуміє підсвідомо, навіть якщо воно експліцитно не виражено. А оскільки життєвий досвід, а, отже, й фонові знання, у різних людей різні, то й розуміння того самого тексту ними може бути різним.
Поставимо на місце людини комп'ютер. Щоб він "знав" значення слова, слід виразити це значення через якісь формальні одиниці - семантичні множники у словниковій дефініції слова, символи певної метамови, якими виражають елементи значення, дескриптори, тобто лексичні одиниці, які є ключовими для вираження значення і представлені формальним способом, який може сприймати комп'ютер, та ін.
Про сполучуваність слів комп'ютер може одержати інформацію з конкордансу, але як вона впливає і чи впливає на зміну значення слова, з конкордансу дізнатися не можна, тут слід здійснити спеціальні дослідження, які повинні показати комп'ютерові в явному вигляді, які саме зміни відбулися.
Спеціальних досліджень вимагає також розкриття особливостей поєднання речень у тексті і вплив такого поєднання на смисл тексту. При здійсненні описаних досліджень необхідно виходити за межі мови, в позамовну дійсність, оскільки семантика - це вираження зв'язку між системою мови та предметами, явищами І поняттями оточуючої нас дійсності. В цьому, а також у тому, як саме людське мислення відображає ці зв'язки в мовленні, - трудність побудови систем автоматичного семантичного аналізу.
Існує чимало експериментальних систем автоматичного семантичного аналізу. Основними складниками кожної з них є семантичний словник і правила семантичного аналізу, які повинні визначати семантичні зв'язки між словами. Як правило, набір цих зв'язків обмежується набором синтаксичних та парадигматичних зв'язків, наявних в автоматичному синтаксичному аналізі. Але слід зазначити, що ці зв'язки не виходять за межі речення, отже, не дають достатньої інформації про смисл тексту, а, отже, про те, що таке автоматичне розуміння тексту.
Що ж означає "автоматичне розуміння тексту"? Н.М.Леонтьева вважає, що комп'ютер "зрозумів" текст, якщо він:
- видав стислий зміст (реферат) цього тексту;
- може відповідати на питання до цього тексту:
- може за описом намалювати відповідну картинку або схему; може відобразити описані дані в іншій формі, наприклад, таблиці;
- може порівняти змісти двох різних текстів і повідомити, що в них спільного й відмінного.
Щоб реалізувати будь-який вид розуміння комп'ютером змісту, йому треба надати багато вихідних даних у вигляді лінгвістичних та предметних знань з тої галузі, до якої належить текст (словники, граматики, алгоритми і т. ін.), у зрозумілій для комп'ютера формі, з якої ці дані можна перевести на мову програми. Однак, до розв'язання цих завдань теоретична лінгвістика ще не готова.
Але розробниками різних систем опрацювання тексту на комп'ютері накопичено досвід автоматичного аналізу, в тому числі й семантичного. Ясно, що перш за все необхідно укласти семантичні словники, в яких у доступному для комп'ютера вигляді дається інформація про зв'язки слова, тобто ланцюжка літер, з поняттям, яке цим ланцюжком виражається. При цьому, як підкреслює Н. М. Леонтьева, яка зосередила свої зусилля саме на створенні систем автоматичного розуміння тексту, необхідно зберегти в словникових описах ідею рівнів, тобто розмежування морфологічних, синтаксичних, семантичних й онтологічних даних. У достатньо розвинутому словнику мають відображатися відношення похідності та сполучуваності лексем. Якщо словник укладається для систем розуміння тексту, то не можна обійтися без опису предметної галузі, тобто без інформації парадигматичної.
Одним із словників, призначених для комп'ютерного розуміння тексту, є словниковий комплекс РУСЛАН, укладання якого почалося ще в 1999 році в науково-дослідному обчислювальному центрі МДУ ім. М. В. Ломоносова. Структура цього словникового комплексу розроблена з великим запасом, щоб на нього можна було б спиратися у розв'язанні не лише сьогоднішніх складних завдань автоматичного опрацювання тексту, але й майбутніх завдань.
Комплекс складається з кількох частин:
1) словник повноцінних лексем;
2) службові частини мови (прийменники, сполучники, усталені словосполучення, частки і т. д.); це все - слова-відношення прийнятої в системі семантичної мови;
3) вільні й напіввільні словосполучення й терміни, яким приписується лише загальнолінгвістична семантична інформація;
4) списки елементів метамови, в тому числі не термінальні символи (НТС), опис їх семантики задасться словниковим способом;
5) ряд словників предметної галузі, тут розміщується специфічна для кожної галузі термінологія з тезаурусною та енциклопедичною інформацією.
Усі ці словники, кожен з яких є окремою базою даних, разом утворюють єдиний гіперсловник системи автоматичного опрацювання текстів.
Розмежування значень багатозначного слова у словнику огрублюється порівняно з сучасною "людською" лексикографією: виділяється стільки значень, скільки можна забезпечити формальними контекстами.
Робота над поповненням й удосконаленням словника ведеться весь час. Велика увага приділяється наведенням текстових прикладів: лаконічні й переконливі приклади, по-перше, роблять словник більш читабельним, у тому числі й для розробників системи, по-друге, у майбутньому полегшать розмежування семантичної багатозначності, по-третє, створюють досить ефективний ресурс поповнення словника новою лексикою.
Отже, можна чекати, що розв'язання проблеми комп'ютерного розуміння тексту - справа не дуже далекого майбутнього. Значною мірою воно залежить від комп'ютерної лексикографії.