Автоматизоване реферування та анотування текстів
При роботі з великими потоками документів процес автоматичної структуризації текстової інформації замінює ручне виділення фактів і об’єктів. З розвитком Internet, накопиченням у ньому все більших обсягів текстової інформації і появою каталогів інформаційних ресурсів для зменшення часу пошуку потрібної інформації все більшої актуальності набуває створення анотацій і рефератів текстів-джерел з формування відповідних каталогів анотацій чи рефератів. Розвиваються інтелектуальні інформаційні технології автоматизованого анотування і реферування.
Анотування та реферування відносять до методів аналітико-синтетичного опрацювання документів, під яким розуміють аналіз документів і наявної в них інформації (текстової, графічної, аудіо, відео тощо) з подальшим синтезуванням іншого тексту за результатами цього аналізу. Синтез полягає у генеруванні нового чи трансформуванні існуючого тексту за певними правилами з отриманням вторинного документу, переважно компактнішого за первинний. До основних методів аналітико-синтетичного опрацювання документів належать бібліографування, індексування, анотування, реферування, коректування, редагування, переклад на іншу мову та готування оглядів.
Бібліографування полягає в укладанні опису документа (бібліографічного, архівного, кінематографічного, інтернетного тощо). Бібліографічні описи описують опубліковані паперові видання за формою «УДК. Автор. Назва. Тип видання. Мова. - Видавництво. Рік видання. – Кількість сторінок», архівні — описи архівних документів, кінематографічні — описи кінематографічних матеріалів (кінофільмів), інтернетні — описи веб-сторінок Інтернет. Види та структуру бібліографічного опису задають відповідні стандарти чи спеціально укладені норми. Індексування передбачає визначення основної теми документа і віднесення його до певного класу (тематичної рубрики) раніше сформованого класифікатора, тобто проведення класифікації документів. Операції індексування завжди передує створення таких класифікаторів у вигляді бази даних. Само формування класів класифікатора ґрунтується на кластеризації документів, під якою розуміють виділення ознак об'єктів деякої множини, що характеризують ступінь їх взаємної схожості або відмінності, і формування на основі такого виділення груп (класів) споріднених об'єктів, переважно за методом найближчого сусіда. Відповідно класифікацією називають віднесення об'єктів до того або іншого класу з числа заданих.
Одним з методів виділення класоутворюючих ознак для текстових документів є зважування термінів. Ваги xij термінів в заданій вибірці документів можуть визначатися:
за наявністю i-го терміну (слова) у j-му документі (xij=1) чи його відсутністю (xij=0);
за частотою fij появи i-го слова у j-му документі;
за відносною частотою, яку можна визначити як добуток частоти fij та логарифму відношення N/N1, де N — кількість документів у вибірці, N1 — кількість документів, у яких зустрічається i-е слово;
за відносною частотою з урахуванням довжини документів:
, (9.1)
де m — кількість слів у вибірці.
При класифікації вихідні документи порівнюють із сформованими класами і відносять до певного класу за максимальним ступенем схожості, тобто за мінімальною відстанню ознак документа, що класифікується, від ознак сформованих класів. Поняття відстані можна пов'язати з тією або іншою нормою різниці векторів ознак Xj=(x1j, x2j,..., xmj) порівнюваних документів.
Для вирішення задач класифікації використовуються алгоритми, типові для інформаційно-пошукових систем чи систем Data Mining, наприклад алгоритм дерева рішень (Decision Tree), за яким значення кожного з досліджуваних атрибутів класифікується з використанням продукційних правил «якщо — то». Кожним вузлом дерева є певне питання, відповідь на яке дає змогу віднести даний документ до того або іншого класу.
Реферування, або складання анотацій, тобто видобування чи конструювання таких найважливіших чи найхарактерніших фрагментів з одного або кількох джерел інформації, які повною мірою відбивають їх основний зміст, стало невід'ємною частиною повсякденного життя. Постійне зростання обсягів інформації у Всесвітній мережі робить нагальною потребу у інструментах автоматизованого реферування. Більшість наявних інструментів, таких, як функція AutoSummarize у Microsoft Office, системи IBM Intelligent Text Miner, Oracle Context та Inxight Summarizer (компонент пошукового механізму AltaVista) обмежується виділенням і вибором оригінальних фрагментів із вихідного документа і з'єднанням їх у короткий текст. Підготовка ж стислого викладу передбачає передачу основної думки тексту і не обов'язково тими ж словами. Більше того, текст, отриманий таким чином, є уривчастим і важко читається; окрім того, часто потрібно реферувати не лише текстову інформацію і не з одного джерела. При цьому як анотація, так і реферат тлумачаться у інтелектуальних інформаційних технологіях як стисле викладення змісту одного чи багатьох документів; анотація відрізняється від реферату значно меншим обсягом.
Інтелектуальні інформаційні технології для подолання цих обмежень використовують кілька підходів: підходи, що спираються на базу знань стосовно предметної області та лінгвістичних особливостей мови; підходи, що на неї не спираються, та гібридні підходи [108]. Перший підхід ґрунтується на припущенні, що розуміння змісту тексту робить його скорочення простішим, і, як наслідок, забезпечує отримання якіснішої анотації чи реферату. Цей підхід передбачає використання, поряд з універсальною базою правил вибору релевантних фрагментів, великої за обсягом галузево і мовно залежної бази знань, яка містить правила, що витягуються з неї, підтримуються і адаптуються до нових предметних галузей і мов. Другий підхід орієнтований на відмову від додавання нових правил для кожної нової прикладної галузі знань чи мови і використовує лише універсальну базу правил, незалежну від мови та предметної області. Обидва підходи та їх комбінації (гібридні методи) забезпечують суттєве стискання вихідного тексту (5 – 30 % від обсягу вихідного документу).
Функціональна відмінність між інструментами реферування полягає у тому, що саме за їх допомогою отримується з вихідного документу: набір витягів чи реферат. Методи складання витягів відносять до поверхневих, методи формування стислого викладу змісту – до глибинних. У першому випадку алгоритми формування анотації /реферату не спираються на предметно орієнтовану базу знань, обмежуючись універсальною базою правил, у другому – спираються. В усіх випадках процес реферування містить етапи аналізу вихідного тексту (текстів), виділення найважливіших фрагментів і власне формування анотації чи реферату.
Метод складання витягів (рис. 9.8) передбачає аналіз вихідного тексту шляхом порівняння його з певними ключовими фразами-шаблонами, виділення та «витягання» найбільш важливих блоків (найчастіше - речень) з вихідного тексту і подальше об'єднання їх у анотацію. Важливість фрагментів може визначатися за: маркерами важливості (збіжності з шаблонними зворотами типа «ідея ... полягає у...», «головним результатом ... є ..», «головний висновок полягає у …» тощо); за наявністю та кількістю у фрагменті заданих в запиті ключових слів тощо. Найчастіше для оцінки лексичної та статистичної релевантності фрагментів (блоків) тексту застосовують модель лінійних вагових коефіцієнтів, за якої кожному блоку надається свій ваговий коефіцієнт, який дорівнює лінійній комбінації функцій-характеристик ваги блоку (B) в тексті [108].
Рис. 9.8. Узагальнена схема автоматизованого анотування поверхневими методами
Виділені найважливіші блоки «склеюються» в зв'язний текст шляхом морфологічного синтезу (зміна закінчень, перегрупування членів речення тощо).
До переваг даного методу можна віднести: високу швидкість роботи, можливість обробки великих масивів інформації, незалежність від баз знань; до недоліків – відсутність стилістичної і смислової гладкості в складеній анотації, поява слів або фраз, зміст яких зрозумілий лише в контексті. Існуючі методи усунення цих недоліків призводять до зменшення ступеня стискання вихідної інформації.
Для реалізації методів формування стислого викладу змісту потрібні заздалегідь розроблені граматики природних мов, тезауруси, засоби синтаксичного розбору, засоби генерації природно-мовних конструкцій, онтологічні довідники тощо. Ці методи базуються на припущенні, що розуміння змісту тексту полегшує його реферування. Системи, що підтримують такі методи, здатні переформульовувати та узагальнювати вихідний текст. При складанні анотацій в ході узагальнення можлива навіть поява зайвої інформації.
Методи формування стислого витягу можуть базуватися на:
· традиційних лінгвістичних методах синтаксичного аналізу речень;
· методах на основі тлумачення (розуміння) природної мови;
· комбінації цих двох груп методів.
Синтаксичний аналіз речень є складовою всіх методів, проте у лінгвістичних методах результати цього аналізу використовуються для побудови дерев розбору, для анотування яких залучається також семантична інформація (рис. 9.9). Процедури порівняння і стискання застосовуються безпосередньо до дерев з метою видалення і перегрупування частин, наприклад, шляхом скорочення другорядних гілок (підрядні речення, коментарі в дужках і тому подібне). В результаті дерево розбору спрощується, перетворюючись на структурну «вичавку» («витяг») вихідного тексту.
Методи на основі тлумачення (розуміння) природної мови належать до методів штучного інтелекту. У цих методах після синтаксичного аналізу формуються не дерева розбору, а концептуальні репрезентативні структури (представлення) всієї вихідної інформації у вигляді формул логіки предикатів, набору фреймів чи семантичної мережі вихідного тексту, які накопичуються у текстовій базі знань. Далі це внутрішнє представлення агрегують і стискають шляхом узагальнення і відсікання малозначущої і надлишкової інформації за певними правилами з бази правил [119]. Результат являє собою «концептуальний витяг».
Рис. 9.9. Формування стислого викладу змісту на основі лінгвістичного підходу (вгорі) та розуміння змісту тексту природною мовою (внизу)
Інтелектуальні інформаційні технології такого типу спираються на розвинуте лінгвістичне забезпечення у вигляді відкритих чи закритих лексичних довідникових систем, які за своєю сутністю є тезаурусами певної мови чи мов. Тезаурус — це впорядкований перелік використовуваних у певній предметній області термінів, у якому відбиті семантичні зв'язки між ними. Існують стандарти на вимоги до тезаурусів, їх структуру і правила побудови, орієнтовані на конкретні предметні області і мови. Структуризація тезаурусів пов'язана з такими поняттями, як дисципліна, предмет, метод, процес. явище, властивість, величина, відношення тощо. Побудова тезаурусів є окремим завданням інтелектуальних інформаційних технологій роботи з текстовою інформацією. Найвідомішим відкритим для доступу автоматизованим тезаурусом англійської мови є система WordNet [129].
Розвиток технологій автоматизованого реферування/анотування йде у напрямку забезпечення можливості отримання одномовного реферату документів на різних мовах, з різними структурами та форматами і мультимедійними вставками, а також нетекстових документів.