Теоретичні відомості Основні відомості про ІПС
Вирішення великої кількості правових задач залежить від якості результатів інформаційного пошуку —вибору з усієї відомої сукупності документів,текстів,відомостей, фактів і даних тих елементів, які відповідають інформаційним потребам. За умов великих обсягів інформації, серед якої здійснюється пошук, стає доцільним і навіть необхідним використання інформаційно-пошукових систем.
Інформаційно-пошукова система (ІПС) —це сукупність методів і засобів,призначених для зберігання та пошуку документів, відомостей про них чи певних фактів.
За тематикою виділяють галузеві ІПС, полі- та вузькотематичні. Залежно від типу інформації,що зберігається,розрізняють документальні системи,в якихоб’єктом зберігання і пошуку є документ, та фактографічні, в яких зберігаються і розшукуються окремі дані, що характеризують деякі факти — події, процеси, явища.
За режимом функціонування виокремлюють:
– системи з вибірковим пошуком — ІПС, в яких пошук виконується за постійним набором запитів для певного контингенту користувачів у масиві поточних надходжень документів чи даних, які надходять через певні інтервали часу. При цьому змінюється вміст системи, а запити залишаються без змін;
– системи з ретроспективним пошуком, які обслуговують разові запити, що змінюються залежно від інформаційних потреб користувачів, у нагромадженому інформаційному фонді зі значною хронологічною глибиною.
Найефективнішим способом пошуку інформації є перегляд кожного документа і визначення його відповідності інформаційному запиту — тексту певною мовою, що відбиває деяку інформаційну потребу. Проте такий пошук є дуже тривалим. Тому насправді пошук здійснюється не за текстами документів, а за їх стислими описами інформаційно-пошуковою мовою — пошуковими образами. Процедура визначення пошукового образу документа (ПОД) називається індексуванням.Найбільш популярною моделлю створення ПОД є векторна модель.За цією моделлю кожному документові приписується вектор розмірності, що дорівнює кількості термінів, якими можна скористатися при пошуку. Елементами
Кафедра математичного моделювання та інформатики
Основи прикладної інформатики та сучасні інформаційні технології в юриспруденції
вектора є деякі числа (ваги), які визначають адекватність даного терміна документа (у найпростішому випадку — 1, якщо термін присутній, 0 — якщо термін у документі не трапляється).
Взаємодія користувача з ІПС охоплює такі операції:
– введення в систему пошукових образів документів і самих документів;
– зберігання інформації в системі;
– формування запитів, опис і введення у систему пошуковихрозпоряджень —інформаційних запитів,викладених інформаційно-пошуковоюмовою і доповнених допоміжною інформацією;
– пошук — порівняння пошукових образів документів з пошуковими розпорядженнями;
– прийняття рішення про видачу знайденої інформації залежно від критерію пошуку, визначеного користувачем;
– видача інформації, що відповідає інформаційному запиту.
– Функціонування ІПС можна оцінити за кількома критеріями:
– повнота — здатність відшукувати та видавати релевантні документи, тобто такі, що відповідають запитові користувача;
– точність — здатність відсіювати та затримувати нерелевантні документи;
– економічна ефективність — окупність витрат на функціонування системи вигодами від її використання, серед яких важливе значення мають підвищення оперативності та зменшення трудомісткості пошуку.
ІПС може видати документ навіть якщо його ПОД не повністю відповідає пошуковому розпорядженню. У цьому разі результатом пошуку може бути не один якийсь документ, а їх множина, з якої користувач має вибрати ті, які відповідають його потребам найбільше. Це залежить від критерію пошуку, який може змінюватись за бажанням користувача. А загалом ефективність взаємодії користувача з ІПС та робота самої ІПС прямо залежить від якості інформаційно-пошукової мови (ІПМ) —спеціалізованої штучної мови,призначеної для описуцентральних тем і формальних характеристик документів, а також опису інформаційних запитів і наступного виконання пошуку. З цією метою не може бути використана
жодна з природних мов через їх неструктурованість, велику кількість граматичних винятків, неоднозначність та надмірність.
Основні елементи ІПМ такі:
1) алфавіт — система графічних знаків, що використовуються для утворення слів і словосполучень;
2) лексика — сукупність слів, що використовуються в мові;
3) граматика — сукупність засобів та правил побудови висловлювань;
Кафедра математичного моделювання та інформатики
Основи прикладної інформатики та сучасні інформаційні технології в юриспруденції
4) парадигматичні (базові, аналітичні) відношення — відношення, які не залежать від контексту використання і спричинені не мовними, а логічними зв’язками. Наприклад, поняття «магнітний диск», «магнітна стрічка», «лазерний диск», «паперовий документ» утворюють тематичну групу «носії інформації», усередині якої можна виділити лексико-семантичні парадигми «паперові носії інформації» та «машинні носії»;
5) правила побудови індексів та їх ідентифікації.
Розрізняють ІПМ таких видів:
– передкоординатні (класифікаційного типу), в основу яких покладено систематичну класифікацію понять, що відбивають певні парадигматичні відношення. Класифікація може бути ієрархічною, фасетною, алфавітно-предметною;
– посткоординатні, в основу яких покладено принцип координатного
індексування | — | зміст | документів | і | запитів | вира- | |||
жається | набором | ключових | слів, | вибраних | з | індексованого | |||
тексту. |
Ключові слова —це слова,найбільш характерні для даного тексту аботематики. Пошук і вибір ключових слів є окремою складною проблемою, яка вимагає творчого підходу. Для правової ІПС таку роботу може виконати тільки висококваліфікований юрист широкого профілю. Але навіть повне визначення ключових слів недостатньо для організації ефективного пошуку, оскільки:
– ключові слова можуть мати різні варіанти написання та синоніми. Тоді документ, індексований за допомогою певного терміна, не буде виданий у відповідь на запит, складений з використанням терміна-синоніму;
– ключове слово може мати різні значення (проблема омонімічності). Запит, в якому присутні омоніми, призведе до видачі документів, які не стосуються вибраної користувачем теми;
– набір ключових слів не визначає родово-видові відношення між поняттями, а це звужує пошук.
З метою вирішення названих проблем для різноманітних тематик розробляються тезауруси — структуровані списки ключових слів, призначених для однозначного подання концептуального змісту документів і запитів. Тезаурус упорядковується так, щоб встановити прозорі еквівалентні, гомографічні, ієрархічні та асоціативні зв’язки між термінами.
Тезаурус містить:
1) дескриптори —слова та словосполучення,які однозначнопозначають поняття з теми тезаурусу;
2) недескриптори —слова та словосполучення,які у природній мовіпозначають ті самі поняття, що і дескриптори, або еквівалентні поняття;
Кафедра математичного моделювання та інформатики
Основи прикладної інформатики та сучасні інформаційні технології в юриспруденції
3) семантичні зв’язки (зв’язки на основі значень)між дескрипторами
і недескрипторами, а також між самими дескрипторами.
Проблема омонімічності у тезаурусі вирішується тим, що кожне ключове слово ставиться у контекст, який робить це слово однозначним. Для вирішення проблеми синонімічності один із синонімів обирається, більш-менш довільно, як дескриптор, а синонімам надається статус не-дескрипторів. Тільки дескриптори можуть використовуватись при індексуванні та формулюванні запитів, при цьому не-дескритори допомагають користувачам вибрати дескриптор. Якщо встановлено відповідність між ідентичними поняттями в різних мовах, користувач багатомовного тезауруса може формулювати запити рідною мовою і шукати документи незалежно від мови, якою вони були індексовані.