Інформаційно-пошуковий мову системи
Індекс - це тільки частина пошукового апарату, прихована від користувача. Другою частиною цього апарату є інформаційно-пошуковий мова (ІПМ), що дозволяє сформулювати запит до системи в простій і наочній формі. Вже давно залишилася позаду романтика створення ІПМ, як природної мови, - саме цей підхід використовувався в системі Wais на перших стадіях її реалізації. Якщо навіть користувачеві пропонується вводити запити на природній мові, то це ще не означає, що система буде здійснювати семантичний розбір запиту користувача.Проза життя полягає в тому, що зазвичай фраза розбивається на слова, з яких видаляються заборонені і загальні слова, іноді проводиться нормалізація лексики, а потім всі слова зв'язуються або логічним AND, або OR. Таким чином, запит типу:
Gt; Software that is used on Unix Platform
буде перетворений в:
Gt; Unix AND Platform AND Software
що буде означати приблизно таке: "Знайди всі документи, в яких слова Unix, Platform і Software зустрічаються одночасно".
Можливі і варіанти. Так, в більшості систем фраза "Unix Platform" буде визначена як ключова фраза і не буде поділятися на окремі слова. Інший підхід полягає в обчисленні ступеня близькості між запитом і документом. Саме цей підхід використовується в Lycos. У цьому випадку відповідно до векторної моделлю подання документів і запитів обчислюється їх міра близькості. Сьогодні відомо близько дюжини різних мір близькості. Найбільш часто застосовується косинус кута між пошуковим чином документа і застосування. Зазвичай ці відсотки відповідності документа запиту і видаються в якості довідкової інформації при списку знайдених документів.
Найбільш розвиненим мовою запитів із сучасних ІПС Internet має Alta Vista. Крім звичайного набору AND, OR, NOT ця система дозволяє використовувати ще й NEAR, що дозволяє організувати контекстний пошук. Всі документ в системі розбиті на поля, тому в запиті можна вказати, в якій частині документа користувач сподівається побачити ключове слово: посилання, заголовок, анотація тощо Можна також задавати полі ранжирування видачі та критерій близькості документів запитом.
Інтерфейс системи
Важливим чинником є вид представлення інформації у програмі-інтерфейсі. Розрізняють два типи інтерфейсних сторінок: сторінки запитів і сторінки результатів пошуку.
При складанні запиту до системи використовують або меню - орієнтований підхід, або командний рядок. Перший дозволяє ввести список термінів, зазвичай розділяються пробілом, і вибрати тип логічного зв'язку між ними. Логічний зв'язок поширюється на всі терміни. На наведеній на рис. 1 схемою є збережені запити користувача - у більшості систем це просто фраза на ІПМ, яку можна розширити за рахунок додавання нових термінів і логічних операторів. Але це тільки один спосіб використання збережених запитів, званий розширенням або уточненням запиту. Для виконання цієї операції традиційна ІПС зберігає не запит як такої, а результат пошуку - список ідентифікаторів документів, який об'єднується / перетинається зі списком, отриманим при пошуку документів по нових термінів. На жаль, збереження списку ідентифікаторів знайдених документів в WWW не практикується, що було викликано особливістю протоколів взаємодії програми-клієнта і сервера, що не підтримують сеансовий режим роботи.
Отже, результат пошуку в базі даних ІПС - це список покажчиків на задовольняють запиту документи. Різні системи представляють цей список по-різному. У деяких видається тільки список посилань, а в таких, як Lycos, Alta Vista і Yahoo, дається ще й короткий опис, який запозичується небудь з заголовків, або з тіла самого документа. Крім цього, система повідомляє, на скільки знайдений документ відповідає запиту. В Yahoo, наприклад, це кількість термінів запиту, що містяться в ПОД, відповідно до якого ранжирується результат пошуку. Система Lycos видає міру відповідності документа запиту, за якою здійснюється ранжування.
При огляді інтерфейсів та засобів пошуку не можна пройти повз процедури корекції запитів за релевантністю . Релевантність - це міра відповідності знайденого системою документа потреби користувача. Розрізняють формальну релевантність та реальну. Першу обчислює система, і на підставі чого ранжирується вибірка знайдених документів. Друга - це оцінка самим користувачем знайдених документів. Деякі системи мають для цього спеціальне поле , де користувач може відзначити документ як релевантний. При наступній пошукової ітерації запит розширюється термінами цього документа, а результат знову ранжирується. Так відбувається до тих пір, поки не наступить стабілізація, що означає, що нічого кращого, ніж отримана вибірка, від даної системи не доб'єшся.
Крім посилань на документи в списку, отриманому користувачем, можуть виявитися посилання на частини документів або на їхні поля. Це відбувається при наявності посилань типу http://host/path # mark або посилань за схемою WAIS. Можливі посилання і на скрипти, але зазвичай такі посилання роботи пропускають, і система їх не індексує. Якщо з http-посиланнями всі більш-менш зрозуміло, то посилання WAIS - це набагато складніші об'єкти. Справа в тому, що WAIS реалізує архітектуру розподіленої інформаційно-пошукової системи, при якій одна ІПС, наприклад Lycos, будує пошуковий апарат над пошуковим апаратом іншої системи - WAIS. При цьому сервери WAIS мають свої власні локальні бази даних. При завантаженні документів в WAIS адміністратор може описати структуру документів, розбивши їх на поля, і зберігати документи у вигляді одного файлу. Індекс WAIS буде посилатися на окремі документи і їхні поля як на самостійні одиниці зберігання, програма перегляду ресурсів Internet в цьому випадку повинна вміти працювати з протоколом WAIS, щоб отримати доступ до цих документів.
Висновок
В оглядовій статті були розглянуті основні елементи інформаційно-пошукових систем та принципи їх побудови. Сьогодні ІПС є найбільш потужним механізмом пошуку мережевих інформаційних ресурсів Internet. На жаль, в російському секторі Internet поки не спостерігається активного вивчення цієї проблеми за винятком, може бути, проекту LIBWEB, фінансованого РФФД і системи "Павук", яка працює недостатньо надійно. Найбільшим досвідом розробки такого сорту систем безумовно має ВІНІТІ, але тут робота зосереджена поки на розміщенні своїх власних ресурсів у Мережі, що принципово відрізняється від інформаційно-пошукових систем Internet типу Lycos, OpenText, Alta Vista, Yahoo, InfoSeek і т.п. Здавалося б, що така робота могла бути зосереджена в рамках таких проектів, як Росія On-line компанії SovamTeleport, але тут ми поки спостерігаються посилання на чужі пошукові машини. Розвиток ІПС для Internet в США почалося два роки тому, з огляду на вітчизняні реалії і темпи розвитку технологій Мережі в Росії, можна сподіватися, що у нас ще все попереду.