Порівняльний огляд пошукових систем
Lycos. У Lycos використовується наступний механізм індексації:
· слова в <title> заголовку мають вищий пріоритет;
· слова на початку сторінки;
· слова в посиланнях;
· якщо в його базі індексу є сайти, посилання з який указує на індексований документ - відповідність цього документа зростає.
AltaVista. Індексування в цій системі здійснюється за допомогою робота. При цьому робот має наступні пріоритети:
· слова містяться в тегу <title> мають вищий пріоритет;
· ключові фрази в <Meta> тегах;
· ключові фрази, що знаходяться на початку сторінки;
· ключові фрази в ALT - посиланнях
· ключові фрази по кількості входжень (присутності) слів (фраз);
Yahoo. Дана система з'явилася в Мережі однієї з перших, і сьогодні Yahoo співробітничає з багатьма виробниками засобів інформаційного пошуку, а на різних її серверах використовується різне програмне забезпечення. Мова Yahoo досить проста: усі слова варто вводити через пробіл, вони з'єднуються зв'язуванням AND або OR. При видачі не вказується ступінь відповідності документа запиту, а лише підкреслюються слова з запиту, що зустрілися в документі. При цьому не виробляється нормалізація лексики і не проводиться аналіз на "загальні" слова. Гарні результати пошуку виходять лише тоді, коли користувач знає, що в базі даних Yahoo інформація є напевно. Ранжирування виробляється по числу термінів запиту в документі. Yahoo відноситься до класу простих традиційних систем з обмеженими можливостями пошуку.
Infoseek. У цій системі індекс створює робот, але він індексує не весь сайт, а лише зазначену сторінку. При цьому робот має такі пріоритети:
· при повторенні однакових слів поруч викидає з індексу
· Якщо теги не використовувалися, індексує перші 200 слів на сторінці і використовує як опис.
Пошукові роботи
За останні роки Всесвітня павутина стала настільки популярної, що зараз Інтернет є одним з основних засобів публікації інформації. Коли розмір Мережі виріс з декількох серверів і невеликого числа документів до величезних меж, стало ясно, що ручна навігація по значній частині структури гіпертекстових посилань більше не представляється можливої, не говорячи вже про ефективний метод дослідження ресурсів.
Ця проблема спонукала дослідників Інтернет на проведення експериментів з автоматизованою навігацією по Мережі, названої "роботами". Веб-робот - це програма, що переміщається за гіпертекстовою структурою Мережі, запитує документ і рекурсивно повертає всі документи, на які даний документ посилається. Ці програми також іноді називають "павуками", "мандрівниками", чи " хробаками" і ці назви, можливо, більш привабливі, однак, можуть ввести в оману, оскільки термін "павук" і "мандрівник" створює неправильне уявлення, що робот сам переміщається, а термін "хробак" міг би мати на увазі, що робот ще і розмножується подібно інтернетівському вірусу-хробаку. У дійсності, роботи реалізовані як проста програмна система, що запитує інформацію з віддалених ділянок Інтернет, використовуючи стандартні мережеві протоколи.
Використання пошукових роботів
Роботи можуть використовуватися для виконання безлічі корисних задач, таких як статистичний аналіз, обслуговування гіпертекстів, дослідження ресурсів чи зазеркалювання сторінок.
Статистичний Аналіз
Перший робот був створений для того, щоб знайти і порахувати кількість веб-серверів у Мережі. Інші статистичні обчислення можуть включати середнє число документів, що приходяться на один сервер у Мережі, пропорції визначених типів файлів на сервері, середній розмір сторінки, ступінь зв'язаності посилань і т.д.