Як працюють механізми пошуку
Пошукові системи в мережі Інтернет…………………………………………… 1
Як працюють механізми пошуку………………………………………………………………………………..2
Порівняльний огляд пошукових систем…………………………………………3
Пошукові роботи………………………………………………………………….4
Проблеми при каталогізації інформації…………………………………………5
Пошукові системи в мережі Інтернет
Основні протоколи, використовувані в Інтернет (надалі також Мережа), не забезпечені достатніми вбудованими функціями пошуку, не говорячи вже про мільйони серверів, що знаходяться в ній. Протокол HTTP, використовуваний в Інтернет, гарний лише у відношенні навігації, що розглядається лише як засіб перегляду сторінок, але не їхнього пошуку. Те ж саме відноситься і до протоколу FTP, що навіть більш примітивний, чим HTTP. Через швидкий ріст інформації, доступної в Мережі, навігаційні методи перегляду швидко досягають межі їхніх функціональних можливостей, не говорячи вже про межу їхньої ефективності. Можна сказати, що потрібну інформацію уже не представляється можливим одержати відразу, тому що в Мережі зараз знаходяться мільярди документів і усі вони в розпорядженні користувачів Інтернет, до тому ж сьогодні їх кількість зростає. Кількість змін, яким ця інформація піддана, величезна і, саме головне, вони відбулися за дуже короткий період часу. Для того, щоб структурувати інформацію, накопичену в мережі Інтернет, і забезпечити її користувачів зручними засобами пошуку необхідних їм даних, були с творені пошукові системи.
Пошукові системи звичайно складаються з трьох компонентів:
· агент (павук чи кроулер), що переміщається по Мережі і збирає інформацію;
· база даних, що містить всю інформацію, що збирається павуками;
· пошуковий механізм, що люди використовують як інтерфейс для взаємодії з базою даних.
Як працюють механізми пошуку
Засоби пошуку типу агентів,павуків,кроулерів і роботів використовуються для збору інформації про документи, що знаходяться в Мережі Інтернет.
· Агенти - самі "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть трансакції від імені користувача. Уже зараз вони можуть шукати cайти специфічної тематики і повертати списки cайтів, відсортованих по їх відвідуваності. Агенти можуть обробляти зміст документів, знаходити й індексувати інші види ресурсів, не лише сторінки.Незалежно від інформації, що агенти індексують, вони передають її назад базі даних пошукового механізму.
· Загальний пошук інформації в Мережі здійснюють програми, відомі як павуки. Павуки повідомляють про зміст знайденого документа, індексують його і витягають підсумкову інформацію. Також вони переглядають заголовки, деякі посилання і посилають проіндексовану інформацію базі даних пошукового механізму.
· Кроулери переглядають заголовки і повертають лише перше посилання.
· Роботи можуть бути запрограмовані так, щоб переходити по різним посиланнях різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. Через їхню природу вони можуть застрявати в циклах, тому, проходячи по посиланнях, їм потрібні значні ресурси Мережі. Однак, маються методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані.
База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, у якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш відповідному користувальницькому запиту будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, однак основні принципи визначення відповідності наступні:
1. Кількість слів запиту в текстовому вмісті документа
2. Місце розташування шуканих слів у документі.
3. Час - як довго сторінка знаходиться в базі пошукового сервера