Как работают механизмы поиска
Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются.
Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информациио документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматическииндексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы.
Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируютссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другиеигнорируютcсылки к ресурсам типа баз данныхWAIS; другие проинструктированы, что нужнопросматривать режде всего наиболее популярные страницы.
• Агенты- самые"интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могутискатьcайты специфической тематики и возвращать спискиcайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексироватьдругие виды ресурсов, не только страницы. Они могут также быть запрограммированы дляизвлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
• Общий поиск информации в Сети осуществляют программы, известные как пауки. Паукисообщают о содержании найденного документа, индексируют его и извлекают итоговуюинформацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
• Кроулерыпросматривают заголовки и возвращают только первую ссылку.
• Роботы могут быть запрограммированы так, чтобы переходить по различнымcсылкамразличной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужнызначительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобызапретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.
Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другиеиндексируют только наиболее важных100 слов в каждом, индексируют размер документа ичисло слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индексаопределяет, какой поиск может быть сделан поисковым механизмом и как полученнаяинформация будет интерпретирована.
Агенты могут также перемещаться о Интернет и находить информацию, после чего помещатьее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированнаяинформация отсылается базе данных поискового механизма так же, как было описано выше.
Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, вкоторый они хотели бы поместить свою информацию. Эти данные передаются базе данных. Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима.
Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поискадолжны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении о Сети.
База данных отыскивает предмет запроса, основанный на информации, указанной взаполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет оказан, база данных применяеталгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системыиспользуют различные алгоритмы ранжирования, однако основные принципы определениярелевантности следующие:
1. Количество слов запроса в текстовом содержимом документа(т.е. вhtml-коде).
2. Тэги, в которых эти слова располагаются.
3. Местоположение искомых слов в документе.
4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.
База данных выводит ранжированный подобным образом список документов сHTML ивозвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбираютразличные способы показа полученного списка- некоторые оказывают только ссылки; другиевыводятcсылкиc первыми несколькими предложениями, содержащимися в документе илизаголовок документа вместе сccылкой.
Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этотдокумент запрашивается у того сервера, на котором он находится.