Состав и схема работы индекса
Сетевые пауки трудятся непрерывно и автономно: они обшаривают по гипертекстовым ссылкам все закоулки Паутины и заносят информацию в базу данных, периодически проводя ревизию уже проиндексированного материала. Популярные сайты с быстро обновляемым содержимым (новостные порталы, интернет-магазины, аукционы и т.п.) переиндексируются несколько раз в час, обычные — несколько раз в месяц или реже.
Стартовыми точками для пауков являются крупные популярные сайты. Паук начинает свой путь с такого сайта, обрабатывает его и двигается дальше по внешним ссылкам сайта.
Система поиска по базе индекса обслуживает запросы пользователей.
Многие поисковые системы предоставляют возможность авторам самостоятельно добавлять свои ресурсы в очередь на индексирование. Это существенно ускоряет обработку сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.
В индексе поисковой системы с каждым словом или фразой связан список ссылок на документы, в которых это слово или фраза встречается. Кроме того, каждая ссылка снабжается весом — числовой оценкой ее значимости.
При вычислении веса ссылки, связанной со словом из индекса учитываются следующие факторы:
1. Индекс цитирования документа (ИЦ). Более весомым считается документ, на который есть много ссылок с других сайтов, причем цитирование с крупных популярных сайтов оценивается выше.
2. Свежесть страницы. Вес ссылки выше для более “свежих” страниц, то есть страниц с более новой датой обновления.
3. Написание ссылки. Ссылка имеет повышенный вес, если слово входит в состав самой ссылки (например, слово microsoft входит в состав ссылки на сайт компании: www.microsoft.com).
4. Ссылка имеет повышенный вес, если слово входит в состав названия окна, в которое выводится страница документа. В HTML-коде название окна задается тегом TITLE.
5. Вес ссылки повышается, если слово входит в состав списка ключевых слов страницы (тег META с атрибутом keywords), или в состав описания страницы (тег META с атрибутом description), или если слово входит в состав альтернативного текста картинки (атрибут alt тега IMG).
Пример (фрагмент HTML-кода):
Кроме того, при подсчете веса ссылки учитываются разные параметры появления слова (к которому относится ссылка) в тексте документа:
· Форматирование. Больший вес имеют документы, в которых слово встречается в заголовках и разного рода выделениях (жирность, курсив, повышенный размер шрифта).
· Место слова в документе. Больший вес имеют документы, в которых слово встречается в начале документа, а также в навигационном меню сайта или страницы.
· Частота появления слова в документе. Документ, в котором слово встречается чаще, имеет больший вес.
Индекс ранжирует список результатов в порядке релевантности — степени соответствия полученных результатов ожидаемым.
Первыми в списке оказываются те страницы, которые имеют большую релевантность. В силу этого достаточно просмотреть первые 10–20 страниц из сотен тысяч найденных, чтобы обнаружить подходящую.
Простой поиск.
Поиск в индексе можно выполнять в следующих режимах:
1) Простой поиск
2) Расширенный поиск
3) Поиск с помощью языка запросов
Простой поиск – поиск, при котором в запросе (ключевой фразе поиска) не используются элементы языка запросов, задаваемые явно или при помощи интерфейсных элементов на странице расширенный поиск поисковой системы.
Расширенный поиск
Расширенный, или сложный, поиск — это поиск ключевой фразы при дополнительных условиях, задаваемых интерфейсными элементами (флажки, кнопки, меню, поля ввода) на странице расширенный поиск поисковой системы.
Например, в Яндексе из режима простого поиска в расширенный ведет соответствующая ссылка рядом со строкой ввода запроса.
На странице расширенного поиска строка ввода дополняется формой с набором разного рода интерфейсных элементов (флажки, радиокнопки, меню, поля ввода), позволяющие задать условия поиска.
Рассмотрим форму для ввода условий на примере Яндекса.