Состав и схема работы индекса

Сетевые пауки трудятся непрерывно и автономно: они обшаривают по гипертекстовым ссылкам все закоулки Паутины и заносят информацию в базу данных, периодически проводя ревизию уже проиндексированного материала. Популярные сайты с быстро обновляемым содержимым (новостные порталы, интернет-магазины, аукционы и т.п.) переиндексируются несколько раз в час, обычные — несколько раз в месяц или реже.

Стартовыми точками для пауков являются крупные популярные сайты. Паук начинает свой путь с такого сайта, обрабатывает его и двигается дальше по внешним ссылкам сайта.

Система поиска по базе индекса обслуживает запросы пользователей.

Многие поисковые системы предоставляют возможность авторам самостоятельно добавлять свои ресурсы в очередь на индексирование. Это существенно ускоряет обработку сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.

В индексе поисковой системы с каждым словом или фразой связан список ссылок на документы, в которых это слово или фраза встречается. Кроме того, каждая ссылка снабжается весом — числовой оценкой ее значимости.

При вычислении веса ссылки, связанной со словом из индекса учитываются следующие факторы:

1. Индекс цитирования документа (ИЦ). Более весомым считается документ, на который есть много ссылок с других сайтов, причем цитирование с крупных популярных сайтов оценивается выше.

2. Свежесть страницы. Вес ссылки выше для более “свежих” страниц, то есть страниц с более новой датой обновления.

3. Написание ссылки. Ссылка имеет повышенный вес, если слово входит в состав самой ссылки (например, слово microsoft входит в состав ссылки на сайт компании: www.microsoft.com).

4. Ссылка имеет повышенный вес, если слово входит в состав названия окна, в которое выводится страница документа. В HTML-коде название окна задается тегом TITLE.

5. Вес ссылки повышается, если слово входит в состав списка ключевых слов страницы (тег META с атрибутом keywords), или в состав описания страницы (тег META с атрибутом description), или если слово входит в состав альтернативного текста картинки (атрибут alt тега IMG).

Пример (фрагмент HTML-кода):

Состав и схема работы индекса - student2.ru

Кроме того, при подсчете веса ссылки учитываются разные параметры появления слова (к которому относится ссылка) в тексте документа:

· Форматирование. Больший вес имеют документы, в которых слово встречается в заголовках и разного рода выделениях (жирность, курсив, повышенный размер шрифта).

· Место слова в документе. Больший вес имеют документы, в которых слово встречается в начале документа, а также в навигационном меню сайта или страницы.

· Частота появления слова в документе. Документ, в котором слово встречается чаще, имеет больший вес.

Индекс ранжирует список результатов в порядке релевантности — степени соответствия полученных результатов ожидаемым.

Первыми в списке оказываются те страницы, которые имеют большую релевантность. В силу этого достаточно просмотреть первые 10–20 страниц из сотен тысяч найденных, чтобы обнаружить подходящую.

Простой поиск.

Поиск в индексе можно выполнять в следующих режимах:

1) Простой поиск

2) Расширенный поиск

3) Поиск с помощью языка запросов

Простой поиск – поиск, при котором в запросе (ключевой фразе поиска) не используются элементы языка запросов, задаваемые явно или при помощи интерфейсных элементов на странице расширенный поиск поисковой системы.

Расширенный поиск

Расширенный, или сложный, поиск — это поиск ключевой фразы при дополнительных условиях, задаваемых интерфейсными элементами (флажки, кнопки, меню, поля ввода) на странице расширенный поиск поисковой системы.

Например, в Яндексе из режима простого поиска в расширенный ведет соответствующая ссылка рядом со строкой ввода запроса.

На странице расширенного поиска строка ввода дополняется формой с набором разного рода интерфейсных элементов (флажки, радиокнопки, меню, поля ввода), позволяющие задать условия поиска.

Рассмотрим форму для ввода условий на примере Яндекса.

Наши рекомендации