Компоненты поисковых систем. Индексация сайта.
Поисковая система включает в себя такие компоненты:
Spider (“паук”) – эта программа скачивает веб-страницы точно так же, как и пользовательский браузер. Но! Браузер показывает всю информацию, которая имеется на странице (графическую, текстовую и т.д.), тогда как паук не обладает никакими визуальными компонентами и работает сразу с html-текстом.
Indexer (индексатор) – индексатор занимается разбором страницы на составляющие, затем анализирует их. Он выделяет и анализирует разные компоненты страницы: текст, заголовки, стилевые и структурные особенности, html-тэги и прочее.
Search Engine Results Engine – это система выдачи результатов. В ее задачи входит решение того, насколько возможные страницы удовлетворяют запрос пользователя, а также, в каком порядке отсортировать результаты поиска. Этот процесс осуществляется согласно алгоритму ранжирования поисковой системы. Такая информация наиболее ценна для оптимизатора, именно с этим компонентом следует взаимодействовать при попытке повысить позиции сайта в выдаче результатов поиска.
Crawler – этот компонент выделяет все ссылки, имеющиеся на странице. В его задачу входит определение последующего пути. Вычисление этого пути основывается на ссылках или исходя из заданного заранее ряда адресов. Crawler следует по найденным ссылкам и так осуществляет поиск новых документов, которые еще неизвестны поисковой системе.
Database – это база данных, в ней хранятся все данные, которые скачивает и анализирует поисковая система. Базу данных могут называть и индексом поисковой системы.
Web server – на сервере обычно присутствует html-страница с полем ввода, где пользователи могут задать интересующий их поисковый термин. Веб-сервер тоже отвечает за результаты, выдаваемые пользователю, в виде html-страницы.
Индексация сайта означает, что поисковый робот посетил ваш сайт, проанализировал его и занес информацию в базу данных поисковой системы. Прежде чем сайт появится в результатах поиска, он должен быть проиндексирован поисковой системой.
Если некоторая страница занесена в индекс поисковика, то она может быть показана в результатах поиска. Если страница в индексе отсутствует, то поисковая система ничего не знает о ней, и, следовательно, никак не может использовать информацию с этой страницы. Большинство сайтов среднего размера (то есть содержащих несколько десятков или сотен страниц) обычно не испытывают никаких проблем с правильной индексацией поисковыми системами. Однако, существует ряд моментов, которые стоит учитывать при работе над сайтом.
Поисковая система может узнать о вновь созданном сайте двумя путями:
- ручное добавление адреса сайта через соответствующую форму поисковой системы. В этом случае вы сами сообщаете поисковой системе о новом сайте и его адрес попадает в очередь на индексацию. Добавлять следует лишь главную страницу сайта, остальные будут найдены поисковым роботом по ссылкам;
- предоставить поисковому роботу самостоятельно найти ваш сайт. Если на ваш новый ресурс есть хотя бы одна внешняя ссылка с других ресурсов, уже проиндексированных поисковой системой, то поисковый робот в короткие сроки сам посетит и проиндексирует ваш сайт. В большинстве случаев рекомендуется использовать именно этот вариант, то есть получить несколько внешних ссылок на сайт и просто дождаться прихода робота. Ручное добавление сайта может даже удлинить время ожидания робота.
Время необходимое для индексации сайта составляет, как правило, от 2-3 дней до 2 недель, в зависимости от поисковой системы. Быстрее всех индексирует сайты поисковая система Google.
Базы данных поисковых систем постоянно обновляются, записи в базе могут подвергаться изменениям, исчезать и появляться снова, поэтому число проиндексированных страниц вашего сайта может периодически меняться.
Одной из наиболее частых причин исчезновения страницы из индекса является недоступность сервера, то есть поисковый робот при попытке индексации сайта не смог получить доступ к нему. После восстановления работоспособности сервера сайт должен появиться в индексе снова через некоторое время.
8. Релевантность сайта поисковому запросу.внутренние факторы ранжирования.
Релевантность(лат.relevo- поднимать,облегчать) – степень соответствия найденной информации по отношению к запросу в поисковой системе.
Содержательная релевантность: поисковые системы для оценки релевантности найденных документов в базовом варианте используют TF-IDF-метод. Суть его в том, что релевантность документа будет выше, в том случае, если слово или словосочетание из запроса как можно чаще встречается в документе (параметр TF) и при этом, как можно реже это же слово или словосочетание встречается в базе данных поисковой систем (параметр IDF).
Формальная релевантность: соответствие, определяемое путем сравнения образа поискового запроса с поисковым образом документа по определенному алгоритму.
На релевантность сайта влияют следующие факторы:
- Наличие ключевых слов или фраз в теге title, мета-описание;
- наличие ключевых слов в заголовках и подзаголовках, теги h1...h6 ;
- Наличие ключевых слов в ссылках которые находятся внутри сайта, а также в входящих ссылках;
- Наличие ключей в атрибуте alt.
- количество и качество входящих ссылок;
- плотность ключевых слов в основном тексте на странице;
- популярность и релевантность ссылающихся сайтов.
Внутренние факторы ранжирования – это факторы, которые относятся к структуре сайтов и находятся под контролем веб-мастера, не зависят от таких внешних условий, как изменение алгоритма поисковых систем или введение ими новых правил индексации. Формируются с созданием сайта и оказывают непосредственное влияние на позиции страниц в поисковых выдачах и вес ключевых слов.
- текстовое оформление web-страниц (контент)
- структура сайта - настройки
- преднамеренный обман поисковиков
Внутренние факторы ранжирования сайтовФакторы, влияющие на положение сайта в выдаче поисковых запросов, можно разделить на внутренние (текст, оформление, мета-теги и проч.) и внешние (ссылочная популярность).
Внутренние факторы ранжирования целиком и полностью подконтрольны владельцу сайта. От того насколько умело ими воспользовался веб-мастер, во многом зависит поисковая релевантность сайта и, как следствие, приток посетителей с поисковых систем
Текстовое оформление:Текста на странице должно быть в меру. Оптимальным вариантом считается 500-1000 слов. Ключевые фразы должны встречаться в тексте несколько раз - примерно 3-4 раза. Плотность ключевых слов должна быть в пределах 3-4%. При меньшем проценте снижается вероятность попадания в Топ10, при большем - повышается вероятность попасть в "бан" поисковика. Ключевые слова и фразы по возможности должны располагаться как можно ближе к началу html-страницы. Обязательно ключевая фраза (или хотя бы слово) должна присутствовать в теле тега TITLE. В тексте ссылок старайтесь использовать ключевые слова и фразы. Желательно использовать ключевые слова в тегах изображений ALT. Не помешает прописать ключевые фразы и слова в мета-тегах DESCRIPTION, KEYWORDS.
Структура сайта:число страниц сайта - чем больше, тем лучше. Необходимо постоянно обновлять контент сайта, добавлять новые страницы. Использовать в навигационных меню ключевые слова. Если сайт относится к англоязычной аудитории, использовать ключевые слова в названии html-файла. При небольшом количестве страниц желательно их размещать в корневом каталоге. Одна страница - одна ключевая фраза. Не стоит оптимизировать одну страницу сразу под несколько ключевых фраз. Главная страница должна быть оптимизирована под основную ключевую фразу.
Ошибки оптимизации:не желательно использовать в дизайне сайта графический заголовок. Верхушка сайта - самое ценное место для того, чтобы размещать ключевые фразы и слова. Поисковые машины "не понимают" графику. По той же причине не желательно использовать графическое меню, скрипты в навигации по сайту. Поисковые машины не индексируют скрипты, не использовать редиректы. Использование скрытого текста позволяет наполнить страницу нужными ключевыми словами без нарушения логики и дизайна страницы. Такой текст невидим для посетителей, однако прекрасно читается поисковыми роботами. Использование таких «серых» методов оптимизации может привести к бану сайта — то есть принудительному исключению сайта из индекса поисковой системы. Однопиксельные ссылки - графические изображения‐ссылки размером 1*1 пиксель (то есть фактически невидимых посетителю) также воспринимается поисковыми системами как попытка обмана и может привести к бану сайта.