Основные характеристики и функционирование поисковых машин
Основные характеристики поисковых машин заключаются в следующем:
1. Полнота - отношение количества найденных по запросу документов к общему числу документов в интернете, удовлетворяющих данному запросу. Если существует порядка 1 000 документов, содержащих нужный пользователю термин, но поисковая машина обнаружит только 600 из них, то полнота поиска составить 0,6
2. Точность - степень соответствия найденных документов запросу пользователя. Допустим, по запросу "белая собака" найдено 200 документов, из которых в 100 речь будет идти непосредственно о белой собаке, а в остальных - два эти слова будут просто одновременно попадаться на одной странице: " в здании находилась белая колонна:собака бежала по переулку:". Здесь большую роль будут играть ранжирование страниц, о которых мы будем говорить чуть позднее.
3. Актуальность - следующая характеристика поиска, которая определяется временем, проходящим с момента публикации документов в сети интернет, до занесения их в индексную базу. Это особенно актуально для новостной информации, при запросах которой для пользователя особенно важна свежесть выдаваемых поисковиком данных.
4. Скорость поиска - пользователю требуется как можно скорее получить результаты по его запросу.
5. Наглядность представления результатов - пользователю часто приходится проводить дополнительный отбор среди списка уже найденного, поэтому информация, содержащаяся в кратком описании каждого результата, должна сориентировать его.
Какая работа предшествует выдаче результатов поиска пользователю? Поисковая система должна проиндексировать и включить в свою базу данных самые различные документы с самых разных сайтов. Только тогда она сможет "найти" их в ответ на запрос пользователя.
Поисковые системы просматривают каждую страницу сайта отдельно, при этом, может быть проиндексирована как одна, так и все страницы сайта. Скорость индексации у каждой поисковой системы своя. Для осуществления индексации сайтов используются специальные программы-пауки, или "поисковые боты". При этом к индексируемому сайту предъявляется ряд требований со стороны поисковой системы. Сайт должен быть "правильно оформлен" с точки зрения поисковика, для того, чтобы было проще провести его индексацию поисковым роботом.
Например, желательно наличие файла robots.txt. С его помощью можно некоторым образом повлиять как на качество, так и на длительность индексации поисковиками сайта. Файл сообщает роботу поисковой системы дополнительную информацию о том, какие страницы сайта стоит индексировать, а какие нет, какие документы не менялись со времени последнего посещения роботом сайта, и так далее. Это экономит время, а также трафик для владельцев ресурса. Сюда же можно отнести и файл, содержащий карту сайта (map), в которой будут указаны ссылки на все документы, содержащиеся на сайте, что, в свою очередь, позволит роботу максимально быстро эти документы найти и проиндексировать.
На практике, правда, наличие данных файлов ничего не гарантирует. Например, сайт, содержащий огромное количество текстового контента, попадает в ситуацию, когда файл с его картой имеет достаточно большой вес, и не все поисковые роботы берутся вытягивать этот документ. Об остальных параметрах, влияющих на положение сайта в поисковой системе - далее.
Стоит отметить, что с ростом количества и разнообразия структурных и технических решений в сети, усложняются и поисковые алгоритмы. Но они все равно не успевают "подстроится" под все варианты, поэтому разработать универсальную поисковую систему, распознавшую, проиндексировавшую и собравшую в свою базу данных все сайты, на данный момент невозможно. Выходом из этого на данный момент видят дальнейшее развитие специализированных поисковых систем, работающих, например, только по определенным тематикам.
Например, новостная поисковая система RedTram (или, как еще называют подобные ресурсы, агрегатор новостей), работающая на восьми языках:
Рисунок
Или Яндекс.Новости:
Рисунок