Методическая разработка
для студентов 1 курса медико-профилактического факультета
к практическому занятию по теме
«Поисковые системы. Библиотечные информационные системы»
1. Научно-методическое обоснование темы:
Одним из основных способов найти информацию в Интернете являются поисковые системы. Материалы для размещения в Сети готовят живые люди, поэтому там можно найти только то, что опубликовано. Сегодня в Интернете около двух миллиардов страниц. В результате каталогизация имеющихся в Сети ресурсов стала серьёзной проблемой. Несмотря на то, что каталогизацией занимаются тысячи организаций, проблема не приближается к разрешению, а становится ещё острее. Пространство Web быстрее наполняется, чем систематизируется. Любая книга начинается с Содержания и заканчивается Алфавитным указателем. Содержание – это пример каталогизации. Читатель выбирает тему и находит страницу, где эта тема раскрывается. Алфавитный указатель – это пример индексации. Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается. В Интернете над каталогами работают люди, а указатели формируются автоматически. При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог. Самый крупный каталог Интернета – yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов.
2. Краткая теория:
1. Поисковые указатели
Поисковые указатели– это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного больше. Количество проиндексированных Web – страниц может измеряться сотнями миллионов. Работа поискового указателя происходит в три этапа, из который два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает всю информацию из World Wide Web и использует для этой цели специальные программы, аналогичные браузерам. Заданные страницы копируются на сервер поискового указателя, затем находятся все гиперссылки, которые на ней имеются, по указанным в них URL – адресам, и копируются найденные там ресурсы и т. д .
После копирования разысканных Web – ресурсов на сервер поисковой системы начинается второй этап работы - индексация. Индексированная база данных – это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы выдают ответы за доли секунды.
На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Этими ссылками можно пользоваться для перехода к интересующим ресурсам. Например, достаточно ввести в поле поиска слово футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10 – 20 штук на отображаемой странице. Пользователю необходимо, чтобы в первом десятке шли ссылки, актуальные на данный момент, очень раздражает, если подряд идут ссылки на соседние файлы одного и того же сервера. Самый плохой вариант, когда подряд идут несколько ссылок, ведущих к одному и тому ресурсу, но находящемуся на разных серверах.
Все поисковые системы черпают исходную информацию из одного и того же Web – пространства, поэтому исходные базы данных у них могут быть относительно похожи, но на третьем этапе, при выдаче результатов поиска, проявляются её лучшие индивидуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web – странице, система присваивает какой – то рейтинг, который должен отражать качество материала. Высокие рейтинги получают страницы, у которых ключевое слово, использованное в запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web - странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5 – 6 абзацев текста – они считаются самыми важными при индексации.
Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Ещё одним признаком качества Web–страниц является тот факт, что на неё есть ссылки с каких – то других Web – страниц. Значит эта Web – страница популярна и обладает высоким показателем цитирования.
Необходимость в ранжировании результатов поиска очевидна. Без этого клиенты захлебнулись бы в потоке предлагаемых ссылок. Однако, есть и негативная сторона: у каждой поисковой системы своя политика ранжирования и не исключено, что взгляды создателей поисковой системы не вполне совпадают со взглядами клиента.
Прежде чем приступить к поиску, необходимо четко сформулировать цель поиска, а также попробовать подобрать всевозможные словоформы и другие варианты формулировки запроса. Это может в ряде случаев значительно ускорить поиск, а также даст гораздо больше вариантов, из которых уже можно будет выбрать наиболее подходящий. Кроме того, если Вы заранее знаете какой фирме, компании или организации принадлежит интересующий ресурс, можно попробовать зайти на официальную страницу этой фирмы. Обычно адреса крупных фирм созвучны их названиям, например www.pepsi.com, www.gaz.ru, www.motorola.ru.
2. Краткий обзор поисковых указателей
Наиболее популярными поисковыми указателями сегодня являются:
«Рамблер» (http://www.rambler.ru)
«Яндекс» (http://www.yandex.ru)
«Апорт2000» (http://www.apport.ru)
«Google» (http://www.google.ru)
«Yahoo» (http://www.yahoo.ru)
«Mail» (http://www.mail.ru)
«AltaVista» (http://www.altavista.ru)
Четыре вида поиска
Все поисковые указатели реализуют несколько алгоритмов поиска.
Простой поиск. При простом поиске в поле запроса вводится одно или несколько слов, которые характеризуют содержание документа. Приемы простого поиска в разных поисковых системах свои.
Расширенный поиск — всегда подразумевает запрос из группы слов, которые связываются логическими операторами. Основное достоинство расширенного поиска в том, что правила записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи.
Контекстный поиск — полезный вид поиска, который реализован не во всех поисковых указателях. При контекстном поиске требуется точное совпадение фразы или группы слов, и в большинстве поисковых систем, включающих этот метод, ключевая фраза заключается в кавычки.
Специальный поиск. С помощью команд этого вида поиска разыскивается дополнительная информация и вразных поисковых системах эти команды свои.