Средства поиска информации:каталоги и поисковые системы Интернет.
Необходимость и важность проблемы информационного поиска привела к образованию в самом Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить насправочники(directories) и поисковые системы(searchengines).
Эти разновидности внешне очень похожи, поскольку каждый справочник, как правило, обладает собственной поисковой системой, а каждая поисковая система – собственным справочником. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат разысканий.
Поисковые средства первой группы, называемые ещекаталогамиилирубрикаторами,представляют собой электронные справочники, имеющие четкую иерархическую систематическую или логико-тематическую структуру, во многом напоминающую структуру систематического каталога библиотеки. Работа со справочниками позволяет ориентироваться в ресурсах Интернет в пределах отдельных отраслей знания, углубляясь от общего к частному, меняя иерархические ветви, возвращаясь на несколько шагов назад и т.д.
Главной отличительной особенностью справочников является то, что все они сделаны вручную. Редакционные коллегии каждого из справочников, которые по характеру труда более всего напоминают отделы каталогизации и систематизации крупных библиотек, регулярно просматривают содержимое вновь появившихся серверов и следят за изменениями на уже существующих. Выявленные данные анализируются и заносятся в разделы справочника в соответствии с принятой классификацией. Описание сервера в целом или его раздела, если он представляется вполне самостоятельным блоком, снабжаются краткой аннотацией, содержащей самые общие сведения о характере имеющейся информации. В некоторых случаях добавляются сведения о языке документов, посещаемости ресурса, его физическом месторасположении и т.п. Естественно, что подобным образом можно описать лишь часть ресурсов Сети, да и то только весьма крупные объекты, такие, как, например, сервера организаций и учреждений. По причине огромной трудоемкости такой работы, справочники отражают лишь незначительную часть ресурсов Сети, в первую очередь наиболее заметные сайты. Не может исправить ситуацию и то, что в последние несколько лет владельцы серверов получили возможность самостоятельно регистрировать собственные сайты, занося в специальные формы всю необходимую информацию, включая краткую аннотацию. Это в незначительной степени экономит время редакторов, которые обязаны проверить правильность всех введенных данных по каждому ресурсу.
Основными параметрами, характеризующими достоинства справочников являются:
- объем;
- оперативность отражения новых или изменившихся ресурсов;
- логичность и последовательность иерархической схемы классификации;
- перекрестность структуры.
Объемомсправочника определяется степень его надежности или "информационная прочность". От этого зависит уровень доверия, который пользователи питают к конкретному каталогу. Так как материалы в Интернет появляются, изменяются, а порой и бесследно исчезают ежедневно, важно то, насколькооперативнопоявляются ссылки на новые сайты и исправляются или удаляются ссылки на устаревшие ресурсы. В некоторых системах существует специальный механизм, периодически проверяющийдоступностьсайта и исключающий его из перечня при долгом "отсутствии" в Сети.Логичностью(научностью) применяемой схемы классификации определяется степень простоты, с которой пользователи могут находить требуемые сведения. Система жеперекрестных ссылокпозволяет выявлять информацию, используя разные подходы (например, территориальный или отраслевой). В этом случае схема классификации должна автоматически выводить пользователя на искомый объект, какой бы путь поиска не был выбран.
Возможности составления запроса для этого вида поисковых средств особой роли не играют, так как сложные разыскания, требующие большой детализации запроса, с помощью каталогов не проводятся.
Справочники предназначены для решения трех типов задач:
- ориентация в незнакомой отрасли знания;
- разыскание крупных объектов, каковыми являются, к примеру, серверы целых организаций или значительных проектов;
- получение готового перечня ресурсов, имеющих размытый поисковый образ, например, клиник пластической хирургии, библиотек определенного типа, транспортных расписаний или сайтов различных политических партий.
Следует помнить, что, обращаясь к справочникам, мы изначально можем рассчитывать на получение лишь очень общих сведений по тематике, и никогда – детальных данных. Понять это помогает простой пример, когда от сервера крупной корпорации, например, "Газпром", содержащего тысячи страниц, в справочнике будет представлено лишь название и несколько строк аннотации. Другим примером является сравнение справочника ресурсов Интернет с систематическим каталогом библиотеки, в котором от книги (в данном случае целого сайта) остается лишь описание и аннотация.
В основу работы поисковых систем (поисковых машин) заложены совершенно иные технологические принципы. Задача поисковых машин - обеспечивать детальное разыскание информации в электронной вселенной, что может быть достигнуто только за счет учета (индексирования) всего содержания максимально возможного числа web-страниц. В отличие от справочников, все они функционируют в автоматизированном режиме и имеют одинаковый принцип действия. Поисковые системы состоят из двух базовых компонентов. Первый компонент представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. При этом робот, просматривая содержимое документа, находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, находит новые документы и ссылки в них, после чего процесс повторяется вновь, напоминая хорошо известный в библиографии "метод снежного кома". Выявленные документы обрабатываются (индексируются) вторым компонентом поисковой системы. При этом, как правило, учитывается все содержание страницы, включая текст, иллюстрации, аудио- и видеофайлы и пр. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и составляют базу данных, к которой происходит обращение пользователей, вводящих в строку запроса сочетания ключевых слов.
Выдача результатов осуществляется с помощью специального модуля, который производит интеллектуальное ранжирование результатов. При этом берется в расчет местоположение термина в документе (название, заголовок, основной текст), частота его повторения, процентное соотношение искомого термина к остальному тексту страницы, а также число и авторитетность внешних ссылок на данную страницу с других сайтов.
К основным параметрам поисковых систем относятся:
- объем индексных файлов (число проиндексированных серверов и отдельных документов);
- степень оперативности обновления базы данных за счет включения сведений о новых материалах и удаления устаревших;
- возможности для составления запроса;
- интеллектуальность системы ранжирования результатов поиска;
- наличие дополнительных сервисных функций, облегчающих работу пользователя.
Первая величина, являющаяся ключевой, устанавливаетшироту охвата материалаи определяется числом проиндексированных документов. Сейчас эта цифра для лидеров мирового сетевого поиска колеблется в пределах от 2 до 4 с лишним миллиардов.
Учитывая тот факт, что в среднем интернетовский адрес сохраняет актуальность до полугода, после чего документ или меняет местоположение или убирается с сервера, большое значение имеет уровеньоперативности обновления данных, характеризующий степень соответствия индексного файла поисковой системы реальному местоположению документов на сайтах. В настоящее время этот параметр колеблется от двух недель до полутора месяцев.
Возможности поискового механизмавыражать запрос максимально точно в значительной степени предопределяют долю релевантных документов в перечне полученных результатов. Каждая машина имеет свою собственную лексику, которая по-разному позволяет детализировать поисковое предписание.
Все поисковые машины обладаютмодулем ранжирования результатов поиска. Создание таких модулей – целая область программирования, в которой конкурируют сложнейшие алгоритмы, созданные разными компаниями. Перечень факторов, принимаемых во внимание при определении места документа в перечне ссылок, необычайно широк: от местоположения слова на странице до рейтинга (авторитета) страниц, имеющих ссылки на найденный документ.
Не последнюю роль играет и простота интерфейса, наличиедополнительных сервисных функций, как, например, возможность перевода текста документа на иностранный язык, способность выделять все документы с определенного сайта, сужение критериев в ходе поиска, нахождение документов "по образцу" и т.д.
По этим параметрам среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности. К наиболее авторитетным поисковым системам всемирного масштаба в настоящее время относятсяGoogle(www.google.com),AlltheWeb(www.alltheweb.com) иAltaVista(www.altavista.com). Российские системы этого класса ныне представленыЯндекс(www.yandex.ru),Rambler(www.rambler.ru) иАпорт(www.aport.ru).
Полезно представлять, как эти системы устроены. В составе любой поисковой системы можно выделить три основные части.
Робот –подсистема, обеспечивающая просмотр (сканирование) Интернета и поддержание инвертированного файла (индексной базы данных) в актуальном состоянии. Этот программный комплекс является основным средством сбора информации о наличии и состоянии информационных ресурсов сети.
Поисковая база данных –так называемый индекс –специальным образом организованная база (англ. indexdatabase), включающая, прежде всего, инвертированный файл, который состоит из лексических единиц, взятых из проиндексированных веб-документов, и содержит разнообразную информацию о них (в частности, их позиции в документах), а также о самих документах и сайтах в целом.
Поисковая система –подсистема поиска, обеспечивающая обработку запроса (поискового предписания) пользователя, поиск в базе данных и выдачу результатов поиска пользователю. Поисковая система общается с пользователем через пользовательские интерфейсы – экранные формы программ-браузеров: интерфейс формирования запросов и интерфейс просмотра результатов поиска.
Индексный файл (или просто индекс) представляет собой набор связанных между собой файлов, ориентированных на быстрый поиск данных по запросу. В основе индекса всегда лежит инвертированный файл. Инвертированная (инверсная) схема организации поискового массива основана на принципе обеспечения доступа к документам через их идентификаторы содержания (поисковые признаки: дескрипторы, ключевые слова, термины, другие признаки). Такую схему получают путем обработки последовательного массива документов с целью создания специальных вспомогательных инвертированных файлов – точек доступа.
Каждая запись такого вспомогательного массива идентифицирована соответствующим идентификатором содержания (дескриптор, ключевое слово, просто термин, имя автора, название организации и т.п.) и содержит имена (адреса хранения) всех документов, в поисковых образах которых он содержится. Для каждого идентификатора содержания (поискового элемента данных) в инвертированном массиве вместе с адресом (номером, именем) документа может храниться (и обычно хранится) дополнительная информация, как-то: имя поля, номер предложения, в составе которых данный элемент встретился в данном документе, номер слова в предложении и т.д. Фиксация положения слова в тексте с точностью до номера предложения и номера этого слова в предложении позволяет построить гибкий язык запросов, позволяющий задавать расстояние между словами и предложениями в документе. Позиционные характеристики также используются при вычислении коэффициента релевантности и ранжировании документов в выдаче.
Нахождение необходимых документов через инвертированный файл осуществляется не сплошным просмотром всего массива, а просмотром лишь тех идентификаторов содержания в инвертированном файле, которые заданы в поисковом предписании, т.е. число операций сравнения слов при поиске пропорционально числу терминов поискового предписания. Такой способ работы систем снижает время на поиск и позволяет обслуживать потребителей информации в реальном масштабе времени.
Поиск в индексе – это операции над списками идентификаторов поисковых элементов в соответствии с моделью поиска и критерием соответствия. Результирующий список релевантных документов (в современной терминологии «отклик»), который преобразуется в ранжированный список кратких описаний документов, снабженных гипертекстовыми ссылками и другими характеристиками, возвращается пользователю в его клиентскую программу-браузер. Щелчок мышью по названию документа в его кратком описании (по гиперссылке) запрашивает этот документ либо непосредственно с того сервера, на котором он находится, либо через базу данных поисковой системы.
Важным компонентом современных ИПС являются так называемые интерфейсные веб-страницы, т.е. экранные формы, через которые пользователь общается с поисковой системой. Различают два основных типа интерфейсных страниц: страницы запросов и страницы результатов поиска.
Содержательная проблема при индексировании веб-сайтов заключается в том, какие термины приписываются документам, откуда они берутся. Особенности построения и структура индекса напрямую связаны с языком запросов и возможностями поисковых систем. Наиболее важными с точки зрения пользователя представляются следующие особенности ИПС:
· индексирование полных текстов возможно большего числа сайтов;
· «грамотная» работа со словоформами — способность ИПС отождествлять разные словоформы одной и той же лексемы, по-другому, порождать каноническую форму — лемму, и возможность выделять среди множества словоформ конкретную форму;
· поиск слов с заданным или произвольным усечением, как правым, так и левым;
· работа со словосочетаниями — учет расстояния между словами в словосочетаниях и порядка их следования;
· эффективные алгоритмы вычисления коэффициента смысловой релевантности и ранжирования результатов поиска.
Также важно, какую информацию и в каком виде можно извлечь из выходных интерфейсов ИПС. Интерфейс выдачи (форма представления результатов) у разных систем включает такие параметры: статистика слов из запроса, количество найденных документов, количество сайтов, средства управления сортировкой документов в выдаче, краткое описание документов и др. Описание каждого документа, в свою очередь, может содержать в своем составе: заглавие документа, URL (адрес в сети), объем документа, дату создания, название кодировки, аннотацию, шрифтовое выделение в аннотации слов из запроса, указание на другие релевантные веб-страницы того же сайта, ссылка на рубрику каталога, к которой относится найденный документ или сайт, коэффициент релевантности, другие возможности поиска (поиск похожих документов, поиск в найденном). Большой интерес представляют также частотные характеристики — сведения о количестве найденных документов и отождествленных языковых единиц. Некоторые системы ведут журнал запросов с возможностью повторных поисков и выдачей статистики по запросам. Полезной и интересной возможностью является также отнесение документов к тематическим классам.
Тема 5. Технологии Web 2.0
1. Понятие Web 2.0: отличительные особенности технологии.
2. Основные сервисы Web 2.0.