Документальные информационные системы
Документальные системы (предназначенные для обработки, поиска, представления полнотекстовых документов или справочно-реферативной информации) ведут свое происхождение от библиотечно-реферативных служб или информационных центров, выпускающих реферативную информацию (обзоры, экспресс-информацию, реферативные журналы).
В данных системах единицей данных является документ.
В документальных системах моделью является наполнение, содержание БД, в том числе словарей, тезаурусов и т. д., поэтому основное внимание уделяется языковым, семантическим проблемам.
Примерами документальных поисковых систем являются библиотечные каталоги, в которых книга (документ) индексируется по фамилии авторов, тематике, году выпуска, по ключевым словам, содержащимся в тексте (в принципе, это и есть признак документального поиска, так другие перечисленные индексы могут быть реализованы и в фактографической ИС) и т.п.
ИПС – информационно-поисковая система, позволяет находить документы по определенным критериям, признакам или ключевым словам. Примером является функция «Поиск» в Windows, доступная из главного меню.
Документальный информационный поиск в сети Интернет.
Поисковые задачи в сети Интернет имеют следующие особенности:
1. Огромный объем доступной информации. За последние годы было предпринято множество попыток оценить размер ресурса Интернет, и, хотя оценки не полностью совпадают, все они единогласны в том, что в Интернет содержится более миллиарда страниц и их число увеличивается экспоненциально.
2. Высокий процент временной информации. Информация в Интернет очень динамична, информационные ресурсы непрерывно появляются, пропадают, перемещаются, обновляются. В среднем, ежемесячно изменяется около 40 % информации, среднее время жизни половины страниц в Интернет не превышает 10 дней.
3. Неконтролируемое качество информации. Отсутствие редакторского контроля над публикуемой информацией в Интернет обуславливает проблему ее качества - информация может быть некорректной (например, устаревшей), ложной, плохо сформулированной, содержать ошибки (опечатки, грамматические ошибки, ошибки оцифровки и т. п.). Так, по некоторым оценкам, одна опечатка встречается в среднем в каждых двухстах часто употребляемых словах или в трех иностранных фамилиях.
4. Разнородность информации. Кроме различных форматов представления информации, используется также множество различных языков и алфавитов. Около 30 % информации в Интернет составляют точные или приблизительные копии других документов.
5. Структура процессов в поисковых системах WWW.Ключевым отличием данных систем от классических АИПС является наличие сетевых роботов - программных модулей-агентов, занимающихся сбором информации о доступных WWW-pecypcax. Они осуществляют сканирование и, начиная с некоторого множества ссылок (URL) на WWW-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки из получаемых документов.
Собранная информация помещается в хранилище, содержимое которого определяет набор документов, по которым идет поиск.
Как и в классических ИПС, для достижения приемлемой эффективности поиск производится не напрямую по документам в хранилище, а по индексным структурам, за создание которых отвечает модуль индексирования.
Получение и выполнение запросов пользователей - это задача модуля поисковой машины.
При исследовании задачи сканирования возникает ряд вопросов.
1. Выбор WWW-ссылок для индексирования. Обычно робот имеет информацию о существовании множества еще не отсканированных ресурсов и может выбирать, какой из них «посетить» следующим. Этот выбор осуществляется согласно используемой роботом стратегии сканирования, которая напрямую определяет множество страниц, которое будет обработано роботом и, как следствие, какие страницы будут известны поисковой системе.
2. Частота обновления индекса. В связи с высокой динамикой изменений в WWW собранная информация о многих посещенных страницах довольно быстро перестает отражать их реальное текущее содержание.
3. Минимизация нагрузки на WWW-серверы. Робот не должен перегружать сервер своими запросами или сканировать информацию против воли владельца сервера.
4. Организация параллельного сканирования. Одним из способов повышения производительности является параллельный запуск нескольких роботов на разных машинах, но при этом необходим хорошо масштабируемый механизм координации их действий (например, чтобы они одновременно не сканировали один и тот же адрес).