Текстовый поиск в WEB. Перспективы систем текстового поиска

Текстовый поиск в Web.

Поисковые машины Web. Проект Web первоначально предусматривал только навигационный доступ к представленным в его среде информационным ресурсам с использованием гиперссылок, встроенных в HTML-страницы на стадии их разработки. Однако в связи с беспрецедентно быстрым ростом объема поддерживаемых информационных ресурсов стало ясно, что для эффективного доступа к ним пользователей необходимо иметь возможности поиска нужных ресурсов по их свойствам.

Вот почему в середине 90-х годов начали появляться разнообразные общедоступные системы текстового поиска для Web. Их реализации не являются составной частью Web. Это приложения Web. Поисковые системы с определенной периодичностью сканируют страницы «подведомственных» им Web-серверов, формируют или актуализируют индексы, с помощью которых обрабатываются поступающие пользовательские запросы.

Крупные поисковые системы Web поддерживают индексы гигантских объемов, обрабатывают большое количество пользовательских запросов. Ранние поисковые системы Web обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В настоящее время существует целый ряд систем текстового поиска для Web, универсальных и ориентированных на определенные предметные области, международных и национального масштаба. Все они поддерживают различные версии булевской модели поиска. Ряд систем обеспечивает ранжирование результирующего множества документов. Система AltaVista реализует некое подобие обратной связи релевантности — предоставляет пользователю гистограмму, характеризующую статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информационных ресурсов, доступных системе. Особенности Web как среды поиска:

· огромный объем поддерживаемых информационных ресурсов, который продолжает интенсивно нарастать;

· высокая степень динамичности коллекций информационных ресурсов Web; появляются новые и удаляются имеющиеся страницы, изменяется местоположение страниц;

· взаимосвязанность совокупности страниц Web, поддерживаемая с помощью гиперссылок; эти связи могут использоваться при обработке запросов некоторых видов;

· отсутствие централизованного администрирования информационными ресурсами; в связи с этим отсутствуют гарантии целостности отдельных документов и связей между ними.

· возможность свободной (несанкционированной) публикации документов и их удаления из коллекции; вследствие чего - нарушение целостности связей между документами коллекций и целостности отдельных документов;

· большая избыточность информационных ресурсов;

· неконтролируемое качество информационных ресурсов;

· существование многочисленной группы пользователей Web с недостаточным уровнем подготовки или вообще без какой-либо подготовки, неспособной эффективно формулировать запросы, и как следствие - увеличение количества выдаваемых запросов, перегрузка системы поиска;

· отсутствие возможности доступа к информационным ресурсам Web в любое время; не все Web-серверы функционируют в режиме 365x7x24; этот факт должен также учитываться в процессе поиска;

· многоязычность коллекций информационных ресурсов Web; это означает, что необходимо иметь алгоритмы поиска, не зависящие от конкретного естественного языка, на котором представлены документы, анализируемые в процессе поиска.

Перспективы систем текстового поиска.

Многими исследовательскими коллективами ведутся разработки разного рода подходов и прототипов инструментария для Web, обеспечивающего эффективную выборку требуемых информационных ресурсов. Довольно глубокая интеграция текстовых технологий и технологий баз данных обеспечивается объектно-реляционными серверами баз данных ведущих поставщиков программного обеспечения систем баз данных, хотя на этом пути не использованы все важнейшие достижения технологий текстового поиска.

Весьма серьезных последствий для развития систем текстового поиска можно ожидать в связи с успешными интенсивными разработками, направленными на создание технологической платформы Web нового поколения — платформы XML. В среде Web создаются многочисленные поисковые системы, ориентированные на какие-либо сообщества пользователей. Это направление поисковых систем, несомненно, будет также активно развиваться.

Важно заметить, что системы текстового поиска в Web, основанные на платформе XML, обеспечивают уменьшение гранулярности доступа. Объектами поиска вовсе не обязательно должны быть полные документы. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Благодаря этому можно существенно повысить эффективность работы пользователей с документами, поддерживаемыми в поисковых системах. Вот список тем, которые также представляют интерес в перспективе:

· формальные модели, в том числе модели языков;

· стратегии поиска;

· машинное обучение в системах информационного поиска; глубинный анализ текстов;

· кластеризация и категоризация текстовых документов; кросс-языковой поиск; многоязыковой поиск;

· использование машинного перевода в информационном поиске;

· фильтрация документов на основе их содержания;

· информационный поиск в Web;

· использование XML и метаданных;

· информационный поиск в электронных библиотеках;

· поиск мультимедийных информационных ресурсов;

· представление и индексирование текстовых документов;

· обработка текстов на естественном языке;