Текстовый поиск в WEB. Перспективы систем текстового поиска

Текстовый поиск в Web.

Поисковые машины Web. Проект Web первоначально предусматри­вал только навигационный доступ к представленным в его среде ин­формационным ресурсам с использованием гиперссылок, встроенных в HTML-страницы на стадии их разработки. Однако в связи с беспре­цедентно быстрым ростом объема поддерживаемых информационных ресурсов стало ясно, что для эффективного доступа к ним пользова­телей необходимо иметь возможности поиска нужных ресурсов по их свойствам.

Вот почему в середине 90-х годов начали появляться разнообразные общедоступные системы текстового поиска для Web. Их реализации не являются составной частью Web. Это приложения Web. Поисковые системы с определенной периодичностью сканируют страницы «подве­домственных» им Web-серверов, формируют или актуализируют индек­сы, с помощью которых обрабатываются поступающие пользователь­ские запросы.

Крупные поисковые системы Web поддерживают индексы гигантских объемов, обрабатывают большое количество пользовательских запро­сов. Ранние поисковые системы Web обеспечивали простейший контекс­тный поиск. Позднее стали появляться реализации булевских моделей по­иска. В настоящее время существует целый ряд систем текстового поис­ка для Web, универсальных и ориентированных на определенные пред­метные области, международных и национального масштаба. Все они поддержива­ют различные версии булевской модели поиска. Ряд систем обеспечи­вает ранжирование результирующего множества документов. Система AltaVista реализует некое подобие обратной связи релевантности — пре­доставляет пользователю гистограмму, характеризующую статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рам­ках идентифицированного таким способом подмножества информаци­онных ресурсов, доступных системе. Особенности Web как среды поиска:

· огромный объем поддерживаемых информационных ресурсов, кото­рый продолжает интенсивно нарастать;

· высокая степень динамичности коллекций информационных ресурсов Web; появляются новые и удаляются имеющиеся страницы, изменяет­ся местоположение страниц;

· взаимосвязанность совокупности страниц Web, поддерживаемая с по­мощью гиперссылок; эти связи могут использоваться при обработке запросов некоторых видов;

· отсутствие централизованного администрирования информационны­ми ресурсами; в связи с этим отсутствуют гарантии целостности от­дельных документов и связей между ними.

· возможность свободной (несанкционированной) публикации доку­ментов и их удаления из коллекции; вследствие чего - на­рушение целостности связей между документами коллекций и целост­ности отдельных документов;

· большая избыточность информационных ресурсов;

· неконтролируемое качество информационных ресурсов;

· существование многочисленной группы пользователей Web с недо­статочным уровнем подготовки или вообще без какой-либо подготовки, неспособной эффективно формулировать запросы, и как следствие - увеличение количества выдаваемых за­просов, перегрузка системы поиска;

· отсутствие возможности доступа к информационным ресурсам Web в любое время; не все Web-серверы функционируют в режиме 365x7x24; этот факт должен также учитываться в процессе поиска;

· многоязычность коллекций информационных ресурсов Web; это озна­чает, что необходимо иметь алгоритмы поиска, не зависящие от кон­кретного естественного языка, на котором представлены документы, анализируемые в процессе поиска.

Перспективы систем текстового поиска.

Многими исследовательскими коллективами ведутся разработки раз­ного рода подходов и прототипов инструментария для Web, обеспечива­ющего эффективную выборку требуемых информационных ресурсов. Довольно глубокая интеграция текстовых технологий и технологий баз данных обеспечивается объектно-реляционными серверами баз дан­ных ведущих поставщиков программного обеспечения систем баз дан­ных, хотя на этом пути не использованы все важнейшие достижения технологий текстового поиска.

Весьма серьезных последствий для развития систем текстового по­иска можно ожидать в связи с успешными интенсивными разработка­ми, направленными на создание технологической платформы Web ново­го поколения — платформы XML. В среде Web создаются многочисленные поиско­вые системы, ориентированные на какие-либо сообщества пользовате­лей. Это направление поисковых систем, несомненно, будет также активно развиваться.

Важно заметить, что системы текстового поиска в Web, основанные на платформе XML, обеспечивают уменьшение гранулярности досту­па. Объектами поиска вовсе не обязательно должны быть полные доку­менты. Поисковая система может выдавать по запросам пользователей интересующие их фрагменты документов. Благодаря этому можно существенно повысить эффективность работы пользователей с докумен­тами, поддерживаемыми в поисковых системах. Вот список тем, которые также представляют интерес в перспективе:

· формальные модели, в том числе модели языков;

· стратегии поиска;

· машинное обучение в системах информационного поиска; глубинный анализ текстов;

· кластеризация и категоризация текстовых документов; кросс-языковой поиск; многоязыковой поиск;

· использование машинного перевода в информационном поиске;

· фильтрация документов на основе их содержания;

· информационный поиск в Web;

· использование XML и метаданных;

· информационный поиск в электронных библиотеках;

· поиск мультимедийных информационных ресурсов;

· представление и индексирование текстовых документов;

· обработка текстов на естественном языке;

· производительность систем текстового поиска, их масштабируемость, архитектура, распределенный поиск;

· пользовательские интерфейсы, интерактивный информационный поиск;

· ответы на вопросы;

· оценка систем, построение тестовых коллекций, проведение экспери­ментов.

Наши рекомендации