Модели текстового поиска, дополнительные возможности современных систем текстового поиска
Одним из ключевых понятий, характеризующих технологию поиска в той или иной конкретной системе, является модель поиска.Под моделью поиска понимается: сочетание способа представления документов, поисковых запросов; вида критерия релевантности документов.
Простейшие модели поиска.Это модели, в которых документ представлен в виде набора ассоциированных с ним внешних атрибутов. Пример: модель дескрипторного поиска, модель поиска, основанная на Дублинском ядре.
Модели, основанные на классификаторах,выделены в особую категорию, но представляют одну из разновидностей простейших моделей. В этой модели документы представляются идентификаторами классов в иерархической структуре классификатора. Представление запроса в простейшем случае - идентификатор какого-либо класса из заданного классификатора. Критерий релевантности - совпадение класса документа с классом в представлении запроса. В более сложном случае допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов.
Булевские модели.Ихособенность в том, что пользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Критерий релевантности документа запросу в таких моделях поиска - истинность булевского выражения, заданного в запросе. Недостатки булевских моделей. Не позволяют ранжировать найденные документы по релевантности, т. к. отсутствуют критерии ее оценки. Кроме того, не каждый пользователь может свободно оперировать булевскими операторами при формулировке своих запросов.
Векторные модели. Вероятно, самыми распространенными моделями являются векторные модели поиска (векторные пространства). Документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста. Каждый терм словаря имеет свое векторное измерение. Координате вектора присваивается некоторое ненулевое значение только в том случае, когда соответствующий ей терм принадлежит данному документу/запросу. Для оценки релевантности документа запросу в векторных моделях используются векторные функции, аргументами которых выступают представляющие их вектора. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса или их скалярное произведение. Поскольку ненулевые координаты векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции-меры в обоих этих случаях оказывают влияние только термы, общие для документа и запроса.
Сети вывода. Сети вывода, как и вероятностные модели поиска, основаны на принципе вероятностного ранжирования результирующих документов поиска. Однако, в отличие от вероятностных моделей, в моделях сетей вывода рассматривается оценка не вероятности релевантности документа запросу, а вероятности того, что он удовлетворяет информационным потребностям пользователя. Модели этого семейства описывают процесс поиска документов как процесс рассуждений в условиях неопределенности, в котором оценивается вероятность того, что выраженные с помощью одного или нескольких запросов информационные потребности пользователя удовлетворяются.
Дополнительные возможности. Взвешивание термов запроса. В формулировке запроса не все термы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать вес применяемым в запросе термам с тем, чтобы охарактеризовать их значимость. Эта информация нужна при вычислении оценок релевантности или вероятности соответствия документов коллекции информационным потребностям пользователя.
Ранжирование результатов поиска. Т. к. количество результирующих документов обычно бывает значительным, важно упорядочить документы, выдаваемые пользователю, так, чтобы в начале списка находились те, которые в большей мере представляют интерес для пользователя. Такая операция называется ранжированием. Развитые системы текстового поиска обладают механизмами, обеспечивающими такую возможность, и в зависимости от модели поиска документы упорядочиваются по оценкам их релевантности или вероятности удовлетворения информационных потребностей пользователя.
Обратная связь релевантности. Этот метод основан на информации обратной связи, получаемой от пользователя. Результаты обработки запроса могут не удовлетворять пользователя. Во многих системах пользователь может дать оценку релевантности полученных документов. Т. к. количество результирующих документов м. б. довольно больших, пользователю предлагается оценить хотя бы несколько первых документов в списке. Система может использовать термы этих документов для формирования нового, расширенного запроса, который будет точнее выражать информационные потребности пользователя. Такой процесс обработки запроса и его модификации, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска.
Расширение запросов. Имеется в виду расширение представления запроса, предложенного системе пользователем. Расширение запроса осуществляется на основе:
· синонимов термов, содержащихся в запросе.
· термов, которые находятся с термами запроса в некоторых других семантических отношениях, определенных тезаурусом предметной области.
· термов результирующих документов, оцененных пользователем в системах, обеспечивающих обратную связь релевантности;
· часто встречающихся орфографически-ошибочных форм некоторых термов запроса
Автоматическое индексирование полного текста основано на выделении встречающихся в нем отдельных слов, за исключением стоп-слов, а также словосочетаний. Каждый из таких термов используется для построения индекса документов данной коллекции. Используется два способа для выделения устойчивых словосочетаний — лингвистический, на основе синтаксического анализа текста, и статистический, который основан на анализе статистики совместного вхождения слов в текст документа.
Мультиязыковой поиск. Некоторые системы позволяют осуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из проблем является идентификация языка.
Кросс-языковой поиск. Существуют системы, допускающие ситуации, когда запрос пользователя определен на одном языке, а множество документов коллекции, в которой должен осуществляться поиск, представлено на другом языке. Пользователь может обращаться на каком-либо одном языке к коллекциям документов международных организаций или любой организации в стране, где существует несколько государственных языков. Такие коллекции могут содержать документы на разных языках. Основная проблема - в сопоставлении документа и запроса, представленных на разных языках. Для ее решения необходим перевод документов, перевод запросов либо перевод того и другого вместе. Трудность решения проблемы состоит еще и в том, что запросы редко представляют собой законченные предложения. Поэтому при их переводе трудно не утратить смысл, особенно в отсутствие контекста.
Доставка документов по назначению состоит в том, чтобы присвоить вновь поступившим документам баллы в соответствии со степенью релевантности и на этой основе произвести их ранжирование. Многие исследования в этой области посвящены созданию методов, обучающихся на заданной коллекции документов, о каждом из которых заранее известно, что он релевантный или нерелевантный.
Фильтрация документов. Цель состоит в отборе из входного потока документов, которые соответствуют информационным потребностям данного пользователя.В отличие от традиционных систем текстового поиска, которые имеют дело с коллекциями, не изменяющимися в процессе поиска, фильтрация документов оперирует динамическим входным потоком документов, например потоком новостных сообщений. Задача фильтрации заключается в следующем. Предварительно задается описание долговременных информационных потребностей данного пользователя - профиль пользователя. Для каждого документа определяется, соответствие профилю. В зависимости от этого документ направляется пользователю или игнорируется. Т. е. профиль пользователя играет роль пользовательского запроса.