Линейная модель работы ИПС.

Пусть в системе имеется t дескрипторов (иначе говоря, объем тезауруса равен t). Тогда любой документ (точнее его поисковый образ) можно идентифицировать с помощью битового (двоичного) вектора (x1,…..,xt), где xj=1, если j-й дескриптор присутствует в описании документа, в противном случае xi=0.

Если в системе d документов, то вся информация может быть представлена с помощью матрицы Cdt:

Линейная модель работы ИПС. - student2.ru
i-я строка матрицы является описанием i-го документа.

Запрос (точнее его поисковое предписание) также можно представить в виде битового вектора Линейная модель работы ИПС. - student2.ru

Линейная модель работы ИПС. - student2.ru - количество дескрипторов, которые одновременно присутствуют и в запросе и в i-м документе. Эта величина называется критерием релевантности i-го документа относительно запроса Линейная модель работы ИПС. - student2.ru . Линейная модель работы ИПС. - student2.ru =(r1,….,rd) - вектор релевантностей для запроса Линейная модель работы ИПС. - student2.ru . Результатом поиска обычно признаются документы, релевантность которых выше заданного порога r*, который должен зависеть от числа дескрипторов в запросе и в документе, что не очень удобно.
Выражение для Линейная модель работы ИПС. - student2.ru можно записать в матричной форме: Линейная модель работы ИПС. - student2.ru =C Линейная модель работы ИПС. - student2.ru .

Пример. Пусть в системе имеется 6 дескрипторов и 2 документа имеющих описания (1,1,1,0,0,0) и (1,1,1,1,1,1). Подается запрос Линейная модель работы ИПС. - student2.ru =(1,1,1,0,0,0). Тогда r1=r2=3, хотя очевидно, что 1-й документ лучше соответствует запросу.

Другой критерий: Линейная модель работы ИПС. - student2.ru

Для рассматриваемого примера в этом случае r1=1, r2=1/2.

Видно, что второй критерий более совершенен, что объясняется учетом не только совпадений дескрипторов в описаниях, но и несовпадений.
К сожалению, в силу человеческого фактора, однотипные документы часто характеризуют разными ключевыми словами, и это необходимо учесть в поисковой модели. Целесообразно учитывать степень похожести дескрипторов и документов.

Вычислим матрицы A, D:

Att=СTtdCdt, Ddd= CdtCTtd.

Элемент ajm матрицы A показывает количество одновременных присутствий j-го и m-го дескрипторов в описаниях документов, а элемент dik матрицы D– количество общих дескрипторов в i-м и k-м документах. Таким образом, матрица A показывает степень похожести дескрипторов, а матрица D – степень похожести документов. С помощью определения порогов a* и d* эти матрицы приводятся к бинарному виду:
Пусть:

         
A =   D =
         
  a ٭ = 3     d ٭ = 3

aij ≤ a*=> aij' = 0
aij > a* => aij = 1
dij ≤ d*=> dij' = 0
dij > d* => dij = 1

         
A =   D =
         

Имеем смысл использовать критерий:

R=D'(C (A' Q))

Фактически в этом случае все похожие дескрипторы автоматически добавляются к запросу, по расширенному запросу производится поиск, а затем к множеству полученных документов добавляются похожие.

Наши рекомендации