Недостатки основных характеристик
Применение мер полноты и точности для оценки эффективности поиска имеет ряд ограничений. Во-первых, из определений (3.1) и (3.2) ясно, что измерения и обычно привязаны к конкретному массиву документов и конкретному множеству запросов. В пределах такой фиксированной среды имеется возможность варьировать методы и язык индексирования, методику поиска, и в результате можно определить, как эти изменения влияют на работоспособность системы с точки зрения полноты и точности. Однако абсолютно неприемлемо сравнивать показатели полноты и точности совершенно различных систем, основанных на разных массивах документов, наборах запросов и группах пользователей.
Например, полнота и точность в той или иной степени зависят от размера информационного массива и среднего количества релевантных документов, находящихся в массиве. Можно предполагать, что по мере роста объема массива полнота и точность будут ухудшаться, если только количество релевантных документов не будет увеличиваться пропорционально размеру массива. То же справедливо для случая, когда при анализе эффективности используется новое множество запросов, для которого среднее количество релевантных документов меньше, чем для первоначального множества запросов [8, 11].
Во-вторых, коэффициенты полноты и точности несложно вычислить только в том случае, если каждый документ можно однозначно отнести либо к множеству релевантных, либо нерелевантных. Когда размер информационного массива сравнительно невелик (в локальных ИПС или тестовых наборах документов глобальных ИПС), часто имеется возможность получить однозначные оценки релевантности каждого документа по отношению к конкретным запросам.
В более крупных массивах исчерпывающие оценки релевантности обычно невозможны. Здесь для получения достоверных показателей полноты бывает необходимо оценить как общее число релевантных документов в массиве, так и позицию (ранг) релевантных документов в списке выданных. Это можно сделать методами случайных выборок. Список релевантных документов может быть получен на основе оценок релевантности только выданного множества документов.
Кроме того, классификация релевантности на основе бинарной логики не вполне адекватна понятию релевантности. Документ может быть частично релевантен информационной потребности. Возможна ситуация, когда информационную потребность удовлетворяет совокупность из нескольких документов, и при этом релевантность каждого из них можно охарактеризовать некоторым числом. При этом использование формальной релевантности, значение которой рассчитывается для каждого документа в ходе выполнения поискового алгоритма, является неприемлемым для анализа качества работы системы с точки зрения потребителей [8].
Специфика сети Интернет также накладывает существенные ограничения на применение показателей полноты и точности для оценки эффективности поиска [3].
К факторам, влияющим на расчет этих характеристик, относятся очень большое количество документов, значительная доля релевантных документов, ограниченность возможностей пользователя. Остановимся на них более подробно.
В настоящее время в сети Интернет находится несколько миллиардов документов, причем их число постоянно увеличивается. В массивах поисковых образов наиболее мощных ИПС содержатся сведения о части этих документов, которая составляет по разным оценкам от трех до восьми миллиардов документов, по состоянию на конец 2002 года.
При определении коэффициента полноты поиска используется количество релевантных документов, не выданных ИПС (3.1). Как отмечалось выше, оценить это количество можно на основе изучения некоторой выборки этих документов. Однако построение такой выборки вызывает существенные затруднения из-за невозможности охвата всех документов. Недостаточная представительность выборки обуславливает появление значительной систематической погрешности при расчете числа невыданных релевантных документов.
В последние 5-8 лет происходит интенсивный процесс перевода в электронную форму и размещения в сети Интернет основного массива наиболее значимых из созданных ранее печатных документов. В тоже время многие вновь создаваемые документы практически сразу размещаются в сети. В результате большинству возникающих у пользователя информационных потребностей соответствуют десятки тысяч релевантных документов, размещенных в сети. Вместе с тем релевантная информация во многих документах совпадает, и пользователю достаточно просмотреть лишь несколько из них. Таким образом, высокое значение коэффициента полноты не является актуальным и может приближаться к нулю в случае успешного поиска. Следовательно, этот коэффициент в данном случае не является адекватным описанием эффективности информационного поиска [3, 9].
Ограниченность возможностей пользователя состоит в том, что практически всегда на просмотр и изучение результатов поиска выделяется ограниченное время. Более половины пользователей изучают только первые 10 документов, выдаваемых поисковой системой, а пятая часть – первые 20 документов. Поэтому при оценке качества поиска следует учитывать только ту часть результатов поиска, которая реально может быть изучена, а не весь список выданных системой документов [17, 20].
Подводя итог, отметим, что в настоящее время не существует универсальной меры эффективности ИПС, которая бы устраняла описанные недостатки. Наличие большого количества характеристик, которые с трудом поддаются формализации приводит к тому, что единой теории оценки ИПС до сих пор нет, а предлагаемые методы оценки носят экспериментальный характер. Тем не менее оценка качества поиска является одним из основных факторов, влияющих на развитие ИПС [8, 11, 31].
[1] Полнота – англ. Recall.
[2] Точность – англ. Precision.
[3] Выпадение – англ. Fallout.
[4] Ошибка – англ. Error.