Полнота и точность поиска
Эффективность поисковых систем
Критерии эффективности
Эффективность любой информационной системы определяется ее способностью служить тем целям, для которых она была разработана. Поскольку ИПС существует в конечном счете для удовлетворения информационных потребностей, критерии ее эффективности определяются пользователями [11, 29].
Существует два направления оценки качества работы поисковых систем. В одном случае анализируется отдельно взятая ИПС, в другом – определяются характеристики эффективности по сравнению с другими системами. Оценивать эффективность ИПС можно либо количественно, либо качественно.
При первом типе оценки качества выводы должны быть тщательно проверены и подтверждены экспериментальными доказательствами, а рассматриваемая поисковая система должна быть подвергнута комплексным испытаниям. Программа испытаний при этом должна учитывать большинство параметров и переменных системы и основываться на убедительном теоретическом базисе. Испытания второго типа не обязательно приводят к бесспорно доказуемым результатам. Подобные испытания часто можно проводить, используя имитационные методы. Практика показывает, что многое о качестве работы системы удается узнать из серии качественных экспериментов, даже если отсутствует полная уверенность в применимости полученных результатов к конкретным эксплуатационным условиям [11].
Оценка поисковых систем может производиться на нескольких уровнях [8, 29]:
- инженерный уровень исследует характеристики эффективности программного и аппаратного обеспечения: надежность, гибкость, скорость вычислений, а также эффективность применяемых поисковых алгоритмов;
- на уровне входа изучаются вопросы, связанные с входной информацией и внутренним содержимым системы, в частности, о степени полноты имеющихся информационных ресурсов в определенной области;
- уровень обработки рассматривает вопросы качества работы алгоритмов поиска, обоснованности применяемых методов и подходов;
- на уровне выхода исследуется взаимодействие пользователя с системой и работа с полученными результатами: вид представления найденных документов, оценка механизмов обратной связи и т. д;
- уровень применимости системы анализирует возможности использования результатов поиска для решения стоящей перед пользователем задачи и степень полезности этих результатов;
- социальный уровень исследует влияние системы на ее окружение, а именно на эффективность принятия решений, производительность труда и т. д.
В зависимости от целей и условий оценки эффективности можно выбрать множество методов исследования. На практике часто применяется метод макрооценки. Анализируемая ИПС рассматривается в таком случае как черный ящик, то есть ее структура не принимается во внимание, а акцент делается на затраты времени и ресурсов на уровне входа и получение нужных документов на уровне выхода [4].
Необходимо отметить, что испытание ИПС в любом случае должно производиться с использованием набора запросов, отражающего реальные типы запросов, которые в действительности поступают в условиях эксплуатации системы. Одновременно оценка релевантности найденных разными системами документов должна проводиться одними и теми же пользователями (экспертами) [8, 11].
Принято выделять несколько основных критериев эффективности ИПС:
1. Полнота поиска - способность ИПС выдавать все релевантные документы.
2. Точность поиска - способность ИПС отсеивать нерелевантные документы.
3. Усилия, затрачиваемые на формулирование запросов, взаимодействие с системой и просмотр выдаваемой информации.
4. Форма представления найденной информации.
5. Полнота информационного массива, то есть степень охвата всех релевантных информационных ресурсов, интересующих пользователей.
Некоторые из этих критериев можно измерить довольно легко. Например, затраты труда пользователей можно выразить через время, необходимое для формулирования запроса, диалога с системой и просмотра полученной информации. Так же непосредственно можно оценить форму представления документов. Определение полноты охвата информационного массива может вызывать затруднения, если заранее неизвестно количество документов, представляющих интерес в данной предметной области. Это особенно характерно для глобальных ИПС сети Интернет. Наиболее трудным как принципиально, так и практически, является определение мер полноты и точности, то есть оценка качества результатов поиска.
Полнота и точность поиска
Коэффициент полноты – это доля полученных релевантных документов по сравнению с их общим количеством в поисковом массиве. Коэффициент точности – это доля релевантных документов среди выданных.
Введем обозначения [8]:
– количество полученных в результате поиска релевантных документов,
– количество нерелевантных документов, выданных ИПС,
– число релевантных документов в поисковом массиве, не выданных ИПС,
– число невыданных релевантных документов.
Табл. 2 иллюстрирует подобное разделение документов на подмножества.
Таблица 2. Разделение документов в процессе поиска
Тогда коэффициент полноты[1] и коэффициент точности[2] можно определить по формулам:
, | (3.1) |
. | (3.2) |
Часто используются дополнительные меры оценки – коэффициент выпадения[3] , характеризующий количество возвращаемых системой нерелевантных документов, и коэффициент ошибки[4] , описывающий правильность определения поисковой системой релевантности документов:
, | |
. |
Если исследовать эффективность поисковой системы с помощью нескольких запросов (обозначим общее число запросов через ), то для данного запроса коэффициенты полноты и точности можно записать в виде:
, | (3.3) |
. | (3.4) |
Из уравнений (3.3) и (3.4) можно получить среднюю величину, которая отражает эффективность системы, ожидаемую для случая среднего пользователя. Для этого возьмем среднее арифметическое по выборочным запросам:
, | |
. |
Поскольку значения коэффициентов полноты и точности определяются однозначно для каждого из запросов пользователей, это позволяет вычислить средние значения для фиксированных интервалов полноты. Кривая, полученная в результате усреднения, называется кривая "полнота-точность" поисковой системы (рис. 2). Левый край этой кривой соответствует узким, специфичным формулировкам запросов, а правый - определяется широкими, общим запросами.
Рис. 2. Кривая "полнота-точность"
Кривые “полнота-точность” могут использоваться для оценки качества работы либо нескольких ИПС, либо одной, работающей в разных условиях. При этом кривые, полученные для двух систем, могут быть наложены на один график, что позволяет определить, какая из систем лучше и в какой степени [1]. Очевидно, что кривая, расположенная ближе к правому верхнему углу графика (рис. 2), где полнота и точность максимальны, указывает на лучшее качество работы.
В идеальной ИПС коэффициенты полноты и точности равны единице. В реальных поисковых системах коэффициент полноты поиска может достигать значений 0,7 – 0,9, а коэффициент точности находится в интервале 0,1 – 1,0 [3].
В дополнение к стандартным мерам полноты (3.1) и точности (3.2), значения которых зависят от размера множества выданных документов, можно использовать показатели, не зависящие от выданного множества. В частности, для систем, в которых полученные документы ранжируются в порядке уменьшения сходства между документом и запросом, существуют меры оценки, основанные на рангах релевантных документов. Такие функции, называемые нормализованной полнотой и нормализованной точностью, имеют вид:
, | |
. |
где – количество релевантных документов в массиве; - объем всего массива документов; – ранг -го релевантного документа в случае, когда документы расположены в порядке уменьшения их сходства с запросом [3, 11].
В идеальной системе все релевантные документы находятся в верхней части списка выданных документов, то есть при . Нормализованные полнота и точность равны в этом случае единице.