Эффективность поиска информации в Интернете
Основной объем информации, содержащейся в Интернете, является текстовым.
Первая группа показателей эффективности поиска информации – семантические показатели.
Одними из наиболее важных показателей эффективности информационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.
Релевантность— объективно существующее смысловое соответствие между содержанием документа и запроса. Объективность оценок релевантности обеспечивается тем, что они устанавливаются экспертным путем, а не автором запроса.
Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).
Другой группой показателей оценки эффективности документальных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.
Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.
Пертинентностъ— это субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя. Пертинентность может оценить только автор запроса, работающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.
Несмотря на постоянное повышение «дружелюбия» и комфортности диалога с Интернет, тематический поиск релевантных страниц в информационных ресурсах Паутины не проще традиционного библиографического разыскания и требует логичности мышления, интуиции, цепкой памяти, которыми всегда отличались профессиональные библиографы.
Основными поисковыми средствами в Интернете являются поисковые системы и каталоги. Поисковые системы состоят из трех частей:
♦ робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;
♦ индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;
♦ программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребителю найденные документы.
В каталогах имеются иерархические тематические рубрики. Отнесение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, используя рубрики.
В связи с тем что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описаны исходные документы и запросы, полнота поиска в Интернете … будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.
Эффективность поиска информации в Интернете пока существенно уступает эффективности поиска в документальных информационно-поисковых системах, и эффективности поиска в профессиональных базах, использующих специальные информационно-поисковые языки. В частности, организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана специфичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение информации из баз потребителями обеспечивают агентства-поставщики. Потребителю предоставляется язык запроса и документация, характеризующая базы данных, которая включает следующие сведения по каждой базе: название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной информации, период обновления, источники информации.