Эффективность поиска информации в Интернете

Основной объем информации, содержащейся в Интернете, является текстовым.

Первая группа показателей эффективности поиска информации – семантические показатели.

Одними из наиболее важных показателей эффективности инфор­мационных систем, содержащих текстовую информацию, являются семантические показатели. Семантические показатели основаны на оценке релевантности между документами и запросами.

Релевантность— объективно существующее смысловое соответ­ствие между содержанием документа и запроса. Объективность оце­нок релевантности обеспечивается тем, что они устанавливаются экс­пертным путем, а не автором запроса.

Семантическими показателями являются полнота выдачи (потери информации) и точность выдачи (информационный шум).

Другой группой показателей оценки эффективности документаль­ных информационных систем являются прагматические показатели. Эти показатели можно определить только в процессе эксплуатации информационной системы.

Прагматические показатели определяют абоненты системы на базе оценок пертинентности выданных документов.

Пертинентностъ— это субъективно оцениваемое соответствие со­держания документов или текстов информационным интересам по­требителя. Пертинентность может оценить только автор запроса, ра­ботающий с информационной системой. Оценки пертинентности, как правило, отличаются от результатов, полученных на основе оценок релевантности.

Несмотря на постоянное повышение «дружелюбия» и ком­фортности диалога с Интернет, тематический поиск релевантных страниц в информационных ресурсах Паутины не проще традиционного библиографического разыскания и требует логичности мышления, интуиции, цепкой памяти, которыми всегда отличались профессиональные библиографы.

Основными поисковыми средствами в Интернете являются поис­ковые системы и каталоги. Поисковые системы состоят из трех частей:

♦ робот — программа, которая посещает web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Просмотры серверов осуществляются периодически, например раз в месяц, раз в две недели;

♦ индексные массивы и копии текстов просмотренных страниц, хранящиеся в поисковой системе;

♦ программа, которая, просматривая в соответствии с запросом пользователя индексные массивы, отбирает и выдает потребите­лю найденные документы.

В каталогах имеются иерархические тематические рубрики. Отне­сение серверов к тем или иным рубрикам каталога осуществляется человеком. Пользователь ищет информацию в каталоге вручную, ис­пользуя рубрики.

В связи с тем что в средствах поиска в Интернете не используются информационно-поисковые языки, на которых могли бы быть описа­ны исходные документы и запросы, полнота поиска в Интернете … будет значительно ниже, чем в документальных системах, построенных на базе информационно-поисковых языков.

Эффектив­ность поиска информации в Интернете пока существенно уступает эф­фективности поиска в документальных информационно-поисковых системах, и эффективности поиска в профессиональных базах, использующих специальные информационно-поисковые языки. В частности, организация информации в профессиональных базах отличается от организации информации в Интернете в первую очередь тем, что информация накапливается и постоянно обновляется в базах данных, которых в настоящее время свыше 13 тыс. В каждой базе собрана спе­цифичная информация. Отбор достоверных источников и накопление информации ведут информационные агентства-генераторы. Они же поддерживают эти базы в актуальном состоянии, то есть обновляют. Получение информации из баз потребителями обеспечивают агент­ства-поставщики. Потребителю предоставляется язык запроса и доку­ментация, характеризующая базы данных, которая включает следую­щие сведения по каждой базе: название, отражающее вид информации, хранимой в базе, с какого времени ведется база, объем накопленной ин­формации, период обновления, источники информации.

Наши рекомендации