Мировые и отечественные информационные ресурсы

Пертинентная информация

Пертинентная информация. (от англ. "pertinent" - "относящийся к делу", "подходящий по сути"). Говорят о пертинетности информации, т.е. соответствии полученной информация информационным потребностям пользователя. Пертинентность измеряется степенью соответствия между ожиданиями пользователя и результатами поиска, которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденной поисковой системой. На практике цель найти только пертинентные документы недостижима. Часто пользователь может оценить пертинетность документа только в сравнении с другими документами, преодолев так называемый "информационный шум". Практика свидетельствует, что когда количество непертинентных документов по запросу лежит в границах от 10 % до 30 % результат считается удовлетворительным. Поисковые системы различаются по степени пертинентности предоставляемой информации.

Релевантная информация

Релевантная информация (от англ. Relevance - соответствующий). Означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно представить так же, как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Различают содержательную и формальную релевантности. Для каждой поисковой системы величина релевантности является внутренней информацией и вычисляется по своим внутренним правилам. При этом общей формулы вычисления релевантности не существует. Каждая поисковая система ориентируется на собственные методики и определения. Релевантный документ может быть непертинентным и наоборот.

Мировые и отечественные информационные ресурсы

Глава 1. Информационные ресурсы: определение, классификация, развитие

Глава 2. Виды информационных ресурсов

Глава 3. Поиск документов

Глава 4. Профильные ресурсы для пользователей

Глава 5. Методика работы с информационными ресурсами

Глава 3. Поиск документов

Пользователь обращается к информационным ресурсам для нахождения необходимой ему информации. При этом под поиском понимается получение и выполнение запросов пользователей. Ранжирование результатов поиска, как правило, основывается на степени релевантности документа запросу. Однако возможно использование других критериев (таких как новизна документа).

В зависимости от поисковой системы в ней могут быть предусмотрены следующие настройки функции поиска:

· Фактографический поиск. В фактографическом поиске отыскивается конкретная информация, имеющая характер конкретных фактических сведений. Соответственно фактографический поиск предполагает выявление самих фактов, данных, а не сведений о ресурсах, при помощи которых этот поиск может быть осуществлен. Пример: "Какой город является столицей Австрии?" Обеспечение такой функциональности поисковой системой подразумевает обработку вопроса на естественном языке, его переформулировку в стандартные запросы для данной системы, нахождение документа, содержащего нужный фрагмент и извлечение ответа.

· Уточнение запроса поиска. В случае, когда пользователь недостаточно хорошо сформулировал запрос (поисковая система не нашла релевантной информации), его уточнение может значительно повысить качество поиска. Одним из наиболее известных подходов к уточнению запросов является их расширение за счет добавления новых термов. Это расширение может осуществляться как при помощи пользователя, например, на основе механизма обратной связи (кнопка "найти похожие документы"), так и полностью автоматически, например, путем анализа локального контекста, допускается также использование логических операторов. Например, в Яндексе и схожих с ним информационных сервисах предусмотрена функция "Искать в найденном". Она используется в том случае, если по запросу получено большое количество документов. При уточнении запроса (его конкретизации) будут отфильтрованы только те из них, которые будут отвечать уточнению.

· Поиск по категориям. Поиск по категориям является типичным примером сужения области поиска для повышения его качества. Самым распространенным подходом является предоставление пользователю составленной иерархии проиндексированных системой документов, например, по тематическому признаку. Другие подходы основываются на расширении запроса пользователя и фильтрации результатов поиска согласно желаемой категории. Например, в информационно- аналитической базе данных ISI Emerging Markets поиск может осуществлять по следующим категориям: по разделу, по российским СМИ, по финансовым рынкам, по макроэкономике.

Кроме того, сами информационные ресурсы могут подразделяться по разным признакам:

· Поиск по полноте отражения информации. Выделяются Полнотекстовые информационные ресурсы (полнотекстовые базы данных) - текстовые базы, содержащие полные тексты документов или их частей, например: электронная библиотека диссертаций Российской государственной библиотеки www.rsl.ru и Реферативные информационные ресурсы (реферативные базы данных) - содержат описания книг, статей из сериальных изданий и сборников, неопубликованные документы и депонированные научные работы, другие виды документальной информации. Библиографические описания сопровождаются аннотациями или рефератами, идентификаторами и рубриками отраслевого рубрикатора. и библиографические информационные ресурсы Библиографические информационные ресурсы- базы данных, отражающие массив документов по теме и назначению ресурса. Объектом для составления ресурса могут служить как печатные, так и электронные издания. Электронные ресурсы представляют собой электронные данные (информацию в виде чисел, букв, символов или их комбинаций), электронные программы (наборы операторов или подпрограмм, обеспечивающих выполнение определенных задач, включая обработку данных) или сочетание этих видов в одном ресурсе. (ГОСТ 7.82- 2001 "Библиографическая запись. Библиографическое описание электронных ресурсов. Общие требования и правила составления"). Например, Электронный каталог Российской государственной библиотеки (ЭК РГБ) www.rsl. ru , БД "Российская национальная библиография/ РКП на платформе EastView http://biblio.ebiblioteka.ru

· Поиск по тематике информации: политематические (универсальные) и тематические. Пример: Политематическая база данных АРБИКОН http://www.arbicon.ru/services/. Тематическая база данных: Центральная научная сельскохозяйственная библиотека, тематика сельскохозяйственная, в т.ч. экономика сельского хозяйства http://www.cnshb.ru/.

· Поиск по глубине архива. Глубина архивирования данных определяется периодом записи. Например: БД ведется с 1998 г.

· Поиск по режиму доступа

· открытая информация (без ограничения)

· информация ограниченного доступа

· государственная тайна

· конфиденциальная и приравненная к ней информация

· локальный

· удаленный

Свободный доступ подразумевает, что воспользоваться базой данных может любой пользователь с любого компьютера в удобное для него время. Примером ресурса свободного доступа может служить база данных Института научной информации по общественным наукам http://www.inion.ru/

Доступ по подписке - доступ к базе данных предоставляется на договорной основе. Ресурсом по подписке - БД ВИНИТИ (Всесоюзный институт научно-технической информации www.viniti.ru)

Главное для пользователя при обращении к информационным ресурсам различного уровня - это возможность как можно быстрее найти необходимую ему информацию. Для этого в поисковых системах применяют индексирование и нормализацию документов.Под нормализацией документа подразумевается приведение его к виду, стандартному для данной системы. Применяется с целью распознавания его в системе документов.

Индексирование - поиск не напрямую по документам из имеющихся в базе данных, а по информации о них, расположенной в избыточной индексной структуре. Для индексирования текстов используют несколько способов: инвертированный файл Инвертированный файл, или файл инвертированных данных - совокупность записей, расположенных в другом порядке по отношению к исходному файлу. , файл сигнатур Файл сигнатур содержит сигнатуры, входящих в него документов. Сигнатура файла - целочисленная константа, используемая для однозначной идентификации ресурса или данных. Такое число само по себе не несёт никакого смысла, и может вызвать недоумение, встретившись в коде программы без соответсвующего контекста или комментария. По этой причине подобные числа были иронично названы магическими. В настоящее время это название прочно закрепилось как термин. Например, любой откомпилированный класс языка Java начинается с "магического числа" 0xCAFEBABE. Второй широко известный пример - любой исполняемый файл ОС Microsoft Windows с расширением .exe начинается с последовательности байт 0x4D5A. Т.о., файл сигнатур отражает кодированное обозначение, принятое для данной программы, всех содержащихся в нем документов. , хэширование Хеширование (от англ.Hash - перемешивание)- метод преобразовании ключа записи в абсолютный или относительный адрес расположения записи в памяти. При хешировании используется функция преобразования ключа (функция хеширования).
Идея хеширования состоит в том, чтобы взять некоторые характеристики ключа и использовать полученную частичную информацию в качестве основы поиска необходимой информации. , различные виды деревьев для многомерного индексирования и т.п.

Пертинентная информация

Пертинентная информация. (от англ. "pertinent" - "относящийся к делу", "подходящий по сути"). Говорят о пертинетности информации, т.е. соответствии полученной информация информационным потребностям пользователя. Пертинентность измеряется степенью соответствия между ожиданиями пользователя и результатами поиска, которая определяется как отношение объема полезной для пользователя информации к общему объему полученной информации, найденной поисковой системой. На практике цель найти только пертинентные документы недостижима. Часто пользователь может оценить пертинетность документа только в сравнении с другими документами, преодолев так называемый "информационный шум". Практика свидетельствует, что когда количество непертинентных документов по запросу лежит в границах от 10 % до 30 % результат считается удовлетворительным. Поисковые системы различаются по степени пертинентности предоставляемой информации.

Релевантная информация

Релевантная информация (от англ. Relevance - соответствующий). Означает соответствие между желаемой и действительно получаемой информацией. Релевантность можно представить так же, как меру близости между реально полученными документами и тем, что следовало бы получить из системы. Различают содержательную и формальную релевантности. Для каждой поисковой системы величина релевантности является внутренней информацией и вычисляется по своим внутренним правилам. При этом общей формулы вычисления релевантности не существует. Каждая поисковая система ориентируется на собственные методики и определения. Релевантный документ может быть непертинентным и наоборот.

Мировые и отечественные информационные ресурсы

Глава 1. Информационные ресурсы: определение, классификация, развитие

Глава 2. Виды информационных ресурсов

Глава 3. Поиск документов

Глава 4. Профильные ресурсы для пользователей

Глава 5. Методика работы с информационными ресурсами

Наши рекомендации