Глава 2. Виды информационных ресурсов
В настоящее время существуют следующие виды информационных ресурсов:1) Средства массовой информации. К ним относятся различного рода новостные и семантические сайты (или электронные версии СМИ). Их отличительной чертой является высокий уровень посещаемости (например, сайт НТВ, "Вести" и т.п.), быстрая смена информации, наличие видеоряда на сайте.2) Электронные библиотеки. Электронная библиотека - распределенная информационная система, позволяющая надежно сохранять и эффективно использовать разнородные коллекции электронных документов через глобальные сети передачи данных в удобном для конечного пользователя виде. 3) Электронные базы данных. В самом общем смысле база данных - это набор надписей и файлов, специальным образом организованных. Один из типов баз данных - это документы, набранные при помощи текстовых редакторов и сгруппированные по темам. Другой тип - это файлы с электронными таблицами, которые объединены в группы по характеру их использования.4) Сайты. Корпоративный сайт - это Интернет-ресурс, посвященный какой-то организации, фирме, предприятию. Как правило, он знакомит пользователей с фирмой, направлениями и видами ее деятельности, отражает различные справочные материалы: прайс-листы, условия поставок и оплаты; рекламную информацию: наличие сертификатов качества, участие в выставках, публикации в прессе т.п.; контактную информацию. В отличие от корпоративного сайта выделяют персональный и любительский сайт, домашнюю страничку. Они отличаются полнотой представляемой информации и профессионализмом исполнения. Как правило, на сайте можно познакомиться с информацией узкотематической направленности. Глубина ее раскрытия может быть разной: от чисто ознакомительной, поверхностной до высокопрофессиональной, освещающей все стороны деятельности. Определяет информативность сайта его владелец. На сайтах может быть представлено большое количество гиперссылок, которые помогают ориентироваться в нем.
5) Сервисы - это группа сайтов, на которых можно воспользоваться разнообразными сервисными услугами: электронным почтовым ящиком, блогом (а также познакомиться с правилами его ведения), поиском, различными каталогами, словарями, справочниками, прогнозом погоды, телепрограммой, курсами валют и т.д. Например, Яндекс, Рамблер и т. п. Информационный портал - это веб-сайт, организованный как многоуровневое объединение различных ресурсов и сервисов, обновление которого происходит в реальном времени. Примером информационного портала может служить портал информационной поддержки единого государственного экзамена http://www1.ege.edu.ru/content/view/14/35/.
Можно говорить также о делении информационных ресурсов по другим признакам. А именно:
· По целевому предназначению
· личные,
· корпоративные,
· СМИ,
· бизнес,
· образовательные,
· политика,
· учреждения и организации,
· сервисы и услуги,
· доски объявлений,
· культура,
· чаты,
· хранилища ПО,
· спорт,
· отдых,
· изображения и фото,
· развлекательные порталы
· По способу представления
· Web-страницы
· Базы данных
· Файловые серверы
· Телеконференции
· По виду носителя
· твердая копия (книга, газета, рукопись и т.д.)
· на машиночитаемых носителях (кино- фотопленка, аудио- и видеозапись, данные на винчестере компьютера, дискете, CD, флэш и т.д.)
· на канале связи (TV, радио)
· По способу организации хранения и использования
· документы на традиционных носителях (книги, газеты, журналы)
· массив документов
· фонд документов
· архив
· автоматизированные формы
· По форме собственности
· общероссийское национальное достояние
· государственная собственность
· собственность субъектов РФ (в том числе муниципальная)
· частная (личная, корпоративная) собственность
· По содержанию
· Тематическая информация
· Научные публикации
· Рекламная информация
· Справочная информация
· Новости
· Вторичная (библиографическая) информация
· По национально-территориальному признаку.
· Информационные ресурсы делятся по языковому признаку и географической территории.
· По языковому признаку. Основным языком в сети Интернет является английский, но практически все основные языки мира представлены в Сети. Некоторые из сайтов поддерживают несколько языков - на выбор пользователя.
· По географическому признаку. Информационный ресурс в большинстве случаев принадлежит какой-либо организации, расположенной и осуществляющей свою деятельность на определенной территории, подчиняющейся ее законам. Информация в некоторых случаях может быть предназначена для аудитории, находящейся преимущественно в пределах региона. Таковы, например, сайты объявлений. Навряд ли информация о купле-продаже в Костроме интересна жителю Вологды. Доступ к этим ресурсам возможен из любой точки, независимо от места нахождения пользователя.
Глава 3. Поиск документов
Пользователь обращается к информационным ресурсам для нахождения необходимой ему информации. При этом под поиском понимается получение и выполнение запросов пользователей. Ранжирование результатов поиска, как правило, основывается на степени релевантности документа запросу. Однако возможно использование других критериев (таких как новизна документа).
В зависимости от поисковой системы в ней могут быть предусмотрены следующие настройки функции поиска:
· Фактографический поиск. В фактографическом поиске отыскивается конкретная информация, имеющая характер конкретных фактических сведений. Соответственно фактографический поиск предполагает выявление самих фактов, данных, а не сведений о ресурсах, при помощи которых этот поиск может быть осуществлен. Пример: "Какой город является столицей Австрии?" Обеспечение такой функциональности поисковой системой подразумевает обработку вопроса на естественном языке, его переформулировку в стандартные запросы для данной системы, нахождение документа, содержащего нужный фрагмент и извлечение ответа.
· Уточнение запроса поиска. В случае, когда пользователь недостаточно хорошо сформулировал запрос (поисковая система не нашла релевантной информации), его уточнение может значительно повысить качество поиска. Одним из наиболее известных подходов к уточнению запросов является их расширение за счет добавления новых термов. Это расширение может осуществляться как при помощи пользователя, например, на основе механизма обратной связи (кнопка "найти похожие документы"), так и полностью автоматически, например, путем анализа локального контекста, допускается также использование логических операторов. Например, в Яндексе и схожих с ним информационных сервисах предусмотрена функция "Искать в найденном". Она используется в том случае, если по запросу получено большое количество документов. При уточнении запроса (его конкретизации) будут отфильтрованы только те из них, которые будут отвечать уточнению.
· Поиск по категориям. Поиск по категориям является типичным примером сужения области поиска для повышения его качества. Самым распространенным подходом является предоставление пользователю составленной иерархии проиндексированных системой документов, например, по тематическому признаку. Другие подходы основываются на расширении запроса пользователя и фильтрации результатов поиска согласно желаемой категории. Например, в информационно- аналитической базе данных ISI Emerging Markets поиск может осуществлять по следующим категориям: по разделу, по российским СМИ, по финансовым рынкам, по макроэкономике.
Кроме того, сами информационные ресурсы могут подразделяться по разным признакам:
· Поиск по полноте отражения информации. Выделяются Полнотекстовые информационные ресурсы (полнотекстовые базы данных) - текстовые базы, содержащие полные тексты документов или их частей, например: электронная библиотека диссертаций Российской государственной библиотеки www.rsl.ru и Реферативные информационные ресурсы (реферативные базы данных) - содержат описания книг, статей из сериальных изданий и сборников, неопубликованные документы и депонированные научные работы, другие виды документальной информации. Библиографические описания сопровождаются аннотациями или рефератами, идентификаторами и рубриками отраслевого рубрикатора. и библиографические информационные ресурсы Библиографические информационные ресурсы- базы данных, отражающие массив документов по теме и назначению ресурса. Объектом для составления ресурса могут служить как печатные, так и электронные издания. Электронные ресурсы представляют собой электронные данные (информацию в виде чисел, букв, символов или их комбинаций), электронные программы (наборы операторов или подпрограмм, обеспечивающих выполнение определенных задач, включая обработку данных) или сочетание этих видов в одном ресурсе. (ГОСТ 7.82- 2001 "Библиографическая запись. Библиографическое описание электронных ресурсов. Общие требования и правила составления"). Например, Электронный каталог Российской государственной библиотеки (ЭК РГБ) www.rsl. ru , БД "Российская национальная библиография/ РКП на платформе EastView http://biblio.ebiblioteka.ru
· Поиск по тематике информации: политематические (универсальные) и тематические. Пример: Политематическая база данных АРБИКОН http://www.arbicon.ru/services/. Тематическая база данных: Центральная научная сельскохозяйственная библиотека, тематика сельскохозяйственная, в т.ч. экономика сельского хозяйства http://www.cnshb.ru/.
· Поиск по глубине архива. Глубина архивирования данных определяется периодом записи. Например: БД ведется с 1998 г.
· Поиск по режиму доступа
· открытая информация (без ограничения)
· информация ограниченного доступа
· государственная тайна
· конфиденциальная и приравненная к ней информация
· локальный
· удаленный
Свободный доступ подразумевает, что воспользоваться базой данных может любой пользователь с любого компьютера в удобное для него время. Примером ресурса свободного доступа может служить база данных Института научной информации по общественным наукам http://www.inion.ru/
Доступ по подписке - доступ к базе данных предоставляется на договорной основе. Ресурсом по подписке - БД ВИНИТИ (Всесоюзный институт научно-технической информации www.viniti.ru)
Главное для пользователя при обращении к информационным ресурсам различного уровня - это возможность как можно быстрее найти необходимую ему информацию. Для этого в поисковых системах применяют индексирование и нормализацию документов.Под нормализацией документа подразумевается приведение его к виду, стандартному для данной системы. Применяется с целью распознавания его в системе документов.
Индексирование - поиск не напрямую по документам из имеющихся в базе данных, а по информации о них, расположенной в избыточной индексной структуре. Для индексирования текстов используют несколько способов: инвертированный файл Инвертированный файл, или файл инвертированных данных - совокупность записей, расположенных в другом порядке по отношению к исходному файлу. , файл сигнатур Файл сигнатур содержит сигнатуры, входящих в него документов. Сигнатура файла - целочисленная константа, используемая для однозначной идентификации ресурса или данных. Такое число само по себе не несёт никакого смысла, и может вызвать недоумение, встретившись в коде программы без соответсвующего контекста или комментария. По этой причине подобные числа были иронично названы магическими. В настоящее время это название прочно закрепилось как термин. Например, любой откомпилированный класс языка Java начинается с "магического числа" 0xCAFEBABE. Второй широко известный пример - любой исполняемый файл ОС Microsoft Windows с расширением .exe начинается с последовательности байт 0x4D5A. Т.о., файл сигнатур отражает кодированное обозначение, принятое для данной программы, всех содержащихся в нем документов. , хэширование Хеширование (от англ.Hash - перемешивание)- метод преобразовании ключа записи в абсолютный или относительный адрес расположения записи в памяти. При хешировании используется функция преобразования ключа (функция хеширования).
Идея хеширования состоит в том, чтобы взять некоторые характеристики ключа и использовать полученную частичную информацию в качестве основы поиска необходимой информации. , различные виды деревьев для многомерного индексирования и т.п.