Хранилища данных и технологии работы с таможенной статистикой.
Понятие о хранилищах данных появилось в ЕАИС при построении еёпервой очереди, развивалось при построении второй очереди и являетсямагистральным направлением построения её третьей очереди. Своейпопулярностью они, в первую очередь, обязаны строгой ориентации наконечного потребителя информационной продукции, а также тому факту, чтопрактически не требуют от рядового пользователя таможенных органовосвоения принципиально новых приемов работы с данными. На рис. 5.4представлена структура операционной информации, помещаемой вхранилище данных.Временные характеристики показателей (динамический ряд),составляющих информационных хранилищ данных, сохраняются как основатаможенной статистики при трансформации на новую платформу третьейочереди ЕАИС. Необходимое дополнение к ним – СППР, позволяющиеотбирать нужную информацию и получать быстрые ответы на сложныеделовые вопросы.Использование информационных хранилищ данных позволяетповысить качество обслуживания, а также число услуг, предоставляемыхЕАИС как таможенным органам, так и внешним неторговым организациям.
Документальные информационно-поисковые системы. Основные понятия теории информационного поиска. Пертинентность и релевантность. Критерий смыслового соответствия.
Классические OLTP — системы ориентированы на организацию хранения и обработки детально структурированных данных, чаще всего представляющих собой числовые значения, описывающие те или иные Цнрактеристики информационных объектов.
I Однако необходимость работы с текстовыми документами определила появление специальных документальные БД Системами, ориентированные на работу с текстовыми документами, - информационно-поисковые системы (ИПС). Хотя, если быть точнее, их следует называть документальными ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, только фактографическими (ФИПС). Документальные базы данных ориентированы на частичное, приближенное представление данных, имеющих значительно более сложную смысловую структуру, представленных на входе в форме текста. Основной функцией любой ДИПС является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции ДИПС — проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы. ДИПС в результате проведения информационного поиска предоставляют потребителю совокупность документов, смысловое содержание которых соответствует его запросу.
Информационный поиск в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Потребность человека в определенной информации в процессе его практической деятельности носит название информационной потребности. Частное значение информационной потребности потребителейв определенные моменты времени, выраженное на естественном языке представляет собой информационный запрос, с которым пользователь обращается к системе.
Однако запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения к системе. Таким образом, при проведении ипформационного поиска в системе фактически рассматривается не информационная потребность пользователя, а только информационным запрос, в ответ на который и выдаются те или иные документы системы. Следовательно, реакцию системы необходимо рассматривать не только по отношению к информационной потребности, но и по отношению к информационному запросу.
Для выражения данных отношений в теории ДИПС введены два фундаментальных понятия: пертинентность и релевантность. Подпертинентностью понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называют пертинентными. Релевантность представляет собой соответствие содержания документа информационному запросу в том виде, в каком он сформулирован, а документы, содержание которых отвечает защмзапросам потребителя, носят название релевантных.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания информационного запроса и документов в виде соответствен но поискового предписания (ПП) и поисковых образов документом (ПОД). Для записи ПП и ПОД применяются специальные языки, называемые информационно-поисковыми. В процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПП. А на основе такого сопоставлении принимается решение о выдаче документа (он признается релевантным) Или его невыдаче (он считается нерелевантным). Решение о выдаче или невыдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данной ДИПС определяется степень смысловой близости между ПОД и ПП. Набор правил получил название критерия смыслового соответствия (КСС). Критерий может задаваться явно или неявно. На самом деле КСС базируется не на ранее введенном понятии релевантности; а на понятии формальной релевантности — соответствии содержания ПОД и ПП. Фактическая релевантность, понимаемая как смысловое соответствие содержания документа информационному запросу, может быть установлена только человеком в процессе осмысления содержания документа и запроса.