Современные методы и средства электронной обработки статистической информации на основе баз данных
Современные информационные технологии в социально-экономической статистике применяются на всех этапах разработки и проведения статистического наблюдения, включающих: разработку форм статистического наблюдения, формирование плана выборки, сбор и ввод данных, обработку и анализ данных, предоставление информации пользователю. В предыдущем параграфе была дана краткая характеристика современных способов сбора и ввода данных. В данном параграфе подробнее остановимся на современных средствах организации обработки информации и предоставления информации пользователям на основе баз статистических данных.
Государственной статистикой накоплен большой объем статистических данных о социально-экономических процессах в развитии общества. На основе анализа этих данных можно выявлять явные и скрытые тенденции, строить стратегию дальнейшего развития, находить новые решения.
Базы статистических данных можно классифицировать на два типа, в зависимости от того, что принято за единицу хранения в базе данных:
§ к документографическим относятся базы данных, в которых единицей хранения является документ, например таблица, текст и т.д.;
§ к фактографическим — базы данных, в которых единицей хранения является статистический показатель.
Процесс формирования и ведения информационного фонда на основе статистических баз первого типа менее трудоемок. В такую базу помещаются, как правило, готовые отчеты со статистическими данными, текстовые документы. Для облегчения их использования создается приложение, обеспечивающее поиск необходимых форм по контексту, по заданным темам, а также программное приложение для отслеживания выполнения актуализации отчетов, т.е. уточнение и дополнение их новыми данными. Для организации таких баз данных могут быть использованы широко распространенные программные пакеты, такие, как Microsoft Excel, Word и др., с аналогичными функциональными возможностями. В государственной статистике для организации документогра-фических баз данных используется прикладная программа «БГД». Функциональные возможности данной системы не обеспечивают организацию обработки статистической информации от сбора статистических данных до предоставления информации. Она используется для предоставления статистической информации внешним пользователям.
Базы данных второго типа — фактографические, более сложные в проектировании и ведении, но при этом они более удобны для проведения аналитической обработки данных. Программное обеспечение фактографических баз статистических данных может полностью строится на прикладном программном обеспечении. В этом случае программист-разработчик создает свою систему управления базами данных. Такой подход в ряде случаев имеет преимущества по временным характеристикам и параметрам использования ресурсов хранения информации. Однако, как правило, нарушается принцип масштабируемости системы, т.е. удобных средств интеграции с другими системами, кроме того, возникает полная зависимость от разработчика СУБД. Использование промышленных СУБД лишено этих недостатков, разработка баз данных в промышленных системах имеет хороший сервис, что позволяет осуществлять разработки достаточно быстро при тщательном предварительном информационном проектировании.
В настоящее время программное обеспечение статистических баз данных в основном строится на унифицированном подходе, включающем:
§ промышленную систему управления базами данных — MS SQL Server;
§ прикладное программное обеспечение, реализующее удобный интерфейс проектировщика, администратора и пользователя базы данных. Наиболее применяемым в качестве такого программного обеспечения в настоящее время является инструментальный пакет прикладных программ статистика-экономиста «СТАТЭК».
На основе унифицированного подхода к применению программного обеспечения построения статистических баз данных, унификации кодирования на базе общероссийских классификаторов создается система интегрированных информационных ресурсов. В систему интегрированных информационных ресурсов входят следующие базы данных:
§ автоматизированный банк классификаторов (АБК);
§ база данных «Электронный каталог статистических показателей» (КСП);
§ база данных «Генеральная совокупность объектов статистического наблюдения» (ГС);
§ центральная база статистических данных (ЦБСД);
§ оперативная статистическая база данных;
§ отраслевые статистические базы данных;
§ проблемно-ориентированные базы статистических данных.
Базы данных АБК, ГС и КСП создают основу для интеграции информационных ресурсов и создания унифицированной системы метаданных. Система информационных статистических ресурсов в схематичной форме представлена на рис. 10.1. На рис. 10.1 показана организация системы как совокупности множества физически разных баз данных, объединенных едиными принципами построения информационной (логической) модели, единой метаинформацией.
Рис. 10.1. Организация системы информационных статистических ресурсов
Единая метаинформация содержит рубрикатор входящих в систему баз данных и описания правил организации доступа к ним пользователей с разграничением их полномочий. При этом каждая физически отдельно созданная база данных включает две основные составляющие: метаданные данной базы и фонды данных.
Метаданные — совокупность информационных массивов, содержащих описание (метаданные) информации, хранящейся в базе данных. Она включает различные справочники и каталоги, задающие технологию организации и ведения баз данных. Фонд данных содержит количественные значения показателей, помещенных в базу данных.
Основными компонентами, закладываемыми в основу моделирования структур баз данных в АБД, являются объект статистического наблюдения и экономический показатель. В качестве объектов наблюдения выступают как отдельные предприятия, организации, стройки н т.д. — первоначальные источники информации, так и агрегированные объекты, к которым относятся отрасли экономики, территории, министерства и ведомства.
Агрегированный объект представляет собой совокупность сгруппированных элементарных объектов на основе некоторых признаков. Такими признаками являются отрасли экономики, ведомственная подчиненность, территориальная принадлежность и др., определяемые прежде всего общесоюзными классификаторами отраслей народного хозяйства, системой обозначений органов государственного управления и системой обозначений административно-территориальных объектов. Базы данных, входящие в систему интегрированных ресурсов, в зависимости от объекта наблюдения делятся на микробазы и макробазы данных. Микробазы содержат информацию по объектам статистического наблюдения. Макробазы данных содержат агрегированные данные, полученные после обработки информации.
Для проектирования, ведения и представления социально-экономической информации пользователям на основе создания микро- и макробаз данных, как было описано ранее, применяется промышленная система управления базами данных и создан и развивается инструментальный пакет прикладных программ «СТАТЭК». Эта система характеризуется следующими параметрами:
§ эксплуатируется в ЛВС с использованием различных СУБД: MS SQL Server, Access, (ORACLE при развитии);
§ реализована в архитектуре клиент-сервер;
§ интегрирована с программными средствами Word, Excel, SPSS, Access, Microsoftmap;
§ разработана на объектно-ориентированном языке программирования Power Builder 5.0.
В последние годы в мире сформировались новые направления (концепции) хранения и анализа статистической информации в виде баз данных, использующих новые, перспективные технические и промышленные программные средства их реализации. К ним относятся:
1) концепция построения баз данных как хранилища данных (Data Warehouse);
2) оперативная аналитическая обработка (On-Line Analytical Processing, OLAP);
3) интеллектуальный анализ данных — ИАД (Data Mining). Инструментальная система «СТАТЭК» базируется на комплексном использовании всех трех перечисленных направлений.
В основе концепции хранилища данных лежат две основные идеи:
1) интеграция в едином хранилище данных, описывающих конкретные факты социально-экономических явлений, событий, характеристик объектов статистического наблюдения. В процессе интеграции должно выполняться согласование рассогласованных микроданных по объекту наблюдения и, возможно, их агрегация. Данные могут поступать из внешних источников;
2) разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.
Инструментальный пакет «СТАТЭК» имеет трехуровневую архитектуру (рис. 10.2). Реализация функции проектирования и ведения хранилища статистических данных осуществляется подсистемами первого и второго уровней пакета «СТАТЭК».
Рис. 10.2. Архитектура программного обеспечения «СТАТЭК»
Третий уровень включает программные подсистемы, обеспечивающие обработку информации и предоставление информации пользователям.
Программные средства этого уровня рассчитаны на разные категории пользователей и содержат как статические, так и динамические системы формирования запросов. Информационно-аналитические системы, создаваемые в расчете на непосредственное использование лицами, принимающими решения, чрезвычайно просты в применении, но жестко ограниченны в функциональности. Такие системы называются статическими информационными системами руководителя (ИСР). Они содержат в себе предопределенные множества запросов и, будучи достаточными для повседневного обзора, не способны ответить на все вопросы к имеющимся данным, которые могут возникнуть при принятии решений. Результатом работы такой системы, как правило, являются многостраничные отчеты, после тщательного изучения которых у аналитика появляется новая серия вопросов. Однако каждый новый запрос, не предусмотренный при проектировании такой системы, должен быть сначала формально описан, закодирован программистом и только затем выполнен. Время ожидания в таком случае может составлять часы и дни, что не всегда приемлемо. Таким образом, внешняя простота статических систем планирования и принятия решений, за которую активно борется большинство заказчиков информационно-аналитических систем, оборачивается катастрофической потерей гибкости.
Динамические системы, напротив, ориентированы на обработку нерегламентированных запросов аналитиков к данным. Работа аналитиков с этими системами заключается в интерактивной последовательности формирования запросов и изучения их результатов. Динамические системы запросов строятся на основе генератора отчетов с использованием стандартных средств аналитической обработки пакетов типа SAS, SPSS, технологии OLAP. Оперативная аналитическая обработка данных по технологии OLAP обеспечивает многомерный статистический анализ, т.е. представление анализируемых фактов как функций от большого числа характеризующих их параметров.
Полная структура информационно-аналитической системы, построенной на основе хранилища данных, показана на рис. 10.3. В конкретных задачах отдельные компоненты этой схемы часто отсутствуют.
Рис. 10.3. Структура информационно-аналитической системы, построенной на основе хранилища данных
Особенно подвержено влиянию новых информационных технологий предоставление информации пользователю. Все большее распространение получает электронный вид предоставления информации пользователю. Осуществляется электронное предоставление данных различными способами, каждый из которых определяется в зависимости от потребностей пользователя. К ним относятся предоставление информации на магнитных носителях — дискетах или лазерных дисках; организация удаленного доступа пользователя к базе данных; рассылка абонентам в их почтовые ящики информации для обновления их собственных баз данных; обслуживание пользователей через сеть Internet. Все перечисленные способы электронного распространения статистической информации внедрены и используются в системе государственной статистики.
Таким образом, применение современных методов автоматизации и информационных технологий оказывает влияние на все этапы технологического процесса разработки статистической информации — от проектирования формы статистического наблюдения до предоставления статистических данных пользователю. При этом модернизация осуществляется одновременно по трем направлениям: техническое переоснащение, применение новых системных программных средств, промышленных программ, а также изменение прикладного программного обеспечения. Процесс модернизации информационных технологий позволяет качественно изменить многие этапы разработки статистических данных, предоставив экономисту инструмент непосредственной работы с информационными массивами и возможность применения мощных средств редактирования и аналитической обработки.
Контрольные вопросы
1. Какие технические средства составляют основу корпоративной сети государственной статистики?
2. Какое системное программное обеспечение и какая система управления базами данных используются в локальных вычислительных сетях органов государственной статистики?
3. На каких принципах создается система интегрированных статистических информационных ресурсов?
4. Какие способы сбора, ввода и обработки данных применяются для статистических данных?