Вопрос 7. Системы бизнес-интеллекта
В управлении финансами фирмы сложился рынок OLAP -систем, информационных хранилищ (DWH), СППР (DSS), интеллектуального анализа Data mining (DMg), который получил обобщённое название - Business Intelligence.
Понятие систем бизнес-интеллекта (Business Intelligence, BI) является довольно емким и объединяет различные средства анализа и обработки данных масштаба предприятия. Среди BI-систем можно выделить такие составляющие, как хранилища и витрины данных, инструменты оперативной аналитической обработки (OLAP-системы), средства обнаружения знаний, а также средства формирования запросов и построения отчетов. Многие аналитические системы базируются на хранилищах данных, обеспечивающих сбор, упорядочивание и хранение больших объемов информации, полученной из разных источников. Поэтому именно с хранилищ данных целесообразно начать рассмотрение «среднего звена» аналитической пирамиды.
Хранилища данных (Data Warehouse, DW) находятся на следующем после транзакционных систем уровне аналитической пирамиды. Один из авторитетных специалистов в этой области, – Билл Инмон (Bill Inmon), – определяет хранилища как «предметно-ориентированные, интегрированные, стабильные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли “единого и единственного источника истины”, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений». Ценность хранилищ данных заключается в том, что они представляют собой крупные базы данных масштаба предприятия, которые содержат определенную информацию и обеспечивают ее оперативное представление в виде, удобном для пользователя или для дальнейшей обработки другими аналитическими системами. Часто хранилища данных обладают структурой, учитывающей отраслевую специфику деятельности организации. Впрочем, данные, содержащиеся в хранилищах, как правило, бывают недостаточно доступными для обработки в реальном времени, особенно при больших объемах. Эта проблема решается на следующих уровнях иерархии – на уровнях витрин данных и OLAP- систем. Витрины данных (Data Marts), как и хранилища, представляют собой структурированные информационные массивы, но их отличие состоит в том, что они в еще большей степени являются предметно-ориентированными. Как правило, витрина содержит информацию, относящуюся к какому-либо определенному предметному направлению деятельности организации. Поэтому информация в витринах данных хранится в специальном виде, наиболее подходящем для решения конкретных аналитических задач или обработки запросов определенной группы аналитиков. Есть два взгляда на витрины данных. В одном случае витрина, по сути дела, представляет собой часть хранилища, оптимизированную для запросов к данным конкретной предметной области, в том числе для передачи этих данных для последующей обработки в другие аналитические системы. В другом случае, витрина – это OLAP-куб или его часть, оптимизированная для запросов пользователей к информации конкретной предметной области. Поэтому с точки зрения организации хранения данных витрины могут быть как реляционными, так и многомерными, однако в любом случае они обладают таким общим свойством, как предметная ориентированность. Следующий уровень аналитической пирамиды занимают OLAP-системы (On-Line Analytical Processing) – системы аналитической обработки данных в режиме реального времени. OLAP-системы могут обеспечить решение многих аналитических задач, например, анализ ключевых показателей деятельности, маркетинговый и финансово-экономический анализ, анализ сценариев, моделирование, прогнозирование и т.д. Такие системы могут работать со всеми необходимыми данными, независимо от особенностей информационной инфраструктуры компании. Особенность OLAP-систем состоит в многомерности хранения данных (в отличие от реляционных таблиц), а также в предрасчете агрегированных значений. Это дает пользователю возможность строить оперативные нерегламентированные запросы к данным, используя ряд аналитических направлений. Кроме того, для OLAP-систем характерна предметная (а не техническая) структурированность информации, позволяющая пользователю оперировать привычными экономическими категориями и понятиями. Еще одним элементом BI-платформы, который часто выделяют в отдельную категорию, являются средства обнаружения знаний (Data Mining). Соответствующие программные продукты позволяют выявлять закономерности в данных и на этой основе получать качественно новую информацию. Такая информация, возможно, не содержится в источнике данных явным образом, поэтому в данном случае происходит формирование знаний на основе данных. Г.Пиатецкий-Шапиро (Gregory Piatetsky-Shapiro), один из ведущих экспертов в данной области, определяет деятельность таких систем как «процесс обнаружения в сырых данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности»1. В деятельности систем обнаружения знаний используются такие методы анализа данных, как фильтрация, дерево решений, ассоциативные правила, генетические алгоритмы, нейронные сети, статистический анализ. Наконец, к числу BI-систем относятся средства формирования запросов ипостроения отчетов (Query and Reporting tools). Такие системы обеспечивают построение запросов к информационно-аналитическим системам в пользовательских терминах, с возможной интеграцией данных из разных источников, а также просмотр информации с возможностью ее детализации и агрегирования, построение отчетов и их печать. Такие системы могут использоваться пользователями, обладающими «продвинутыми» техническими навыками. Профессиональных знаний в области информационных технологий при этом не требуется, однако для экономистов такие средства не всегда бывают удобны. Как правило, модули, содержащие функции формирования запросов и построения отчетов, входят в состав многих OLAP-систем, хотя есть и отдельные программные продукты этого класса.
Вопрос 8. Хранилища данных
Напомним определение Билла Инмона (Bill Inmon): хранилища данных - это «предметно-ориентированные, интегрированные, стабильные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли "единого и единственного источника истины", обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений».
Данные в хранилище попадают из оперативных (транзакционных) систем, а также из внешних источников. По аналогии с «материальными» хранилищами, хранилища данных предусматривают такие операции как сбор данных («приход материалов на склад»), хранение данных («складской запас»), перемещение в витрины данных («отгрузка товаров в розничную сеть»).
С экономической точки зрения, хранилище данных приносит долгосрочный эффект тогда, когда оно становится надежным механизмом доставки данных, существенных для анализа и принятия решений. При этом не следует забывать и о затратной части: ведь информация может считаться действительно полезной лишь тогда, экономические выгоды от ее использования превышают затраты, связанные с ее приобретением. Построение хранилища данных - достаточно сложный проект и обеспечить его окупаемость в краткосрочной перспективе бывает непросто.
Высокая стоимость проектов создания хранилищ данных объясняется, прежде всего, необходимостью сбора, преобразования и обобщения данных из различных источников. При всей своей необходимости, эта работа достаточно трудоемка и занимает много времени. Неоправданных затрат можно избежать на этапе проектирования хранилища, за счет определения состава и структуры загружаемых в хранилище данных. При этом следует помнить, что хранилище данных не должно играть роль электронного архива, в котором хранится «все, что только можно». К числу распространенных ошибок относится недостаточное внимание к качеству хранимых данных, а также превалирование технологических соображений над экономическими.
Самое сложное в проектировании хранилища - добиться сбалансированной структуры, т. е. определить, какие данные будут полезны для аналитика и менеджера, а какие - нет. Также важен способ размещения данных в хранилище, а также процессы идентификации, анализа и преобразования данных перед их загрузкой в хранилище.
После того, как хранилище построено, встает вопрос об использовании данных конечными пользователями. При этом могут применяться различные средства (от специализированных средств создания пользовательских запросов и отчетов до электронных таблиц), в зависимости от решаемых задач, предпочтений и опыта пользователей. И все же есть целый спектр задач, которые предъявляют к информационным системам особые требования: это задачи, требующие оперативной (т.е. в режиме реального времени) обработки достаточно больших объемов данных, в разных аналитических разрезах. Экономический анализ, как правило, является многомерным: информация может быть сгруппирована и консолидирована по разным признакам, причем разные группы пользователей информации заинтересованы в разных способах группировки.
Таким образом, превращение разрозненных данных в структурированную информацию, описанную в экономических терминах и позволяющую принимать обоснованные управленческие решения, можно считать одной из самых актуальных задач, стоящих перед компаниями. Причем обработка данных и принятие решений должны быть настолько оперативными, насколько этого требуют интересы бизнеса. Именно для этого предназначены специальные системы аналитической обработки данных в режиме реального времени - OLAP-системы.